Dokumentace vybudovaného IT zázemí – datové sklady nemocnic

Datový sklad v jednotlivých nemocnicích slouží jako zdroj produkčních dat, dat o epidemiologické a léčebné zátěži a také jako nepostradatelný zdroj dat o infrastruktuře poskytování péče (vybavení, lůžkový fond, personální kapacity). Popisovaný systém je ve zkratce nazýván „I-COP“, resp. „i-cop“. 

1 Obecná architektura systému

1.1 Úvod – princip fungování sítě a nakládání s daty v projektu

Architektura systému je postavena na síti zapojených nemocnic. Ve vnitřní síti každé z nich je zprovozněna aplikace, která zajišťuje zpracování a nevratnou deidentifikaci nemocničních dat. Tato předzpracovaná data, která již neobsahují žádné osobní údaje.

Základním datovým zdrojem jsou administrativní data nemocnic, která tyto nemocnice vykazují zdravotním pojišťovnám, tzv. k-dávky, doplněné o případné další datové zdroje (nemocniční preskripce, PSČ bydliště pacientů). Nemocniční data jsou procesována na vlastním serveru každé partnerské nemocnice zvlášť, všechny nemocnice mají tedy pod kontrolou svá vlastní data. Spojování dat za účelem vzájemného srovnávání center projekt neumožňuje. Na zmíněném serveru také probíhá spojení administrativních dat onkologických pacientů s diagnostickými záznamy, které daná nemocnice hlásí do Národního onkologického registru (NOR).  Tyto záznamy Národního onkologického registru pacientů léčených v dané nemocnici jsou spojeny se záznamy o léčbě do jedné databáze uvnitř zdravotnického zařízení. Záznamy NOR jsou k nemocničním datům přiřazovány na základě šifry jejich rodných čísel, které vznikají v obou případech stejným způsobem. Všechny operace s daty se týkají výhradně záznamů pacientů léčených v dané nemocnici a probíhají výhradně na interních serverech dle bezpečnostních protokolů dané nemocnice.

Software vyvinutý na Masarykově univerzitě (MU) pod dohledem pověřeného IT experta nemocnice tato data v interní databázi nemocnice transformuje a provádí jejich anonymizaci (nevratnou deidentifikaci): čísla pojištěnců jsou nahrazena šifrou, vzniklou jednosměrnou hešovací funkcí (SHA) s tajným heslem (salt). Všechny ostatní osobní údaje v databázi pro analýzy jsou nevratně smazány. Výsledná deidentifikovaná data jsou přesunuta do oddělené části databáze, která je přístupná pověřenému pracovníkovi IBA LF MU a ve které se již žádná osobní data nevyskytují. Veškeré analýzy jsou prováděny pouze nad anonymizovanými a agregovanými daty.

Veškerá práce s primárními daty, obsahujícími osobní údaje, probíhá v rámci servisu a údržby systému na serveru nemocnice. Systém je nastaven tak, aby přístup k osobním údajům měl pod kontrolou pouze a jedině pověřený pracovník nemocnice. Ve všech fázích procesu práce s daty je aplikována celá řada opatření (smluvních, organizačních i technických) pro zajištění bezpečnosti, zvláště u osobních dat, ale i všech ostatních citlivých nemocničních dat: šifrování přístupů, oddělené účty a přístupová práva, hesla pro šifrování čísel pojištěnců, bezpečné mazání atd. Přístupy do nemocnic jsou vždy řízeny bezpečnostní politikou každé jednotlivé nemocnice a jsou dodržovány její požadavky a standardy.

Ochrana primárních dat je zajištěna robustními mechanismy, mj. smluvně (včetně podmínky naprosté mlčenlivosti všech pracovníků dodavatele), jak je obvyklé v případech, kdy dodavatel spravuje a provozuje v nemocnici systém pracující s čísly pojištěnců, jako například nemocniční informační systém či jiné provozní systémy v nemocnicích. Nastavený model práce zde plně odpovídá tomuto plošně aplikovanému modelu. Osobní data nikdy neopouští server nemocnice a bezprostředně po jejich transformaci jsou pro analyticky využívanou databázi bezpečně a nevratně smazána.

Jelikož principem projektu je poskytovat nemocnicím zejména referenční srovnání formou předpřipravených reportů, jsou deidentifikovaná data nemocnice přenášena do referenčního datového skladu na serveru spravovaném IBA LF MU. Na tomto serveru se nikdy nevyskytovala a nevyskytují žádná osobní data pacientů a záznamy slouží k poskytování agregovaných podkladů pro analytická zpracování referenčních hodnot pro všechny zapojené nemocnice. Na tento server jsou uplatňována interní pravidla IBA LF MU pro zabezpečení citlivých dat, která jsou v souladu s certifikací ISO 27000. Také veškeré výstupy z tohoto datového skladu jsou řízeny a evidovány technickými prostředky. Ztotožnění identity jedince není z agregovaných referenčních dat možné.

Platí tedy, že žádná data obsahující osobní údaje neopouštějí za žádných okolností server nemocnice a IBA LF MU přistupuje k tomu systému na základě uzavřené smlouvy analogicky k provozovatelům podobných informačních systémů v nemocnicích, za dodržení bezpečnostních požadavků nemocnice. Kompletní dokumentace systému je k dispozici jako samostatný dokument, kde je podrobně popsán princip, metody a opatření pro práci s daty a jejich ochranu.

1.1 Používané datové zdroje z nemocnice

Pro základní hodnocení nemocničních dat v oblasti onkologie jsou uvnitř nemocnic zpracovávány dva hlavní datové zdroje: data předávaná pojišťovnám (administrativní data nemocnice, „k-dávky“) a záznamy hlášené do Národního onkologického registru (NOR) o pacientech léčených v dané nemocnici. Dále jsou používány doplňující interní datové zdroje, jako jsou údaje o nemocničních preskripcích, data z nemocničního informačního systému s PSČ bydliště pacientů, různé číselníky apod. Jejich popis je popsán v následujících částech.

1.2 Administrativní data nemocnic

Nemocniční informační systémy (NIS) obsahují řadu cenných informací, jejich přímé a jednotné využití pro analýzy však bývá problematické. Různé nemocnice bohužel provozují rozdílné NIS, které obvykle neobsahují data ve strukturované podobě. Navíc data z NIS nejsou vždy snadno dostupná za rozumných nákladů pro jejich provozovatele. Proto projekt využívá jako zdroj administrativních dat interní výkazy plátcům zdravotní péče, tzv. k-dávky. Tyto výkazy jsou povinné, dostupné v nemocnici za několik let zpětně a zcela nezávislé na konkrétním NIS.

Technicky vzato jsou k-dávky obyčejné textové soubory (viz následující obrázek) s definovanou strukturou, která je dána metodikou a datovým rozhraním Všeobecné zdravotní pojišťovny (VZP) [https://www.vzp.cz/poskytovatele/vyuctovani-zdravotni-pece/metodika-vyuctovani-aktualni-stav]. Tato struktura je ovšem proměnná v čase, s čímž je nutné počítat při jejich zpracování. V k-dávkách lze nalézt zejména údaje o provedených výkonech a o podaných přípravcích v rámci hospitalizační i ambulantní péče.

V zásadě lze konstatovat, že k-dávky popisují kompletně proces péče o konkrétního pacienta v daném zdravotnickém zařízení, byť spíše s ohledem na provozní stránku péče a se zanedbáním některých konkrétních detailů.

1.3 Záznamy národního onkologického registru hlášené nemocnicí

Národní onkologický registr je strukturovaná databáze, která tvoří jednu ze základních částí Národního zdravotního informačního systému. Do tohoto registru musí být ze zákona povinně zaznamenán každý nově diagnostikovaný novotvar v ČR již od roku 1976 (viz obrázek hlášenky NOR). Tato epidemiologická databáze obsahuje základní klinické parametry, jako diagnózu a stadium, které rozhodují o prognóze pacienta, jakožto i základní údaje o schématu jeho léčby.

Záznamy NOR pacientů léčených danou nemocnicí jsou interně napojeny k administrativním datům nemocnice a obohacují interní elektronickou zdravotnickou dokumentaci zejména o klinické stadium v době diagnózy. Každý záznam v NOR je v datovém skladu napojen na velké množství číselníků (pro pohlaví, diagnózy, léčebné modality apod.). Mezi základní údaje patří detailní údaje o diagnóze, rozsahu onemocnění (TNM a stadium), datum diagnózy, data zahájení léčebných modalit a jejich povaha.

1.4 Nemocniční preskripce

Nemocniční preskripce jsou záznamem o předepsání léčiva nebo zdravotnického materiálu pacientovi lékařem nemocnice. K jeho evidenci se obvykle používá samostatný modul NIS – evidence nemocničních preskripcí. Obsahuje údaje o všech receptech, které lékaři této nemocnice pacientům předepsali, bez ohledu na to, zda a ve které lékárně si léčivo nebo materiál vyzvedli. V tomto případě tedy nedochází ke ztrátám dat o předepsaných léčivech, jak tomu hrozí v případě dokladů Recepty z datového rozhraní VZP (viz část věnovaná datovému rozhraní).

2 Přístupy do nemocnic

Možnost přístupů do nemocnic přes zabezpečené komunikační kanály je pro fungování projektu klíčová.

2.1 Správa přístupů

Vzdálené přístupy jsou pověřeným pracovníkům dodavatele zřizovány pracovníky nemocnice na základě smlouvy o spolupráci mezi oběma institucemi. O zřízení přístupu pro konkrétní osobu žádá hlavní manažer projektu na straně IBA LF MU, který předává zodpovědnému pracovníkovi nemocnice požadované kontaktní údaje osoby, pro niž se přístup zřizuje (jméno, email, telefon).

Vlastní proces zřízení přístupu a jeho technická implementace je čistě v kompetenci pracovníků nemocnice, kteří se řídí interními pravidly pro poskytování přístupů a jejich zabezpečení. Standardně je zabezpečený vzdálený přístup do nemocnice zajištěn pomocí specifikované VPN sítě. K jejímu zřízení bývá obvykle požadováno vyplnění protokolu o zřízení VPN, v některých případech i smlouva mezi institucemi. Na samotný server je pak přístup přes klienta Remote desktop (RDP na Windows Server) nebo SSH klienta (Linux Server).

Mohou být požadovány i další doplňující prvky ochrany, např. periodické obnovování žádostí o VPN přístup, pravidelná změna hesla na server aj.

2.2 Evidence přístupů pověřených pracovníků IBA LF MU

Veškeré přístupové údaje, které byly pracovníkům dodavatele předány ze strany nemocnic, jsou ošetřeny v souladu s pravidly maximální ochrany citlivých údajů, odpovídající ISO 27000. Nikdy se nevyskytují zapsané v otevřené podobě přístupné jiným než oprávněným uživatelům. Jsou ukládány v bezpečném úložišti hesel, zabezpečeným hlavním heslem. Přístupové údaje jsou k dispozici pouze osobám, kterým byly pracovníky nemocnic předány.

V okamžiku, kdy jakákoliv osoba dodavatele v roli správce komponenty Agent s přístupy do nemocnic z projektu odejde nebo změní roli, jsou spolupracující centra o tomto faktu informována, všechny účty jsou jí zablokovány a změněna hesla k přístupům, které měla dotyčná osoba k dispozici.

3 Agent systému

Agent je komponenta, která je provozována na serveru uvnitř spolupracující nemocnice a je zodpovědná za zpracování primárních dat nemocnice, které mohou obsahovat osobní údaje. Agent je používán k nevratné deidentifikaci záznamů.

3.1 Architektura Agenta

Agent se skládá z několika základních částí. Jádrem celého systému je databáze, která provádí většinu procesu zpracování primárních nemocničních dat a jejich deidentifikaci. Doplněna je sadou obslužných knihoven v PHP, Linux/Windows shell skriptů, archivačním programem pro zabezpečené ukládání citlivých dat atd.

3.2 Databáze

Použita je databáze MySQL licencovaná jako open-source a free, která je standardem při používání v nekomerčních projektech.

3.3 Schémata

Pro funkcionalitu Agenta jsou třeba v databázi 3 databázová schémata:

icop_dw1_koc_import
Slouží pro zpracování primární dat nemocnice, která obsahují osobní údaje pacientů. Má do ní přístup pouze uživatel pověřeného pracovníka nemocnice (obvykle „root“) za účelem zpracování nových dat. Všechna data obsahující osobní údaje se po skončení importu nových dat (jednou ročně) mažou.

icop_dw1_koc_import_anonym
Slouží pro uložení výsledku iniciálního zpracování nemocničních dat, která již neobsahují žádné osobní údaje pacientů. Jsou přístupná vývojovému týmu.

icop_access
Schéma sloužící k uchování parametrů procesu importu nových dat, archivaci logů z průběhu jejich zpracování apod. Neobsahuje ani žádná primární data nemocnice, ani žádné osobní nebo jiné citlivé údaje. Je přístupná pověřenému pracovníkovi nemocnice i vývojovému týmu.

Obrázek 1. ER diagram zachycující základní komponenty Agenta s daty obsahujícími osobní údaje

3.4 Funkce Agenta

3.4.1 Import dat ze zdravotnického zařízení

Stručný souhrn procesu

Provádí

Pověřený pracovník nemocnice s oprávněním zpracování dat obsahující osobní údaje

Frekvence

Při zpracování nových dat, obvykle jednou ročně

Popis

Funkce zpracovává a načítá primární data nemocnice z textových souborů do databáze a spouští proces jejich dalšího zpracování

Vstup

Vstupem jsou připravená nemocniční data v požadovaném formátu, jejichž popis je správně nastaven v konfiguračních parametrech nástroje

Výstup

Výsledkem procesu jsou zpracovaná nemocniční data v DB, která obsahují pouze deidentifikovaná data bez osobních údajů. Všechna ostatní dočasná data, která mohou obsahovat osobní údaje (mimo vlastních vstupních souborů), jsou bezpečně a nevratně smazána

3.4.2 Zpracování primárních dat obsahující osobní údaje v DB

Stručný souhrn procesu

Provádí

Pověřený pracovník nemocnice s oprávněním zpracování dat obsahující osobní údaje

Frekvence

Při zpracování nových dat, obvykle jednou ročně; spouští se automaticky v rámci procesu „import dat ze zdravotnického zařízení“

Popis

Funkce zpracovává primární data nemocnice v rámci databáze, validuje jejich obsah, odvozuje další parametry a spouští proces jejich deidentifikace

Vstup

Vstupem jsou nemocniční data nahraná v základním tvaru do databáze

Výstup

Výsledkem procesu jsou zpracovaná nemocniční data v DB, která obsahují pouze deidentifikovaná data bez osobních údajů. Mezivýsledky v DB, které obsahují osobní údaje, jsou smazány. Jsou provedeny validační kontroly vstupních dat

3.4.3 Deidentifikace osobních údajů

Stručný souhrn procesu

Provádí

Pověřený pracovník nemocnice s oprávněním zpracování dat obsahující osobní údaje

Frekvence

Při zpracování nově příchozích dat, obvykle jednou ročně; spouští se automaticky v rámci procesu „Zpracování primárních dat obsahující osobní údaje v DB“

Popis

Funkce provádí náhradu atributů, obsahujících osobní údaje, za jejich deidentifikované alternativy. Čísla pojištěnců jsou nahrazena bezvýznamovými identifikátory (jednosměrná šifra), další osobní údaje jsou smazány

Vstup

Vstupem jsou nemocniční data obsahující osobní údaje v DB, které jsou v nich dohledány a označeny.

Výstup

Výsledkem procesu jsou data, kde jsou osobní údaje pacientů deidentifikovány – čísla pojištěnců jsou nahrazeny bezvýznamovými identifikátory, ostatní osobní údaje jsou nevratně odstraněny.

Podrobný popis procesu

Uvedené příklady opět demonstrují funkčnost při zpracování administrativních dat nemocnice (k-dávky, PZP). Ostatní datové zdroje jsou zpracovávány analogicky.

Deidentifikace čísel pojištěnců v seznamu pacientů probíhá pomocí DB procedury hash_patients_pzp(). Následující tabulka zobrazuje způsob, jakým se data s osobními údaji pacientů mapují na deidentifikované záznamy:

Obrázek 2. Mapování provádějící deidentifikaci čísel pojištěnců v seznamu pacientů na dokladech PZP

Procedura anonymize_patients_pzp() provádí náhradu čísel pojištěnců ve vlastních řádcích tabulky icop_dw1_koc_import.pzp_anonym – v tomto případě je nahradí za řetězec deseti znaků „#“. Mapování původních datových atributů tabulky icop_dw1_koc_import.pzp na atributy v tabulce icop_dw1_koc_import.pzp_anonym jsou popsány na obrázcích 3 a 4.

Obrázek 3. Mapování atributů dokladů PZP na deidentifikované záznamy

Obrázek 4. Mapování atributů záznamů o pacientech nemocnice na deidentifikované záznamy

3.5 Správa systému a přístupů

Za správu systému, správu přístupů, zajištění bezpečnosti a zálohování zodpovídá vždy pověřený pracovník nemocnice, na jejichž prostředcích je Agent provozován. Pracovníci dodavatele s přístupy do nemocnic jsou povinni dodržovat veškeré zásady, požadované zodpovědnými provozovateli IT v nemocnici.

3.6 Zajištění bezpečnosti osobních dat v nemocnicích

Pro zajištění bezpečnosti a ochrany osobních a jiných citlivých dat je aplikována celá řada opatření – od smluvních opatření přes technická až po organizační pravidla. Dohromady vytvářejí velmi robustní systém ochrany nemocničních dat, který zcela vylučuje možnost jejich zneužití nebo úniku.

3.7 Technická opatřeni

3.7.1 Přístupy ke všem datům chráněny heslem

DB MySQL je rozdělena na neanonymní a anonymní část, pro které existují dva rozdílné uživatelské účty. Zpracování vstupních dat s osobními údaji se standardně spouští pod uživatelem root (pracovníci nemocnice), který má přístup ke všem datům. Při vytváření výstupních dat a přenosu na I-COP Central se používa účet icop_admin, který má přístup jenom do anonymizované části.
Archivována data jsou zašifrovaná s heslem. Přihlášení k serveru a přístup k adresářům je řízen správou uživatelských účtů operačního systému dle politiky dané nemocnice.

3.7.2 Nahrazení čísel pojištěnců bezpečnou šifrou

Šifrování čísel pojištěnců je prováděno následujícím postupem.

Čísla pojištěnců, ve spojení s heslem (sůl), jsou šifrována pomocí jednosměrné šifrovací funkce SHA na bezvýznamový identifikátor. Pro možnost zpětného dohledání čísel pojištěnců pro interní potřeby nemocnice je uchováván převodník mezi číslem pojištěnce a jeho šifrou. Způsob práce s tímto převodníkem je popsán v samostatné části.

3.7.3 Šifrování přenosu dat mezi Agent a Central

Při přenosu deidentifikovaných dat z nemocnice anonymizovanou databázi pro analýzy se používá zabezpečené spojení pomocí protokolu HTTPS s certifikátem, spravovaným dodavatelem. Pro komunikaci jsou povoleny pouze spojení z předem povolených IP adres jednotlivých serverů ve spolupracujících nemocnicích.

4 Organizační opatření

4.1 Smluvní ochrana osobních dat s nemocnicí

Mezi každou nemocnicí a IBA LF MU je uzavřena smlouva, jejíž nedílnou součástí je dohoda o ochraně citlivých údajů nemocnice pracovníky zpracovatele a povinnost jejich mlčenlivosti.

4.2 Dohoda o mlčenlivosti zaměstnanců

Každý zaměstnanec IBA LF MU má podepsanou dohodu o mlčenlivosti a ochraně osobních a jiných citlivých údajů, se kterými přichází při práci do kontaktu.

4.3 Bezpečná evidence přístupů do nemocnic

Evidence přístupů do nemocnic je popsána v samostatné části.

4.4 Oddělení přístupů, řízení rolí

Zpracování dat, obsahujících osobní údaje pacientů, probíhá v databázi, která je přístupná pouze pod uživatelským účtem administrátora DB (obvykle root). Zodpovědností pověřeného pracovníka nemocnice je zpřístupnění vstupních dat a jejich zpracování do podoby deidentifikovaných záznamů, které jsou již v oddělené části databáze, přístupné členům vývojového týmu. S uživatelským účtem icop_admin, který mají členové vývojového týmu k dispozici, není možné se k žádným datům s osobními údaji dostat.

4.5 Mazání a šifrování osobních dat v době, kdy nejsou třeba

Všechna data obsahující citlivé informace jsou uložena v databázi pouze po dobu nezbytně nutnou pro provedení požadovaných funkcí. Na začátku procesu zpracování primárních dat (k-dávky, preskripce, seznam pacientů s lokalitou bydliště, atd.) se rozbalí archiv převodníku čísel pojištěnců a načte do DB. Rozbalený soubor se okamžitě smaže bezpečným způsobem pomocí programu SDelete. Při procesu importu nových nemocničních dat jsou do převodníku v DB přidáni noví pacienti. Po skončení importu se soubor archivu převodníku zálohuje (přejmenuje podle aktuálního data a přesune do archivu). Následně se z DB exportuje aktualizovaný převodník do souboru, který je následně zabalen jako nový šifrovaný archiv převodníku. Vstupní soubor převodníku i tabulka z databáze jsou následně bezpečně smazány.

4.6 Minimalizace práce s osobními údaji

S daty, která obsahují osobní údaje pacientů (zejména číslo pojištěnce) se manipuluje co nejméně je to možné. Primární data jsou pouze základně zpracována (načtena jejich struktura a obsah) a uložena do DB. Ihned poté jsou čísla pojištěnců zašifrována na bezvýznamový identifikátor a tímto novým identifikátorem jsou původní čísla pojištěnců nahrazena. Již jen nové identifikátory jsou pak spolu s vlastními daty nahrány do oddělené části DB, kde probíhá další zpracování. Veškerá další práce již probíhá nad deidentifikovanými daty, bez osobních údajů – tyto jsou nevratně smazány.

4.7 Vyřazení dat, která mohou obsahovat osobni údaje, z dalšího zpracování

Záznamy, které mohou obsahovat osobní údaje (jiné než číslo pojištěnce, které se bezpečně šifruje), se z dalšího zpracování vyřazují. Jedná se primárně o zpracování seznamu pacientů s lokalitou bydliště, kde je možné očekávat výskyt osobních údajů (jméno a příjmení, přesná adresa apod.). Do deidentifikované části DB se tyto údaje nepřenáší.

Při zpracování administrativních dat nemocnice (PZP) se každý doklad ověřuje přes slovník (seznam známých typů dokladů). Pokud je daný doklad ve slovníku nalezen, je označen pro další zpracování. V další části se pak zpracovávají jen doklady s tímto příznakem (jenom rozpoznané typy dokladů). Ostatní doklady jsou smazány. Tímto se zabezpečí ochrana neznámých dokladů, které by mohly obsahovat osobní údaje.

4.8 Výhradní použití deidentifikovaných dat pro analýzy

Agent systému pro přesun dat mezi nemocnicí a databází pro analýzy využívá DB účet icop_admin. Tento účet je omezen přístupem jenom do anonymizované DB. Z tohoto důvodu nehrozí únik citlivých osobních údajů mimo nemocnici, natož pak jejich použití při analýzách.