Datu vispārināšana
Datu vispārināšana (angliski: generalization) aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta.
Piemērs
Vēlreiz aplūko iepriekš iegūtos datus, kur jau tika dzēsti tiešie identifikatori. Lai arī vārds un uzvārds kopā nav iekļauti, personas joprojām iespējams identificēt retu slimību vai mazu apdzīvotu vietu gadījumā. Šajā piemērā, kur konkrēta vecuma retas slimības (multiplās sklerozes) pacients dzīvo nelielā apdzīvotā vietā, pastāv ļoti augsts identitātes atjaunošanas (datu deanonimizācijas) risks. Lietojot datu vispārināšanu, var pārveidot visas pārējās kolonnas, kas satur personas netiešos identifikatorus (piemēram, vecumu, pilsētu, diagnozi).
Oriģinālie dati
ID |
Vecums |
Pilsēta |
Diagnoze |
101 |
35 |
Sigulda |
Hipertensija |
102 |
28 |
Ape |
Diabēts |
103 |
40 |
Dobele |
Migrēna |
104 |
32 |
Suntaži |
Multiplā skleroze |
Anonimizētie dati pēc datu vispārināšanas
ID |
Vecuma grupa |
Novads |
Slimību grupa |
101 |
30—39 |
Siguldas novads |
Asinsrites sistēmas slimības |
102 |
20—29 |
Smiltenes novads |
Asinsrites sistēmas slimības |
103 |
40—49 |
Dobeles novads |
Nervu sistēmas slimības |
104 |
32—39 |
Ogres novads |
Nervu sistēmas slimības |
Iegūtie dati vairs nesatur netiešos personu identifikatorus, bet gan vispārīgu šo identifikatoru aprakstu, piemēram, konkrēta vecuma vietā tiek norādīta vecuma grupa, pilsēta tiek aizstāta ar novadu un saslimšana ar slimības grupu.
Šādi ievērojami var samazināt pētījuma dalībnieku iespējamo identitātes atjaunošanas (datu deanonimizācijas) risku, tomēr pirms datu vispārināšanas metodes lietošanas rūpīgi jāapsver, vai vispārinātie dati ļaus veikt iecerēto datu analīzi.