Datu vispārināšana

Datu vispārināšana (angliski: generalization) aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta. 

Piemērs 

Vēlreiz aplūko iepriekš iegūtos datus, kur jau tika dzēsti tiešie identifikatori. Lai arī vārds un uzvārds kopā nav iekļauti, personas joprojām iespējams identificēt retu slimību vai mazu apdzīvotu vietu gadījumā. Šajā piemērā, kur konkrēta vecuma retas slimības (multiplās sklerozes) pacients dzīvo nelielā apdzīvotā vietā, pastāv ļoti augsts identitātes atjaunošanas (datu deanonimizācijas) risks. Lietojot datu vispārināšanu, var pārveidot visas pārējās kolonnas, kas satur personas netiešos identifikatorus (piemēram, vecumu, pilsētu, diagnozi). 
  
Oriģinālie dati 
ID Vecums Pilsēta Diagnoze
101 35 Sigulda Hipertensija
102 28  Ape Diabēts
103 40 Dobele Migrēna
104 32 Suntaži Multiplā skleroze 
Anonimizētie dati pēc datu vispārināšanas 
ID Vecuma grupa  Novads  Slimību grupa 
101 30—39  Siguldas novads  Asinsrites sistēmas slimības 
102 20—29  Smiltenes novads  Asinsrites sistēmas slimības 
103 40—49  Dobeles novads  Nervu sistēmas slimības 
104 32—39 Ogres novads  Nervu sistēmas slimības 
Iegūtie dati vairs nesatur netiešos personu identifikatorus, bet gan vispārīgu šo identifikatoru aprakstu, piemēram, konkrēta vecuma vietā tiek norādīta vecuma grupa, pilsēta tiek aizstāta ar novadu un saslimšana ar slimības grupu. 
Šādi ievērojami var samazināt pētījuma dalībnieku iespējamo identitātes atjaunošanas (datu deanonimizācijas) risku, tomēr pirms datu vispārināšanas metodes lietošanas rūpīgi jāapsver, vai vispārinātie dati ļaus veikt iecerēto datu analīzi. 

Datu vispārināšana

Datu vispārināšana (angliski: generalization) aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta. 

Piemērs 

Vēlreiz aplūko iepriekš iegūtos datus, kur jau tika dzēsti tiešie identifikatori. Lai arī vārds un uzvārds kopā nav iekļauti, personas joprojām iespējams identificēt retu slimību vai mazu apdzīvotu vietu gadījumā. Šajā piemērā, kur konkrēta vecuma retas slimības (multiplās sklerozes) pacients dzīvo nelielā apdzīvotā vietā, pastāv ļoti augsts identitātes atjaunošanas (datu deanonimizācijas) risks. Lietojot datu vispārināšanu, var pārveidot visas pārējās kolonnas, kas satur personas netiešos identifikatorus (piemēram, vecumu, pilsētu, diagnozi). 
  
Oriģinālie dati 
ID Vecums Pilsēta Diagnoze
101 35 Sigulda Hipertensija
102 28  Ape Diabēts
103 40 Dobele Migrēna
104 32 Suntaži Multiplā skleroze 
Anonimizētie dati pēc datu vispārināšanas 
ID Vecuma grupa  Novads  Slimību grupa 
101 30—39  Siguldas novads  Asinsrites sistēmas slimības 
102 20—29  Smiltenes novads  Asinsrites sistēmas slimības 
103 40—49  Dobeles novads  Nervu sistēmas slimības 
104 32—39 Ogres novads  Nervu sistēmas slimības 
Iegūtie dati vairs nesatur netiešos personu identifikatorus, bet gan vispārīgu šo identifikatoru aprakstu, piemēram, konkrēta vecuma vietā tiek norādīta vecuma grupa, pilsēta tiek aizstāta ar novadu un saslimšana ar slimības grupu. 
Šādi ievērojami var samazināt pētījuma dalībnieku iespējamo identitātes atjaunošanas (datu deanonimizācijas) risku, tomēr pirms datu vispārināšanas metodes lietošanas rūpīgi jāapsver, vai vispārinātie dati ļaus veikt iecerēto datu analīzi.