Datu sajaukšana
Datu sajaukšana (angliski: randomization) ir paņēmienu kopums, kas maina datu patiesumu, lai novērstu ciešo saikni starp datiem un personu. Tā pamatā ir pētījuma datu vērtību secības samainīšana tabulas kolonnās tā, lai vairs nebūtu izsekojama reālā saistība starp konkrētiem rādītājiem. Kopējais priekšstats par datiem nemainās.
Piemērs
Attēlotajā piemērā tiks sajaukti dati kolonnā “Pilsēta”. Jāatceras, ka, lietojot datu sajaukšanu, vairs nebūs iespējams noteikt saistību starp parametriem, aprēķināt korelācijas un regresijas, tāpēc šo metodi ieteicams izmantot tiem datiem, kas tikai vispārīgi raksturo pētījuma populāciju.
Oriģinālie dati
ID |
Vecums |
Pilsēta |
Diagnoze |
101 |
35 |
Sigulda |
Hipertensija |
102 |
28 |
Ape |
Diabēts |
103 |
40 |
Dobele |
Migrēna |
104 |
32 |
Suntaži |
Multiplā skleroze |
105 |
22 |
Rīga |
Astma |
106 |
44 |
Liepāja |
Hipertensija |
Anonimizētā datu kopa pēc pilsētu datu sajaukšanas
ID |
Vecums |
Pilsēta |
Diagnoze |
101 |
35 |
Suntaži |
Hipertensija |
102 |
28 |
Sigulda |
Diabēts |
103 |
40 |
Dobele |
Migrēna |
104 |
32 |
Ape |
Multiplā skleroze |
105 |
22 |
Liepāja |
Astma |
106 |
44 |
Rīga |
Hipertensija |