Datu apstrāde un analīze

Datu apstrāde ir pētniecības projekta posms, kurā ievāktie dati tiek pārveidoti vēlamajā formātā un sagatavoti analīzei. Kvalitatīvi veikta datu apstrāde ir pētnieciskās integritātes un uzticamības pamatā. 

Datu apstrādes dokumentēšana 

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību. Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei. 

Kvantitatīvu datu apstrādes dokumentēšana 

Datu avots: norādi, kur dati iegūti, piemēram, no aptaujas, eksperimentiem, publiskas datubāzes. Precīzi apraksti datu iegūšanas metodi un instrumentus, piemēram, aptaujas anketu, mērinstrumentus.  
Datu tīrīšana un sagatavošana: apraksti visus veiktos datu tīrīšanas soļus. Šo aprakstu var veikt  dažādos veidos. Piemēram, ja datu apstrādei tiek izmantota programmēšanas valoda, tad var saglabāt kodu jeb skriptu ar aprakstošiem komentāriem. Ja datu apstrāde tiek veikta tā sauktajās point and click programmās kā Excel, SPSS, STATA, tad apstrādes soļus vēlams dokumentēt kodu grāmatās, datu vārdnīcās, ReadMe datnēs vai cita veida dokumentācijā. 

Būtiski piefiksēt:

  • Trūkstošo vērtību apstrādi: kā rīkojies ar trūkstošām vērtībām, piemēram, izlaidi rindas, aizpildīji ar vidējo vērtību, utt.  
  • Anomāliju (outliers) apstrādi: kā identificēji un apstrādāji anomālijas, piemēram, izlaidi, transformēji.  
  • Datu transformācijas: vai veici kādas datu transformācijas, piemēram, normalizāciju, logaritmisko transformāciju? Kāpēc un kā?  
  • Kodēšana un kategorizācija: apraksti, kā kodēji vai kategorizēji datus, piemēram, izveidoji vecuma grupas.  
Statistiskās metodes: detalizēti apraksti visas izmantotās statistiskās metodes un testus.
  • Aprakstošā statistika (descriptive statistics): norādi, kādus aprakstošos statistikas rādītājus aprēķināji, piemēram, aritmētiskais vidējais, mediāna, standartnovirze, procenti.
  • Secinošā statistika (inferential statistics): ja izmantoji secinošās statistikas metodes, piemēram, t-testu, ANOVA, regresijas analīzi, norādi:
    • Konkrētos testus: precīzi nosauc testus, piemēram, divu neatkarīgu izlašu t-tests, Pīrsona korelācijas koeficients.
    • Pieņēmumus (assumptions): pārbaudi un dokumentē, vai dati atbilst izmantoto testu pieņēmumiem, piemēram, normalsadalījumam, homogenitātei.
    • Statistisko nozīmīgumu: norādi p-vērtības un nozīmīguma līmeni, piemēram, p < 0,05.
Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji datu apstrādei un analīzei, piemēram, Excel, SPSS, R, Python ar konkrētām bibliotēkām vai pakotnēm. Ja iespējams, iekļauj izmantotos skriptus vai kodu.  
Rezultāti un interpretācijas: skaidri un kodolīgi apraksti statistiskās analīzes rezultātus. Iekļauj tabulas, grafikus un diagrammas, lai vizualizētu datus. Interpretē rezultātus un izskaidro, ko tie nozīmē pētījuma kontekstā. 

Kvalitatīvo datu apstrādes dokumentēšana 

Datu avots: norādi, kā kvalitatīvie dati iegūti, piemēram, no intervijām, fokusgrupām, dokumentiem, novērojumiem. Detalizēti apraksti datu iegūšanas metodi un kontekstu, piemēram, interviju protokolu, fokusgrupu vadlīnijas, novērojumu vietu un laiku.
Datu transkripcija (ja nepieciešams): ja dati ievākti audio vai video formātā un tika transkribēti, apraksti transkripcijas procesu. Vai transkripcija bija burtiska vai rediģēta? Vai tika veikta pseidonimizācija/anonimizācija?
Kodēšanas shēma/kategorijas: apraksti kodēšanas shēmu vai kategorijas, ko izmantoji datu analīzei.
  • Kā kategorijas/kodi tika identificēti: izskaidro, kā tēmas tika identificētas, piemēram, induktīvi, no datiem, vai deduktīvi, balstoties uz teoriju
  • Kodēšanas definīcijas: sniedz skaidras definīcijas katrai kodēšanas kategorijai
  • Kodēšanas piemēri: iekļauj piemērus no datiem, kas ilustrē katru kategoriju
  • Starpkodētāju uzticamība (ja vairāki kodētāji): ja datus kodēja vairāki cilvēki, apraksti, vai un kā tika nodrošināta starpkodētāju uzticamība, piemēram, aprēķināts Koena kappa koeficients, diskusijas par nesakritībām
Analīzes process: detalizēti apraksti analīzes procesu.
  • Analīzes metode: apraksti, kādu kvalitātīvās analīzes metodi izmantoji, piemēram, tematisko, diskursa, fenomenoloģisko vai naratīva analīzi. Apraksti konkrētus analīzes soļus un principus, kas tika ievēroti
  • Veic refleksivitātes pierakstus, lai kritiski izvērtētu, kā pētnieka personīgā pieredze, vērtības, priekšstati un sociokulturālā piederība var ietekmēt pētījuma gaitu, rezultātu interpretāciju un secinājumus
Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji kvalitatīvo datu apstrādei, piemēram, NVivo, Atlas.ti, MAXQDA, manuālu kodēšanu Excel.
Rezultāti un interpretācija: prezentē galvenās tēmas, modeļus un atziņas, kas izriet no kvalitatīvās analīzes. Ilustrē tēmas ar citātiem no datiem (anonimizējot respondentus, ja nepieciešams).

Sensitīvo datu apstrāde 

Sensitīvi dati ietver personu identificējamu informāciju, medicīniskos, ģenētiskos datus un citus, kuru atklāšana var apdraudēt indivīdu vai organizāciju intereses un radīt diskrimināciju vai kaitējumu. 
Sensitīvu datu apstrāde var radīt nopietnas sekas indivīdam, ja apstrādes procesā vai rezultātā tie tiek neatbilstoši izmantoti vai nonāk nepiederošu personu rīcībā. Sensitīvo datu apstrāde prasa visaptverošu pieeju, lai aizsargātu privātumu un nodrošinātu atbilstību likumdošanai. Risku samazināšanai izmanto datu minimizācijas pieeju, kas ietver datu pseidonimizāciju un anonimizāciju. Šīs metodes atšķiras pēc to rakstura, rīkiem un piemērošanas situācijām, kas ir atkarīgas no pētījuma specifikas. Tomēr, lai pilnībā nodrošinātu datu drošību, būtiski ir izvērtēt arī citus aizsardzības pasākumus. 

Svarīgi aspekti sensitīvo datu apstrādē 

  • Datu aizsardzība, konfidencialitāte un piekļuves kontrole
    • Visi dati jāapstrādā un jāglabā tā, lai tie būtu pieejami tikai autorizētām personām
    • Piekļuve datiem jāierobežo, izmantojot divpakāpju autentifikāciju, piekļuves tiesību pārvaldību un datu piekļuves žurnālus (lai reģistrētu, kas un kad ir skatījies datus)
    • Piemērs: Izmantot RBAC (Role-Based Access Control), lai piešķirtu piekļuvi tikai pēc lomām, piemēram, pētnieks, administrators
  • Juridisko prasību ievērošana
    • Jāievēro starptautiskie un vietējie regulējumi, piemēram:
      • VDAR / GDPR (Vispārīgā Datu Aizsardzības Regula) – nosaka stingrus noteikumus personas datu apstrādei Eiropas Savienībā.
  • Drošības pasākumi pret datu noplūdēm
    • Datu šifrēšana gan glabāšanas, gan pārsūtīšanas laikā.
    • Regulāra datu kopiju izveide un testēšana, lai novērstu datu zaudēšanu.
    • Sensitīvo datu dzēšana pēc to lietošanas termiņa beigām.

Pseidonimizācija 

Pseidonimizācija ir process, kurā personas dati tiek aizvietoti ar izdomātiem identifikatoriem (pseidonīmiem), piemēram, ar kodiem vai unikāliem numuriem, saglabājot iespēju atjaunot sākotnējo informāciju, ja nepieciešams.  
Piemēram, datu kopā personas vārds var tikt aizstāts ar dalībnieka numuru. Papildus tiek izveidots atslēgas fails, kur tiek atšifrēts, kādam dalībnieka numuram atbilst katra dalībnieka vārds. Šis atslēgas fails tiek glabāts atsevišķi no pseidonimizētās datu kopas, lai nodrošinātu datu aizsardzību. 
Pseidonimizējot datus, notiek darbs ar pētījuma oriģinālo datu tabulu un izveidoto kodu tabulu. Oriģinālo datu kolonnās, kuras satur sensitīvu informāciju, vērtības tiek aizstātas ar attiecīgo pseidonīmu jeb kodu. Šo procesu var veikt gan manuāli, gan ar IT rīkiem. 

Galvenās iezīmes 

  • Dati joprojām ir saistīti ar konkrētu personu, bet tie ir aizsargāti no tiešas identifikācijas
  • Uz pseidonimizētiem datiem joprojām attiecas personu datu aizsardzības prasības, jo pastāv risks, ka, izmantojot papildu informāciju, personas varētu tikt identificētas
  • Piemērots gadījumiem, kad nepieciešama datu atjaunošana vai papildināšana

Pseidonimizācijas procesa būtiskākie soļi 

1. Datu izvērtēšana un klasifikācija 

Pirmais solis ir rūpīgi izvērtēt esošo datu kopu un identificēt 
  • Kuri lauki ir tiešie identifikatori (piemēram, vārds, personas kods)?
  • Kuri lauki ir netiešie identifikatori (piemēram, dzimšanas datums, pasta indekss)?
  • Kuri lauki ir sensitīvā informācija (piemēram, veselības dati, etniskā piederība)?
  • Kuri lauki ir pētniecības vajadzībām nepieciešamie dati?
Šajā solī ir svarīgi saprast, kādi dati tiks apstrādāti un kādus identifikatorus nepieciešams aizvietot ar pseidonīmiem. 

2. Pseidonimizācijas stratēģijas izvēle 

Atkarībā no datu veida un pētniecības mērķiem, jāizvēlas piemērotākā stratēģija 
  • Kodu tabulas: viena no vienkāršākajām un intuitīvi saprotamākajām pseidonimizācijas metodēm. Tā būtībā ir datu struktūra, kas tiešā veidā sasaista oriģinālos identifikatorus ar mākslīgi izveidotiem pseidonīmiem. Kodu tabulas pamatā ir vienkārša “atslēga-vērtība” (key-value) tipa datu struktūra:
    • Atslēga ir oriģinālais identifikators (piemēram, pētījuma dalībnieka vārds)
    • Vērtība ir piešķirtais pseidonīms (piemēram, kods vai ID numurs)

Oriģinālie dati:

Vārds, Uzvārds  Studenta ID   Fakultāte  Fiziskās aktivitātes līmenis 
Jānis Bērziņš  St-2024-001  Datorzinātnes  Zems 
Līga Ozola  St-2024-002  Medicīnas  Vidējs 
Kārlis Priedītis  St-2024-003 Sociālo zinātņu  Vidējs 

Izveidota kodu tabula (glabājas drošā, šifrētā datubāzē): 

Vārds, Uzvārds  Studenta ID   Dalībnieka ID 
Jānis Bērziņš  St-2024-001  ID-042 
Līga Ozola  St-2024-002  ID-043
Kārlis Priedītis  St-2024-003 ID-044

Pseidonimizētie dati (izmantojami pētījumā): 

Dalībnieka ID  Fakultāte  Fiziskās aktivitātes līmenis 
ID-042  Datorzinātnes  Zems 
ID-043  Medicīnas  Vidējs 
ID-044 Sociālo zinātņu  Vidējs 
Kodu tabula ir vienkārša un viegli saprotama, kā arī īstenojama bez sarežģītiem algoritmiem. Pētniekam ir pilnīga kontrole pār pseidonīmu formātu un saturu. Šī metode arī ir viegli atšifrējama, kur ar kodu tabulas palīdzību ērti var atjaunot oriģinālos datus, ja nepieciešams.   
Tomēr jāņem vērā, ja  kodu tabula tiek kompromitēta, visa pseidonimizācijas sistēma sabrūk, kā arī lielām datu kopām var kļūt grūti pārvaldāma un pastāv manuālu kļūdu risks. Lai uzlabotu kodu tabulu drošību, nepieciešams glabāt kodu tabulu šifrētā formātā, atdalīt kodu tabulu no pētniecības datu kopu glabāšanas vietas, ierobežot piekļuvi tikai īpaši pilnvarotām personām, veidot auditācijas pierakstus par katru piekļuves gadījumu. 
  • Kriptografiskās funkcijas: pseidonimizācijai mēdz izmantot arī hash funkcijas vai šifrēšanu, lai sistemātiski pārveidotu identifikatorus. Kriptografiskās funkcijas ir matemātiski algoritmi, kas pārveido oriģinālos datus (identifikatorus) neatpazīstamā formā, bet dara to sistemātiski un (atkarībā no metodes) potenciāli atgriezeniski. 
    • Hash funkcijas pārveido jebkura izmēra ievaddatus (piemēram, vārdu vai personas kodu) par fiksēta garuma virkni, ko sauc par “hash vērtību” jeb “kontrolsummu”. Šī ir viena virziena funkcija — no hash vērtības praktiski nav iespējams atjaunot oriģinālo vērtību, ja vien nav izveidots atsevišķs atslēgas fails. Izmantojot hash funkciju, tā pati ievadvērtība vienmēr radīs to pašu hash vērtību, līdz ar to pat nelielas izmaiņas ievaddatos radīs pilnīgi atšķirīgu hash vērtību.  
Process soli pa solim:  
    1. Izvēlas piemērotu hash algoritmu (piemēram, SHA-256, SHA-3) 
    2. Atlasa identifikatoru (piemēram, “Jānis Bērziņš”) 
    3. Algoritms pārveido šo tekstu fiksēta garuma ciparu un burtu virknē (piemēram, “5d41402abc4b2a76b9719d911017c592”) 
    4. Šī hash vērtība aizstāj oriģinālo identifikatoru viscaur datu kopā
Piemēri ar hash funkciju SHA-256: 
SHA-256(“Jānis Bērziņš”) = 7b9d67f94873e2d4c7874bc5742227c7b0d44fad343e29e9686dd2608b489985 
SHA-256(“Anna Kalna”) = 9f9dda4086fb4a6430ea3518aa5f724dc9d1c134d0eee44580edca19b62e0d3f 
    • Šifrēšana ir divu virzienu process – datus var gan šifrēt, gan atšifrēt, kam nepieciešama šifrēšanas atslēga (vai atslēgu pāris asimetriskajā šifrēšanā). Šo metodi var izmantot gan vienkāršām, gan sarežģītām datu struktūrām. Šifrēšana nodrošina labāku drošību nekā vienkārša kodu tabula, ja atslēga tiek pienācīgi aizsargāta.
Process soli pa solim:
      • Sākotnēji nepieciešams izvēlēties šifrēšanas algoritmu (piemēram, AES, RSA)
      • Ģenerē šifrēšanas atslēgu (vai atslēgu pāri)
      • Šifrē identifikatoru ar izvēlēto atslēgu
      • Aizstāj oriģinālo identifikatoru ar šifrēto versiju
      • Drošā veidā uzglabā atšifrēšanas atslēgu
Piemērs ar AES šifrēšanu: 
Oriģināls: “220185-12345” (personas kods) 
AES-šifrēts (ar atslēgu “UniversityResearch2023”): “fR7y2pL9xQ3zT8vW1sK4jH6gD0” 
  • Tokenizācija ir process, kurā oriģinālie dati tiek aizstāti ar aizstājējvērtībām jebžetoniem” (tokens), kas saglabā oriģinālo datu formātu un dažkārt pat daļu no struktūras, bet ne faktisko saturu. Šī metode saglabā datu formātu un struktūru (piemēram, ciparu skaitu). Žetonus nevar atgriezeniski pārveidot atpakaļ oriģinālajos datos bez piekļuves īpašai žetonu tabulai. Šī metode var būt vieglāk integrējama esošajās sistēmās, jo saglabā datu formātu. To bieži izmanto finanšu sektorā (kredītkaršu numuru aizsardzībai). 
Piemērs ar personas koda tokenizāciju: 
Oriģināls: “220185-12345” 
Tokenizēts: “XXXXXX-12345” (saglabājot pēdējos 5 ciparus) 
Tokenizēts: “220185-XXXXX” (saglabājot dzimšanas datuma daļu) 
  • Pseidonīmu ģenerēšana pēc noteikta algoritma ir process, kur tā vietā, lai vienkārši piešķirtu nejauši izvēlētus kodus, algoritmiski pseidonīmi tiek veidoti pēc konkrēta, konsekventa likuma: 
    • Pseidonīmi seko vienotam formātam, piemēram, prefikss + numurs 
    • Pseidonīmu ģenerēšanas algoritms var ņemt vērā noteiktas oriģinālo datu īpašības 
    • Pseidonīmus var veidot tā, lai tie saglabātu noteiktas metadatu kategorijas 
Pseidonīmu piešķiršana soli pa solim: 
    • Izveido unikālus pseidonīmus katram indivīdam vai ierakstam
    • Veic sistemātisku identifikatoru aizvietošanu ar pseidonīmiem
    • Pārliecinies, ka pseidonīmi tiek konsekventi lietoti visā datu kopā
Piemērs: Strukturēti pseidonīmi klīniskā pētījumā 
Pieņemsim, ka analizēsim datus no trim dažādām nodaļām: Kardioloģijas (KAR), Neiroloģijas (NEU) un Gastroenteroloģijas (GAS). 
Algoritma definīcija: 
    • Pirmie trīs burti: nodaļas kods (KAR, NEU, GAS)
    • Nākamais burts: dzimums (M vai F)
    • Nākamie divi cipari: vecuma grupa (piemēram, 45 = 40-49 gadi)
    • Pēdējie trīs cipari: secīgs numurs attiecīgajā grupā
Oriģinālie dati: 
Vārds, Uzvārds  Dzimums  Vecums  Nodaļa  Covid-19 tests 
Jānis Bērziņš  Vīrietis  47  Kardioloģija  Pozitīvs 
Līga Ozola  Sieviete  62  Neiroloģija  Negatīvs 
Kārlis Priedītis  Vīrietis  51  Gastroenteroloģija  Negatīvs 
Pseidonimizētie dati: 
Dalībnieka kods  Covid-19 tests 
KAR-M-45-001  Pozitīvs 
NEU-F-65-001 Negatīvs 
GAS-M-55-001 Negatīvs 
Šādā pieejā pētnieki joprojām var analizēt datus pēc nodaļas, dzimuma un vecuma grupas, nezaudējot informāciju par šīm kategorijām, bet tai pat laikā nav iespējams identificēt konkrētus pacientus.  
Algoritmiski pseidonīmi ir piemēroti lielām datu kopām un ilgtermiņa pētījumiem, nodrošina vienotu pieeju visā datu kopā un pat starp dažādiem pētījumiem, var saglabāt pētniecībai noderīgu kontekstuālo informāciju, samazina manuālu darbu un kļūdu risku.  
Tomēr jāņem vērā, ja algoritms kļūst zināms, var būt iespējams atjaunot oriģinālos datus. Strukturēti pseidonīmi var atklāt šablonus, kas palīdz re-identifikācijā. Turklāt pārāk informatīvi pseidonīmi var atklāt sensitīvu informāciju, kā arī šī metode var prasīt augstākas tehniskās prasmes nekā vienkāršas kodu tabulas.  
Lai mazinātu ar šo metodi saistītos riskus, ieteicams izvairīties no pārāk daudz metadatu iekļaušanas pseidonīmos, aizsargāt algoritma detaļas un parametrus kā konfidenciālu informāciju, kā arī regulāri veikt riska novērtējumus, pārbaudot pseidonīmu izpaušanas pakāpi.  
Gan kodu tabulas, gan algoritmiski ģenerēti pseidonīmi ir vērtīgi rīki datu aizsardzībai. Kodu tabulas piedāvā vienkāršību un tiešu kontroli, bet var būt grūti paplašināmas. Algoritmiski pseidonīmi piedāvā efektivitāti un konsekvenci lielās datu kopās, bet var būt tehniski sarežģītāki un, ja nav pareizi ieviesti, var atklāt šablonus, kas atvieglo re-identifikāciju. 
Pseidonimizācijas stratēģijas izvēle ir būtiska, un tai jābalstās uz rūpīgu riska novērtējumu, ņemot vērā datu veidu, pētījuma apmēru un ilgumu, pieejamos resursus un drošības prasības. Daudzos gadījumos visefektīvākā ir hibrīda pieeja, kas apvieno abu stratēģiju priekšrocības, vienlaikus mazinot to trūkumus. 

Anonimizācija 

Anonimizācija ir process, kurā dati tiek pilnībā pārveidoti tā, lai vairs nav iespējams identificēt konkrētu personu, pat izmantojot papildu informāciju. Lai to panāktu, var tikt izmantotas speciālas metodes un rīki, kas nodrošina datu neatgriezenisku pārveidošanu. Tas ir svarīgi, lai aizsargātu privātumu, īpaši ievērojot Vispārīgo datu aizsardzības regulu (GDPR). 

Galvenās iezīmes 

  • Dati vairs nav saistāmi ar konkrētu personu, un to atjaunošana nav iespējama 
  • Augstāks aizsardzības līmenis, jo tiek pilnībā novērsta identifikācijas iespēja 
  • Piemērota datu kopām, kas tiks padarītas publiski pieejamas, kā arī pētījumiem, kur nav nepieciešams saglabāt saistību ar konkrētu personu, vai kur nav paredzēts datu kopu papildināt 

Galvenās datu anonimizācijas metodes 

  • Datu dzēšana: viena no visvienkāršākajām anonimizācijas metodēm ir sensitīvo datu dzēšana no datu kopas. Tas var tikt darīts gadījumos, kad sensitīvie dati vairs nav nepieciešami, tos nav nepieciešamība papildināt un turpmāk tie netiks izmantoti datu analīzē.  
Oriģinālie dati:
ID  Vārds  Vecums  Pilsēta  Personas kods  Telefons Diagnoze 
101 Jānis Bērziņš 35  Rīga 120390-***** 29123456  Hipertensija 
102 Anna Kalniņa 28  Liepāja 040795-*****  26789012  Diabēts 
103 Pēteris Ozols 40 Daugavpils  150882-*****  22334455  Migrēna 
104 Laura Liepa 32 Jelgava 080188-*****  26543218  Astma 
Pēc datu dzēšanas:
ID  Vecums  Pilsēta  Diagnoze
101 35 
Rīga Hipertensija
102 28 Liepāja  Diabēts
103 40 Daugavpils Migrēna
104 32 Liepāja Astma
  • Datu vispārināšana (generalization): Aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta.
Piemērs datu vispārināšanai 
Oriģinālie dati:
ID  Dzimšanas datums  Adrese 
101 17.02.1993  Lāčplēša iela 17-2, Rīga 
102 04.08.1965  Upes iela 12, Liepāja 
103 24.11.1991  Slokas iela 193-1, Rīga 
Pēc datu vispārināšanas:
ID  Vecuma grupa  Pilsēta 
101 30-40  Rīga 
102 50-60  Liepāja 
103 30-40  Rīga 
  • Mikroagregācija: grupē līdzīgus ierakstus un oriģinālās individuālās vērtības aizstāj ar grupas vidējo. 
Oriģinālie dati:
ID  Vecums Alga (EUR)
101 25 1000
102 27 1200
103 30 1400
104 40 1800
105 42 2000
106 45 2200
Pēc mikroagregācijas (grupējam pa trīs un aizstājam ar vidējo vērtību): 
ID  Vecums Alga (EUR)
101 27 1200
102 27 1200
103 27 1200
104 42 2000
105 42 2000
106 42 2000
  • Datu sajaukšana (randomization): paņēmienu kopums, kas maina datu patiesumu, lai novērstu ciešo saikni starp datiem un personu. Paņēmiena pamatā ir pētījuma datu vērtību secības samainīšana tabulas kolonnās tā, lai nebūtu vairs izsekojama reālā saistība starp konkrētiem rādītājiem. Kopējais priekšstats par datiem nemainās.
Oriģinālie dati:
ID  Vārds Vecums Pilsēta Alga (EUR)
101 Jānis 35 Rīga  1200
102 Anna 28 Liepāja  900
103 Pēteris 40 Daugavpils  1500
104 Laura 32 Jelgava  1100
Pēc datu sajaukšanas:
ID  Vārds Vecums Pilsēta Alga (EUR)
101 Jānis 32 Liepāja  1500
102 Anna 40 Daugavpils  1100
103 Pēteris 28 Jelgava 1200
104 Laura 35 Rīga 900
  • Trokšņa pievienošana (noise addition): pievieno nejaušu “troksni” (nejaušas izmaiņas) datiem, lai slēptu precīzas vērtības, vienlaikus saglabājot statistisko vērtību. Sākotnēji nepieciešams izvēlēties, cik lielu “troksni” pievienot, un tad katram ierakstam (katrai izvēlētā identifikatora vērtībai) pievieno vai atņem nejaušu vērtību “trokšņa” robežās.
Oriģinālie dati:
ID  Vecums Alga (EUR)
101 34 3200
102 45 4800
103 28 2700
104 56 5400
Pēc trokšņa pievienošanas (+/-10% algai un +/-2 gadi vecumam):
ID  Vecums (ar troksni) Alga ar troksni (EUR)
101 36 3000
102 43 5220
103 30 2450
104 54 5150

Anonimizācijas rīki un to pielietojums 

Lai efektīvi veiktu anonimizāciju, izmanto specializētus rīkus, kas automatizē datu pārveidošanas procesu un samazina kļūdu riskus. Daži populāri rīki: 
  • ARX
    Pielietojums: Atvērtā koda rīks, kas ļauj anonimizēt datus, izmantojot datu vispārināšanas, mikroagregācijas vai k-anonimitātes metodes, spēj apstrādāt lielas datu kopas.
    Kad izmantot? Lielām strukturētām datu kopām, piemēram, pacientu ierakstiem vai sociālo datu analīzei. 
  • Amnesia
    Pielietojums: Rīks, kas nodrošina automātisku anonimizāciju, balstoties uz statistisko risku analīzi. Pieejama tīmekļa versija, lai izmēģinātu pakalpojumu, bez sensitīviem datiem.
    Kad izmantot? Datu kopu sagatavošanai publiskai izmantošanai vai sadarbībai ar trešajām personām. 
  • sdcMicro (R pakotne)
    Pielietojums: Rīks statistikas datu anonimizācijai, kas īpaši piemērots maziem paraugiem un jutīgiem atribūtiem. Atbalsta mikroagregāciju, datu sajaukšanu, k-anonimitāti.
    Kad izmantot? Ja strādā ar R valodu un nepieciešams nodrošināt datu konfidencialitāti statistikas analīzēs; sociālo pētījumu un ekonomisko datu. 
  • Python bibliotēkas (Pandas, Faker)
    Pielietojums: Datu anonimizācija, izmantojot datu aizstāšanu, jauktu vērtību ģenerēšanu vai trokšņa pievienošanu.
    Kad izmantot? Pielāgotai anonimizācijai programmatūras risinājumos vai liela apjoma datu apstrādei. 

Datu apstrādes un analīzes rīki 

Datu apstrādi un analīzi iespējams veikt ar dažādu rīku palīdzību.  

Ieteikumi datu apstrādes un analīzes rīku izvēlei 

  • Izvēlies rīkus, kas vislabāk atbilst konkrētā pētījuma vajadzībām un datu tipiem. 
  • Nodrošini, lai izvēlētie rīki būtu viegli pieejami un lai citi pētnieki varētu atkārtot veikto analīzi.  
  • Lai nodrošinātu atkārtojamību, datu apstrādei un analīzei izmanto rīkus, kas nodrošina caurspīdīgumu un skaidru dokumentāciju. Izvēlies rīkus, kas nodrošina skriptu veidošanu, lai dokumentētu visu apstrādes un analīzes procesu un atkārtoti piemērotu to jaunajiem datiem. 
  • Ja nepieciešams, apmāci pētniekus un komandas locekļus izmantot attiecīgos rīkus, lai uzlabotu datu apstrādes kvalitāti un efektivitāti. 

Kvalitatīvo datu apstrādes un analīzes rīki  

  • Atlas.ti, MAXQDA, NVivo ir kvalitatīvo datu analīzes programmatūras, kas palīdz pētniekiem kodēt, strukturēt, interpretēt un vizualizēt teksta, audio, video un citus datus. 

Kvantitatīvo datu apstrādes un analīzes rīki 

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību.

 

Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei.

 

Kvantitatīvu datu apstrādes dokumentēšana 

  • R un RStudio – R ir plaši izmantots statistikas un datu analīzes rīks ar daudzām pakotnēm, kas nodrošina dažādas metodes un reproducējamus koda piemērus. RStudio piedāvā ērtu saskarni projektu un koda organizēšanai.  
  • Python  – Python ir elastīga programmēšanas valoda, kas tiek plaši izmantota datu analīzē un mašīnmācībā. Python ir salāgojams ar dažādiem rīkiem, lai izveidotu atkārtojamas darba plūsmas ar koda un rezultātu pierakstiem. 
  • Excel joprojām ir viens no visbiežāk izmantotajiem rīkiem datu tīrīšanai un apstrādei, īpaši mazākām datu kopām. 
  • SPSS un Stata ir komerciāli pieejami rīki, kas īpaši piemēroti sociālo zinātņu un ekonomikas datu analīzei. 

Datu vizualizācijas rīki 

  • Datu vizualizācija palīdz labāk saprast un interpretēt datus. Tableau, Power BI un Looker Studio ir populāri vizualizācijas rīki, nodrošina interaktīvu grafiku un diagrammu veidošanu. 
  • ggplot2 (R pakotne) un matplotlib (Python pakotne) izmanto akadēmiskajos pētījumos datu vizualizācijai, lai efektīvi atspoguļotu analīzes rezultātus. 

Datu apstrāde un analīze

Datu apstrāde ir pētniecības projekta posms, kurā ievāktie dati tiek pārveidoti vēlamajā formātā un sagatavoti analīzei. Kvalitatīvi veikta datu apstrāde ir pētnieciskās integritātes un uzticamības pamatā. 

Datu apstrādes dokumentēšana 

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību. Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei. 

Kvantitatīvu datu apstrādes dokumentēšana 

Datu avots: norādi, kur dati iegūti, piemēram, no aptaujas, eksperimentiem, publiskas datubāzes. Precīzi apraksti datu iegūšanas metodi un instrumentus, piemēram, aptaujas anketu, mērinstrumentus.  
Datu tīrīšana un sagatavošana: apraksti visus veiktos datu tīrīšanas soļus. Šo aprakstu var veikt  dažādos veidos. Piemēram, ja datu apstrādei tiek izmantota programmēšanas valoda, tad var saglabāt kodu jeb skriptu ar aprakstošiem komentāriem. Ja datu apstrāde tiek veikta tā sauktajās point and click programmās kā Excel, SPSS, STATA, tad apstrādes soļus vēlams dokumentēt kodu grāmatās, datu vārdnīcās, ReadMe datnēs vai cita veida dokumentācijā. 

Būtiski piefiksēt:

  • Trūkstošo vērtību apstrādi: kā rīkojies ar trūkstošām vērtībām, piemēram, izlaidi rindas, aizpildīji ar vidējo vērtību, utt.  
  • Anomāliju (outliers) apstrādi: kā identificēji un apstrādāji anomālijas, piemēram, izlaidi, transformēji.  
  • Datu transformācijas: vai veici kādas datu transformācijas, piemēram, normalizāciju, logaritmisko transformāciju? Kāpēc un kā?  
  • Kodēšana un kategorizācija: apraksti, kā kodēji vai kategorizēji datus, piemēram, izveidoji vecuma grupas.  
Statistiskās metodes: detalizēti apraksti visas izmantotās statistiskās metodes un testus.
  • Aprakstošā statistika (descriptive statistics): norādi, kādus aprakstošos statistikas rādītājus aprēķināji, piemēram, aritmētiskais vidējais, mediāna, standartnovirze, procenti.
  • Secinošā statistika (inferential statistics): ja izmantoji secinošās statistikas metodes, piemēram, t-testu, ANOVA, regresijas analīzi, norādi:
    • Konkrētos testus: precīzi nosauc testus, piemēram, divu neatkarīgu izlašu t-tests, Pīrsona korelācijas koeficients.
    • Pieņēmumus (assumptions): pārbaudi un dokumentē, vai dati atbilst izmantoto testu pieņēmumiem, piemēram, normalsadalījumam, homogenitātei.
    • Statistisko nozīmīgumu: norādi p-vērtības un nozīmīguma līmeni, piemēram, p < 0,05.
Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji datu apstrādei un analīzei, piemēram, Excel, SPSS, R, Python ar konkrētām bibliotēkām vai pakotnēm. Ja iespējams, iekļauj izmantotos skriptus vai kodu.  
Rezultāti un interpretācijas: skaidri un kodolīgi apraksti statistiskās analīzes rezultātus. Iekļauj tabulas, grafikus un diagrammas, lai vizualizētu datus. Interpretē rezultātus un izskaidro, ko tie nozīmē pētījuma kontekstā. 

Kvalitatīvo datu apstrādes dokumentēšana 

Datu avots: norādi, kā kvalitatīvie dati iegūti, piemēram, no intervijām, fokusgrupām, dokumentiem, novērojumiem. Detalizēti apraksti datu iegūšanas metodi un kontekstu, piemēram, interviju protokolu, fokusgrupu vadlīnijas, novērojumu vietu un laiku.
Datu transkripcija (ja nepieciešams): ja dati ievākti audio vai video formātā un tika transkribēti, apraksti transkripcijas procesu. Vai transkripcija bija burtiska vai rediģēta? Vai tika veikta pseidonimizācija/anonimizācija?
Kodēšanas shēma/kategorijas: apraksti kodēšanas shēmu vai kategorijas, ko izmantoji datu analīzei.
  • Kā kategorijas/kodi tika identificēti: izskaidro, kā tēmas tika identificētas, piemēram, induktīvi, no datiem, vai deduktīvi, balstoties uz teoriju
  • Kodēšanas definīcijas: sniedz skaidras definīcijas katrai kodēšanas kategorijai
  • Kodēšanas piemēri: iekļauj piemērus no datiem, kas ilustrē katru kategoriju
  • Starpkodētāju uzticamība (ja vairāki kodētāji): ja datus kodēja vairāki cilvēki, apraksti, vai un kā tika nodrošināta starpkodētāju uzticamība, piemēram, aprēķināts Koena kappa koeficients, diskusijas par nesakritībām
Analīzes process: detalizēti apraksti analīzes procesu.
  • Analīzes metode: apraksti, kādu kvalitātīvās analīzes metodi izmantoji, piemēram, tematisko, diskursa, fenomenoloģisko vai naratīva analīzi. Apraksti konkrētus analīzes soļus un principus, kas tika ievēroti
  • Veic refleksivitātes pierakstus, lai kritiski izvērtētu, kā pētnieka personīgā pieredze, vērtības, priekšstati un sociokulturālā piederība var ietekmēt pētījuma gaitu, rezultātu interpretāciju un secinājumus
Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji kvalitatīvo datu apstrādei, piemēram, NVivo, Atlas.ti, MAXQDA, manuālu kodēšanu Excel.
Rezultāti un interpretācija: prezentē galvenās tēmas, modeļus un atziņas, kas izriet no kvalitatīvās analīzes. Ilustrē tēmas ar citātiem no datiem (anonimizējot respondentus, ja nepieciešams).

Sensitīvo datu apstrāde 

Sensitīvi dati ietver personu identificējamu informāciju, medicīniskos, ģenētiskos datus un citus, kuru atklāšana var apdraudēt indivīdu vai organizāciju intereses un radīt diskrimināciju vai kaitējumu. 
Sensitīvu datu apstrāde var radīt nopietnas sekas indivīdam, ja apstrādes procesā vai rezultātā tie tiek neatbilstoši izmantoti vai nonāk nepiederošu personu rīcībā. Sensitīvo datu apstrāde prasa visaptverošu pieeju, lai aizsargātu privātumu un nodrošinātu atbilstību likumdošanai. Risku samazināšanai izmanto datu minimizācijas pieeju, kas ietver datu pseidonimizāciju un anonimizāciju. Šīs metodes atšķiras pēc to rakstura, rīkiem un piemērošanas situācijām, kas ir atkarīgas no pētījuma specifikas. Tomēr, lai pilnībā nodrošinātu datu drošību, būtiski ir izvērtēt arī citus aizsardzības pasākumus. 

Svarīgi aspekti sensitīvo datu apstrādē 

  • Datu aizsardzība, konfidencialitāte un piekļuves kontrole
    • Visi dati jāapstrādā un jāglabā tā, lai tie būtu pieejami tikai autorizētām personām
    • Piekļuve datiem jāierobežo, izmantojot divpakāpju autentifikāciju, piekļuves tiesību pārvaldību un datu piekļuves žurnālus (lai reģistrētu, kas un kad ir skatījies datus)
    • Piemērs: Izmantot RBAC (Role-Based Access Control), lai piešķirtu piekļuvi tikai pēc lomām, piemēram, pētnieks, administrators
  • Juridisko prasību ievērošana
    • Jāievēro starptautiskie un vietējie regulējumi, piemēram:
      • VDAR / GDPR (Vispārīgā Datu Aizsardzības Regula) – nosaka stingrus noteikumus personas datu apstrādei Eiropas Savienībā.
  • Drošības pasākumi pret datu noplūdēm
    • Datu šifrēšana gan glabāšanas, gan pārsūtīšanas laikā.
    • Regulāra datu kopiju izveide un testēšana, lai novērstu datu zaudēšanu.
    • Sensitīvo datu dzēšana pēc to lietošanas termiņa beigām.

Pseidonimizācija 

Pseidonimizācija ir process, kurā personas dati tiek aizvietoti ar izdomātiem identifikatoriem (pseidonīmiem), piemēram, ar kodiem vai unikāliem numuriem, saglabājot iespēju atjaunot sākotnējo informāciju, ja nepieciešams.  
Piemēram, datu kopā personas vārds var tikt aizstāts ar dalībnieka numuru. Papildus tiek izveidots atslēgas fails, kur tiek atšifrēts, kādam dalībnieka numuram atbilst katra dalībnieka vārds. Šis atslēgas fails tiek glabāts atsevišķi no pseidonimizētās datu kopas, lai nodrošinātu datu aizsardzību. 
Pseidonimizējot datus, notiek darbs ar pētījuma oriģinālo datu tabulu un izveidoto kodu tabulu. Oriģinālo datu kolonnās, kuras satur sensitīvu informāciju, vērtības tiek aizstātas ar attiecīgo pseidonīmu jeb kodu. Šo procesu var veikt gan manuāli, gan ar IT rīkiem. 

Galvenās iezīmes 

  • Dati joprojām ir saistīti ar konkrētu personu, bet tie ir aizsargāti no tiešas identifikācijas
  • Uz pseidonimizētiem datiem joprojām attiecas personu datu aizsardzības prasības, jo pastāv risks, ka, izmantojot papildu informāciju, personas varētu tikt identificētas
  • Piemērots gadījumiem, kad nepieciešama datu atjaunošana vai papildināšana

Pseidonimizācijas procesa būtiskākie soļi 

1. Datu izvērtēšana un klasifikācija 

Pirmais solis ir rūpīgi izvērtēt esošo datu kopu un identificēt 
  • Kuri lauki ir tiešie identifikatori (piemēram, vārds, personas kods)?
  • Kuri lauki ir netiešie identifikatori (piemēram, dzimšanas datums, pasta indekss)?
  • Kuri lauki ir sensitīvā informācija (piemēram, veselības dati, etniskā piederība)?
  • Kuri lauki ir pētniecības vajadzībām nepieciešamie dati?
Šajā solī ir svarīgi saprast, kādi dati tiks apstrādāti un kādus identifikatorus nepieciešams aizvietot ar pseidonīmiem. 

2. Pseidonimizācijas stratēģijas izvēle 

Atkarībā no datu veida un pētniecības mērķiem, jāizvēlas piemērotākā stratēģija 
  • Kodu tabulas: viena no vienkāršākajām un intuitīvi saprotamākajām pseidonimizācijas metodēm. Tā būtībā ir datu struktūra, kas tiešā veidā sasaista oriģinālos identifikatorus ar mākslīgi izveidotiem pseidonīmiem. Kodu tabulas pamatā ir vienkārša “atslēga-vērtība” (key-value) tipa datu struktūra:
    • Atslēga ir oriģinālais identifikators (piemēram, pētījuma dalībnieka vārds)
    • Vērtība ir piešķirtais pseidonīms (piemēram, kods vai ID numurs)

Oriģinālie dati:

Vārds, Uzvārds  Studenta ID   Fakultāte  Fiziskās aktivitātes līmenis 
Jānis Bērziņš  St-2024-001  Datorzinātnes  Zems 
Līga Ozola  St-2024-002  Medicīnas  Vidējs 
Kārlis Priedītis  St-2024-003 Sociālo zinātņu  Vidējs 

Izveidota kodu tabula (glabājas drošā, šifrētā datubāzē): 

Vārds, Uzvārds  Studenta ID   Dalībnieka ID 
Jānis Bērziņš  St-2024-001  ID-042 
Līga Ozola  St-2024-002  ID-043
Kārlis Priedītis  St-2024-003 ID-044

Pseidonimizētie dati (izmantojami pētījumā): 

Dalībnieka ID  Fakultāte  Fiziskās aktivitātes līmenis 
ID-042  Datorzinātnes  Zems 
ID-043  Medicīnas  Vidējs 
ID-044 Sociālo zinātņu  Vidējs 
Kodu tabula ir vienkārša un viegli saprotama, kā arī īstenojama bez sarežģītiem algoritmiem. Pētniekam ir pilnīga kontrole pār pseidonīmu formātu un saturu. Šī metode arī ir viegli atšifrējama, kur ar kodu tabulas palīdzību ērti var atjaunot oriģinālos datus, ja nepieciešams.   
Tomēr jāņem vērā, ja  kodu tabula tiek kompromitēta, visa pseidonimizācijas sistēma sabrūk, kā arī lielām datu kopām var kļūt grūti pārvaldāma un pastāv manuālu kļūdu risks. Lai uzlabotu kodu tabulu drošību, nepieciešams glabāt kodu tabulu šifrētā formātā, atdalīt kodu tabulu no pētniecības datu kopu glabāšanas vietas, ierobežot piekļuvi tikai īpaši pilnvarotām personām, veidot auditācijas pierakstus par katru piekļuves gadījumu. 
  • Kriptografiskās funkcijas: pseidonimizācijai mēdz izmantot arī hash funkcijas vai šifrēšanu, lai sistemātiski pārveidotu identifikatorus. Kriptografiskās funkcijas ir matemātiski algoritmi, kas pārveido oriģinālos datus (identifikatorus) neatpazīstamā formā, bet dara to sistemātiski un (atkarībā no metodes) potenciāli atgriezeniski. 
    • Hash funkcijas pārveido jebkura izmēra ievaddatus (piemēram, vārdu vai personas kodu) par fiksēta garuma virkni, ko sauc par “hash vērtību” jeb “kontrolsummu”. Šī ir viena virziena funkcija — no hash vērtības praktiski nav iespējams atjaunot oriģinālo vērtību, ja vien nav izveidots atsevišķs atslēgas fails. Izmantojot hash funkciju, tā pati ievadvērtība vienmēr radīs to pašu hash vērtību, līdz ar to pat nelielas izmaiņas ievaddatos radīs pilnīgi atšķirīgu hash vērtību.  
Process soli pa solim:  
    1. Izvēlas piemērotu hash algoritmu (piemēram, SHA-256, SHA-3) 
    2. Atlasa identifikatoru (piemēram, “Jānis Bērziņš”) 
    3. Algoritms pārveido šo tekstu fiksēta garuma ciparu un burtu virknē (piemēram, “5d41402abc4b2a76b9719d911017c592”) 
    4. Šī hash vērtība aizstāj oriģinālo identifikatoru viscaur datu kopā
Piemēri ar hash funkciju SHA-256: 
SHA-256(“Jānis Bērziņš”) = 7b9d67f94873e2d4c7874bc5742227c7b0d44fad343e29e9686dd2608b489985 
SHA-256(“Anna Kalna”) = 9f9dda4086fb4a6430ea3518aa5f724dc9d1c134d0eee44580edca19b62e0d3f 
    • Šifrēšana ir divu virzienu process – datus var gan šifrēt, gan atšifrēt, kam nepieciešama šifrēšanas atslēga (vai atslēgu pāris asimetriskajā šifrēšanā). Šo metodi var izmantot gan vienkāršām, gan sarežģītām datu struktūrām. Šifrēšana nodrošina labāku drošību nekā vienkārša kodu tabula, ja atslēga tiek pienācīgi aizsargāta.
Process soli pa solim:
      • Sākotnēji nepieciešams izvēlēties šifrēšanas algoritmu (piemēram, AES, RSA)
      • Ģenerē šifrēšanas atslēgu (vai atslēgu pāri)
      • Šifrē identifikatoru ar izvēlēto atslēgu
      • Aizstāj oriģinālo identifikatoru ar šifrēto versiju
      • Drošā veidā uzglabā atšifrēšanas atslēgu
Piemērs ar AES šifrēšanu: 
Oriģināls: “220185-12345” (personas kods) 
AES-šifrēts (ar atslēgu “UniversityResearch2023”): “fR7y2pL9xQ3zT8vW1sK4jH6gD0” 
  • Tokenizācija ir process, kurā oriģinālie dati tiek aizstāti ar aizstājējvērtībām jebžetoniem” (tokens), kas saglabā oriģinālo datu formātu un dažkārt pat daļu no struktūras, bet ne faktisko saturu. Šī metode saglabā datu formātu un struktūru (piemēram, ciparu skaitu). Žetonus nevar atgriezeniski pārveidot atpakaļ oriģinālajos datos bez piekļuves īpašai žetonu tabulai. Šī metode var būt vieglāk integrējama esošajās sistēmās, jo saglabā datu formātu. To bieži izmanto finanšu sektorā (kredītkaršu numuru aizsardzībai). 
Piemērs ar personas koda tokenizāciju: 
Oriģināls: “220185-12345” 
Tokenizēts: “XXXXXX-12345” (saglabājot pēdējos 5 ciparus) 
Tokenizēts: “220185-XXXXX” (saglabājot dzimšanas datuma daļu) 
  • Pseidonīmu ģenerēšana pēc noteikta algoritma ir process, kur tā vietā, lai vienkārši piešķirtu nejauši izvēlētus kodus, algoritmiski pseidonīmi tiek veidoti pēc konkrēta, konsekventa likuma: 
    • Pseidonīmi seko vienotam formātam, piemēram, prefikss + numurs 
    • Pseidonīmu ģenerēšanas algoritms var ņemt vērā noteiktas oriģinālo datu īpašības 
    • Pseidonīmus var veidot tā, lai tie saglabātu noteiktas metadatu kategorijas 
Pseidonīmu piešķiršana soli pa solim: 
    • Izveido unikālus pseidonīmus katram indivīdam vai ierakstam
    • Veic sistemātisku identifikatoru aizvietošanu ar pseidonīmiem
    • Pārliecinies, ka pseidonīmi tiek konsekventi lietoti visā datu kopā
Piemērs: Strukturēti pseidonīmi klīniskā pētījumā 
Pieņemsim, ka analizēsim datus no trim dažādām nodaļām: Kardioloģijas (KAR), Neiroloģijas (NEU) un Gastroenteroloģijas (GAS). 
Algoritma definīcija: 
    • Pirmie trīs burti: nodaļas kods (KAR, NEU, GAS)
    • Nākamais burts: dzimums (M vai F)
    • Nākamie divi cipari: vecuma grupa (piemēram, 45 = 40-49 gadi)
    • Pēdējie trīs cipari: secīgs numurs attiecīgajā grupā
Oriģinālie dati: 
Vārds, Uzvārds  Dzimums  Vecums  Nodaļa  Covid-19 tests 
Jānis Bērziņš  Vīrietis  47  Kardioloģija  Pozitīvs 
Līga Ozola  Sieviete  62  Neiroloģija  Negatīvs 
Kārlis Priedītis  Vīrietis  51  Gastroenteroloģija  Negatīvs 
Pseidonimizētie dati: 
Dalībnieka kods  Covid-19 tests 
KAR-M-45-001  Pozitīvs 
NEU-F-65-001 Negatīvs 
GAS-M-55-001 Negatīvs 
Šādā pieejā pētnieki joprojām var analizēt datus pēc nodaļas, dzimuma un vecuma grupas, nezaudējot informāciju par šīm kategorijām, bet tai pat laikā nav iespējams identificēt konkrētus pacientus.  
Algoritmiski pseidonīmi ir piemēroti lielām datu kopām un ilgtermiņa pētījumiem, nodrošina vienotu pieeju visā datu kopā un pat starp dažādiem pētījumiem, var saglabāt pētniecībai noderīgu kontekstuālo informāciju, samazina manuālu darbu un kļūdu risku.  
Tomēr jāņem vērā, ja algoritms kļūst zināms, var būt iespējams atjaunot oriģinālos datus. Strukturēti pseidonīmi var atklāt šablonus, kas palīdz re-identifikācijā. Turklāt pārāk informatīvi pseidonīmi var atklāt sensitīvu informāciju, kā arī šī metode var prasīt augstākas tehniskās prasmes nekā vienkāršas kodu tabulas.  
Lai mazinātu ar šo metodi saistītos riskus, ieteicams izvairīties no pārāk daudz metadatu iekļaušanas pseidonīmos, aizsargāt algoritma detaļas un parametrus kā konfidenciālu informāciju, kā arī regulāri veikt riska novērtējumus, pārbaudot pseidonīmu izpaušanas pakāpi.  
Gan kodu tabulas, gan algoritmiski ģenerēti pseidonīmi ir vērtīgi rīki datu aizsardzībai. Kodu tabulas piedāvā vienkāršību un tiešu kontroli, bet var būt grūti paplašināmas. Algoritmiski pseidonīmi piedāvā efektivitāti un konsekvenci lielās datu kopās, bet var būt tehniski sarežģītāki un, ja nav pareizi ieviesti, var atklāt šablonus, kas atvieglo re-identifikāciju. 
Pseidonimizācijas stratēģijas izvēle ir būtiska, un tai jābalstās uz rūpīgu riska novērtējumu, ņemot vērā datu veidu, pētījuma apmēru un ilgumu, pieejamos resursus un drošības prasības. Daudzos gadījumos visefektīvākā ir hibrīda pieeja, kas apvieno abu stratēģiju priekšrocības, vienlaikus mazinot to trūkumus. 

Anonimizācija 

Anonimizācija ir process, kurā dati tiek pilnībā pārveidoti tā, lai vairs nav iespējams identificēt konkrētu personu, pat izmantojot papildu informāciju. Lai to panāktu, var tikt izmantotas speciālas metodes un rīki, kas nodrošina datu neatgriezenisku pārveidošanu. Tas ir svarīgi, lai aizsargātu privātumu, īpaši ievērojot Vispārīgo datu aizsardzības regulu (GDPR). 

Galvenās iezīmes 

  • Dati vairs nav saistāmi ar konkrētu personu, un to atjaunošana nav iespējama 
  • Augstāks aizsardzības līmenis, jo tiek pilnībā novērsta identifikācijas iespēja 
  • Piemērota datu kopām, kas tiks padarītas publiski pieejamas, kā arī pētījumiem, kur nav nepieciešams saglabāt saistību ar konkrētu personu, vai kur nav paredzēts datu kopu papildināt 

Galvenās datu anonimizācijas metodes 

  • Datu dzēšana: viena no visvienkāršākajām anonimizācijas metodēm ir sensitīvo datu dzēšana no datu kopas. Tas var tikt darīts gadījumos, kad sensitīvie dati vairs nav nepieciešami, tos nav nepieciešamība papildināt un turpmāk tie netiks izmantoti datu analīzē.  
Oriģinālie dati:
ID  Vārds  Vecums  Pilsēta  Personas kods  Telefons Diagnoze 
101 Jānis Bērziņš 35  Rīga 120390-***** 29123456  Hipertensija 
102 Anna Kalniņa 28  Liepāja 040795-*****  26789012  Diabēts 
103 Pēteris Ozols 40 Daugavpils  150882-*****  22334455  Migrēna 
104 Laura Liepa 32 Jelgava 080188-*****  26543218  Astma 
Pēc datu dzēšanas:
ID  Vecums  Pilsēta  Diagnoze
101 35 
Rīga Hipertensija
102 28 Liepāja  Diabēts
103 40 Daugavpils Migrēna
104 32 Liepāja Astma
  • Datu vispārināšana (generalization): Aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta.
Piemērs datu vispārināšanai 
Oriģinālie dati:
ID  Dzimšanas datums  Adrese 
101 17.02.1993  Lāčplēša iela 17-2, Rīga 
102 04.08.1965  Upes iela 12, Liepāja 
103 24.11.1991  Slokas iela 193-1, Rīga 
Pēc datu vispārināšanas:
ID  Vecuma grupa  Pilsēta 
101 30-40  Rīga 
102 50-60  Liepāja 
103 30-40  Rīga 
  • Mikroagregācija: grupē līdzīgus ierakstus un oriģinālās individuālās vērtības aizstāj ar grupas vidējo. 
Oriģinālie dati:
ID  Vecums Alga (EUR)
101 25 1000
102 27 1200
103 30 1400
104 40 1800
105 42 2000
106 45 2200
Pēc mikroagregācijas (grupējam pa trīs un aizstājam ar vidējo vērtību): 
ID  Vecums Alga (EUR)
101 27 1200
102 27 1200
103 27 1200
104 42 2000
105 42 2000
106 42 2000
  • Datu sajaukšana (randomization): paņēmienu kopums, kas maina datu patiesumu, lai novērstu ciešo saikni starp datiem un personu. Paņēmiena pamatā ir pētījuma datu vērtību secības samainīšana tabulas kolonnās tā, lai nebūtu vairs izsekojama reālā saistība starp konkrētiem rādītājiem. Kopējais priekšstats par datiem nemainās.
Oriģinālie dati:
ID  Vārds Vecums Pilsēta Alga (EUR)
101 Jānis 35 Rīga  1200
102 Anna 28 Liepāja  900
103 Pēteris 40 Daugavpils  1500
104 Laura 32 Jelgava  1100
Pēc datu sajaukšanas:
ID  Vārds Vecums Pilsēta Alga (EUR)
101 Jānis 32 Liepāja  1500
102 Anna 40 Daugavpils  1100
103 Pēteris 28 Jelgava 1200
104 Laura 35 Rīga 900
  • Trokšņa pievienošana (noise addition): pievieno nejaušu “troksni” (nejaušas izmaiņas) datiem, lai slēptu precīzas vērtības, vienlaikus saglabājot statistisko vērtību. Sākotnēji nepieciešams izvēlēties, cik lielu “troksni” pievienot, un tad katram ierakstam (katrai izvēlētā identifikatora vērtībai) pievieno vai atņem nejaušu vērtību “trokšņa” robežās.
Oriģinālie dati:
ID  Vecums Alga (EUR)
101 34 3200
102 45 4800
103 28 2700
104 56 5400
Pēc trokšņa pievienošanas (+/-10% algai un +/-2 gadi vecumam):
ID  Vecums (ar troksni) Alga ar troksni (EUR)
101 36 3000
102 43 5220
103 30 2450
104 54 5150

Anonimizācijas rīki un to pielietojums 

Lai efektīvi veiktu anonimizāciju, izmanto specializētus rīkus, kas automatizē datu pārveidošanas procesu un samazina kļūdu riskus. Daži populāri rīki: 
  • ARX
    Pielietojums: Atvērtā koda rīks, kas ļauj anonimizēt datus, izmantojot datu vispārināšanas, mikroagregācijas vai k-anonimitātes metodes, spēj apstrādāt lielas datu kopas.
    Kad izmantot? Lielām strukturētām datu kopām, piemēram, pacientu ierakstiem vai sociālo datu analīzei. 
  • Amnesia
    Pielietojums: Rīks, kas nodrošina automātisku anonimizāciju, balstoties uz statistisko risku analīzi. Pieejama tīmekļa versija, lai izmēģinātu pakalpojumu, bez sensitīviem datiem.
    Kad izmantot? Datu kopu sagatavošanai publiskai izmantošanai vai sadarbībai ar trešajām personām. 
  • sdcMicro (R pakotne)
    Pielietojums: Rīks statistikas datu anonimizācijai, kas īpaši piemērots maziem paraugiem un jutīgiem atribūtiem. Atbalsta mikroagregāciju, datu sajaukšanu, k-anonimitāti.
    Kad izmantot? Ja strādā ar R valodu un nepieciešams nodrošināt datu konfidencialitāti statistikas analīzēs; sociālo pētījumu un ekonomisko datu. 
  • Python bibliotēkas (Pandas, Faker)
    Pielietojums: Datu anonimizācija, izmantojot datu aizstāšanu, jauktu vērtību ģenerēšanu vai trokšņa pievienošanu.
    Kad izmantot? Pielāgotai anonimizācijai programmatūras risinājumos vai liela apjoma datu apstrādei. 

Datu apstrādes un analīzes rīki 

Datu apstrādi un analīzi iespējams veikt ar dažādu rīku palīdzību.  

Ieteikumi datu apstrādes un analīzes rīku izvēlei 

  • Izvēlies rīkus, kas vislabāk atbilst konkrētā pētījuma vajadzībām un datu tipiem. 
  • Nodrošini, lai izvēlētie rīki būtu viegli pieejami un lai citi pētnieki varētu atkārtot veikto analīzi.  
  • Lai nodrošinātu atkārtojamību, datu apstrādei un analīzei izmanto rīkus, kas nodrošina caurspīdīgumu un skaidru dokumentāciju. Izvēlies rīkus, kas nodrošina skriptu veidošanu, lai dokumentētu visu apstrādes un analīzes procesu un atkārtoti piemērotu to jaunajiem datiem. 
  • Ja nepieciešams, apmāci pētniekus un komandas locekļus izmantot attiecīgos rīkus, lai uzlabotu datu apstrādes kvalitāti un efektivitāti. 

Kvalitatīvo datu apstrādes un analīzes rīki  

  • Atlas.ti, MAXQDA, NVivo ir kvalitatīvo datu analīzes programmatūras, kas palīdz pētniekiem kodēt, strukturēt, interpretēt un vizualizēt teksta, audio, video un citus datus. 

Kvantitatīvo datu apstrādes un analīzes rīki 

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību.

 

Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei.

 

Kvantitatīvu datu apstrādes dokumentēšana 

  • R un RStudio – R ir plaši izmantots statistikas un datu analīzes rīks ar daudzām pakotnēm, kas nodrošina dažādas metodes un reproducējamus koda piemērus. RStudio piedāvā ērtu saskarni projektu un koda organizēšanai.  
  • Python  – Python ir elastīga programmēšanas valoda, kas tiek plaši izmantota datu analīzē un mašīnmācībā. Python ir salāgojams ar dažādiem rīkiem, lai izveidotu atkārtojamas darba plūsmas ar koda un rezultātu pierakstiem. 
  • Excel joprojām ir viens no visbiežāk izmantotajiem rīkiem datu tīrīšanai un apstrādei, īpaši mazākām datu kopām. 
  • SPSS un Stata ir komerciāli pieejami rīki, kas īpaši piemēroti sociālo zinātņu un ekonomikas datu analīzei. 

Datu vizualizācijas rīki 

  • Datu vizualizācija palīdz labāk saprast un interpretēt datus. Tableau, Power BI un Looker Studio ir populāri vizualizācijas rīki, nodrošina interaktīvu grafiku un diagrammu veidošanu. 
  • ggplot2 (R pakotne) un matplotlib (Python pakotne) izmanto akadēmiskajos pētījumos datu vizualizācijai, lai efektīvi atspoguļotu analīzes rezultātus.