Datu apstrāde un analīze

Datu apstrāde ir pētniecības projekta posms, kurā ievāktie dati tiek pārveidoti vēlamajā formātā un sagatavoti analīzei. Kvalitatīvi veikta datu apstrāde ir pētnieciskās integritātes un uzticamības pamatā.

Datu apstrādes dokumentēšana

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību. Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei.

Kvantitatīvu datu apstrādes dokumentēšana

Datu avots: norādi, kur dati iegūti, piemēram, no aptaujas, eksperimentiem, publiskas datubāzes. Precīzi apraksti datu iegūšanas metodi un instrumentus, piemēram, aptaujas anketu, mērinstrumentus.

Datu tīrīšana un sagatavošana: apraksti visus veiktos datu tīrīšanas soļus. Šo aprakstu var veikt dažādos veidos. Piemēram, ja datu apstrādei tiek izmantota programmēšanas valoda, tad var saglabāt kodu jeb skriptu ar aprakstošiem komentāriem. Ja datu apstrāde tiek veikta tā sauktajās point and click programmās kā Excel, SPSS, STATA, tad apstrādes soļus vēlams dokumentēt kodu grāmatās, datu vārdnīcās, ReadMe datnēs vai cita veida dokumentācijā.

Būtiski piefiksēt:

Trūkstošo vērtību apstrādi: kā rīkojies ar trūkstošām vērtībām, piemēram, izlaidi rindas, aizpildīji ar vidējo vērtību, utt.

Anomāliju (outliers) apstrādi: kā identificēji un apstrādāji anomālijas, piemēram, izlaidi, transformēji.

Datu transformācijas: vai veici kādas datu transformācijas, piemēram, normalizāciju, logaritmisko transformāciju? Kāpēc un kā?

Kodēšana un kategorizācija: apraksti, kā kodēji vai kategorizēji datus, piemēram, izveidoji vecuma grupas.

Statistiskās metodes: detalizēti apraksti visas izmantotās statistiskās metodes un testus.

Aprakstošā statistika (descriptive statistics): norādi, kādus aprakstošos statistikas rādītājus aprēķināji, piemēram, aritmētiskais vidējais, mediāna, standartnovirze, procenti.
Secinošā statistika (inferential statistics): ja izmantoji secinošās statistikas metodes, piemēram, t-testu, ANOVA, regresijas analīzi, norādi:
- Konkrētos testus: precīzi nosauc testus, piemēram, divu neatkarīgu izlašu t-tests, Pīrsona korelācijas koeficients.
- Pieņēmumus (assumptions): pārbaudi un dokumentē, vai dati atbilst izmantoto testu pieņēmumiem, piemēram, normalsadalījumam, homogenitātei.
- Statistisko nozīmīgumu: norādi p-vērtības un nozīmīguma līmeni, piemēram, p < 0,05.

Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji datu apstrādei un analīzei, piemēram, Excel, SPSS, R, Python ar konkrētām bibliotēkām vai pakotnēm. Ja iespējams, iekļauj izmantotos skriptus vai kodu.

Rezultāti un interpretācijas: skaidri un kodolīgi apraksti statistiskās analīzes rezultātus. Iekļauj tabulas, grafikus un diagrammas, lai vizualizētu datus. Interpretē rezultātus un izskaidro, ko tie nozīmē pētījuma kontekstā.

Kvalitatīvo datu apstrādes dokumentēšana

Datu avots: norādi, kā kvalitatīvie dati iegūti, piemēram, no intervijām, fokusgrupām, dokumentiem, novērojumiem. Detalizēti apraksti datu iegūšanas metodi un kontekstu, piemēram, interviju protokolu, fokusgrupu vadlīnijas, novērojumu vietu un laiku.

Datu transkripcija (ja nepieciešams): ja dati ievākti audio vai video formātā un tika transkribēti, apraksti transkripcijas procesu. Vai transkripcija bija burtiska vai rediģēta? Vai tika veikta pseidonimizācija/anonimizācija?

Kodēšanas shēma/kategorijas: apraksti kodēšanas shēmu vai kategorijas, ko izmantoji datu analīzei.

Kā kategorijas/kodi tika identificēti: izskaidro, kā tēmas tika identificētas, piemēram, induktīvi, no datiem, vai deduktīvi, balstoties uz teoriju
Kodēšanas definīcijas: sniedz skaidras definīcijas katrai kodēšanas kategorijai
Kodēšanas piemēri: iekļauj piemērus no datiem, kas ilustrē katru kategoriju
Starpkodētāju uzticamība (ja vairāki kodētāji): ja datus kodēja vairāki cilvēki, apraksti, vai un kā tika nodrošināta starpkodētāju uzticamība, piemēram, aprēķināts Koena kappa koeficients, diskusijas par nesakritībām

Analīzes process: detalizēti apraksti analīzes procesu.

Analīzes metode: apraksti, kādu kvalitātīvās analīzes metodi izmantoji, piemēram, tematisko, diskursa, fenomenoloģisko vai naratīva analīzi. Apraksti konkrētus analīzes soļus un principus, kas tika ievēroti
Veic refleksivitātes pierakstus, lai kritiski izvērtētu, kā pētnieka personīgā pieredze, vērtības, priekšstati un sociokulturālā piederība var ietekmēt pētījuma gaitu, rezultātu interpretāciju un secinājumus

Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji kvalitatīvo datu apstrādei, piemēram, NVivo, Atlas.ti, MAXQDA, manuālu kodēšanu Excel.

Rezultāti un interpretācija: prezentē galvenās tēmas, modeļus un atziņas, kas izriet no kvalitatīvās analīzes. Ilustrē tēmas ar citātiem no datiem (anonimizējot respondentus, ja nepieciešams).

Sensitīvo datu apstrāde

Sensitīvi dati ietver personu identificējamu informāciju, medicīniskos, ģenētiskos datus un citus, kuru atklāšana var apdraudēt indivīdu vai organizāciju intereses un radīt diskrimināciju vai kaitējumu.

Sensitīvu datu apstrāde var radīt nopietnas sekas indivīdam, ja apstrādes procesā vai rezultātā tie tiek neatbilstoši izmantoti vai nonāk nepiederošu personu rīcībā. Sensitīvo datu apstrāde prasa visaptverošu pieeju, lai aizsargātu privātumu un nodrošinātu atbilstību likumdošanai. Risku samazināšanai izmanto datu minimizācijas pieeju, kas ietver datu pseidonimizāciju un anonimizāciju. Šīs metodes atšķiras pēc to rakstura, rīkiem un piemērošanas situācijām, kas ir atkarīgas no pētījuma specifikas. Tomēr, lai pilnībā nodrošinātu datu drošību, būtiski ir izvērtēt arī citus aizsardzības pasākumus.

Svarīgi aspekti sensitīvo datu apstrādē

Datu aizsardzība, konfidencialitāte un piekļuves kontrole
- Visi dati jāapstrādā un jāglabā tā, lai tie būtu pieejami tikai autorizētām personām
- Piekļuve datiem jāierobežo, izmantojot divpakāpju autentifikāciju, piekļuves tiesību pārvaldību un datu piekļuves žurnālus (lai reģistrētu, kas un kad ir skatījies datus)
- Piemērs: Izmantot RBAC (Role-Based Access Control), lai piešķirtu piekļuvi tikai pēc lomām, piemēram, pētnieks, administrators
Juridisko prasību ievērošana
- Jāievēro starptautiskie un vietējie regulējumi, piemēram:
  - VDAR / GDPR (Vispārīgā Datu Aizsardzības Regula) – nosaka stingrus noteikumus personas datu apstrādei Eiropas Savienībā.
Drošības pasākumi pret datu noplūdēm
- Datu šifrēšana gan glabāšanas, gan pārsūtīšanas laikā.
- Regulāra datu kopiju izveide un testēšana, lai novērstu datu zaudēšanu.
- Sensitīvo datu dzēšana pēc to lietošanas termiņa beigām.

Pseidonimizācija

Pseidonimizācija ir process, kurā personas dati tiek aizvietoti ar izdomātiem identifikatoriem (pseidonīmiem), piemēram, ar kodiem vai unikāliem numuriem, saglabājot iespēju atjaunot sākotnējo informāciju, ja nepieciešams.

Piemēram, datu kopā personas vārds var tikt aizstāts ar dalībnieka numuru. Papildus tiek izveidots atslēgas fails, kur tiek atšifrēts, kādam dalībnieka numuram atbilst katra dalībnieka vārds. Šis atslēgas fails tiek glabāts atsevišķi no pseidonimizētās datu kopas, lai nodrošinātu datu aizsardzību.

Pseidonimizējot datus, notiek darbs ar pētījuma oriģinālo datu tabulu un izveidoto kodu tabulu. Oriģinālo datu kolonnās, kuras satur sensitīvu informāciju, vērtības tiek aizstātas ar attiecīgo pseidonīmu jeb kodu. Šo procesu var veikt gan manuāli, gan ar IT rīkiem.

Galvenās iezīmes

Dati joprojām ir saistīti ar konkrētu personu, bet tie ir aizsargāti no tiešas identifikācijas
Uz pseidonimizētiem datiem joprojām attiecas personu datu aizsardzības prasības, jo pastāv risks, ka, izmantojot papildu informāciju, personas varētu tikt identificētas
Piemērots gadījumiem, kad nepieciešama datu atjaunošana vai papildināšana

Pseidonimizācijas procesa būtiskākie soļi

1. Datu izvērtēšana un klasifikācija

Pirmais solis ir rūpīgi izvērtēt esošo datu kopu un identificēt

Kuri lauki ir tiešie identifikatori (piemēram, vārds, personas kods)?
Kuri lauki ir netiešie identifikatori (piemēram, dzimšanas datums, pasta indekss)?
Kuri lauki ir sensitīvā informācija (piemēram, veselības dati, etniskā piederība)?
Kuri lauki ir pētniecības vajadzībām nepieciešamie dati?

Šajā solī ir svarīgi saprast, kādi dati tiks apstrādāti un kādus identifikatorus nepieciešams aizvietot ar pseidonīmiem.

2. Pseidonimizācijas stratēģijas izvēle

Atkarībā no datu veida un pētniecības mērķiem, jāizvēlas piemērotākā stratēģija

Kodu tabulas: viena no vienkāršākajām un intuitīvi saprotamākajām pseidonimizācijas metodēm. Tā būtībā ir datu struktūra, kas tiešā veidā sasaista oriģinālos identifikatorus ar mākslīgi izveidotiem pseidonīmiem. Kodu tabulas pamatā ir vienkārša “atslēga-vērtība” (key-value) tipa datu struktūra:
- Atslēga ir oriģinālais identifikators (piemēram, pētījuma dalībnieka vārds)
- Vērtība ir piešķirtais pseidonīms (piemēram, kods vai ID numurs)

Oriģinālie dati:

Vārds, Uzvārds	Studenta ID	Fakultāte	Fiziskās aktivitātes līmenis
Jānis Bērziņš	St-2024-001	Datorzinātnes	Zems
Līga Ozola	St-2024-002	Medicīnas	Vidējs
Kārlis Priedītis	St-2024-003	Sociālo zinātņu	Vidējs

Izveidota kodu tabula (glabājas drošā, šifrētā datubāzē):

Vārds, Uzvārds	Studenta ID	Dalībnieka ID
Jānis Bērziņš	St-2024-001	ID-042
Līga Ozola	St-2024-002	ID-043
Kārlis Priedītis	St-2024-003	ID-044

Pseidonimizētie dati (izmantojami pētījumā):

Dalībnieka ID	Fakultāte	Fiziskās aktivitātes līmenis
ID-042	Datorzinātnes	Zems
ID-043	Medicīnas	Vidējs
ID-044	Sociālo zinātņu	Vidējs

Kodu tabula ir vienkārša un viegli saprotama, kā arī īstenojama bez sarežģītiem algoritmiem. Pētniekam ir pilnīga kontrole pār pseidonīmu formātu un saturu. Šī metode arī ir viegli atšifrējama, kur ar kodu tabulas palīdzību ērti var atjaunot oriģinālos datus, ja nepieciešams.

Tomēr jāņem vērā, ja kodu tabula tiek kompromitēta, visa pseidonimizācijas sistēma sabrūk, kā arī lielām datu kopām var kļūt grūti pārvaldāma un pastāv manuālu kļūdu risks. Lai uzlabotu kodu tabulu drošību, nepieciešams glabāt kodu tabulu šifrētā formātā, atdalīt kodu tabulu no pētniecības datu kopu glabāšanas vietas, ierobežot piekļuvi tikai īpaši pilnvarotām personām, veidot auditācijas pierakstus par katru piekļuves gadījumu.

Kriptografiskās funkcijas: pseidonimizācijai mēdz izmantot arī hash funkcijas vai šifrēšanu, lai sistemātiski pārveidotu identifikatorus. Kriptografiskās funkcijas ir matemātiski algoritmi, kas pārveido oriģinālos datus (identifikatorus) neatpazīstamā formā, bet dara to sistemātiski un (atkarībā no metodes) potenciāli atgriezeniski.

- Hash funkcijas pārveido jebkura izmēra ievaddatus (piemēram, vārdu vai personas kodu) par fiksēta garuma virkni, ko sauc par “hash vērtību” jeb “kontrolsummu”. Šī ir viena virziena funkcija — no hash vērtības praktiski nav iespējams atjaunot oriģinālo vērtību, ja vien nav izveidots atsevišķs atslēgas fails. Izmantojot hash funkciju, tā pati ievadvērtība vienmēr radīs to pašu hash vērtību, līdz ar to pat nelielas izmaiņas ievaddatos radīs pilnīgi atšķirīgu hash vērtību.

Process soli pa solim:

1. Izvēlas piemērotu hash algoritmu (piemēram, SHA-256, SHA-3)
2. Atlasa identifikatoru (piemēram, “Jānis Bērziņš”)
3. Algoritms pārveido šo tekstu fiksēta garuma ciparu un burtu virknē (piemēram, “5d41402abc4b2a76b9719d911017c592”)
4. Šī hash vērtība aizstāj oriģinālo identifikatoru viscaur datu kopā

Piemēri ar hash funkciju SHA-256:

SHA-256(“Jānis Bērziņš”) = 7b9d67f94873e2d4c7874bc5742227c7b0d44fad343e29e9686dd2608b489985

SHA-256(“Anna Kalna”) = 9f9dda4086fb4a6430ea3518aa5f724dc9d1c134d0eee44580edca19b62e0d3f

- Šifrēšana ir divu virzienu process – datus var gan šifrēt, gan atšifrēt, kam nepieciešama šifrēšanas atslēga (vai atslēgu pāris asimetriskajā šifrēšanā). Šo metodi var izmantot gan vienkāršām, gan sarežģītām datu struktūrām. Šifrēšana nodrošina labāku drošību nekā vienkārša kodu tabula, ja atslēga tiek pienācīgi aizsargāta.

Process soli pa solim:

- - Sākotnēji nepieciešams izvēlēties šifrēšanas algoritmu (piemēram, AES, RSA)
  - Ģenerē šifrēšanas atslēgu (vai atslēgu pāri)
  - Šifrē identifikatoru ar izvēlēto atslēgu
  - Aizstāj oriģinālo identifikatoru ar šifrēto versiju
  - Drošā veidā uzglabā atšifrēšanas atslēgu

Piemērs ar AES šifrēšanu:

Oriģināls: “220185-12345” (personas kods)

AES-šifrēts (ar atslēgu “UniversityResearch2023”): “fR7y2pL9xQ3zT8vW1sK4jH6gD0”

Tokenizācija ir process, kurā oriģinālie dati tiek aizstāti ar aizstājējvērtībām jeb “žetoniem” (tokens), kas saglabā oriģinālo datu formātu un dažkārt pat daļu no struktūras, bet ne faktisko saturu. Šī metode saglabā datu formātu un struktūru (piemēram, ciparu skaitu). Žetonus nevar atgriezeniski pārveidot atpakaļ oriģinālajos datos bez piekļuves īpašai žetonu tabulai. Šī metode var būt vieglāk integrējama esošajās sistēmās, jo saglabā datu formātu. To bieži izmanto finanšu sektorā (kredītkaršu numuru aizsardzībai).

Piemērs ar personas koda tokenizāciju:

Oriģināls: “220185-12345”

Tokenizēts: “XXXXXX-12345” (saglabājot pēdējos 5 ciparus)

Tokenizēts: “220185-XXXXX” (saglabājot dzimšanas datuma daļu)

Pseidonīmu ģenerēšana pēc noteikta algoritma ir process, kur tā vietā, lai vienkārši piešķirtu nejauši izvēlētus kodus, algoritmiski pseidonīmi tiek veidoti pēc konkrēta, konsekventa likuma:

- Pseidonīmi seko vienotam formātam, piemēram, prefikss + numurs

- Pseidonīmu ģenerēšanas algoritms var ņemt vērā noteiktas oriģinālo datu īpašības

- Pseidonīmus var veidot tā, lai tie saglabātu noteiktas metadatu kategorijas

Pseidonīmu piešķiršana soli pa solim:

- Izveido unikālus pseidonīmus katram indivīdam vai ierakstam
- Veic sistemātisku identifikatoru aizvietošanu ar pseidonīmiem
- Pārliecinies, ka pseidonīmi tiek konsekventi lietoti visā datu kopā

Piemērs: Strukturēti pseidonīmi klīniskā pētījumā

Pieņemsim, ka analizēsim datus no trim dažādām nodaļām: Kardioloģijas (KAR), Neiroloģijas (NEU) un Gastroenteroloģijas (GAS).

Algoritma definīcija:

- Pirmie trīs burti: nodaļas kods (KAR, NEU, GAS)
- Nākamais burts: dzimums (M vai F)
- Nākamie divi cipari: vecuma grupa (piemēram, 45 = 40-49 gadi)
- Pēdējie trīs cipari: secīgs numurs attiecīgajā grupā

Oriģinālie dati:

Vārds, Uzvārds	Dzimums	Vecums	Nodaļa	Covid-19 tests
Jānis Bērziņš	Vīrietis	47	Kardioloģija	Pozitīvs
Līga Ozola	Sieviete	62	Neiroloģija	Negatīvs
Kārlis Priedītis	Vīrietis	51	Gastroenteroloģija	Negatīvs

Pseidonimizētie dati:

Dalībnieka kods	Covid-19 tests
KAR-M-45-001	Pozitīvs
NEU-F-65-001	Negatīvs
GAS-M-55-001	Negatīvs

Šādā pieejā pētnieki joprojām var analizēt datus pēc nodaļas, dzimuma un vecuma grupas, nezaudējot informāciju par šīm kategorijām, bet tai pat laikā nav iespējams identificēt konkrētus pacientus.

Algoritmiski pseidonīmi ir piemēroti lielām datu kopām un ilgtermiņa pētījumiem, nodrošina vienotu pieeju visā datu kopā un pat starp dažādiem pētījumiem, var saglabāt pētniecībai noderīgu kontekstuālo informāciju, samazina manuālu darbu un kļūdu risku.

Tomēr jāņem vērā, ja algoritms kļūst zināms, var būt iespējams atjaunot oriģinālos datus. Strukturēti pseidonīmi var atklāt šablonus, kas palīdz re-identifikācijā. Turklāt pārāk informatīvi pseidonīmi var atklāt sensitīvu informāciju, kā arī šī metode var prasīt augstākas tehniskās prasmes nekā vienkāršas kodu tabulas.

Lai mazinātu ar šo metodi saistītos riskus, ieteicams izvairīties no pārāk daudz metadatu iekļaušanas pseidonīmos, aizsargāt algoritma detaļas un parametrus kā konfidenciālu informāciju, kā arī regulāri veikt riska novērtējumus, pārbaudot pseidonīmu izpaušanas pakāpi.

Gan kodu tabulas, gan algoritmiski ģenerēti pseidonīmi ir vērtīgi rīki datu aizsardzībai. Kodu tabulas piedāvā vienkāršību un tiešu kontroli, bet var būt grūti paplašināmas. Algoritmiski pseidonīmi piedāvā efektivitāti un konsekvenci lielās datu kopās, bet var būt tehniski sarežģītāki un, ja nav pareizi ieviesti, var atklāt šablonus, kas atvieglo re-identifikāciju.

Pseidonimizācijas stratēģijas izvēle ir būtiska, un tai jābalstās uz rūpīgu riska novērtējumu, ņemot vērā datu veidu, pētījuma apmēru un ilgumu, pieejamos resursus un drošības prasības. Daudzos gadījumos visefektīvākā ir hibrīda pieeja, kas apvieno abu stratēģiju priekšrocības, vienlaikus mazinot to trūkumus.

Anonimizācija

Anonimizācija ir process, kurā dati tiek pilnībā pārveidoti tā, lai vairs nav iespējams identificēt konkrētu personu, pat izmantojot papildu informāciju. Lai to panāktu, var tikt izmantotas speciālas metodes un rīki, kas nodrošina datu neatgriezenisku pārveidošanu. Tas ir svarīgi, lai aizsargātu privātumu, īpaši ievērojot Vispārīgo datu aizsardzības regulu (GDPR).

Galvenās iezīmes

Dati vairs nav saistāmi ar konkrētu personu, un to atjaunošana nav iespējama

Augstāks aizsardzības līmenis, jo tiek pilnībā novērsta identifikācijas iespēja

Piemērota datu kopām, kas tiks padarītas publiski pieejamas, kā arī pētījumiem, kur nav nepieciešams saglabāt saistību ar konkrētu personu, vai kur nav paredzēts datu kopu papildināt

Galvenās datu anonimizācijas metodes

Datu dzēšana: viena no visvienkāršākajām anonimizācijas metodēm ir sensitīvo datu dzēšana no datu kopas. Tas var tikt darīts gadījumos, kad sensitīvie dati vairs nav nepieciešami, tos nav nepieciešamība papildināt un turpmāk tie netiks izmantoti datu analīzē.

Oriģinālie dati:

ID	Vārds	Vecums	Pilsēta	Personas kods	Telefons	Diagnoze
101	Jānis Bērziņš	35	Rīga	120390-*****	29123456	Hipertensija
102	Anna Kalniņa	28	Liepāja	040795-*****	26789012	Diabēts
103	Pēteris Ozols	40	Daugavpils	150882-*****	22334455	Migrēna
104	Laura Liepa	32	Jelgava	080188-*****	26543218	Astma

Pēc datu dzēšanas:

ID	Vecums	Pilsēta	Diagnoze
101	35	Rīga	Hipertensija
102	28	Liepāja	Diabēts
103	40	Daugavpils	Migrēna
104	32	Liepāja	Astma

Datu vispārināšana (generalization): Aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta.

Piemērs datu vispārināšanai

Oriģinālie dati:

ID	Dzimšanas datums	Adrese
101	17.02.1993	Lāčplēša iela 17-2, Rīga
102	04.08.1965	Upes iela 12, Liepāja
103	24.11.1991	Slokas iela 193-1, Rīga

Pēc datu vispārināšanas:

ID	Vecuma grupa	Pilsēta
101	30-40	Rīga
102	50-60	Liepāja
103	30-40	Rīga

Mikroagregācija: grupē līdzīgus ierakstus un oriģinālās individuālās vērtības aizstāj ar grupas vidējo.

Oriģinālie dati:

ID	Vecums	Alga (EUR)
101	25	1000
102	27	1200
103	30	1400
104	40	1800
105	42	2000
106	45	2200

Pēc mikroagregācijas (grupējam pa trīs un aizstājam ar vidējo vērtību):

ID	Vecums	Alga (EUR)
101	27	1200
102	27	1200
103	27	1200
104	42	2000
105	42	2000
106	42	2000

Datu sajaukšana (randomization): paņēmienu kopums, kas maina datu patiesumu, lai novērstu ciešo saikni starp datiem un personu. Paņēmiena pamatā ir pētījuma datu vērtību secības samainīšana tabulas kolonnās tā, lai nebūtu vairs izsekojama reālā saistība starp konkrētiem rādītājiem. Kopējais priekšstats par datiem nemainās.

Oriģinālie dati:

ID	Vārds	Vecums	Pilsēta	Alga (EUR)
101	Jānis	35	Rīga	1200
102	Anna	28	Liepāja	900
103	Pēteris	40	Daugavpils	1500
104	Laura	32	Jelgava	1100

Pēc datu sajaukšanas:

ID	Vārds	Vecums	Pilsēta	Alga (EUR)
101	Jānis	32	Liepāja	1500
102	Anna	40	Daugavpils	1100
103	Pēteris	28	Jelgava	1200
104	Laura	35	Rīga	900

Trokšņa pievienošana (noise addition): pievieno nejaušu “troksni” (nejaušas izmaiņas) datiem, lai slēptu precīzas vērtības, vienlaikus saglabājot statistisko vērtību. Sākotnēji nepieciešams izvēlēties, cik lielu “troksni” pievienot, un tad katram ierakstam (katrai izvēlētā identifikatora vērtībai) pievieno vai atņem nejaušu vērtību “trokšņa” robežās.

Oriģinālie dati:

ID	Vecums	Alga (EUR)
101	34	3200
102	45	4800
103	28	2700
104	56	5400

Pēc trokšņa pievienošanas (+/-10% algai un +/-2 gadi vecumam):

ID	Vecums (ar troksni)	Alga ar troksni (EUR)
101	36	3000
102	43	5220
103	30	2450
104	54	5150

Anonimizācijas rīki un to pielietojums

Lai efektīvi veiktu anonimizāciju, izmanto specializētus rīkus, kas automatizē datu pārveidošanas procesu un samazina kļūdu riskus. Daži populāri rīki:

ARX

Pielietojums: Atvērtā koda rīks, kas ļauj anonimizēt datus, izmantojot datu vispārināšanas, mikroagregācijas vai k-anonimitātes metodes, spēj apstrādāt lielas datu kopas.

Kad izmantot? Lielām strukturētām datu kopām, piemēram, pacientu ierakstiem vai sociālo datu analīzei.

Amnesia

Pielietojums: Rīks, kas nodrošina automātisku anonimizāciju, balstoties uz statistisko risku analīzi. Pieejama tīmekļa versija, lai izmēģinātu pakalpojumu, bez sensitīviem datiem.

Kad izmantot? Datu kopu sagatavošanai publiskai izmantošanai vai sadarbībai ar trešajām personām.

sdcMicro (R pakotne)

Pielietojums: Rīks statistikas datu anonimizācijai, kas īpaši piemērots maziem paraugiem un jutīgiem atribūtiem. Atbalsta mikroagregāciju, datu sajaukšanu, k-anonimitāti.

Kad izmantot? Ja strādā ar R valodu un nepieciešams nodrošināt datu konfidencialitāti statistikas analīzēs; sociālo pētījumu un ekonomisko datu.

Python bibliotēkas (Pandas, Faker)

Pielietojums: Datu anonimizācija, izmantojot datu aizstāšanu, jauktu vērtību ģenerēšanu vai trokšņa pievienošanu.

Kad izmantot? Pielāgotai anonimizācijai programmatūras risinājumos vai liela apjoma datu apstrādei.

Datu apstrādes un analīzes rīki

Datu apstrādi un analīzi iespējams veikt ar dažādu rīku palīdzību.

Ieteikumi datu apstrādes un analīzes rīku izvēlei

Izvēlies rīkus, kas vislabāk atbilst konkrētā pētījuma vajadzībām un datu tipiem.

Nodrošini, lai izvēlētie rīki būtu viegli pieejami un lai citi pētnieki varētu atkārtot veikto analīzi.

Lai nodrošinātu atkārtojamību, datu apstrādei un analīzei izmanto rīkus, kas nodrošina caurspīdīgumu un skaidru dokumentāciju. Izvēlies rīkus, kas nodrošina skriptu veidošanu, lai dokumentētu visu apstrādes un analīzes procesu un atkārtoti piemērotu to jaunajiem datiem.

Ja nepieciešams, apmāci pētniekus un komandas locekļus izmantot attiecīgos rīkus, lai uzlabotu datu apstrādes kvalitāti un efektivitāti.

Kvalitatīvo datu apstrādes un analīzes rīki

Atlas.ti, MAXQDA, NVivo ir kvalitatīvo datu analīzes programmatūras, kas palīdz pētniekiem kodēt, strukturēt, interpretēt un vizualizēt teksta, audio, video un citus datus.

Kvantitatīvo datu apstrādes un analīzes rīki

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību.

Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei.

Kvantitatīvu datu apstrādes dokumentēšana

R un RStudio – R ir plaši izmantots statistikas un datu analīzes rīks ar daudzām pakotnēm, kas nodrošina dažādas metodes un reproducējamus koda piemērus. RStudio piedāvā ērtu saskarni projektu un koda organizēšanai.

Python – Python ir elastīga programmēšanas valoda, kas tiek plaši izmantota datu analīzē un mašīnmācībā. Python ir salāgojams ar dažādiem rīkiem, lai izveidotu atkārtojamas darba plūsmas ar koda un rezultātu pierakstiem.

Excel joprojām ir viens no visbiežāk izmantotajiem rīkiem datu tīrīšanai un apstrādei, īpaši mazākām datu kopām.

SPSS un Stata ir komerciāli pieejami rīki, kas īpaši piemēroti sociālo zinātņu un ekonomikas datu analīzei.

Datu vizualizācijas rīki

Datu vizualizācija palīdz labāk saprast un interpretēt datus. Tableau, Power BI un Looker Studio ir populāri vizualizācijas rīki, nodrošina interaktīvu grafiku un diagrammu veidošanu.

ggplot2 (R pakotne) un matplotlib (Python pakotne) izmanto akadēmiskajos pētījumos datu vizualizācijai, lai efektīvi atspoguļotu analīzes rezultātus.

Datu apstrāde un analīze

Datu apstrāde ir pētniecības projekta posms, kurā ievāktie dati tiek pārveidoti vēlamajā formātā un sagatavoti analīzei. Kvalitatīvi veikta datu apstrāde ir pētnieciskās integritātes un uzticamības pamatā.

Datu apstrādes dokumentēšana

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību. Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei.

Kvantitatīvu datu apstrādes dokumentēšana

Datu avots: norādi, kur dati iegūti, piemēram, no aptaujas, eksperimentiem, publiskas datubāzes. Precīzi apraksti datu iegūšanas metodi un instrumentus, piemēram, aptaujas anketu, mērinstrumentus.

Datu tīrīšana un sagatavošana: apraksti visus veiktos datu tīrīšanas soļus. Šo aprakstu var veikt dažādos veidos. Piemēram, ja datu apstrādei tiek izmantota programmēšanas valoda, tad var saglabāt kodu jeb skriptu ar aprakstošiem komentāriem. Ja datu apstrāde tiek veikta tā sauktajās point and click programmās kā Excel, SPSS, STATA, tad apstrādes soļus vēlams dokumentēt kodu grāmatās, datu vārdnīcās, ReadMe datnēs vai cita veida dokumentācijā.

Būtiski piefiksēt:

Trūkstošo vērtību apstrādi: kā rīkojies ar trūkstošām vērtībām, piemēram, izlaidi rindas, aizpildīji ar vidējo vērtību, utt.

Anomāliju (outliers) apstrādi: kā identificēji un apstrādāji anomālijas, piemēram, izlaidi, transformēji.

Datu transformācijas: vai veici kādas datu transformācijas, piemēram, normalizāciju, logaritmisko transformāciju? Kāpēc un kā?

Kodēšana un kategorizācija: apraksti, kā kodēji vai kategorizēji datus, piemēram, izveidoji vecuma grupas.

Statistiskās metodes: detalizēti apraksti visas izmantotās statistiskās metodes un testus.

Aprakstošā statistika (descriptive statistics): norādi, kādus aprakstošos statistikas rādītājus aprēķināji, piemēram, aritmētiskais vidējais, mediāna, standartnovirze, procenti.
Secinošā statistika (inferential statistics): ja izmantoji secinošās statistikas metodes, piemēram, t-testu, ANOVA, regresijas analīzi, norādi:
- Konkrētos testus: precīzi nosauc testus, piemēram, divu neatkarīgu izlašu t-tests, Pīrsona korelācijas koeficients.
- Pieņēmumus (assumptions): pārbaudi un dokumentē, vai dati atbilst izmantoto testu pieņēmumiem, piemēram, normalsadalījumam, homogenitātei.
- Statistisko nozīmīgumu: norādi p-vērtības un nozīmīguma līmeni, piemēram, p < 0,05.

Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji datu apstrādei un analīzei, piemēram, Excel, SPSS, R, Python ar konkrētām bibliotēkām vai pakotnēm. Ja iespējams, iekļauj izmantotos skriptus vai kodu.

Rezultāti un interpretācijas: skaidri un kodolīgi apraksti statistiskās analīzes rezultātus. Iekļauj tabulas, grafikus un diagrammas, lai vizualizētu datus. Interpretē rezultātus un izskaidro, ko tie nozīmē pētījuma kontekstā.

Kvalitatīvo datu apstrādes dokumentēšana

Datu avots: norādi, kā kvalitatīvie dati iegūti, piemēram, no intervijām, fokusgrupām, dokumentiem, novērojumiem. Detalizēti apraksti datu iegūšanas metodi un kontekstu, piemēram, interviju protokolu, fokusgrupu vadlīnijas, novērojumu vietu un laiku.

Datu transkripcija (ja nepieciešams): ja dati ievākti audio vai video formātā un tika transkribēti, apraksti transkripcijas procesu. Vai transkripcija bija burtiska vai rediģēta? Vai tika veikta pseidonimizācija/anonimizācija?

Kodēšanas shēma/kategorijas: apraksti kodēšanas shēmu vai kategorijas, ko izmantoji datu analīzei.

Kā kategorijas/kodi tika identificēti: izskaidro, kā tēmas tika identificētas, piemēram, induktīvi, no datiem, vai deduktīvi, balstoties uz teoriju
Kodēšanas definīcijas: sniedz skaidras definīcijas katrai kodēšanas kategorijai
Kodēšanas piemēri: iekļauj piemērus no datiem, kas ilustrē katru kategoriju
Starpkodētāju uzticamība (ja vairāki kodētāji): ja datus kodēja vairāki cilvēki, apraksti, vai un kā tika nodrošināta starpkodētāju uzticamība, piemēram, aprēķināts Koena kappa koeficients, diskusijas par nesakritībām

Analīzes process: detalizēti apraksti analīzes procesu.

Analīzes metode: apraksti, kādu kvalitātīvās analīzes metodi izmantoji, piemēram, tematisko, diskursa, fenomenoloģisko vai naratīva analīzi. Apraksti konkrētus analīzes soļus un principus, kas tika ievēroti
Veic refleksivitātes pierakstus, lai kritiski izvērtētu, kā pētnieka personīgā pieredze, vērtības, priekšstati un sociokulturālā piederība var ietekmēt pētījuma gaitu, rezultātu interpretāciju un secinājumus

Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji kvalitatīvo datu apstrādei, piemēram, NVivo, Atlas.ti, MAXQDA, manuālu kodēšanu Excel.

Rezultāti un interpretācija: prezentē galvenās tēmas, modeļus un atziņas, kas izriet no kvalitatīvās analīzes. Ilustrē tēmas ar citātiem no datiem (anonimizējot respondentus, ja nepieciešams).

Sensitīvo datu apstrāde

Sensitīvi dati ietver personu identificējamu informāciju, medicīniskos, ģenētiskos datus un citus, kuru atklāšana var apdraudēt indivīdu vai organizāciju intereses un radīt diskrimināciju vai kaitējumu.

Sensitīvu datu apstrāde var radīt nopietnas sekas indivīdam, ja apstrādes procesā vai rezultātā tie tiek neatbilstoši izmantoti vai nonāk nepiederošu personu rīcībā. Sensitīvo datu apstrāde prasa visaptverošu pieeju, lai aizsargātu privātumu un nodrošinātu atbilstību likumdošanai. Risku samazināšanai izmanto datu minimizācijas pieeju, kas ietver datu pseidonimizāciju un anonimizāciju. Šīs metodes atšķiras pēc to rakstura, rīkiem un piemērošanas situācijām, kas ir atkarīgas no pētījuma specifikas. Tomēr, lai pilnībā nodrošinātu datu drošību, būtiski ir izvērtēt arī citus aizsardzības pasākumus.

Svarīgi aspekti sensitīvo datu apstrādē

Datu aizsardzība, konfidencialitāte un piekļuves kontrole
- Visi dati jāapstrādā un jāglabā tā, lai tie būtu pieejami tikai autorizētām personām
- Piekļuve datiem jāierobežo, izmantojot divpakāpju autentifikāciju, piekļuves tiesību pārvaldību un datu piekļuves žurnālus (lai reģistrētu, kas un kad ir skatījies datus)
- Piemērs: Izmantot RBAC (Role-Based Access Control), lai piešķirtu piekļuvi tikai pēc lomām, piemēram, pētnieks, administrators
Juridisko prasību ievērošana
- Jāievēro starptautiskie un vietējie regulējumi, piemēram:
  - VDAR / GDPR (Vispārīgā Datu Aizsardzības Regula) – nosaka stingrus noteikumus personas datu apstrādei Eiropas Savienībā.
Drošības pasākumi pret datu noplūdēm
- Datu šifrēšana gan glabāšanas, gan pārsūtīšanas laikā.
- Regulāra datu kopiju izveide un testēšana, lai novērstu datu zaudēšanu.
- Sensitīvo datu dzēšana pēc to lietošanas termiņa beigām.

Pseidonimizācija

Pseidonimizācija ir process, kurā personas dati tiek aizvietoti ar izdomātiem identifikatoriem (pseidonīmiem), piemēram, ar kodiem vai unikāliem numuriem, saglabājot iespēju atjaunot sākotnējo informāciju, ja nepieciešams.

Piemēram, datu kopā personas vārds var tikt aizstāts ar dalībnieka numuru. Papildus tiek izveidots atslēgas fails, kur tiek atšifrēts, kādam dalībnieka numuram atbilst katra dalībnieka vārds. Šis atslēgas fails tiek glabāts atsevišķi no pseidonimizētās datu kopas, lai nodrošinātu datu aizsardzību.

Pseidonimizējot datus, notiek darbs ar pētījuma oriģinālo datu tabulu un izveidoto kodu tabulu. Oriģinālo datu kolonnās, kuras satur sensitīvu informāciju, vērtības tiek aizstātas ar attiecīgo pseidonīmu jeb kodu. Šo procesu var veikt gan manuāli, gan ar IT rīkiem.

Galvenās iezīmes

Dati joprojām ir saistīti ar konkrētu personu, bet tie ir aizsargāti no tiešas identifikācijas
Uz pseidonimizētiem datiem joprojām attiecas personu datu aizsardzības prasības, jo pastāv risks, ka, izmantojot papildu informāciju, personas varētu tikt identificētas
Piemērots gadījumiem, kad nepieciešama datu atjaunošana vai papildināšana

Pseidonimizācijas procesa būtiskākie soļi

1. Datu izvērtēšana un klasifikācija

Pirmais solis ir rūpīgi izvērtēt esošo datu kopu un identificēt

Kuri lauki ir tiešie identifikatori (piemēram, vārds, personas kods)?
Kuri lauki ir netiešie identifikatori (piemēram, dzimšanas datums, pasta indekss)?
Kuri lauki ir sensitīvā informācija (piemēram, veselības dati, etniskā piederība)?
Kuri lauki ir pētniecības vajadzībām nepieciešamie dati?

Šajā solī ir svarīgi saprast, kādi dati tiks apstrādāti un kādus identifikatorus nepieciešams aizvietot ar pseidonīmiem.

2. Pseidonimizācijas stratēģijas izvēle

Atkarībā no datu veida un pētniecības mērķiem, jāizvēlas piemērotākā stratēģija

Kodu tabulas: viena no vienkāršākajām un intuitīvi saprotamākajām pseidonimizācijas metodēm. Tā būtībā ir datu struktūra, kas tiešā veidā sasaista oriģinālos identifikatorus ar mākslīgi izveidotiem pseidonīmiem. Kodu tabulas pamatā ir vienkārša “atslēga-vērtība” (key-value) tipa datu struktūra:
- Atslēga ir oriģinālais identifikators (piemēram, pētījuma dalībnieka vārds)
- Vērtība ir piešķirtais pseidonīms (piemēram, kods vai ID numurs)

Oriģinālie dati:

Vārds, Uzvārds	Studenta ID	Fakultāte	Fiziskās aktivitātes līmenis
Jānis Bērziņš	St-2024-001	Datorzinātnes	Zems
Līga Ozola	St-2024-002	Medicīnas	Vidējs
Kārlis Priedītis	St-2024-003	Sociālo zinātņu	Vidējs

Izveidota kodu tabula (glabājas drošā, šifrētā datubāzē):

Vārds, Uzvārds	Studenta ID	Dalībnieka ID
Jānis Bērziņš	St-2024-001	ID-042
Līga Ozola	St-2024-002	ID-043
Kārlis Priedītis	St-2024-003	ID-044

Pseidonimizētie dati (izmantojami pētījumā):

Dalībnieka ID	Fakultāte	Fiziskās aktivitātes līmenis
ID-042	Datorzinātnes	Zems
ID-043	Medicīnas	Vidējs
ID-044	Sociālo zinātņu	Vidējs

Kodu tabula ir vienkārša un viegli saprotama, kā arī īstenojama bez sarežģītiem algoritmiem. Pētniekam ir pilnīga kontrole pār pseidonīmu formātu un saturu. Šī metode arī ir viegli atšifrējama, kur ar kodu tabulas palīdzību ērti var atjaunot oriģinālos datus, ja nepieciešams.

Tomēr jāņem vērā, ja kodu tabula tiek kompromitēta, visa pseidonimizācijas sistēma sabrūk, kā arī lielām datu kopām var kļūt grūti pārvaldāma un pastāv manuālu kļūdu risks. Lai uzlabotu kodu tabulu drošību, nepieciešams glabāt kodu tabulu šifrētā formātā, atdalīt kodu tabulu no pētniecības datu kopu glabāšanas vietas, ierobežot piekļuvi tikai īpaši pilnvarotām personām, veidot auditācijas pierakstus par katru piekļuves gadījumu.

Kriptografiskās funkcijas: pseidonimizācijai mēdz izmantot arī hash funkcijas vai šifrēšanu, lai sistemātiski pārveidotu identifikatorus. Kriptografiskās funkcijas ir matemātiski algoritmi, kas pārveido oriģinālos datus (identifikatorus) neatpazīstamā formā, bet dara to sistemātiski un (atkarībā no metodes) potenciāli atgriezeniski.

- Hash funkcijas pārveido jebkura izmēra ievaddatus (piemēram, vārdu vai personas kodu) par fiksēta garuma virkni, ko sauc par “hash vērtību” jeb “kontrolsummu”. Šī ir viena virziena funkcija — no hash vērtības praktiski nav iespējams atjaunot oriģinālo vērtību, ja vien nav izveidots atsevišķs atslēgas fails. Izmantojot hash funkciju, tā pati ievadvērtība vienmēr radīs to pašu hash vērtību, līdz ar to pat nelielas izmaiņas ievaddatos radīs pilnīgi atšķirīgu hash vērtību.

Process soli pa solim:

1. Izvēlas piemērotu hash algoritmu (piemēram, SHA-256, SHA-3)
2. Atlasa identifikatoru (piemēram, “Jānis Bērziņš”)
3. Algoritms pārveido šo tekstu fiksēta garuma ciparu un burtu virknē (piemēram, “5d41402abc4b2a76b9719d911017c592”)
4. Šī hash vērtība aizstāj oriģinālo identifikatoru viscaur datu kopā

Piemēri ar hash funkciju SHA-256:

SHA-256(“Jānis Bērziņš”) = 7b9d67f94873e2d4c7874bc5742227c7b0d44fad343e29e9686dd2608b489985

SHA-256(“Anna Kalna”) = 9f9dda4086fb4a6430ea3518aa5f724dc9d1c134d0eee44580edca19b62e0d3f

- Šifrēšana ir divu virzienu process – datus var gan šifrēt, gan atšifrēt, kam nepieciešama šifrēšanas atslēga (vai atslēgu pāris asimetriskajā šifrēšanā). Šo metodi var izmantot gan vienkāršām, gan sarežģītām datu struktūrām. Šifrēšana nodrošina labāku drošību nekā vienkārša kodu tabula, ja atslēga tiek pienācīgi aizsargāta.

Process soli pa solim:

- - Sākotnēji nepieciešams izvēlēties šifrēšanas algoritmu (piemēram, AES, RSA)
  - Ģenerē šifrēšanas atslēgu (vai atslēgu pāri)
  - Šifrē identifikatoru ar izvēlēto atslēgu
  - Aizstāj oriģinālo identifikatoru ar šifrēto versiju
  - Drošā veidā uzglabā atšifrēšanas atslēgu

Piemērs ar AES šifrēšanu:

Oriģināls: “220185-12345” (personas kods)

AES-šifrēts (ar atslēgu “UniversityResearch2023”): “fR7y2pL9xQ3zT8vW1sK4jH6gD0”

Tokenizācija ir process, kurā oriģinālie dati tiek aizstāti ar aizstājējvērtībām jeb “žetoniem” (tokens), kas saglabā oriģinālo datu formātu un dažkārt pat daļu no struktūras, bet ne faktisko saturu. Šī metode saglabā datu formātu un struktūru (piemēram, ciparu skaitu). Žetonus nevar atgriezeniski pārveidot atpakaļ oriģinālajos datos bez piekļuves īpašai žetonu tabulai. Šī metode var būt vieglāk integrējama esošajās sistēmās, jo saglabā datu formātu. To bieži izmanto finanšu sektorā (kredītkaršu numuru aizsardzībai).

Piemērs ar personas koda tokenizāciju:

Oriģināls: “220185-12345”

Tokenizēts: “XXXXXX-12345” (saglabājot pēdējos 5 ciparus)

Tokenizēts: “220185-XXXXX” (saglabājot dzimšanas datuma daļu)

Pseidonīmu ģenerēšana pēc noteikta algoritma ir process, kur tā vietā, lai vienkārši piešķirtu nejauši izvēlētus kodus, algoritmiski pseidonīmi tiek veidoti pēc konkrēta, konsekventa likuma:

- Pseidonīmi seko vienotam formātam, piemēram, prefikss + numurs

- Pseidonīmu ģenerēšanas algoritms var ņemt vērā noteiktas oriģinālo datu īpašības

- Pseidonīmus var veidot tā, lai tie saglabātu noteiktas metadatu kategorijas

Pseidonīmu piešķiršana soli pa solim:

- Izveido unikālus pseidonīmus katram indivīdam vai ierakstam
- Veic sistemātisku identifikatoru aizvietošanu ar pseidonīmiem
- Pārliecinies, ka pseidonīmi tiek konsekventi lietoti visā datu kopā

Piemērs: Strukturēti pseidonīmi klīniskā pētījumā

Pieņemsim, ka analizēsim datus no trim dažādām nodaļām: Kardioloģijas (KAR), Neiroloģijas (NEU) un Gastroenteroloģijas (GAS).

Algoritma definīcija:

- Pirmie trīs burti: nodaļas kods (KAR, NEU, GAS)
- Nākamais burts: dzimums (M vai F)
- Nākamie divi cipari: vecuma grupa (piemēram, 45 = 40-49 gadi)
- Pēdējie trīs cipari: secīgs numurs attiecīgajā grupā

Oriģinālie dati:

Vārds, Uzvārds	Dzimums	Vecums	Nodaļa	Covid-19 tests
Jānis Bērziņš	Vīrietis	47	Kardioloģija	Pozitīvs
Līga Ozola	Sieviete	62	Neiroloģija	Negatīvs
Kārlis Priedītis	Vīrietis	51	Gastroenteroloģija	Negatīvs

Pseidonimizētie dati:

Dalībnieka kods	Covid-19 tests
KAR-M-45-001	Pozitīvs
NEU-F-65-001	Negatīvs
GAS-M-55-001	Negatīvs

Šādā pieejā pētnieki joprojām var analizēt datus pēc nodaļas, dzimuma un vecuma grupas, nezaudējot informāciju par šīm kategorijām, bet tai pat laikā nav iespējams identificēt konkrētus pacientus.

Algoritmiski pseidonīmi ir piemēroti lielām datu kopām un ilgtermiņa pētījumiem, nodrošina vienotu pieeju visā datu kopā un pat starp dažādiem pētījumiem, var saglabāt pētniecībai noderīgu kontekstuālo informāciju, samazina manuālu darbu un kļūdu risku.

Tomēr jāņem vērā, ja algoritms kļūst zināms, var būt iespējams atjaunot oriģinālos datus. Strukturēti pseidonīmi var atklāt šablonus, kas palīdz re-identifikācijā. Turklāt pārāk informatīvi pseidonīmi var atklāt sensitīvu informāciju, kā arī šī metode var prasīt augstākas tehniskās prasmes nekā vienkāršas kodu tabulas.

Lai mazinātu ar šo metodi saistītos riskus, ieteicams izvairīties no pārāk daudz metadatu iekļaušanas pseidonīmos, aizsargāt algoritma detaļas un parametrus kā konfidenciālu informāciju, kā arī regulāri veikt riska novērtējumus, pārbaudot pseidonīmu izpaušanas pakāpi.

Gan kodu tabulas, gan algoritmiski ģenerēti pseidonīmi ir vērtīgi rīki datu aizsardzībai. Kodu tabulas piedāvā vienkāršību un tiešu kontroli, bet var būt grūti paplašināmas. Algoritmiski pseidonīmi piedāvā efektivitāti un konsekvenci lielās datu kopās, bet var būt tehniski sarežģītāki un, ja nav pareizi ieviesti, var atklāt šablonus, kas atvieglo re-identifikāciju.

Pseidonimizācijas stratēģijas izvēle ir būtiska, un tai jābalstās uz rūpīgu riska novērtējumu, ņemot vērā datu veidu, pētījuma apmēru un ilgumu, pieejamos resursus un drošības prasības. Daudzos gadījumos visefektīvākā ir hibrīda pieeja, kas apvieno abu stratēģiju priekšrocības, vienlaikus mazinot to trūkumus.

Anonimizācija

Anonimizācija ir process, kurā dati tiek pilnībā pārveidoti tā, lai vairs nav iespējams identificēt konkrētu personu, pat izmantojot papildu informāciju. Lai to panāktu, var tikt izmantotas speciālas metodes un rīki, kas nodrošina datu neatgriezenisku pārveidošanu. Tas ir svarīgi, lai aizsargātu privātumu, īpaši ievērojot Vispārīgo datu aizsardzības regulu (GDPR).

Galvenās iezīmes

Dati vairs nav saistāmi ar konkrētu personu, un to atjaunošana nav iespējama

Augstāks aizsardzības līmenis, jo tiek pilnībā novērsta identifikācijas iespēja

Piemērota datu kopām, kas tiks padarītas publiski pieejamas, kā arī pētījumiem, kur nav nepieciešams saglabāt saistību ar konkrētu personu, vai kur nav paredzēts datu kopu papildināt

Galvenās datu anonimizācijas metodes

Datu dzēšana: viena no visvienkāršākajām anonimizācijas metodēm ir sensitīvo datu dzēšana no datu kopas. Tas var tikt darīts gadījumos, kad sensitīvie dati vairs nav nepieciešami, tos nav nepieciešamība papildināt un turpmāk tie netiks izmantoti datu analīzē.

Oriģinālie dati:

ID	Vārds	Vecums	Pilsēta	Personas kods	Telefons	Diagnoze
101	Jānis Bērziņš	35	Rīga	120390-*****	29123456	Hipertensija
102	Anna Kalniņa	28	Liepāja	040795-*****	26789012	Diabēts
103	Pēteris Ozols	40	Daugavpils	150882-*****	22334455	Migrēna
104	Laura Liepa	32	Jelgava	080188-*****	26543218	Astma

Pēc datu dzēšanas:

ID	Vecums	Pilsēta	Diagnoze
101	35	Rīga	Hipertensija
102	28	Liepāja	Diabēts
103	40	Daugavpils	Migrēna
104	32	Liepāja	Astma

Datu vispārināšana (generalization): Aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta.

Piemērs datu vispārināšanai

Oriģinālie dati:

ID	Dzimšanas datums	Adrese
101	17.02.1993	Lāčplēša iela 17-2, Rīga
102	04.08.1965	Upes iela 12, Liepāja
103	24.11.1991	Slokas iela 193-1, Rīga

Pēc datu vispārināšanas:

ID	Vecuma grupa	Pilsēta
101	30-40	Rīga
102	50-60	Liepāja
103	30-40	Rīga

Mikroagregācija: grupē līdzīgus ierakstus un oriģinālās individuālās vērtības aizstāj ar grupas vidējo.

Oriģinālie dati:

ID	Vecums	Alga (EUR)
101	25	1000
102	27	1200
103	30	1400
104	40	1800
105	42	2000
106	45	2200

Pēc mikroagregācijas (grupējam pa trīs un aizstājam ar vidējo vērtību):

ID	Vecums	Alga (EUR)
101	27	1200
102	27	1200
103	27	1200
104	42	2000
105	42	2000
106	42	2000

Datu sajaukšana (randomization): paņēmienu kopums, kas maina datu patiesumu, lai novērstu ciešo saikni starp datiem un personu. Paņēmiena pamatā ir pētījuma datu vērtību secības samainīšana tabulas kolonnās tā, lai nebūtu vairs izsekojama reālā saistība starp konkrētiem rādītājiem. Kopējais priekšstats par datiem nemainās.

Oriģinālie dati:

ID	Vārds	Vecums	Pilsēta	Alga (EUR)
101	Jānis	35	Rīga	1200
102	Anna	28	Liepāja	900
103	Pēteris	40	Daugavpils	1500
104	Laura	32	Jelgava	1100

Pēc datu sajaukšanas:

ID	Vārds	Vecums	Pilsēta	Alga (EUR)
101	Jānis	32	Liepāja	1500
102	Anna	40	Daugavpils	1100
103	Pēteris	28	Jelgava	1200
104	Laura	35	Rīga	900

Trokšņa pievienošana (noise addition): pievieno nejaušu “troksni” (nejaušas izmaiņas) datiem, lai slēptu precīzas vērtības, vienlaikus saglabājot statistisko vērtību. Sākotnēji nepieciešams izvēlēties, cik lielu “troksni” pievienot, un tad katram ierakstam (katrai izvēlētā identifikatora vērtībai) pievieno vai atņem nejaušu vērtību “trokšņa” robežās.

Oriģinālie dati:

ID	Vecums	Alga (EUR)
101	34	3200
102	45	4800
103	28	2700
104	56	5400

Pēc trokšņa pievienošanas (+/-10% algai un +/-2 gadi vecumam):

ID	Vecums (ar troksni)	Alga ar troksni (EUR)
101	36	3000
102	43	5220
103	30	2450
104	54	5150

Anonimizācijas rīki un to pielietojums

Lai efektīvi veiktu anonimizāciju, izmanto specializētus rīkus, kas automatizē datu pārveidošanas procesu un samazina kļūdu riskus. Daži populāri rīki:

ARX

Pielietojums: Atvērtā koda rīks, kas ļauj anonimizēt datus, izmantojot datu vispārināšanas, mikroagregācijas vai k-anonimitātes metodes, spēj apstrādāt lielas datu kopas.

Kad izmantot? Lielām strukturētām datu kopām, piemēram, pacientu ierakstiem vai sociālo datu analīzei.

Amnesia

Pielietojums: Rīks, kas nodrošina automātisku anonimizāciju, balstoties uz statistisko risku analīzi. Pieejama tīmekļa versija, lai izmēģinātu pakalpojumu, bez sensitīviem datiem.

Kad izmantot? Datu kopu sagatavošanai publiskai izmantošanai vai sadarbībai ar trešajām personām.

sdcMicro (R pakotne)

Pielietojums: Rīks statistikas datu anonimizācijai, kas īpaši piemērots maziem paraugiem un jutīgiem atribūtiem. Atbalsta mikroagregāciju, datu sajaukšanu, k-anonimitāti.

Kad izmantot? Ja strādā ar R valodu un nepieciešams nodrošināt datu konfidencialitāti statistikas analīzēs; sociālo pētījumu un ekonomisko datu.

Python bibliotēkas (Pandas, Faker)

Pielietojums: Datu anonimizācija, izmantojot datu aizstāšanu, jauktu vērtību ģenerēšanu vai trokšņa pievienošanu.

Kad izmantot? Pielāgotai anonimizācijai programmatūras risinājumos vai liela apjoma datu apstrādei.

Datu apstrādes un analīzes rīki

Datu apstrādi un analīzi iespējams veikt ar dažādu rīku palīdzību.

Ieteikumi datu apstrādes un analīzes rīku izvēlei

Izvēlies rīkus, kas vislabāk atbilst konkrētā pētījuma vajadzībām un datu tipiem.

Nodrošini, lai izvēlētie rīki būtu viegli pieejami un lai citi pētnieki varētu atkārtot veikto analīzi.

Lai nodrošinātu atkārtojamību, datu apstrādei un analīzei izmanto rīkus, kas nodrošina caurspīdīgumu un skaidru dokumentāciju. Izvēlies rīkus, kas nodrošina skriptu veidošanu, lai dokumentētu visu apstrādes un analīzes procesu un atkārtoti piemērotu to jaunajiem datiem.

Ja nepieciešams, apmāci pētniekus un komandas locekļus izmantot attiecīgos rīkus, lai uzlabotu datu apstrādes kvalitāti un efektivitāti.

Kvalitatīvo datu apstrādes un analīzes rīki

Atlas.ti, MAXQDA, NVivo ir kvalitatīvo datu analīzes programmatūras, kas palīdz pētniekiem kodēt, strukturēt, interpretēt un vizualizēt teksta, audio, video un citus datus.

Kvantitatīvo datu apstrādes un analīzes rīki

Datu apstrādes dokumentēšana ietver visu procesu un darbību, kas saistīti ar datu apstrādi, detalizētu fiksēšanu un pierakstīšanu. Dokumentēšana tiek veikta ar mērķi nodrošināt caurspīdīgumu, pārskatāmību un reproducējamību.

Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas var saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākai analīzei.

Kvantitatīvu datu apstrādes dokumentēšana

R un RStudio – R ir plaši izmantots statistikas un datu analīzes rīks ar daudzām pakotnēm, kas nodrošina dažādas metodes un reproducējamus koda piemērus. RStudio piedāvā ērtu saskarni projektu un koda organizēšanai.

Python – Python ir elastīga programmēšanas valoda, kas tiek plaši izmantota datu analīzē un mašīnmācībā. Python ir salāgojams ar dažādiem rīkiem, lai izveidotu atkārtojamas darba plūsmas ar koda un rezultātu pierakstiem.

Excel joprojām ir viens no visbiežāk izmantotajiem rīkiem datu tīrīšanai un apstrādei, īpaši mazākām datu kopām.

SPSS un Stata ir komerciāli pieejami rīki, kas īpaši piemēroti sociālo zinātņu un ekonomikas datu analīzei.

Datu vizualizācijas rīki

Datu vizualizācija palīdz labāk saprast un interpretēt datus. Tableau, Power BI un Looker Studio ir populāri vizualizācijas rīki, nodrošina interaktīvu grafiku un diagrammu veidošanu.

ggplot2 (R pakotne) un matplotlib (Python pakotne) izmanto akadēmiskajos pētījumos datu vizualizācijai, lai efektīvi atspoguļotu analīzes rezultātus.

Datu apstrāde un analīze

Datu apstrāde ir pētniecības projekta posms, kurā ievāktie dati tiek pārveidoti vēlamajā formātā un sagatavoti analīzei. Kvalitatīvi veikta datu apstrāde ir pētnieciskās integritātes un uzticamības pamatā.

Datu apstrādes dokumentēšana

Kvantitatīvu datu apstrādes dokumentēšana

Datu avots: norādi, kur dati iegūti, piemēram, no aptaujas, eksperimentiem, publiskas datubāzes. Precīzi apraksti datu iegūšanas metodi un instrumentus, piemēram, aptaujas anketu, mērinstrumentus.

Būtiski piefiksēt:

Trūkstošo vērtību apstrādi: kā rīkojies ar trūkstošām vērtībām, piemēram, izlaidi rindas, aizpildīji ar vidējo vērtību, utt.

Anomāliju (outliers) apstrādi: kā identificēji un apstrādāji anomālijas, piemēram, izlaidi, transformēji.

Datu transformācijas: vai veici kādas datu transformācijas, piemēram, normalizāciju, logaritmisko transformāciju? Kāpēc un kā?

Kodēšana un kategorizācija: apraksti, kā kodēji vai kategorizēji datus, piemēram, izveidoji vecuma grupas.

Statistiskās metodes: detalizēti apraksti visas izmantotās statistiskās metodes un testus.

Aprakstošā statistika (descriptive statistics): norādi, kādus aprakstošos statistikas rādītājus aprēķināji, piemēram, aritmētiskais vidējais, mediāna, standartnovirze, procenti.

Secinošā statistika (inferential statistics): ja izmantoji secinošās statistikas metodes, piemēram, t-testu, ANOVA, regresijas analīzi, norādi:

Konkrētos testus: precīzi nosauc testus, piemēram, divu neatkarīgu izlašu t-tests, Pīrsona korelācijas koeficients.

Pieņēmumus (assumptions): pārbaudi un dokumentē, vai dati atbilst izmantoto testu pieņēmumiem, piemēram, normalsadalījumam, homogenitātei.

Statistisko nozīmīgumu: norādi p-vērtības un nozīmīguma līmeni, piemēram, p < 0,05.

Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji datu apstrādei un analīzei, piemēram, Excel, SPSS, R, Python ar konkrētām bibliotēkām vai pakotnēm. Ja iespējams, iekļauj izmantotos skriptus vai kodu.

Rezultāti un interpretācijas: skaidri un kodolīgi apraksti statistiskās analīzes rezultātus. Iekļauj tabulas, grafikus un diagrammas, lai vizualizētu datus. Interpretē rezultātus un izskaidro, ko tie nozīmē pētījuma kontekstā.

Kvalitatīvo datu apstrādes dokumentēšana

Datu avots: norādi, kā kvalitatīvie dati iegūti, piemēram, no intervijām, fokusgrupām, dokumentiem, novērojumiem. Detalizēti apraksti datu iegūšanas metodi un kontekstu, piemēram, interviju protokolu, fokusgrupu vadlīnijas, novērojumu vietu un laiku.

Datu transkripcija (ja nepieciešams): ja dati ievākti audio vai video formātā un tika transkribēti, apraksti transkripcijas procesu. Vai transkripcija bija burtiska vai rediģēta? Vai tika veikta pseidonimizācija/anonimizācija?

Kodēšanas shēma/kategorijas: apraksti kodēšanas shēmu vai kategorijas, ko izmantoji datu analīzei.

Kā kategorijas/kodi tika identificēti: izskaidro, kā tēmas tika identificētas, piemēram, induktīvi, no datiem, vai deduktīvi, balstoties uz teoriju

Kodēšanas definīcijas: sniedz skaidras definīcijas katrai kodēšanas kategorijai

Kodēšanas piemēri: iekļauj piemērus no datiem, kas ilustrē katru kategoriju

Starpkodētāju uzticamība (ja vairāki kodētāji): ja datus kodēja vairāki cilvēki, apraksti, vai un kā tika nodrošināta starpkodētāju uzticamība, piemēram, aprēķināts Koena kappa koeficients, diskusijas par nesakritībām

Analīzes process: detalizēti apraksti analīzes procesu.

Analīzes metode: apraksti, kādu kvalitātīvās analīzes metodi izmantoji, piemēram, tematisko, diskursa, fenomenoloģisko vai naratīva analīzi. Apraksti konkrētus analīzes soļus un principus, kas tika ievēroti

Veic refleksivitātes pierakstus, lai kritiski izvērtētu, kā pētnieka personīgā pieredze, vērtības, priekšstati un sociokulturālā piederība var ietekmēt pētījuma gaitu, rezultātu interpretāciju un secinājumus

Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji kvalitatīvo datu apstrādei, piemēram, NVivo, Atlas.ti, MAXQDA, manuālu kodēšanu Excel.

Rezultāti un interpretācija: prezentē galvenās tēmas, modeļus un atziņas, kas izriet no kvalitatīvās analīzes. Ilustrē tēmas ar citātiem no datiem (anonimizējot respondentus, ja nepieciešams).

Sensitīvo datu apstrāde

Sensitīvi dati ietver personu identificējamu informāciju, medicīniskos, ģenētiskos datus un citus, kuru atklāšana var apdraudēt indivīdu vai organizāciju intereses un radīt diskrimināciju vai kaitējumu.

Svarīgi aspekti sensitīvo datu apstrādē

Datu aizsardzība, konfidencialitāte un piekļuves kontrole

Visi dati jāapstrādā un jāglabā tā, lai tie būtu pieejami tikai autorizētām personām

Piekļuve datiem jāierobežo, izmantojot divpakāpju autentifikāciju, piekļuves tiesību pārvaldību un datu piekļuves žurnālus (lai reģistrētu, kas un kad ir skatījies datus)

Piemērs: Izmantot RBAC (Role-Based Access Control), lai piešķirtu piekļuvi tikai pēc lomām, piemēram, pētnieks, administrators

Juridisko prasību ievērošana

Jāievēro starptautiskie un vietējie regulējumi, piemēram:

VDAR / GDPR (Vispārīgā Datu Aizsardzības Regula) – nosaka stingrus noteikumus personas datu apstrādei Eiropas Savienībā.

Drošības pasākumi pret datu noplūdēm

Datu šifrēšana gan glabāšanas, gan pārsūtīšanas laikā.

Regulāra datu kopiju izveide un testēšana, lai novērstu datu zaudēšanu.

Sensitīvo datu dzēšana pēc to lietošanas termiņa beigām.

Pseidonimizācija

Pseidonimizācija ir process, kurā personas dati tiek aizvietoti ar izdomātiem identifikatoriem (pseidonīmiem), piemēram, ar kodiem vai unikāliem numuriem, saglabājot iespēju atjaunot sākotnējo informāciju, ja nepieciešams.

Pseidonimizējot datus, notiek darbs ar pētījuma oriģinālo datu tabulu un izveidoto kodu tabulu. Oriģinālo datu kolonnās, kuras satur sensitīvu informāciju, vērtības tiek aizstātas ar attiecīgo pseidonīmu jeb kodu. Šo procesu var veikt gan manuāli, gan ar IT rīkiem.

Galvenās iezīmes

Dati joprojām ir saistīti ar konkrētu personu, bet tie ir aizsargāti no tiešas identifikācijas

Uz pseidonimizētiem datiem joprojām attiecas personu datu aizsardzības prasības, jo pastāv risks, ka, izmantojot papildu informāciju, personas varētu tikt identificētas

Piemērots gadījumiem, kad nepieciešama datu atjaunošana vai papildināšana

Pseidonimizācijas procesa būtiskākie soļi

1. Datu izvērtēšana un klasifikācija

Pirmais solis ir rūpīgi izvērtēt esošo datu kopu un identificēt

Kuri lauki ir tiešie identifikatori (piemēram, vārds, personas kods)?

Kuri lauki ir netiešie identifikatori (piemēram, dzimšanas datums, pasta indekss)?

Kuri lauki ir sensitīvā informācija (piemēram, veselības dati, etniskā piederība)?

Kuri lauki ir pētniecības vajadzībām nepieciešamie dati?

Šajā solī ir svarīgi saprast, kādi dati tiks apstrādāti un kādus identifikatorus nepieciešams aizvietot ar pseidonīmiem.

2. Pseidonimizācijas stratēģijas izvēle

Atkarībā no datu veida un pētniecības mērķiem, jāizvēlas piemērotākā stratēģija

Atslēga ir oriģinālais identifikators (piemēram, pētījuma dalībnieka vārds)

Vērtība ir piešķirtais pseidonīms (piemēram, kods vai ID numurs)

Oriģinālie dati:

Izveidota kodu tabula (glabājas drošā, šifrētā datubāzē):

Pseidonimizētie dati (izmantojami pētījumā):

Process soli pa solim:

Izvēlas piemērotu hash algoritmu (piemēram, SHA-256, SHA-3)

Atlasa identifikatoru (piemēram, “Jānis Bērziņš”)

Algoritms pārveido šo tekstu fiksēta garuma ciparu un burtu virknē (piemēram, “5d41402abc4b2a76b9719d911017c592”)

Šī hash vērtība aizstāj oriģinālo identifikatoru viscaur datu kopā

Piemēri ar hash funkciju SHA-256:

Process soli pa solim:

Sākotnēji nepieciešams izvēlēties šifrēšanas algoritmu (piemēram, AES, RSA)

Ģenerē šifrēšanas atslēgu (vai atslēgu pāri)

Šifrē identifikatoru ar izvēlēto atslēgu

Aizstāj oriģinālo identifikatoru ar šifrēto versiju

Drošā veidā uzglabā atšifrēšanas atslēgu

Piemērs ar AES šifrēšanu:

**Datu vispārināšana (*generalization***): Aizvieto konkrētas vērtības ar plašākām kategorijām, piemēram, dzimšanas datums → vecuma grupa; adrese → pilsēta.