Datu ilgtermiņa glabāšana un kopīgošana
Pētniecības projekta beigu posmā ir svarīgi nodrošināt datu kopu ilgtermiņa saglabāšanu jeb arhivēšanu uzticamā vidē, kā arī pēc iespējas to kopīgošanu jeb publicēšanu pētniecības datu repozitorijā.
Datu publicēšana repozitorijā nozīmē, ka datu kopai tiek izveidots apraksts (metadatu ieraksts) datu katalogā un pievienoti paši dati – faili ar pētījuma datiem vai, atsevišķos gadījumos, saite uz vietni, kur tie atrodas. Šis metadatu ieraksts ļauj citiem lietotājiem viegli atrast datu kopu, iegūt koncentrētu informāciju par to, uzzināt piekļuves nosacījumus, kā arī dod iespēju atkārtoti izmantot datus arī pēc pētniecības projekta beigām.
Dati repozitorijā, norādot atbilstošu informāciju metadatu ierakstā, var tikt publicēti dažādos veidos, piemēram, kā:
-
Atvērtie dati: dati, kas ir brīvi pieejami ikvienam bez ierobežojumiem. Tos var uzreiz lejupielādēt, izmantot un izplatīt bez maksas, ievērojot norādītos licenču nosacījumus.
-
Daļēji slēgtie dati: dati, kuriem iespējams piekļūt ar īpašiem nosacījumiem, piemēram, reģistrējoties vai pieprasot piekļuves atļauju, sazinoties ar datu kopas īpašnieku vai pārvaldnieku.
-
Slēgtie dati: dati, kuri nav publiski pieejami un ir pieejami tikai ierobežotam personu lokam, piemēram, organizācijas iekšējai lietošanai vai sensitīvas informācijas aizsardzībai. Ar slēgtiem datiem var veidot metadatu ierakstu repozitorijā.
Dažkārt pētnieki izvēlas padarīt datus atvērti pieejamus pēc embargo perioda. Tas nozīmē, ka kādu noteiktu laika posmu dati nav publiski pieejami, lai gan nākotnē tie tiks atvērti. Šāds ierobežojums var būt saistīts ar autortiesībām, intelektuālā īpašuma aizsardzību, publikāciju prasībām vai komerciāliem apsvērumiem.
Embargo periodā metadati tiek padarīti pieejami, lai informētu par datiem un to pieejamību nākotnē. Tas palīdz pētniekiem un interesentiem uzzināt par datu kopu, tās saturu un iespējamo piekļuves laiku pēc embargo perioda beigām. Tomēr metadatu pieejamība var atšķirties atkarībā no repozitorija politikas un datu veida
Kāpēc pētniecības datu arhivēšana ir svarīga?
-
Datu kopas iespējams pārbaudīt arī pēc projekta noslēguma
-
Datu kopas var tikt atkārtoti izmantotas nākotnē (piemēram, mācību nolūkos vai jauniem pētījumiem)
-
Tiek nodrošināta atbilstība prasībām no finansētāju, izdevēju, institūciju vai organizāciju puses par noteiktu datu saglabāšanas periodu
-
Tiek ilgtermiņā saglabāti dati, kuriem ir nozīmīga vērtība organizācijas, valstiskā vai sabiedrības līmenī
Pētniecības datu repozitoriji
Datu repozitoriji ir digitālas platformas, kas izveidotas, lai droši glabātu, organizētu un koplietotu pētniecības datus. Tie nodrošina ilgtermiņa datu uzglabāšanu un piekļuvi zinātniskajai, kā arī plašākai sabiedrībai, veicinot datu pārvaldības labās prakses ievērošanu.
Izvēloties repozitoriju, vērts pārdomāt šādus jautājumus:
-
Kāda ir datu pētniecības joma/zinātnes nozare? Vai attiecīgajā nozarē ir uzticams datu repozitorijs?
-
Kāds ir datu veids – tabulas, teksts, video, audio, kods u.tml.? Vai repozitorijs atbalsta nepieciešamos datu veidus?
-
Kādi ir datņu formāti? Vai repozitorijs atbalsta nepieciešamos datu formātus?
-
Vai dati satur sensitīvu informāciju? Vai repozitorijs nodrošina aizsardzību un slēgtu piekļuvi šādiem datiem?
-
Kāds ir datu kopas apjoms? Kādi ierobežojumi repozitorijam attiecībā uz datu apjomu?
-
Kādas ir projektu finansējošās organizācijas prasības? Vai tās nav pretrunā ar izvēlētā repozitorija politiku?
-
Kādu funkcionalitāti repozitorijs piedāvā, nodrošinot piekļuvi datu kopām?
-
Vai repozitorijs nodrošina atbilstošu licenci datiem?
-
Vai repozitorijs piedāvā iespēju detalizēti aprakstīt datu kopu? Vai tas atbalsta mašīnlasāmus metadatus, kas var palielināt datu redzamību un lietošanu?
-
Vai repozitorijs piešķir datiem pastāvīgo identifikatoru (persistent identifier – PID), piemēram, DOI, lai veicinātu datu kopas atrodamību un iespēju to citēt?
-
Kādi ir datu ilgtermiņa saglabāšanas nosacījumi?
-
Vai ar datu glabāšanu vai uzturēšanu repozitorijā ir saistītas izmaksas?
DataverseLV: Latvijas Nacionālais pētniecības datu repozitorijs
DataverseLV pētniecības datu repozitorijs ir izstrādāts, lai pētnieki Latvijā varētu deponēt savus pētniecības datus pēc projektu vai pētnieciskās darbības noslēguma. DataverseLV datu kopas var tikt publicētas ar atvērtu, daļēji slēgtu vai slēgtu piekļuvi.
DataverseLV ir balstīts uz atklātā pirmkoda programmatūras Dataverse, ko izstrādājusi Hārvarda Universitāte. Šis repozitoriju veids ir viens no populārākajiem akadēmiskās pētniecības datu pārvaldības risinājumiem pasaulē, turklāt tas regulāri tiek atjaunināts, lai uzlabotu gan pieejamību pētniekiem, gan mašīnlasāmību. Dataverse platforma, izmantojot visus nepieciešamos protokolus, attīsta un piedāvā pakalpojumus, kas atbilst FAIR principiem.
Citas repozitoriju alternatīvas
Lai sameklētu sev atbilstošu repozitoriju, pētnieki var izmantot globālus repozitoriju reģistrus:
Daudznozaru repozitoriji
Daudznozaru pētniecības datu repozitoriji ir repozitoriji, kas apkopo un glabā datus no dažādām zinātnes nozarēm un disciplīnām. Tie parasti atbalsta plašu datu tipu un failu formātu klāstu, izmanto vispārīgus metadatus un nodrošina piekļuvi plašam pētnieku lokam. Šādi repozitoriji veicina starpdisciplināru sadarbību, datu atkārtotu izmantošanu un ilgtermiņa saglabāšanu.
-
Zenodo : OpenAIRE un CERN izstrādāts repozitorijs, kas atbalsta ne tikai vairākus datu veidus dažādās zinātņu nozarēs, bet piedāvā deponēt arī lielu dažādību citu pētniecisko rezultātu.
-
Figshare: piedāvā pētniekiem glabāt visa veida pētījumu rezultātus, pat ļoti apjomīgas datu kopas.
-
Dryad: daudznozaru repozitorijs, kas piedāvā metadatu kvalitātes kontroli pirms datu publicēšanas.
Nozaru repozitoriji
Nozares specifiskie repozitoriji ir repozitoriji, kas glabā datus no konkrētas zinātnes jomas vai nozares. Tie var pieņemt ierobežotu skaitu datu veidu vai failu formātu, izmantot specializētus metadatus un terminoloģiju vai kā citādi ierobežot iesniedzamo un pieejamo datu veidus.
Institucionālie repozitoriji Latvijā
Latvijā ir pieejami institucionālie pētniecības repozitoriji Rīgas Stradiņa universitātē (RSU) un Rīgas Tehniskajā universitātē (RTU). Šie repozitoriji nodrošina iespēju attiecīgo universitāšu pētniekiem deponēt un glabāt savus pētniecības datus, veicinot to pieejamību, saglabāšanu un atkārtotu izmantošanu. Institucionālie repozitoriji atbalsta dažādus datu formātus un nodrošina metadatu aprakstīšanu.
Datu kopas sagatavošana ilgtermiņa glabāšanai
Vēlamie datu formāti
Vēlamā datņu formāta izvēle ir būtiska, lai nodrošinātu, ka dati būs lasāmi arī nākotnē. Daži datu formāti, salīdzinot ar citiem, būtiski uzlabo iespēju datus izmantot ilgtermiņā.
Parasti priekšroka tiek dota datu formātiem, kas nodrošina ilgtermiņa pieejamību, atvērtību un plašu savietojamību ar dažādām sistēmām un programmatūru. Šie formāti raksturojas ar šādām īpašībām:
-
Nekomerciāli: brīvi pieejami un lietojami bez nepieciešamības iegādāties specifisku programmatūru vai licences. Tas nodrošina plašāku piekļuvi un datu ilgtermiņa saglabāšanu neatkarīgi no komerciālu uzņēmumu darbības izmaiņām.
-
Atvērti, ar dokumentētiem starptautiskiem standartiem: balstīti uz publiski pieejamiem un standartizētiem tehniskiem specifikācijām, kas ļauj dažādām sistēmām un rīkiem apstrādāt šos datus bez ierobežojumiem. Tas arī veicina datu atkārtotu izmantošanu un ilgtermiņa saglabāšanu.
-
Izmanto standarta rakstzīmju kodējumu, piemēram, Unicode, UTF-8: nodrošina pareizu teksta attēlošanu dažādās valodās un platformās, novēršot kodējuma nesaderības problēmas. UTF-8 ir īpaši izplatīts, jo tas atbalsta plašu rakstzīmju diapazonu un ir efektīvs datu glabāšanā.
-
Nesaspiesti: lai izvairītos no iespējamiem datu bojājumiem vai atkarības no specifiskām saspiešanas metodēm. Nesaspiesti dati arī atvieglo to apstrādi un ilgtermiņa saglabāšanu, jo nav nepieciešama papildu programmatūra datu atvēršanai vai atjaunošanai.
Šīs īpašības palīdz nodrošināt, ka dati ir viegli pieejami, droši uzglabājami un plaši izmantojami nākotnē.
Datnes veids | Vēlamie formāti | Nevēlamie formāti |
---|---|---|
Teksta dokumenti |
|
|
Vienkāršs teksts |
|
|
Datu tabulas |
|
|
Datubāzes |
|
|
Statistiskās analīzes dati |
|
|
Audio |
|
|
Video |
|
|
Attēli |
|
|
Vektoru faili |
|
|
Ģeogrāfiskās informācijas sistēmas (GIS) |
|
|
Tabulāru datu sagatavošana
Lai sagatavotu tabulārus datus ilgtermiņa glabāšanai un veicinātu atkārtotu izmantošanu, ir svarīgi sekot labajām praksēm.
Ieteicams
-
Piešķirt katrai kolonnai aprakstošu virsrakstu
-
Izmantot vienu galvenes rindu
-
Pārliecināties, ka pirmā šūna ir A1
-
Saglabāt katru datu failu ar nosaukumu, kas precīzi atspoguļo faila saturu
-
Saglabāt katru tabulu, kas ir daļa no datu kopas, kā atsevišķu failu
-
Saglabāt katru izklājlapu kā atsevišķu datni
-
Izklājlapas vēlams saglabāt CSV vai TAB formātā
Nav ieteicams
-
Iestrādāt izklājlapā diagrammas, komentārus vai tabulas
-
Izmantot krāsu kodēšanu, jo mašīniespējota datu ieguve to nevar interpretēt
-
Iekļaut izklājlapā speciālās (t.i., ne burtciparu) rakstzīmes, tostarp komatus
-
Izmantot sapludinātās šūnas
-
Izvietot vairākas darblapas izklājlapā (piemēram, programmā Microsoft Excel), jo CSV un TAB formāti to neatbalsta
Metadatu sagatavošana
Metadati, kas, īsumā definējot, ir “dati par datiem”, pilda svarīgu lomu pētniecības datu pārvaldībā. Metadati ir strukturēta informācija, kas nepieciešama, lai identificētu, aprakstītu, efektīvi atrastu, sniegtu pētījuma un tā datu konteksta informāciju īsā un viegli pārskatāmā formā. Standartizētā pieeja metadatu sagatavošanā padara tos gan viegli cilvēkiem lasāmus, gan mašīnlasāmus. Tos izmanto repozitorijos, aizpildot atbilstošos laukus, metadatu ierakstu sagatavošanai deponēšanas brīdī un automātiskas atsauces ģenerēšanai, un, protams, meklēšanas-atrašanas procesa nodrošināšanai repozitorijā, repozitoriju tīklos (agregatoros) un citās informācijas sitēmās.
Metadatiem ir būtiska nozīme FAIR principu īstenošanā pētniecības datu pārvaldībā, respektīvi, lai nodrošinātu, ka dati ir atrodami, pieejami, sadarbspējīgi un atkārtoti izmantojami. Tas palīdz citiem pētniekiem un interesentiem atrast datus, saprast datu struktūru, kontekstu un mērķi, atvieglo datu izmantošanu un integrēšanu turpmākajos pētījumos.
Pētījuma datos palīdz orientēties un rekomendējoši ir pievienot arī dokumentāciju, piemēram:
-
ReadMe datnes
-
Datu vārdnīcas
-
Kodu grāmatas
-
Klasifikācijas shēmas
-
Paraugus, veidlapas, aptauju anketas
-
Protokolus, laboratorijas piezīmes vai žurnālus, datu vākšanas metodoloģijas aprakstus
-
Analīzes sintakses, algoritmus un koda komentārus
-
Saites uz pētījuma pārskatiem un publikācijām (vēlams ar DOI)
Dažkārt metadati un dokumentācija tiek lietoti savstarpēji aizstājami. Tas nozīmē, ka, piemēram, deponējot nav pievienota vai pievienota minimāla dokumentācija, savukārt, metadatu ieraksts sagatavots pietiekoši pilnīgs, lai palīdzētu orientēties datu kopā, un otrādi, metadatu ieraksts var būt sagatavots minimāls, bet dokumentācija satur vispatverošu ReadMe failu. Plašākā skatījumā arī dokumentāciju mēdz saukt par metadatiem, tomēr jāatceras, ka dokumentācija ir vairāk cilvēklasāma, ne mašīnlasāma. Metadatu īsā forma ļauj interesentiem ātri iepazīties un pieņemt lēmumu, vai informācija atbilst meklētajam un nepieciešams pievērst uzmanību iespējām piekļūt pilnai datu kopai.
Jau pētījuma sagatavošanās stadijā, tiek rekomendēts pārdomāt kā apkopot vajadzīgos metadatus, lai viss nepieciešamais repozitorija ieraksta sagatavošanai būtu piefiksēts laicīgi, tostarp, var izskatīt iespējas izmantot IT rīkus.
Metadatu veidi
Visbiežāk tiek izdalīti trīs metadatu veidi (jeb atribūtu kopas): aprakstošie, strukturālie un administratīvie metadati, taču mēdz izdalīt arī vairāk veidus, piemēram:
-
aprakstošie metadati : nodrošina galveno informāciju, kas palīdz identificēt un atrast datu kopas. Tie ietver tādus elementus kā, piemēram, nosaukums, autors, anotācija un atslēgvārdi
-
strukturālie metadati: apraksta datu kopas organizāciju un saites tajā. Tie ietver informāciju par failu, hierarhijām, datu elementu secību un saikni starp dažādām datu daļām
-
administratīvie metadati: parasti ietver informāciju par īpašumtiesībām, piekļuves tiesībām, datu izmantošanas ierobežojumiem un versiju kontroli
-
juridiskie jeb tiesību metadati: sniedz informāciju par licencēm un datu izmantošanas tiesībām
-
tehniskie metadati: koncentrējas uz datu tehniskajiem aspektiem, piemēram, failu formātiem, kodēšanas formātiem, failu saspiešanas metodēm vai nepieciešamajām programmatūras vidēm
-
izcelsmes metadati: dokumentē, no kurienes dati iegūti, kā tie mainīti un kas ir piedalījies to izveidē
-
saglabāšanas metadati: sniedz arhivēšanas informāciju, tostarp ilgtermiņa saglabāšanas termiņu
-
semantiskie metadati: vērtību nozīmju un datu komponentu nosaukumu apraksts
Metadatu elementi
Strukturējot un standartizējot informāciju par datu kopām, tiek izmantoti metadatu elementi (tos mēdz saukt arī par metadatu atribūtiem, informācijas sistēmas laukiem). Metadatu elementi – tie ir noteikumi par laukiem, kādi jāizmanto, aprakstot digitālu objektu.
Informācijas sistēmās, tostarp, elektroniskos repozitorijos un katalogos metadatu lauki tiek aizpildīti ar vērtībām jeb datiem/metadatiem. Jāseko arī noteikumiem, kā vērtības laukos aizpildīt, piemēram, unikālā pastāvīgā identifikatora laukā vispirms jānoskaidro kāds PID prasīts un kā to korekti pierakstīt, vai arī – atslēgas vārda lauka aizpildīšanai tiek rekomendēts izmantot kontrolēto vārdnīcu un, ja ir, tad ontoloģiju.
Metadatu elementu kopums un nosacījumi to secībai un aizpildīšanai veido metadatu shēmas. Ja metadatu shēmu attīstījuši speciālisti vai organizācijas, tad šīs vadlīnijas metadatu radīšanā un pārvaldīšanā var iegūt arī metadatu standarta statusu. Pētījumu datu aprakstīšanai un deponēšanai tiek primāri rekomendēts izmantot pētniecības nozaru metadatu standartus, taču plaši izmantoti, tostarp repozitoriju funkcionalitātē iekļauti, ir arī daudznozaru metadatu standarti. Kopumā metadatu standartizētā pieeja palīdz nodrošināt konsekvenci metadatu lietošanā.
Pamata metadatu elementi
-
Nosaukums: datu kopas nosaukums. Ieteicams veidot īsu un viegli uztveramu, tomēr ar pietiekamu detalizācijas pakāpi, kā arī – tā, lai tas nesakristu ar citiem pētījuma rezultātu nosaukumiem
-
Apraksts: īss apraksts (anotācija) par metadatu ierakstam pievienotās datu kopas saturu, kas ir pietiekoši detalizēts, lai interesenti varētu saprast, vai datu kopa atbilst meklētajam un viņu vajadzībām
-
Autorība: galvenais un citi datu kopas autori, kā arī informācija par viņu institucionālo piederību (rekomendējoši ir metadatu ierakstā norādīt autora pastāvīgo identifikatoru, piemēram, ORCID numuru)
-
Kontaktpersona: persona, pie kuras var vērsties ar jautājumiem par datu kopu (iekļaujot arī kontaktinformāciju, piemēram, e-pasta adresi)
-
Zinātnes nozare: zinātnes nozare, kurai atbilst datu kopa un kuras noteikšanai izmantota konkrēta klasifikācija
-
Atslēgas vārdi: atslēgas vārdu saraksts, kas palīdz interesentiem atrast metadatu ierakstu un datu kopu, kā arī palīdz ātri iepazīt satura tematisko aptvērumu un kontekstu. Piemeklējot atbilstošus jēdzienus, ir rekomendējoši izmantot kontrolētās vārdnīcas (controlled vocabularies), tostarp ontoloģijas. Ieteicams iekļaut jēdzienus, kurus varētu lietot arī nespeciālisti.
-
Publicētājs: atbildīgā institūcija vai organizācija par datu kopas pieejamību, piemēram, universitāte
-
Publicēšanas datums: datums, kad informācija par datu kopu un/vai tās saturu publiskota (parasti tas ir datums, kad repozitorija administrators apstiprina metadatu ieraksta iekļaušanu repozitorija saturā)
-
Pastāvīgais identifikators: angļu valodā – persistent identifier (PID) ir rakstzīmju virkne, kas tiek izmantota, lai unikāli identificētu dokumentu, failu, autora profilu un citus objektus tīmeklī, kā arī, lai atpazītu sasaisti starp šiem objektiem. Konkrētu datu kopu identificēšanai ir rekomendējoši parūpēties, lai tiktu piešķirts, piemēram, DOI (Digital Object Identifier). Daļa repozitoriju piedāvā šādu pakalpojumu, un deponēšanas brīdī automātiski piešķir DOI.
-
Publiskās pieejamības līmenis: pakāpe, kādā datu kopa var tikt padarīta publiski pieejama
-
Licence: informācija par jebkādiem ierobežojumiem vai nosacījumiem saistībā ar konkrēto datu kopu atkārtotas izmantošanas, tostarp kopīgošanas gadījumā, (piemēram, atvērtē tipa Creative Commons licence: CC BY). Licences pievienošana palielina iespējamību, ka publicētie dati tiks atkārtoti izmantoti, jo interesentiem ir pilna skaidrība par to, ko drīkst un ko nedrīkst darīt ar datiem.
-
Valoda: datu kopas valoda
-
Datu ievākšanas periods: laika posms, kurā dati tika ievākti vai ģenerēti
-
Datu ievākšanas vieta: ģeogrāfiskās atrašanās vietas, kur dati tika ievākti
-
Datu tips: datu tipi, kas iekļauti failos, piemēram, anketēšanas dati vai klīniskie dati.
-
Versijas informācija: visnesenākais datums, kad datu kopa tika mainīta, papildināta vai modificēta, versijas apzīmējums, kā arī informācija par galvenajām izmaiņām
-
Projekta informācija:
-
Finansējošā institūcija: nosaukums organizācijai, kas finansē projektu
-
Projekta numurs vai ID: unikāls identifikators, kas attiecas uz konkrēto projektu
-
Projekta nosaukums: oficiālais nosaukums projektam (ja pastāv, tad arī abreviatūra jeb saīsinātais projekta nosaukums)
-
-
Laika periods: laika posms, kuram atbilst dati, īpaši attiecībā uz vēsturiskiem datiem
-
Lietojumprogramma: informācija par lietojumprogrammatūru, kas nepieciešama, lai atvērtu un analizētu failus
-
Saistītie materiāli un datu kopas: informācija par dažādiem pētījuma rezultātiem vai projekta nodevumiem, piemēram, zinātniskie raksti, konferenču materiāli, citas datu kopas u.c., pievienojot DOI (Digital Object Identifier) vai saites uz tīmekļa vietni, kur tie pieejami.
Soļi metadatu standarta izvēlei
Piemērota metadatu standarta izvēle pētniecības datu aprakstīšanai un kopīgošanai bieži vien ir atkarīga no repozitorija, kurā dati tiks ievietoti. Šo izvēli var veikt šādā secībā:
-
Pētījuma konteksta analīze: identificē pētījuma mērķus un uzdevumus, iesaistītās puses (pētnieki, datu lietotāji, finansētāji u. c.), kā arī prasības attiecībā uz datu dokumentēšanu un kopīgošanu. Šis solis palīdz izprast, kādi metadatu standarti un repozitoriji varētu būt piemēroti.
-
Pētījuma jomas prasību identificēšana: noskaidro, kādas ir konkrētās zinātniskās disciplīnas prasības attiecībā uz metadatu standartiem un datu kopīgošanu. Dažādās nozarēs (piemēram, biomedicīnā, sociālajās zinātnēs) ir noteiktas metadatu vadlīnijas/ieteikumi.
-
Datu tipu un īpašību identifikācija: apzini, kāda veida dati tiks radīti (piemēram, kvantitatīvi, kvalitatīvi, attēli, video u. c.), izproti to struktūru un organizēšanu, kā arī identificē nepieciešamās metadatu prasības.
-
Atbilstoša repozitorija izvēle: identificē repozitorijus, kas atbilst pētījuma jomai un datu tipiem, kā arī pārbaudi to prasības attiecībā uz metadatu standartiem.
-
Repozitorijā izmantoto metadatu standartu izpēte: izpēti, kādi metadatu standarti tiek atbalstīti izvēlētajā repozitorijā (piemēram, Dublin Core, DataCite, DDI, u. c.) un kā tie atbilst pētījuma vajadzībām.
-
Metadatu standarta izvēle un pielietošana: izvēlies vispiemērotāko standartu un nodrošini, ka dati tiek aprakstīti pēc iespējas pilnīgāk.
-
Izvēles dokumentēšana: norādi izvēlēto metadatu standartu datu pārvaldības plānā, lai pamatotu izvēli un nodrošinātu atbilstību institucionālajām un finansētāju prasībām.
Izplatītākās metadatu shēmas pētnieciskajiem datiem
-
Dublin Core: izplatītākais metadatu standarts, atbalsta visplašākā resursu klāsta aprakstīšanu
-
DataCite Metadata Schema: obligāto metadatu kopa, kas jāsniedz DataCite Metadata Store sistēmai, veidojot DOI pastāvīgo identifikatoru datu kopai
-
DDI – Data Documentation Initiative: plaši izmantots starptautisks standarts sociālo, uzvedības un ekonomikas zinātņu datu aprakstīšanai
-
OAI-ORE – Open Archives Initiative Object Reuse and Exchange: šie standarti atvieglo tīmekļa satura koplietošanu, izmantošanu un saglabāšanu. Tie atbalsta mūsdienīgu pētniecību un darbojas ar visu veidu tiešsaistes informāciju, tostarp sociālajiem tīkliem
Autortiesības un licences
Publicējot pētniecības datus, tos ir ieteicams licencēt. Licences ļauj kopīgot datus, vienlaikus skaidri norādot, ko citi lietotāji var darīt ar šiem datiem. Deponējot datus repozitorijā, var tikt norādīts izvēlēties kādu no licenču veidiem.
Kādu licenci izvēlēties?
Datu kopām
-
Publiskais domēns
Fakti paši par sevi nav aizsargāti ar autortiesībām. Tātad, ja dati ir tikai vienkāršu faktu kolekcija, tie nav aizsargāti ar autortiesībām. Taču, ja tie ir unikāli apkopoti vai iegūti ar specifisku metodi, tad uz tiem var attiekties noteikti juridiski ierobežojumi.
Tas nozīmē, ka, ja datu kopa satur tikai faktus, tad šos datus var publiskot kā publisku domēnu. To var izdarīt, izmantojot Creative Commons licenci Zero Public Domain Dedication (CC0).
CC0 licence ļauj autortiesību īpašniekam atteikties no jebkādām tiesībām uz darbu, ļaujot ikvienam to izmantot bez ierobežojumiem – gan akadēmiskiem, gan komerciāliem nolūkiem.
CC0 piemēri pētniecībā:
-
Starptautiska organizācija publicē globālos temperatūras mērījumus kā CC0 datus, lai klimata pētnieki varētu tos izmantot bez ierobežojumiem.
-
Valdība publicē satiksmes negadījumu statistiku kā publiski pieejamus datus, lai pētnieki varētu analizēt un uzlabot satiksmes drošību.
Lai gan CC0 neprasa autorības norādīšanu, zinātniskajā pasaulē ieteicams citēt datu avotu, jo tas palīdz uzturēt akadēmisko godīgumu.
-
-
Creative Commons licences
CC0 licences izmantošana ir labākais veids, kā veicināt datu kopīgošanu un atkārtotu izmantošanu, lai atbalstītu atvērto zinātni, jo tādējādi datus bez ierobežojumiem var lietot ikviens.
Ja nav vēlmes pilnībā atteikties no autortiesībām vai datu kopa ietver arī citus materiālus, piemēram, tekstus, attēlus vai videoklipus, var izvēlēties kādu no Creative Commons licencēm. Šīs licences saglabā autortiesības, vienlaikus nosakot noteikumus, kā citi drīkst izmantot datus.
Vispiemērotākā licence datu koplietošanai un atkārtotai izmantošanai ir Creative Commons Attribution (CC BY). Tā nodrošina visplašākās tiesības izmantot datus jebkurā veidā ar vienu nosacījumu – ir jānorāda sākotnējais avots. Tas palīdz saglabāt autoru atpazīstamību un veicina datu atkārtotu izmantošanu pētniecībā, uzņēmējdarbībā un citās jomās.
-
-
CC BY (Attribution)
Ļauj izplatīt, pārveidot, pielāgot darbu un izmantot to pat komerciāli, ja tiek norādīts sākotnējais autors.
-
CC BY-SA (Share-Alike)
Ļauj pārveidot un izplatīt darbu, arī komerciāli, ar nosacījumu, ka sākotnējais autors tiek norādīts un visi jaunie darbi tiek licencēti ar tādiem pašiem noteikumiem.
-
CC BY-ND (Attribution-NoDerivs)
Ļauj kopēt un izplatīt materiālu jebkurā formātā, arī komerciāli, taču tikai nemainītā veidā un ar atsauci uz autoru.
-
CC BY-NC (Attribution-NonCommercial)
Ļauj kopēt, izplatīt un pārveidot materiālu, bet tikai nekomerciāliem nolūkiem, norādot sākotnējo autoru.
-
CC BY-NC-SA (Attribution-NonCommercial-ShareAlike)
Ļauj izplatīt un pārveidot materiālu tikai nekomerciāliem nolūkiem, ar nosacījumu, ka tiek norādīts sākotnējais autors un visi jaunie darbi tiek licencēti ar tādiem pašiem noteikumiem.
-
CC BY-NC-ND (Attribution-NonCommercial-NoDerivs)
Visierobežojošākā licence – ļauj tikai kopēt un izplatīt darbu, nekomerciāliem nolūkiem, bez izmaiņām un ar norādi uz autoru.
-

Programmatūrai
Pētniecībā izstrādātai programmatūrai bieži tiek izmantotas atvērtā pirmkoda licences, lai nodrošinātu tās brīvu pieejamību, pielāgojamību un atkārtotu izmantošanu.
-
MIT licence: ļoti elastīga un vienkārša – ļauj izmantot, modificēt un izplatīt kodu, pat komerciāli.
-
Nepieciešama tikai autora norāde (attribution)
-
Piemērota pētniecības rīkiem, kuriem vēlas nodrošināt maksimālu izplatību
-
Piemēri: NumPy, Jupyter Notebook
-
-
Apache licence 2.0: aizsargā pret patentu pretenzijām – nodrošina patentu licences lietotājiem, bet nepieļauj ļaunprātīgu patentu izmantošanu.
-
Atļauj brīvu programmatūras izmantošanu un pielāgošanu, arī komerciāliem nolūkiem
-
Nepieciešama autora norāde un licences kopijas pievienošana
-
Piemēri: TensorFlow, Apache Spark
-
-
GNU Vispārējā publiskā licence (GNU GPL): “copyleft” licence – ja kods tiek mainīts un izplatīts, arī jaunajam darbam jābūt atvērtam un licencētam ar GPL.
-
Aizsargā pret programmatūras patentiem un ļaunprātīgu kodu slēgšanu
-
Mazāk piemērota, ja vēlas ļaut kodu izmantot slēgtā programmatūrā
-
Piemēri: GNU Octave, R
-
Papildus avoti licenču izvēlē
Pastāvīgie identifikatori
Pastāvīgais identifikators (PID) ir nemainīga atsauce uz konkrētu resursu, piemēram, zinātnisku publikāciju, datu kopu, programmatūru vai fizisku objektu. PID nodrošina, ka resurss saglabā savu unikālo identifikāciju neatkarīgi no tā, kur tas tiek glabāts vai pārvietots digitālajā vidē.
Galvenās priekšrocības
-
Atrodamība: PID atvieglo digitālo resursu atrašanu un identificēšanu, īpaši lielās datubāzēs vai tiešsaistes krātuvēs.
-
Pieejamība: PID nodrošina, ka digitālais saturs ir pieejams laika gaitā, pat ja sākotnējais avots tiek pārvietots vai izdzēsts.
-
Uzticama citēšana: PID nodrošina stabilu veidu, kā citēt digitālos resursus pētnieciskajos rakstos un citos zinātniskos darbos.
-
Sadarbspēja: PID palīdz dažādām sistēmām un datubāzēm apmainīties ar informāciju par digitālajiem resursiem un koplietot to.
Populārākie PID veidi pētniecībā
-
DOI (Digital Object Identifier): visbiežāk izmantots zinātniskajām publikācijām un datu kopām
-
ORCID (Open Researcher and Contributor ID): unikāls identifikators pētniekiem un autoriem
-
Handle: plaši pielietots PID akadēmiskajos un valdības datos
-
ARK (Archival Resource Key): izmantots arhīvu un muzeju digitālajiem resursiem
-
ISBN (International Standard Book Number): unikāls identifikators grāmatām un citām monogrāfiskām publikācijām, kas nodrošina to viennozīmīgu identificēšanu izdevēju, bibliotēku un grāmatnīcu sistēmās
Datu pieejamības deklarācija
Arvien vairāk starptautiskie zinātniskie žurnāli iekļauj datu pieejamības deklarāciju jeb paziņojumu (data availability statement) kā atsevišķu zinātniskā raksta sadaļu. Šis paziņojums parasti norāda, vai un kā pētniecības dati ir pieejami citiem pētniekiem, piemēram, publiski pieejamā repozitorijā, pēc pieprasījuma vai ar noteiktiem ierobežojumiem.
Vairāk informācijas par zinātnisko žurnālu prasībām datu koplietošanai šeit.
Piemēri datu pieejamības deklarācijās:
-
“Visi pētījumā izmantotie dati ir pieejami publiski, un tos var atrast DataverseLV repozitorijā ar šādu DOI:…”
-
“Dati pieejami pēc pieprasījuma, sazinoties ar zinātniskā raksta atbildīgo autoru.”
Datu ilgtermiņa glabāšana un kopīgošana
Pētniecības projekta beigu posmā ir svarīgi nodrošināt datu kopu ilgtermiņa saglabāšanu jeb arhivēšanu uzticamā vidē, kā arī pēc iespējas to kopīgošanu jeb publicēšanu pētniecības datu repozitorijā.
Datu publicēšana repozitorijā nozīmē, ka datu kopai tiek izveidots apraksts (metadatu ieraksts) datu katalogā un pievienoti paši dati – faili ar pētījuma datiem vai, atsevišķos gadījumos, saite uz vietni, kur tie atrodas. Šis metadatu ieraksts ļauj citiem lietotājiem viegli atrast datu kopu, iegūt koncentrētu informāciju par to, uzzināt piekļuves nosacījumus, kā arī dod iespēju atkārtoti izmantot datus arī pēc pētniecības projekta beigām.
Dati repozitorijā, norādot atbilstošu informāciju metadatu ierakstā, var tikt publicēti dažādos veidos, piemēram, kā:
-
Atvērtie dati: dati, kas ir brīvi pieejami ikvienam bez ierobežojumiem. Tos var uzreiz lejupielādēt, izmantot un izplatīt bez maksas, ievērojot norādītos licenču nosacījumus.
-
Daļēji slēgtie dati: dati, kuriem iespējams piekļūt ar īpašiem nosacījumiem, piemēram, reģistrējoties vai pieprasot piekļuves atļauju, sazinoties ar datu kopas īpašnieku vai pārvaldnieku.
-
Slēgtie dati: dati, kuri nav publiski pieejami un ir pieejami tikai ierobežotam personu lokam, piemēram, organizācijas iekšējai lietošanai vai sensitīvas informācijas aizsardzībai. Ar slēgtiem datiem var veidot metadatu ierakstu repozitorijā.
Dažkārt pētnieki izvēlas padarīt datus atvērti pieejamus pēc embargo perioda. Tas nozīmē, ka kādu noteiktu laika posmu dati nav publiski pieejami, lai gan nākotnē tie tiks atvērti. Šāds ierobežojums var būt saistīts ar autortiesībām, intelektuālā īpašuma aizsardzību, publikāciju prasībām vai komerciāliem apsvērumiem.
Embargo periodā metadati tiek padarīti pieejami, lai informētu par datiem un to pieejamību nākotnē. Tas palīdz pētniekiem un interesentiem uzzināt par datu kopu, tās saturu un iespējamo piekļuves laiku pēc embargo perioda beigām. Tomēr metadatu pieejamība var atšķirties atkarībā no repozitorija politikas un datu veida
Kāpēc pētniecības datu arhivēšana ir svarīga?
-
Datu kopas iespējams pārbaudīt arī pēc projekta noslēguma
-
Datu kopas var tikt atkārtoti izmantotas nākotnē (piemēram, mācību nolūkos vai jauniem pētījumiem)
-
Tiek nodrošināta atbilstība prasībām no finansētāju, izdevēju, institūciju vai organizāciju puses par noteiktu datu saglabāšanas periodu
-
Tiek ilgtermiņā saglabāti dati, kuriem ir nozīmīga vērtība organizācijas, valstiskā vai sabiedrības līmenī
Pētniecības datu repozitoriji
Datu repozitoriji ir digitālas platformas, kas izveidotas, lai droši glabātu, organizētu un koplietotu pētniecības datus. Tie nodrošina ilgtermiņa datu uzglabāšanu un piekļuvi zinātniskajai, kā arī plašākai sabiedrībai, veicinot datu pārvaldības labās prakses ievērošanu.
Izvēloties repozitoriju, vērts pārdomāt šādus jautājumus:
-
Kāda ir datu pētniecības joma/zinātnes nozare? Vai attiecīgajā nozarē ir uzticams datu repozitorijs?
-
Kāds ir datu veids – tabulas, teksts, video, audio, kods u.tml.? Vai repozitorijs atbalsta nepieciešamos datu veidus?
-
Kādi ir datņu formāti? Vai repozitorijs atbalsta nepieciešamos datu formātus?
-
Vai dati satur sensitīvu informāciju? Vai repozitorijs nodrošina aizsardzību un slēgtu piekļuvi šādiem datiem?
-
Kāds ir datu kopas apjoms? Kādi ierobežojumi repozitorijam attiecībā uz datu apjomu?
-
Kādas ir projektu finansējošās organizācijas prasības? Vai tās nav pretrunā ar izvēlētā repozitorija politiku?
-
Kādu funkcionalitāti repozitorijs piedāvā, nodrošinot piekļuvi datu kopām?
-
Vai repozitorijs nodrošina atbilstošu licenci datiem?
-
Vai repozitorijs piedāvā iespēju detalizēti aprakstīt datu kopu? Vai tas atbalsta mašīnlasāmus metadatus, kas var palielināt datu redzamību un lietošanu?
-
Vai repozitorijs piešķir datiem pastāvīgo identifikatoru (persistent identifier – PID), piemēram, DOI, lai veicinātu datu kopas atrodamību un iespēju to citēt?
-
Kādi ir datu ilgtermiņa saglabāšanas nosacījumi?
-
Vai ar datu glabāšanu vai uzturēšanu repozitorijā ir saistītas izmaksas?
DataverseLV: Latvijas Nacionālais pētniecības datu repozitorijs
DataverseLV pētniecības datu repozitorijs ir izstrādāts, lai pētnieki Latvijā varētu deponēt savus pētniecības datus pēc projektu vai pētnieciskās darbības noslēguma. DataverseLV datu kopas var tikt publicētas ar atvērtu, daļēji slēgtu vai slēgtu piekļuvi.
DataverseLV ir balstīts uz atklātā pirmkoda programmatūras Dataverse, ko izstrādājusi Hārvarda Universitāte. Šis repozitoriju veids ir viens no populārākajiem akadēmiskās pētniecības datu pārvaldības risinājumiem pasaulē, turklāt tas regulāri tiek atjaunināts, lai uzlabotu gan pieejamību pētniekiem, gan mašīnlasāmību. Dataverse platforma, izmantojot visus nepieciešamos protokolus, attīsta un piedāvā pakalpojumus, kas atbilst FAIR principiem.
Citas repozitoriju alternatīvas
Lai sameklētu sev atbilstošu repozitoriju, pētnieki var izmantot globālus repozitoriju reģistrus:
Daudznozaru repozitoriji
Daudznozaru pētniecības datu repozitoriji ir repozitoriji, kas apkopo un glabā datus no dažādām zinātnes nozarēm un disciplīnām. Tie parasti atbalsta plašu datu tipu un failu formātu klāstu, izmanto vispārīgus metadatus un nodrošina piekļuvi plašam pētnieku lokam. Šādi repozitoriji veicina starpdisciplināru sadarbību, datu atkārtotu izmantošanu un ilgtermiņa saglabāšanu.
-
Zenodo : OpenAIRE un CERN izstrādāts repozitorijs, kas atbalsta ne tikai vairākus datu veidus dažādās zinātņu nozarēs, bet piedāvā deponēt arī lielu dažādību citu pētniecisko rezultātu.
-
Figshare: piedāvā pētniekiem glabāt visa veida pētījumu rezultātus, pat ļoti apjomīgas datu kopas.
-
Dryad: daudznozaru repozitorijs, kas piedāvā metadatu kvalitātes kontroli pirms datu publicēšanas.
Nozaru repozitoriji
Nozares specifiskie repozitoriji ir repozitoriji, kas glabā datus no konkrētas zinātnes jomas vai nozares. Tie var pieņemt ierobežotu skaitu datu veidu vai failu formātu, izmantot specializētus metadatus un terminoloģiju vai kā citādi ierobežot iesniedzamo un pieejamo datu veidus.
Institucionālie repozitoriji Latvijā
Latvijā ir pieejami institucionālie pētniecības repozitoriji Rīgas Stradiņa universitātē (RSU) un Rīgas Tehniskajā universitātē (RTU). Šie repozitoriji nodrošina iespēju attiecīgo universitāšu pētniekiem deponēt un glabāt savus pētniecības datus, veicinot to pieejamību, saglabāšanu un atkārtotu izmantošanu. Institucionālie repozitoriji atbalsta dažādus datu formātus un nodrošina metadatu aprakstīšanu.
Datu kopas sagatavošana ilgtermiņa glabāšanai
Vēlamie datu formāti
Vēlamā datņu formāta izvēle ir būtiska, lai nodrošinātu, ka dati būs lasāmi arī nākotnē. Daži datu formāti, salīdzinot ar citiem, būtiski uzlabo iespēju datus izmantot ilgtermiņā.
Parasti priekšroka tiek dota datu formātiem, kas nodrošina ilgtermiņa pieejamību, atvērtību un plašu savietojamību ar dažādām sistēmām un programmatūru. Šie formāti raksturojas ar šādām īpašībām:
-
Nekomerciāli: brīvi pieejami un lietojami bez nepieciešamības iegādāties specifisku programmatūru vai licences. Tas nodrošina plašāku piekļuvi un datu ilgtermiņa saglabāšanu neatkarīgi no komerciālu uzņēmumu darbības izmaiņām.
-
Atvērti, ar dokumentētiem starptautiskiem standartiem: balstīti uz publiski pieejamiem un standartizētiem tehniskiem specifikācijām, kas ļauj dažādām sistēmām un rīkiem apstrādāt šos datus bez ierobežojumiem. Tas arī veicina datu atkārtotu izmantošanu un ilgtermiņa saglabāšanu.
-
Izmanto standarta rakstzīmju kodējumu, piemēram, Unicode, UTF-8: nodrošina pareizu teksta attēlošanu dažādās valodās un platformās, novēršot kodējuma nesaderības problēmas. UTF-8 ir īpaši izplatīts, jo tas atbalsta plašu rakstzīmju diapazonu un ir efektīvs datu glabāšanā.
-
Nesaspiesti: lai izvairītos no iespējamiem datu bojājumiem vai atkarības no specifiskām saspiešanas metodēm. Nesaspiesti dati arī atvieglo to apstrādi un ilgtermiņa saglabāšanu, jo nav nepieciešama papildu programmatūra datu atvēršanai vai atjaunošanai.
Šīs īpašības palīdz nodrošināt, ka dati ir viegli pieejami, droši uzglabājami un plaši izmantojami nākotnē.
Datnes veids | Vēlamie formāti | Nevēlamie formāti |
---|---|---|
Teksta dokumenti |
|
|
Vienkāršs teksts |
|
|
Datu tabulas |
|
|
Datubāzes |
|
|
Statistiskās analīzes dati |
|
|
Audio |
|
|
Video |
|
|
Attēli |
|
|
Vektoru faili |
|
|
Ģeogrāfiskās informācijas sistēmas (GIS) |
|
|
Tabulāru datu sagatavošana
Lai sagatavotu tabulārus datus ilgtermiņa glabāšanai un veicinātu atkārtotu izmantošanu, ir svarīgi sekot labajām praksēm.
Ieteicams
-
Piešķirt katrai kolonnai aprakstošu virsrakstu
-
Izmantot vienu galvenes rindu
-
Pārliecināties, ka pirmā šūna ir A1
-
Saglabāt katru datu failu ar nosaukumu, kas precīzi atspoguļo faila saturu
-
Saglabāt katru tabulu, kas ir daļa no datu kopas, kā atsevišķu failu
-
Saglabāt katru izklājlapu kā atsevišķu datni
-
Izklājlapas vēlams saglabāt CSV vai TAB formātā
Nav ieteicams
-
Iestrādāt izklājlapā diagrammas, komentārus vai tabulas
-
Izmantot krāsu kodēšanu, jo mašīniespējota datu ieguve to nevar interpretēt
-
Iekļaut izklājlapā speciālās (t.i., ne burtciparu) rakstzīmes, tostarp komatus
-
Izmantot sapludinātās šūnas
-
Izvietot vairākas darblapas izklājlapā (piemēram, programmā Microsoft Excel), jo CSV un TAB formāti to neatbalsta
Metadatu sagatavošana
Metadati, kas, īsumā definējot, ir “dati par datiem”, pilda svarīgu lomu pētniecības datu pārvaldībā. Metadati ir strukturēta informācija, kas nepieciešama, lai identificētu, aprakstītu, efektīvi atrastu, sniegtu pētījuma un tā datu konteksta informāciju īsā un viegli pārskatāmā formā. Standartizētā pieeja metadatu sagatavošanā padara tos gan viegli cilvēkiem lasāmus, gan mašīnlasāmus. Tos izmanto repozitorijos, aizpildot atbilstošos laukus, metadatu ierakstu sagatavošanai deponēšanas brīdī un automātiskas atsauces ģenerēšanai, un, protams, meklēšanas-atrašanas procesa nodrošināšanai repozitorijā, repozitoriju tīklos (agregatoros) un citās informācijas sitēmās.
Metadatiem ir būtiska nozīme FAIR principu īstenošanā pētniecības datu pārvaldībā, respektīvi, lai nodrošinātu, ka dati ir atrodami, pieejami, sadarbspējīgi un atkārtoti izmantojami. Tas palīdz citiem pētniekiem un interesentiem atrast datus, saprast datu struktūru, kontekstu un mērķi, atvieglo datu izmantošanu un integrēšanu turpmākajos pētījumos.
Pētījuma datos palīdz orientēties un rekomendējoši ir pievienot arī dokumentāciju, piemēram:
-
ReadMe datnes
-
Datu vārdnīcas
-
Kodu grāmatas
-
Klasifikācijas shēmas
-
Paraugus, veidlapas, aptauju anketas
-
Protokolus, laboratorijas piezīmes vai žurnālus, datu vākšanas metodoloģijas aprakstus
-
Analīzes sintakses, algoritmus un koda komentārus
-
Saites uz pētījuma pārskatiem un publikācijām (vēlams ar DOI)
Dažkārt metadati un dokumentācija tiek lietoti savstarpēji aizstājami. Tas nozīmē, ka, piemēram, deponējot nav pievienota vai pievienota minimāla dokumentācija, savukārt, metadatu ieraksts sagatavots pietiekoši pilnīgs, lai palīdzētu orientēties datu kopā, un otrādi, metadatu ieraksts var būt sagatavots minimāls, bet dokumentācija satur vispatverošu ReadMe failu. Plašākā skatījumā arī dokumentāciju mēdz saukt par metadatiem, tomēr jāatceras, ka dokumentācija ir vairāk cilvēklasāma, ne mašīnlasāma. Metadatu īsā forma ļauj interesentiem ātri iepazīties un pieņemt lēmumu, vai informācija atbilst meklētajam un nepieciešams pievērst uzmanību iespējām piekļūt pilnai datu kopai.
Jau pētījuma sagatavošanās stadijā, tiek rekomendēts pārdomāt kā apkopot vajadzīgos metadatus, lai viss nepieciešamais repozitorija ieraksta sagatavošanai būtu piefiksēts laicīgi, tostarp, var izskatīt iespējas izmantot IT rīkus.
Metadatu veidi
Visbiežāk tiek izdalīti trīs metadatu veidi (jeb atribūtu kopas): aprakstošie, strukturālie un administratīvie metadati, taču mēdz izdalīt arī vairāk veidus, piemēram:
-
aprakstošie metadati : nodrošina galveno informāciju, kas palīdz identificēt un atrast datu kopas. Tie ietver tādus elementus kā, piemēram, nosaukums, autors, anotācija un atslēgvārdi
-
strukturālie metadati: apraksta datu kopas organizāciju un saites tajā. Tie ietver informāciju par failu, hierarhijām, datu elementu secību un saikni starp dažādām datu daļām
-
administratīvie metadati: parasti ietver informāciju par īpašumtiesībām, piekļuves tiesībām, datu izmantošanas ierobežojumiem un versiju kontroli
-
juridiskie jeb tiesību metadati: sniedz informāciju par licencēm un datu izmantošanas tiesībām
-
tehniskie metadati: koncentrējas uz datu tehniskajiem aspektiem, piemēram, failu formātiem, kodēšanas formātiem, failu saspiešanas metodēm vai nepieciešamajām programmatūras vidēm
-
izcelsmes metadati: dokumentē, no kurienes dati iegūti, kā tie mainīti un kas ir piedalījies to izveidē
-
saglabāšanas metadati: sniedz arhivēšanas informāciju, tostarp ilgtermiņa saglabāšanas termiņu
-
semantiskie metadati: vērtību nozīmju un datu komponentu nosaukumu apraksts
Metadatu elementi
Strukturējot un standartizējot informāciju par datu kopām, tiek izmantoti metadatu elementi (tos mēdz saukt arī par metadatu atribūtiem, informācijas sistēmas laukiem). Metadatu elementi – tie ir noteikumi par laukiem, kādi jāizmanto, aprakstot digitālu objektu.
Informācijas sistēmās, tostarp, elektroniskos repozitorijos un katalogos metadatu lauki tiek aizpildīti ar vērtībām jeb datiem/metadatiem. Jāseko arī noteikumiem, kā vērtības laukos aizpildīt, piemēram, unikālā pastāvīgā identifikatora laukā vispirms jānoskaidro kāds PID prasīts un kā to korekti pierakstīt, vai arī – atslēgas vārda lauka aizpildīšanai tiek rekomendēts izmantot kontrolēto vārdnīcu un, ja ir, tad ontoloģiju.
Metadatu elementu kopums un nosacījumi to secībai un aizpildīšanai veido metadatu shēmas. Ja metadatu shēmu attīstījuši speciālisti vai organizācijas, tad šīs vadlīnijas metadatu radīšanā un pārvaldīšanā var iegūt arī metadatu standarta statusu. Pētījumu datu aprakstīšanai un deponēšanai tiek primāri rekomendēts izmantot pētniecības nozaru metadatu standartus, taču plaši izmantoti, tostarp repozitoriju funkcionalitātē iekļauti, ir arī daudznozaru metadatu standarti. Kopumā metadatu standartizētā pieeja palīdz nodrošināt konsekvenci metadatu lietošanā.
Pamata metadatu elementi
-
Nosaukums: datu kopas nosaukums. Ieteicams veidot īsu un viegli uztveramu, tomēr ar pietiekamu detalizācijas pakāpi, kā arī – tā, lai tas nesakristu ar citiem pētījuma rezultātu nosaukumiem
-
Apraksts: īss apraksts (anotācija) par metadatu ierakstam pievienotās datu kopas saturu, kas ir pietiekoši detalizēts, lai interesenti varētu saprast, vai datu kopa atbilst meklētajam un viņu vajadzībām
-
Autorība: galvenais un citi datu kopas autori, kā arī informācija par viņu institucionālo piederību (rekomendējoši ir metadatu ierakstā norādīt autora pastāvīgo identifikatoru, piemēram, ORCID numuru)
-
Kontaktpersona: persona, pie kuras var vērsties ar jautājumiem par datu kopu (iekļaujot arī kontaktinformāciju, piemēram, e-pasta adresi)
-
Zinātnes nozare: zinātnes nozare, kurai atbilst datu kopa un kuras noteikšanai izmantota konkrēta klasifikācija
-
Atslēgas vārdi: atslēgas vārdu saraksts, kas palīdz interesentiem atrast metadatu ierakstu un datu kopu, kā arī palīdz ātri iepazīt satura tematisko aptvērumu un kontekstu. Piemeklējot atbilstošus jēdzienus, ir rekomendējoši izmantot kontrolētās vārdnīcas (controlled vocabularies), tostarp ontoloģijas. Ieteicams iekļaut jēdzienus, kurus varētu lietot arī nespeciālisti.
-
Publicētājs: atbildīgā institūcija vai organizācija par datu kopas pieejamību, piemēram, universitāte
-
Publicēšanas datums: datums, kad informācija par datu kopu un/vai tās saturu publiskota (parasti tas ir datums, kad repozitorija administrators apstiprina metadatu ieraksta iekļaušanu repozitorija saturā)
-
Pastāvīgais identifikators: angļu valodā – persistent identifier (PID) ir rakstzīmju virkne, kas tiek izmantota, lai unikāli identificētu dokumentu, failu, autora profilu un citus objektus tīmeklī, kā arī, lai atpazītu sasaisti starp šiem objektiem. Konkrētu datu kopu identificēšanai ir rekomendējoši parūpēties, lai tiktu piešķirts, piemēram, DOI (Digital Object Identifier). Daļa repozitoriju piedāvā šādu pakalpojumu, un deponēšanas brīdī automātiski piešķir DOI.
-
Publiskās pieejamības līmenis: pakāpe, kādā datu kopa var tikt padarīta publiski pieejama
-
Licence: informācija par jebkādiem ierobežojumiem vai nosacījumiem saistībā ar konkrēto datu kopu atkārtotas izmantošanas, tostarp kopīgošanas gadījumā, (piemēram, atvērtē tipa Creative Commons licence: CC BY). Licences pievienošana palielina iespējamību, ka publicētie dati tiks atkārtoti izmantoti, jo interesentiem ir pilna skaidrība par to, ko drīkst un ko nedrīkst darīt ar datiem.
-
Valoda: datu kopas valoda
-
Datu ievākšanas periods: laika posms, kurā dati tika ievākti vai ģenerēti
-
Datu ievākšanas vieta: ģeogrāfiskās atrašanās vietas, kur dati tika ievākti
-
Datu tips: datu tipi, kas iekļauti failos, piemēram, anketēšanas dati vai klīniskie dati.
-
Versijas informācija: visnesenākais datums, kad datu kopa tika mainīta, papildināta vai modificēta, versijas apzīmējums, kā arī informācija par galvenajām izmaiņām
-
Projekta informācija:
-
Finansējošā institūcija: nosaukums organizācijai, kas finansē projektu
-
Projekta numurs vai ID: unikāls identifikators, kas attiecas uz konkrēto projektu
-
Projekta nosaukums: oficiālais nosaukums projektam (ja pastāv, tad arī abreviatūra jeb saīsinātais projekta nosaukums)
-
-
Laika periods: laika posms, kuram atbilst dati, īpaši attiecībā uz vēsturiskiem datiem
-
Lietojumprogramma: informācija par lietojumprogrammatūru, kas nepieciešama, lai atvērtu un analizētu failus
-
Saistītie materiāli un datu kopas: informācija par dažādiem pētījuma rezultātiem vai projekta nodevumiem, piemēram, zinātniskie raksti, konferenču materiāli, citas datu kopas u.c., pievienojot DOI (Digital Object Identifier) vai saites uz tīmekļa vietni, kur tie pieejami.
Soļi metadatu standarta izvēlei
Piemērota metadatu standarta izvēle pētniecības datu aprakstīšanai un kopīgošanai bieži vien ir atkarīga no repozitorija, kurā dati tiks ievietoti. Šo izvēli var veikt šādā secībā:
-
Pētījuma konteksta analīze: identificē pētījuma mērķus un uzdevumus, iesaistītās puses (pētnieki, datu lietotāji, finansētāji u. c.), kā arī prasības attiecībā uz datu dokumentēšanu un kopīgošanu. Šis solis palīdz izprast, kādi metadatu standarti un repozitoriji varētu būt piemēroti.
-
Pētījuma jomas prasību identificēšana: noskaidro, kādas ir konkrētās zinātniskās disciplīnas prasības attiecībā uz metadatu standartiem un datu kopīgošanu. Dažādās nozarēs (piemēram, biomedicīnā, sociālajās zinātnēs) ir noteiktas metadatu vadlīnijas/ieteikumi.
-
Datu tipu un īpašību identifikācija: apzini, kāda veida dati tiks radīti (piemēram, kvantitatīvi, kvalitatīvi, attēli, video u. c.), izproti to struktūru un organizēšanu, kā arī identificē nepieciešamās metadatu prasības.
-
Atbilstoša repozitorija izvēle: identificē repozitorijus, kas atbilst pētījuma jomai un datu tipiem, kā arī pārbaudi to prasības attiecībā uz metadatu standartiem.
-
Repozitorijā izmantoto metadatu standartu izpēte: izpēti, kādi metadatu standarti tiek atbalstīti izvēlētajā repozitorijā (piemēram, Dublin Core, DataCite, DDI, u. c.) un kā tie atbilst pētījuma vajadzībām.
-
Metadatu standarta izvēle un pielietošana: izvēlies vispiemērotāko standartu un nodrošini, ka dati tiek aprakstīti pēc iespējas pilnīgāk.
-
Izvēles dokumentēšana: norādi izvēlēto metadatu standartu datu pārvaldības plānā, lai pamatotu izvēli un nodrošinātu atbilstību institucionālajām un finansētāju prasībām.
Izplatītākās metadatu shēmas pētnieciskajiem datiem
-
Dublin Core: izplatītākais metadatu standarts, atbalsta visplašākā resursu klāsta aprakstīšanu
-
DataCite Metadata Schema: obligāto metadatu kopa, kas jāsniedz DataCite Metadata Store sistēmai, veidojot DOI pastāvīgo identifikatoru datu kopai
-
DDI – Data Documentation Initiative: plaši izmantots starptautisks standarts sociālo, uzvedības un ekonomikas zinātņu datu aprakstīšanai
-
OAI-ORE – Open Archives Initiative Object Reuse and Exchange: šie standarti atvieglo tīmekļa satura koplietošanu, izmantošanu un saglabāšanu. Tie atbalsta mūsdienīgu pētniecību un darbojas ar visu veidu tiešsaistes informāciju, tostarp sociālajiem tīkliem
Autortiesības un licences
Publicējot pētniecības datus, tos ir ieteicams licencēt. Licences ļauj kopīgot datus, vienlaikus skaidri norādot, ko citi lietotāji var darīt ar šiem datiem. Deponējot datus repozitorijā, var tikt norādīts izvēlēties kādu no licenču veidiem.
Kādu licenci izvēlēties?
Datu kopām
-
Publiskais domēns
Fakti paši par sevi nav aizsargāti ar autortiesībām. Tātad, ja dati ir tikai vienkāršu faktu kolekcija, tie nav aizsargāti ar autortiesībām. Taču, ja tie ir unikāli apkopoti vai iegūti ar specifisku metodi, tad uz tiem var attiekties noteikti juridiski ierobežojumi.
Tas nozīmē, ka, ja datu kopa satur tikai faktus, tad šos datus var publiskot kā publisku domēnu. To var izdarīt, izmantojot Creative Commons licenci Zero Public Domain Dedication (CC0).
CC0 licence ļauj autortiesību īpašniekam atteikties no jebkādām tiesībām uz darbu, ļaujot ikvienam to izmantot bez ierobežojumiem – gan akadēmiskiem, gan komerciāliem nolūkiem.
CC0 piemēri pētniecībā:
-
Starptautiska organizācija publicē globālos temperatūras mērījumus kā CC0 datus, lai klimata pētnieki varētu tos izmantot bez ierobežojumiem.
-
Valdība publicē satiksmes negadījumu statistiku kā publiski pieejamus datus, lai pētnieki varētu analizēt un uzlabot satiksmes drošību.
Lai gan CC0 neprasa autorības norādīšanu, zinātniskajā pasaulē ieteicams citēt datu avotu, jo tas palīdz uzturēt akadēmisko godīgumu.
-
-
Creative Commons licences
CC0 licences izmantošana ir labākais veids, kā veicināt datu kopīgošanu un atkārtotu izmantošanu, lai atbalstītu atvērto zinātni, jo tādējādi datus bez ierobežojumiem var lietot ikviens.
Ja nav vēlmes pilnībā atteikties no autortiesībām vai datu kopa ietver arī citus materiālus, piemēram, tekstus, attēlus vai videoklipus, var izvēlēties kādu no Creative Commons licencēm. Šīs licences saglabā autortiesības, vienlaikus nosakot noteikumus, kā citi drīkst izmantot datus.
Vispiemērotākā licence datu koplietošanai un atkārtotai izmantošanai ir Creative Commons Attribution (CC BY). Tā nodrošina visplašākās tiesības izmantot datus jebkurā veidā ar vienu nosacījumu – ir jānorāda sākotnējais avots. Tas palīdz saglabāt autoru atpazīstamību un veicina datu atkārtotu izmantošanu pētniecībā, uzņēmējdarbībā un citās jomās.
-
-
CC BY (Attribution)
Ļauj izplatīt, pārveidot, pielāgot darbu un izmantot to pat komerciāli, ja tiek norādīts sākotnējais autors.
-
CC BY-SA (Share-Alike)
Ļauj pārveidot un izplatīt darbu, arī komerciāli, ar nosacījumu, ka sākotnējais autors tiek norādīts un visi jaunie darbi tiek licencēti ar tādiem pašiem noteikumiem.
-
CC BY-ND (Attribution-NoDerivs)
Ļauj kopēt un izplatīt materiālu jebkurā formātā, arī komerciāli, taču tikai nemainītā veidā un ar atsauci uz autoru.
-
CC BY-NC (Attribution-NonCommercial)
Ļauj kopēt, izplatīt un pārveidot materiālu, bet tikai nekomerciāliem nolūkiem, norādot sākotnējo autoru.
-
CC BY-NC-SA (Attribution-NonCommercial-ShareAlike)
Ļauj izplatīt un pārveidot materiālu tikai nekomerciāliem nolūkiem, ar nosacījumu, ka tiek norādīts sākotnējais autors un visi jaunie darbi tiek licencēti ar tādiem pašiem noteikumiem.
-
CC BY-NC-ND (Attribution-NonCommercial-NoDerivs)
Visierobežojošākā licence – ļauj tikai kopēt un izplatīt darbu, nekomerciāliem nolūkiem, bez izmaiņām un ar norādi uz autoru.
-

Programmatūrai
Pētniecībā izstrādātai programmatūrai bieži tiek izmantotas atvērtā pirmkoda licences, lai nodrošinātu tās brīvu pieejamību, pielāgojamību un atkārtotu izmantošanu.
-
MIT licence: ļoti elastīga un vienkārša – ļauj izmantot, modificēt un izplatīt kodu, pat komerciāli.
-
Nepieciešama tikai autora norāde (attribution)
-
Piemērota pētniecības rīkiem, kuriem vēlas nodrošināt maksimālu izplatību
-
Piemēri: NumPy, Jupyter Notebook
-
-
Apache licence 2.0: aizsargā pret patentu pretenzijām – nodrošina patentu licences lietotājiem, bet nepieļauj ļaunprātīgu patentu izmantošanu.
-
Atļauj brīvu programmatūras izmantošanu un pielāgošanu, arī komerciāliem nolūkiem
-
Nepieciešama autora norāde un licences kopijas pievienošana
-
Piemēri: TensorFlow, Apache Spark
-
-
GNU Vispārējā publiskā licence (GNU GPL): “copyleft” licence – ja kods tiek mainīts un izplatīts, arī jaunajam darbam jābūt atvērtam un licencētam ar GPL.
-
Aizsargā pret programmatūras patentiem un ļaunprātīgu kodu slēgšanu
-
Mazāk piemērota, ja vēlas ļaut kodu izmantot slēgtā programmatūrā
-
Piemēri: GNU Octave, R
-
Papildus avoti licenču izvēlē
Pastāvīgie identifikatori
Pastāvīgais identifikators (PID) ir nemainīga atsauce uz konkrētu resursu, piemēram, zinātnisku publikāciju, datu kopu, programmatūru vai fizisku objektu. PID nodrošina, ka resurss saglabā savu unikālo identifikāciju neatkarīgi no tā, kur tas tiek glabāts vai pārvietots digitālajā vidē.
Galvenās priekšrocības
-
Atrodamība: PID atvieglo digitālo resursu atrašanu un identificēšanu, īpaši lielās datubāzēs vai tiešsaistes krātuvēs.
-
Pieejamība: PID nodrošina, ka digitālais saturs ir pieejams laika gaitā, pat ja sākotnējais avots tiek pārvietots vai izdzēsts.
-
Uzticama citēšana: PID nodrošina stabilu veidu, kā citēt digitālos resursus pētnieciskajos rakstos un citos zinātniskos darbos.
-
Sadarbspēja: PID palīdz dažādām sistēmām un datubāzēm apmainīties ar informāciju par digitālajiem resursiem un koplietot to.
Populārākie PID veidi pētniecībā
-
DOI (Digital Object Identifier): visbiežāk izmantots zinātniskajām publikācijām un datu kopām
-
ORCID (Open Researcher and Contributor ID): unikāls identifikators pētniekiem un autoriem
-
Handle: plaši pielietots PID akadēmiskajos un valdības datos
-
ARK (Archival Resource Key): izmantots arhīvu un muzeju digitālajiem resursiem
-
ISBN (International Standard Book Number): unikāls identifikators grāmatām un citām monogrāfiskām publikācijām, kas nodrošina to viennozīmīgu identificēšanu izdevēju, bibliotēku un grāmatnīcu sistēmās
Datu pieejamības deklarācija
Arvien vairāk starptautiskie zinātniskie žurnāli iekļauj datu pieejamības deklarāciju jeb paziņojumu (data availability statement) kā atsevišķu zinātniskā raksta sadaļu. Šis paziņojums parasti norāda, vai un kā pētniecības dati ir pieejami citiem pētniekiem, piemēram, publiski pieejamā repozitorijā, pēc pieprasījuma vai ar noteiktiem ierobežojumiem.
Vairāk informācijas par zinātnisko žurnālu prasībām datu koplietošanai šeit.
Piemēri datu pieejamības deklarācijās:
-
“Visi pētījumā izmantotie dati ir pieejami publiski, un tos var atrast DataverseLV repozitorijā ar šādu DOI:…”
-
“Dati pieejami pēc pieprasījuma, sazinoties ar zinātniskā raksta atbildīgo autoru.”