DataverseLV Digitālās saglabāšanas politika 

1. Politikas mērķis un darbības joma

DataverseLV ir Latvijas nacionālais pētniecības datu repozitorijs, kas nodrošina pētniecības kopienas izveidoto radīto kopu ilgtermiņa saglabāšanu, piekļuvi un atkārtotu izmantošanu. DataverseLV Digitālās saglabāšanas politika (turpmāk Politika) nosaka DataverseLV repozitorija apņemšanos un pieeju atbildīgai un ilgtspējīgai pētniecības datu glabāšanai, pieejamībai un lietojamībai ilgtermiņā. Politika ir izstrādāta saskaņā ar Latvijas atvērtās zinātnes stratēģiju, OAIS referenču modeli, TRUST principiem, FAIR datu principiem un CoreTrustSeal prasībām. Politika attiecas uz visām DataverseLV publicētajām datu kopām un to metadatiem, kā arī procesiem no uzņemšanas līdz izņemšanai (deaccessioning) repozitorijā. Politikas adresāti ir datu kopu deponētāji, datu kuratori, repozitorija administratori, LVRTC infrastruktūras operators un vispārēja DataverseLV lietotāju kopiena. 

Politikā izmantoto terminu skaidrojumi 

Mitināšana — lietojumprogrammu un pakalpojumu izvietošana un uzturēšana serveru infrastruktūrā (OS, lietojumserveris, datubāze, tīkls), kas nodrošina DataverseLV darbību. 

Datu glabāšana — digitālo datu droša saglabāšana glabātuvēs ar replikāciju, rezerves kopijām un pieejamības atjaunošanu saskaņā ar SLA. 

OAIS (ISO 14721) — starptautisks referenču modelis atvērtai arhīvu informācijas sistēmai ilgtermiņa saglabāšanai un pieejamībai, definējot funkcijas, procesus un terminoloģiju. 

TRUST principi — vadlīnijas uzticamu repozitoriju nodrošināšanai: Transparency, Responsibility, User focus, Sustainability, Technology. 

Fixity (integritātes pārbaude) — apliecinājums, ka fails nav mainījies bitu līmenī; tiek salīdzinātas sākotnēji saglabātās un atkārtoti aprēķinātās kontrolsummas. 

DOI — pastāvīgs digitālais identifikators datu kopām un to versijām, kas nodrošina noturīgu atsaucēšanu un atrodamību. 

Deaccessioning (izņemšana) — publicētu datu vai to daļu atsaukšana īpašos gadījumos; DOI un metadati paliek ar “tombstone” ierakstu, kas skaidro iemeslu. 

Embargo — laika periods, kura laikā dati nav publiski pieejami, pēc kura piekļuve tiek atvērta saskaņā ar noteikumiem. 

Bitu līmeņa saglabāšana — datu saglabāšana, fokusējoties uz bitu integritāti (kontrolsummas, replikācija, dublēšana), neiesaistoties satura pārveidē. 

Normalizācija — failu pārveide uz ieteicamiem, saglabāšanai piemērotiem formātiem, lai mazinātu riska un novecošanas ietekmi. 

Formātu migrācija — plānota pārnese no novecojoša formāta uz aktuālu, saglabājot būtiskās īpašības un lietojamību. 

SLA — pakalpojumu līmeņa vienošanās par pieejamību, incidentu pieteikšanu/novēršanu un atjaunošanas mērķiem starp VPC un LVRTC. 

RTO/RPO — atjaunošanas laika mērķis un atjaunošanas punkta mērķis. 

Kurators — repozitorija speciālists, kas palīdz deponētājiem sagatavot datus/metadatus, pārbauda atbilstību un kvalitāti pirms publicēšanas. 

OAI-PMH — standarta protokols, kas ļauj ārējām sistēmām ievākt un indeksēt metadatus no repozitorija. 

API — tehnisko protokolu kopa, kas ļauj citām programmām un sistēmām automatizēt uzdevumus, piemēram, datu augšupielādi vai meklēšanu repozitorijā, neizmantojot tīmekļa vietnes saskarni. 

2. Organizatoriskā atbildība un pārvaldība

Repozitorija darbību nodrošina Augstākās izglītības un zinātnes informācijas tehnoloģiju koplietošanas pakalpojumu centrs (VPC), kas ir centrālā administratīvā struktūra repozitorija vadībai, procesiem un programmatūras administrēšanai. Fizisko infrastruktūru un repozitorija mitināšanu nodrošina Latvijas Valsts radio un televīzijas centrs (LVRTC) kā nacionālās kritiskās infrastruktūras operators saskaņā ar savstarpējo SLA. Partneru universitātes pārvalda savas institucionālās kolekcijas un nodrošina datu kuratorus datu sagatavošanai un kvalitātes uzraudzībai; pārējo institucionālo kolekciju uzraudzību nodrošina VPC datu kuratori. 

2.1. DataverseLV lomas

Deponētājs: nodrošina datu kopas lietošanas tiesības, ētisko un juridisko atbilstību, ieteicamo formātu izmantošanu un pilnu dokumentāciju, iesniedzot datus publicēšanai. 

Partneru institūciju kuratori: pārbauda savas institūcijas datu kvalitāti un atbilstību, konsultē par metadatiem, licencēm, formātiem un piekļuvi, un saskaņo publicēšanu. 

VPC datu kuratori: tieši pārvalda institucionālās kolekcijas, kas nav partneruniversitāšu pārziņā, kā arī uzrauga partneruniversitāšu kolekcijas, tādējādi nodrošinot vienotu kvalitātes praksi visā repozitorijā. 

Repozitorija administratori (VPC): uztur DataverseLV programmatūru, piekļuves tiesības, versiju kontroli un procesu dokumentāciju. 

LVRTC: nodrošina repozitorija mitināšanu un datu glabāšanu ar replikāciju un dublēšanu, ievērojot Ministru kabineta instrukciju Nr. 5. 

VPC valde apstiprina politiku un stratēģiskos lēmumus, nodrošinot pārvaldības pēctecību. 

3. OAIS atbilstība un funkcijas 

DataverseLV saglabāšanas procesi ir saskaņoti ar OAIS modeli un aptver datu priekšuzņemšanu, uzņemšanu, arhivālo glabāšanu, datu pārvaldību, piekļuvi, administrāciju un saglabāšanas plānošanu. 

Priekšuzņemšanā repozitorijs nodrošina vadlīnijas, apmācības un ieteicamo failu formātu sarakstus deponētājiem. 

Uzņemšanā tiek pārbaudīta datu integritāte un pilnīgums, validēti metadati, ģenerētas MD5 kontrolsummas un veikta datu kvalitātes pārbaude pirms publicēšanas. 

Arhivālajā glabāšanā tiek īstenota replikācija un dublēšana divās ģeogrāfiski atdalītās vietās. 

Datu pārvaldībā tiek uzturēti administratīvie, aprakstošie un piekļuves metadati, kā arī versiju vēsture ar unikāliem DOI. 

Piekļuve notiek caur tīmekļa saskarni, OAI-PMH un API ar elastīgu piekļuves kontroli. 

Administrācijas funkcijas ir sadalītas starp VPC un partneriem ar skaidrām lomām un atbildībām. 

3.1. TRUST principu ieviešana

DataverseLV īsteno caurspīdīgumu, atbildību, lietotāju orientāciju, ilgtspēju un drošu, modernu tehnoloģiju izmantošanu visā datu dzīves ciklā. 

Politikas, procedūras un SLA aspekti par pieejamību, incidentiem un atjaunošanu ir dokumentēti un komunicēti ieinteresētajām pusēm. 

Ilgtspēja tiek nodrošināta ar stabilu pārvaldību, finansējumu un kritiskās infrastruktūras pakalpojumiem. 

4. Saglabāšanas stratēģija

Mērķis ir nodrošināt ilgtermiņa pieejamību un lietojamību, pieņemot un glabājot datus formātos, kas ir dokumentēti, plaši atbalstīti un piemēroti saglabāšanai. 

4.1. Formātu politika

Repozitorijs pieņem deponēšanai tikai ieteicamos un saglabāšanai piemērotos failu formātus; ja dati ir citā formātā, deponētājam jāveic konvertēšana pirms publicēšanas ar kuratora atbalstu. 

Ieteicamo formātu saraksts un vadlīnijas ir pieejamas dataverse.lv ceļvedī, un kuratori palīdz izvērtēt atbilstību pirms publicēšanas. 

4.2. Pieņemšana un integritāte

Uzņemšanas brīdī visiem failiem tiek aprēķinātas un reģistrētas kontrolsummas, lai nodrošinātu bitu līmeņa integritātes pārbaudi turpmākajos posmos. 

4.3. Glabāšana un pieejamība 

Dati un metadati tiek glabāti drošā nacionālajā infrastruktūrā ar replikāciju divās ģeogrāfiski atdalītās vietās un regulāru dublēšanu saskaņā ar SLA. 

Pieejamības, atjaunošanas (RTO/RPO) un incidentu procesu kārtība ir noteikta VPC un LVRTC SLA un tiek periodiski pārbaudīta. 

4.4. Izmaiņas un versijas

Jebkuras izmaiņas datos vai dokumentācijā rezultējas jaunā datu kopas versijā ar unikālu DOI un pilnu izmaiņu vēsturi, saglabājot citējamību. 

Metadatu labojumi tiek atsevišķi fiksēti, un iepriekšējās versijas paliek pieejamas atskaites nolūkiem. 

4.5. Formātu novecošana

Repozitorijs neveic centralizētu pēc-publicēšanas datu uzlabošanu vai vispārīgu formātu migrāciju, atbildība par ieteicamo formātu izmantošanu ir deponētājam, ar kuratora atbalstu sagatavošanas posmā. 

Ja identificēts formāta novecošanas risks, repozitorijs konsultē deponētāju par iespējamo pārpublicēšanu ieteicamā formātā un nodrošina versiju nepārtrauktību. 

4.6. Izņēmumi un atbalsts

Īpašos gadījumos, ja ieteicamā formāta piemērošana nav praktiski iespējama, tiek veikts kuratora izvērtējums un saskaņota alternatīva ar skaidru izvēles dokumentēšanu kvalitātes kontrolsarakstā. 

Visos gadījumos priekšroka tiek dota atvērtiem, dokumentētiem un kopienā plaši atbalstītiem formātiem, lai mazinātu atkarības un migrācijas riskus nākotnē. 

5. Datu kopu uzņemšana un aprakstīšana

Uzņemšanas kritēriji paredz tiesību atbilstības pārbaudi, sensitīvas informācijas aizsardzību vai anonimizāciju, normatīvo prasību ievērošanu un ļaunprogrammatūras neesamību. Uzņemšanā tiek veikta integritātes kontrole, MD5 kontrolsummu ģenerēšana, pilnīguma pārbaude un, ja vajadzīgs, formātu identifikācija. Metadatu aprakstīšanai tiek izmantoti starptautiski standarti, lai nodrošinātu atrodamību un savietojamību. 

5.1. FAIR principu atbalsts

DataverseLV īsteno FAIR (Findable, Accessible, Interoperable, Reusable) principus, lai nodrošinātu, ka pētniecības dati ir atrodami, pieejami, savietojami un atkārtoti izmantojami gan cilvēkiem, gan mašīnlasāmiem procesiem:  

Findable (Atrodami): Katrai datu kopai tiek piešķirts unikāls un pastāvīgs DOI identifikators, kas nodrošina precīzu atsaucēšanos un atrodāmību meklētājprogrammās. Datu kopas tiek aprakstītas ar bagātīgiem metadatiem, izmantojot starptautiskus standartus, un indeksētas meklēšanas sistēmās, ļaujot lietotājiem atrast datus pēc dažādiem kritērijiem.  

Accessible (Pieejami): Datu kopas un to metadati ir pieejami caur skaidri definētiem piekļuves protokoliem – tīmekļa saskarni, OAI-PMH un REST API. Pat ja datu faili ir ierobežotas piekļuves, metadati paliek atvērti, nodrošinot informāciju par datu eksistenci un piekļuves nosacījumiem. Piekļuves tiesības un licences ir skaidri norādītas.  

Interoperable (Savietojami): Repozitorijs atbalsta atvērtus metadatu standartus (piemēram, Dublin Core, DataCite), kas nodrošina savietojamību ar citām sistēmām un iespēju integrēt datus dažādos kontekstos. OAI-PMH protokols un API veicina automatizētu datu izgūšanu un integrāciju ar citām pētniecības infrastruktūrām. Ieteicamo failu formātu izmantošana nodrošina tehnoloģisko savietojamību.  

Reusable (Atkārtoti izmantojami): Datu kopām tiek pievienota pietiekama dokumentācija (README faili, kodu grāmatas, metodikas apraksti), skaidras lietošanas licences un versiju vēsture, kas ļauj citiem pētniekiem atkārtoti izmantot datus jaunos pētījumos. Versiju politika uztur caurspīdīgu un citējamu izmaiņu vēsturi, nodrošinot pētniecības reproducējamību un izsekojamību. 

5.2. Datu kopu melnrakstu pārvaldība

Ilgtermiņa saglabāšana attiecas uz publicētām datu kopām un metadatiem; melnraksti ir operacionāli ieraksti, kurus uztur līdz publicēšanai vai dzēšanai saskaņā ar deponētāja vēlmēm. 

Melnrakstus var dzēst deponētājs vai kurators, ja dati neatbilst prasībām vai nav virzīti publicēšanai, un visas darbības tiek reģistrētas kvalitātes kontroles protokolos. 

6. Versiju kontrole un izmaiņu pārvaldība

Nelielas versijas attiecas uz metadatu labojumiem vai papildinājumiem, bet būtiskas versijas ietver datu vai dokumentācijas failu izmaiņas. Katrai versijai ir unikāls DOI, tiek saglabāta pilna versiju vēsture un piekļuve iepriekšējām versijām. Lietotāji var citēt konkrētu versiju vai vienmēr jaunāko versiju atkarībā no vajadzības. 

7. Datu kopu izņemšana (deaccessioning)

Izņemšana ir iespējama juridisku vai ētisku pārkāpumu, autortiesību strīdu, pamatota deponētāja lūguma vai neatgriezeniska integritātes zuduma gadījumā. Faili tiek dzēsti, saglabājot DOI un metadatus ar “tombstone” ierakstu un norādītu iemeslu. Visi izņemšanas gadījumi tiek dokumentēti datu kopas kvalitātes kontrolsarakstā pārvaldības un atbilstības nolūkiem. 

8. Infrastruktūra, SLA un drošība

Dati un metadati tiek glabāti LVRTC infrastruktūrā ar sinhronu replikāciju divās ģeogrāfiski atdalītās vietās un ikdienas, iknedēļas un ikmēneša dublēšanu. Pieejamība, incidentu pieteikšana, atjaunošanas procedūras, RTO un RPO ir noteikti VPC un LVRTC SLA un tiek regulāri testēti atbilstoši līgumam. Infrastruktūra tiek uzturēta atbilstoši informācijas drošības standartiem un nacionālajam regulējumam. LVRTC pakalpojumu līmeņa vienošanās (SLA) ir izstrādāta un tiek piemērota atbilstoši Ministru kabineta 2022. gada 8. novembra instrukcijai Nr. 5 “Valsts elektronisko sakaru pakalpojumu centra nodrošināšanas kārtība”. 

8.1. Informācijas drošība un piekļuves kontrole

Tiek izmantota droša autentifikācija, uz lomām balstīta piekļuves kontrole, ugunsmūri, šifrēta datu pārsūtīšana un auditēšana. Administratīvā piekļuve ir stingri ierobežota, un ārkārtas pieeja ir iespējama tikai definētos gadījumos saskaņā ar SLA. Atbilstība datu aizsardzības prasībām tiek nodrošināta atbilstoši definētajām lomām un procesiem. 

9. Risku novērtēšana un incidentu pārvaldība

Risku identificēšana, novērtēšana, uzraudzība un dokumentēšana tiek īstenota saskaņā ar VPC un LVRTC sadarbības modeli, ievērojot LVRTC pakalpojumu līmeņa vienošanos (SLA), kas balstās uz Ministru kabineta 2022. gada 8. novembra instrukciju Nr. 5. Pieejamības rādītāji, incidentu pieteikšanas kanāli, reaģēšanas laiki, eskalācijas kārtība un atskaites ir noteiktas LVRTC SLA, un šo procesu operacionālo koordināciju nodrošina VPC. 

Fixity (kontrolsummu) pārbaudes un citi bitu līmeņa integritātes auditi ir DataverseLV iekšējie procesi un rīki, kas darbojas neatkarīgi no SLA un nodrošina datu nemainīguma uzraudzību. 

Rezerves kopiju atjaunošanas testēšana un notikumu reģistrēšana tiek veikta periodiski atbilstoši definētam grafikam, lai verificētu RTO/RPO sasniedzamību un procesu gatavību. Ja tiek konstatētas integritātes nesakritības vai citi incidenti, dati tiek atjaunoti no pēdējās drošās kopijas, piemērojot SLA noteiktās incidentu un atjaunošanas procedūras VPC koordinācijā. 

10. Pēctecība un nepārtrauktība

Nepārtrauktību nodrošina LVRTC kā nacionālās kritiskās infrastruktūras operators, DataverseLV darbojoties uz drošas, ģeogrāfiski dublētas infrastruktūras ar rezerves kopijām un uzraudzību. Repozitorija mitināšanas izmaiņas nav plānotas, un pakalpojuma pieejamība, incidentu pieteikšanas kārtība, reaģēšanas laiki un atjaunošanas mērķi (RTO/RPO) tiek īstenoti saskaņā ar LVRTC SLA, ko operacionāli koordinē VPC. 

Kritisku traucējumu gadījumā tiek piemērotas SLA noteiktās incidentu un atjaunošanas procedūras līdz pilnīgai pakalpojuma atjaunošanai tajā pašā infrastruktūrā, ar lietotāju informēšanu par statusu un darbību gaitu. DOI un metadati tiek uzturēti nemainīgi, nodrošinot citējamību un informācijas atrodāmību arī incidentu laikā, savukārt plānotu vai neplānotu darbu gadījumā var tikt piemērots īslaicīgs piekļuves ierobežojums (piemēram, read-only režīms) ar iepriekšēju paziņojumu, kad tas ir iespējams. 

Ja kāda iemesla dēļ DataverseLV repozitorija darbība tiek pārtraukta, tad LVRTC ir atbildīgs par repozitorija darbības saglabāšanu vismaz datu kopu lasīšanas režīmā. Šis minimālais pakalpojuma līmenis nodrošina, ka publicētie DOI identifikatori paliek atrisināmi, un pētnieki var turpināt piekļūt datu kopām un to metadatiem. 

11. Saglabāšanas termiņi un pieejamība

Publicētie dati tiek saglabāti bez termiņa ierobežojumaDOI identifikators tiek uzturēts arī dzēšanas gadījumā, un publiski pieejams “tombstone” ieraksts skaidro izņemšanas iemeslu un saglabā citējamību. Piekļuve datu kopām tiek noteikta atbilstoši lietošanas vajadzībām, atbalstot atvērto piekļuvi, ierobežotu piekļuvi un embargo periodus. 

12. Finansiālā ilgtspēja

DataverseLV izveide īstenota projekta “Atbalsts atvērtās zinātnes ieviešanai praksē, kā arī izveidoti risinājumi zinātnes datu koplietošanai un dalībai ES atvērtajā zinātnes mākonī” (ANM projekta Nr. 2.1.3.1.i) ietvaros ar Eiropas Savienības Atveseļošanas fonda un Latvijas valsts finansiālo atbalstu. Turpmāko uzturēšanu nodrošina partneru finansēšanas modelis un nacionālais bāzes finansējums atvērtās zinātnes iniciatīvām, ar vismaz piecu gadu darbības horizontu un regulāru budžeta pārskatīšanu. Mērķis ir nodrošināt personāla, repozitorija mitināšanas un platformas attīstības nepārtrauktību, paredzot scenārijus dažādiem finansējuma apstākļiem. 

13. Tehniskā platforma un standarti

DataverseLV izmanto atvērtā koda Dataverse platformu ar regulāriem atjauninājumiem un atbalstu no starptautiskās kopienas. Tehniskā vide ietver LinuxPayaraPostgreSQLSolr un papildu rīkus darbības monitorēšanai. Atbalstīti OAI-PMH, REST API un DOI reģistrācija, kā arī datu un metadatu eksporta iespējas. 

14. Politikas pārskatīšana un atjaunināšana

Politika tiek pārskatīta vismaz reizi trijos gados vai ātrāk, ja mainās tehnoloģijas, tiesiskais regulējums vai starptautiskie standarti. Izmaiņas tiek dokumentētas, saskaņotas un publiskotas, uzturot publisku versiju vēsturi un nodrošinot pārredzamību. Aktuālā versija tiek publicēta DataverseLV tīmekļa vietnē. 

15. Kopienas iesaiste un atbalsts

Lietotāju vajadzības tiek apzinātas caur kuratoru atbalstu, darba grupām, konsultācijām un vadlīnijām, tostarp ieteicamo formātu un kvalitātes kontrolsarakstu. Starptautiskā sadarbība ar Dataverse kopienu un Eiropas infrastruktūrām nodrošina saskaņotību ar labāko praksi. Atgriezeniskā saite tiek sistemātiski izmantota procesu un pakalpojumu pilnveidē. 

16. Kontaktinformācija

E-pasts: info@vpc.lv 
Tālr: +371 67 969 580 
Adrese: Zigfrīda Annas Meierovica bulvāris 14, Rīga, LV-1050, Latvija 
Tīmekļa vietne: https://dataverse.lv/