[testside] Uttrekk i SIARD-format

SIARD (Software Independent Archiving of Relational Databases) er et format for langtidsbevaring av relasjonsdatabaser. Formatet gjør det mulig å bevare data fra en database uavhengig av databasesystemet de opprinnelig ble lagret i.  

Uttrekk for langtidsbevaring

Denne siden omtaler en av flere flere uttrekkstyper for digitale arkiv

Et SIARD-uttrekk er aktuelt når informasjon ligger som strukturerte data i en relasjonsdatabase. Det kan gjelde hele databasen, eller et avgrenset utvalg av tabeller.   

SIARD beskriver databaseinnholdet, men ikke nødvendigvis hele systemets logikk. Derfor skal uttrekket suppleres med systemdokumentasjon og en beskrivelse av hvordan uttrekket er produsert.  

Selve SIARD-filen er en ZIP-fil med data og metadata fra databasen. Filen har to hovedmapper: header og content.  

I header/metadata.xml ligger metadata om databasen og tabellene, blant annet tabellnavn, kolonnenavn, datatyper, primærnøkler og fremmednøkler. Mappen content inneholder dataene fra tabellene. Hver tabell ligger i en egen mappe, med nummererte XML-filer for innholdet i tabellen. Hvis databasen har LOB-er, kan disse ligge som egne filer i eller utenfor SIARD-filen. 

SIARD-formatet finnes i flere versjoner og ulike verktøy kan støtte ulike versjoner. Valg av versjon kan ha betydning for hvordan uttrekket produseres, valideres og kontrolleres. Hvilken versjon som skal brukes må derfor avklares før uttrekket produseres og dokumenteres sammen med arkivpakken.  

Nasjonalarkivet anbefaler som utgangspunkt å ta uttrekk etter nyeste versjon av SIARD.  

Innhold i arkivpakken som avleveres

En arkivpakke med t SIARD-uttrekk skal inneholde én eller flere SIARD-filer. Arkivpakken skal også inneholde en mappe med systemdokumentasjon og en undermappe for eventuelle eksterne dokumentfiler fra arkivet.

Arkivpakken bør i tillegg dokumentere hvilke valg som er gjort i produksjonen av uttrekket. Dette gjelder blant annet hvilket verktøy som er brukt, hvilke innstillinger som er valgt, om hele databasen eller et utvalg er tatt ut, og eventuelle feil eller avvik som oppsto underveis.

Verktøy

Uttrekk i SIARD-format kan tas ved hjelp av ulike verktøy som har sine fordeler og ulemper. Nasjonalarkivet har kjennskap til tre programvarer som tar uttrekk i SIARD 2.1-format, hvorav en er lisensiert (Spectral Core Full Convert) og de to andre er fri programvare (Siard Suite og Database Preservation Toolkit). Sikker bruk og installasjon av programvaren må avgiver selv ta ansvaret for. Uavhengig av verktøy, er det viktig at denne konverteringsprosessen dokumenteres så mye som mulig og at alle mulige logger opprettes og tas med.

Avklaringer før produksjon av uttrekk

Før uttrekket produseres, må det avklares om hele databasen skal bevares, eller om uttrekket skal avgrenses til bestemte tabeller. Det må også avklares om uttrekket skal tas fra produksjonsmiljø, testmiljø eller en kopi av databasen.

Dersom databasen inneholder LOB-er eller viser til eksterne dokumentfiler, må det avklares hvordan disse skal håndteres, hvilke filer som skal inngå i arkivpakken og hvilke filformater de skal leveres i.

Valg av verktøy, verktøyversjon og SIARD-versjon skal også avklares før produksjonen starter.

Produksjon av SIARD-uttrekk

I utgangspunktet kan arkivskaperen selv trekke ut arkivdata fra sin database. Dette forutsetter at man har tilstrekkelig tilgang for SQL-tilkobling til ønsket database (plattform-, database- og bruker-spesifikk). Det vil ofte også være behov for å ha administratortilgang til egen lokal PC. Har man ikke nødvendige tilganger, må dette ordnes, eventuelt i samarbeid med en tjenesteleverandør.

Eksempel på metode for databaseuttrekk

Eksempel på metode for databaseuttrekk

Database Preservation Toolkit (dbptk) er et verktøy som kan brukes for å generere SIARD-filer ved å koble seg til en relasjonsdatabase

  1. Start dbptk og trykk «Create» 
  2. Velg aktuell databaseformat 
  3. Fyll ut tilkoblingsinformasjon for den aktuelle databasen og trykk «Test Connection» 
  4. Dersom tilkoblingen virker, trykk «Next» 
  5. Sjekk at tabeller er med i uttrekket og trykk «Next».Et bilde som inneholder tekst, himmel, kart 
  6. Funksjonene med «Custom Views» og «Merkle Tree Filter» kan hoppes over ved å trykke «Skip». 
  7. Velg mappe dit SIARD-filen skal eksporteres til. 
  8. Alternativene om til komprimering, menneskelig-lesbare XML-er og lagring av LOB i eller utenfor SIARD-filen avtales med Nasjonalarkivet. 
  9. Feltene med metadata i selve SIARD-filen er ikke obligatoriske, men legg gjerne inn beskrivende informasjon. Trykk «Create» 
  10. SIARD-filen opprettes og denne legges på rotnivå i arkivpakken. 

Eksempel på filstruktur i et SIARD-uttrekk:

Dokumentasjon av uttrekket  

Dokumentasjonen bør gjøre det mulig å forstå både databasen og selve uttrekksprosessen.  For SIARD-uttrekk er det særlig aktuelt å motta systemdokumentasjon for databasen i form av datamodeller datamodell, tabell- og kolonnebeskrivelser, eksempler på spørringer og VIEWS og logger og rapporter generert i uttrekksprosessen. 

Se side for systemdokumentasjon 

Testing og kontroll  

Kontroller uttrekket før levering. Bekreft at SIARD-filen kan åpnes, at forventet innhold er med, at radtall stemmer mot kildedatabasen, og at valideringsrapport, logger og dokumentasjon følger arkivpakken.  

Nasjonalarkivet kontrollerer og tester uttrekket etter mottak. Hvis det oppdages feil eller mangler må avgiver kunne forklare og eventuelt rette disse.   

Se testprosedyre for digitale uttrekk