/ UiT Norges arktiske universitet
 

Monumentalverk om historiske persondata

Gunnar Thorvaldsen: Håndbok i registrering og bruk av historiske persondata, Tano Aschehoug 1996


Det må kalles en begivenhet når det nå foreligger ei håndbok for arbeidet med å registrere og tilgjengeliggjøre historiske persondata i elektronisk form. I denne boka foretar Gunnar Thorvaldsen en samlet gjennomgang av kildeserier og metoder. På relativt beskjedne 206 sider (brutto) sammenfatter han sitt brede erfaringsgrunnlag på dette området. Thorvaldsens mål med boka er samtidig å dokumentere arbeidet som Registreringssentral for historiske data (RHD) ved Universitetet i Tromsø har utført siden etableringen i 1981. Boka favner enda videre enn dette, for den samler i realiteten i seg resultatene og metodegrunnlaget fra hele det norske miljøet som siden 1970-årene har arbeidet med databehandling av historiske kilder med personinformasjon i strukturert form (tabellform), dvs folketellinger, kirkebøker, emigrantprotokoller, skiftemateriale, tinglysingsmateriale og tingbøker m.m.

Håndboka henvender seg både til dem som selv vil foreta kilderegistrering og til alle andre som utnytter denne typen nominative kilder, dvs historiske kilder med opplysninger om navngitte personer i rubrisert form. Den sentrale målgruppen er selvsagt enkeltpersoner og grupper som selv gjennomfører registreringsprosjekter med sikte på en videre bearbeiding eller formidling av kilder. Her er det fortsatt fritt fram for mange. Thorvaldsen gjør opp status for det samlede nasjonale arbeidet med å overføre historiske persondata til maskinlesbar form «the hard way», altså ved å foreta nyregistrering (avskrift) av originalene. 45% av de nominative folketellingene fra 1801 til 1900 er til nå registrert, men bare 5% av kirkebøkene frem til 1900 (av anslagsvis 11 millioner kirkebokinnførsler totalt). Emigrantprotokollene kommer relativt godt ut med ca 50%, men bare en helt ubetydelig del av det eldre skifte- og tingbokmaterialet er overført til maskinlesbar form.

Håndboka gir generelle råd om registreringsopplegg og rutiner til dem som vil videreføre dette arbeidet. Den foretar dessuten en systematisk og detaljert gjennomgang av arbeidet med hver enkelt kildetype. I fokus står hele tiden den praktiske håndteringen av kildene og oppgavene i registreringsarbeidet. Helt i front står også kravet om kildetroskap ved registreringen. Det poengteres at det er forskeren, ikke den som registrerer, som skal tolke kildene. Kravet om kildetroskap er enkelt og fundamentalt, men det har sine problematiske sider å anvende dette prinsippet i det praktiske arbeidet. Hvordan skal åpenbare feil i kildene håndteres? Hvordan og hvor langt kan vi normalisere og standardisere registreringen for å ivareta hensynet til effektivitet og brukskvalitet i utnyttelsesfasen? Hva gjør vi konkret når vi møter varierende skrivemåter for navn, yrke o.a, når kilden bruker forkortelser og koder som f.eks «do.» for «samme», eller når edb-programmet har et datofelt og kirkeboka oppgir «Tredje Søndag efter Trefoldighed», for å ta noen enkle eksempler. Thorvaldsen går detaljert gjennom dette, og anviser løsninger som må betraktes som forskningsmiljøets etablerte konvensjoner på dette området. Han understreker samtidig at dette vil måtte være løsninger basert på kompromiss og skjønn, hvor det alltid vil være en spenning mellom purisme og hensynet til en rasjonell utnyttelse av materialet.

Håndboka er imidlertid også skrevet for alle andre som anvender historiske persondata, uavhengig av om de utnytter kildematerialet ved hjelp av edb. Målgrupper er dermed også slektsgranskere, skoleelever, lærere, studenter og forskere. En grundig og instruktiv innføring i de enkelte kildene gjør at boka boka fortjener en slik bred leserskare. Særlig er det grunn til å fremheve de fyldige kildekritiske avsnittene. Det gjelder overordnede temaer som de enkelte folketellingers og kirkebøkers kompletthet og kvalitet, og det gjelder spesifikke opplysninger i kildene som alder, yrke og etnisitet. Kildekritiske momenter fra andre norske undersøkelser inngår i denne behandlingen. Og når det gjelder folketellingsmaterialet, gjør Thorvaldsen noe ingen tidligere har gjort, nemlig å foreta en samlet kildekritisk gjennomgåelse. Med støtte i egne kontrollundersøkelser kan han også konkludere at kvaliteten på folketellingene fra 1800-tallets siste del er god sammenlignet med andre historiske kilder. En edb-kjøring av folketellingen 1865 for Tromsø mot kirkebøkene viser at bare noen få personer mangler i tellingen. En tilsvarende samkjøring av Tromsø-tellingen i 1875 og kirkebøkene viser at ingen personer mangler i tellingen. Personregisterloven og den nye Statistikkloven (1989) gjør tilgangen til individdata mer restriktiv enn tidligere. Persondata fra folketellinger skal nå holdes utilgjengelige i 100 år, mot tidligere 60 år. Mens 1900-tellingen ble frigitt i 1960, vil 1910-tellingen ikke bli åpent tilgjengelig før i 2010. Et av temaene Thorvaldsen behandler, er hvordan registreringsprosjekter bør forholde seg til lover og regler på dette området. Han påviser i denne sammenheng også betydelige uoverensstemmelser mellom gjeldende regelverk. Et naturlig oppfølgingsspørsmål blir hvor anvendbart metodegrunnlaget fra det rubriserte nominative kildematerialet vil være på annet og mer ustrukturert materiale - eldre som nyere. Håndbokas behandling av det eldre skifte- og tingbokmaterialet gir ledetråder om dette. Her presenteres løsninger basert på skanning av de mer utstrukturerte delene av materialet, deler som gjerne også vil være svært voluminøse. Skannede dokumenter lagres som grafikk eller digitale bilder, og er ikke tekstsøkbare. For å styre gjenfinningen av det skannede materialet er vi avhengig av å etablere tilknytninger til en kjerne med data i register- eller tabellform, som i folketellinger og kirkebøker. Denne kjernen vil da fungere som indeks. Thorvaldsen går også inn på mulighetene for å konvertere skannede dokumenter til tekstsøkbar form (OCR-lesing), men konkluderer med at en pålitelig OCR-konvertering av eldre håndskrevne dokumenter ennå bare er en fremtidsdrøm.

Håndboka har en stram komposisjon. Den systematiske behandlingen av de ulike kildeseriene gjør boka oversiktlig og grei å bruke også som oppslagsverk. Når det gjelder den mer overordnede inndelingen, skurrer det litt at behandlingen av skanning, optisk lagring og fritekstsøking gjemmer seg i kapitlene om skiftemateriale og tingbøker (kapittel 6 og 7). Jeg går ut fra at dette bunner i at Thorvaldsen i disse kapitlene tøyer sine rammer noe når det gjelder å avgrense behandlingen til nominative kilder i rubrisert form. At håndbokas tematiske og stofflige ramme har en slik spenning i seg, skurrer imidlertid ikke. I boka (side 163) nevnes kildetyper som kunne vært behandlet, men som er utelatt blant annet fordi vi mangler erfaring i å edb-behandle dem. Blant kildetypene som nevnes, savner jeg likevel en kort omtale i håndboka av det omfattende tinglysingsmaterialet (pantebøkene/grunnbøkene) som beror i statsarkivene. Statsarkivet i Bergen har gjennomført et prøveprosjekt med innskanning og optisk lagring av tinglysingsmateriale. En viktig erfaring var faktisk at de optiske platene (dengang Worm-plater) ikke hadde stor nok kapasitet for dette formålet. Thorvaldsen stiller seg kritisk til optisk langtidslagring pga manglende standardisering av optiske medier (side 141), men i dag foreligger fullgode standarder. I alle fall har Riksarkivet gått over til å langtidslagre på CD-R (skrivbar CD-ROM med ISO 8660 som standardisert fysisk format). Lagringskapasiteten er likevel ikke bedret siden Bergensprosjektet, men en bedring er underveis med den nye DVD-standarden. Arkivverket valgte etter skanning-prosjektet i Bergen å filme det samlede tinglysingsmaterialet i statsarkivene, i alt anslagsvis 20 millioner dokumentsider. Et poeng med dette er at det vil være relativt enkelt å foreta skanning fra filmen senere. Et annet poeng er at man dermed også gjør seg uavhengig av dagens grafikklagringsformater, som ikke er spesielt troverdige på sikt. Grafikklagringsformatene betraktes altså som (enda) mer forgjengelige enn de optiske mediene.

Flere steder i håndboka blir det referert til «Histform», men for uinnvidde må det fremstå som litt gåtefullt hva som skjuler seg bak denne betegnelsen (i litteraturlisten kamuflerer den seg dessuten bak Lars Nygaard m.fl). Histform er norsk standard for registrering og utveksling av nominative folketellingsdata for årene 1865-1910. Standarden er etablert for å sikre et ensartet format på registreringene og for å legge grunnlaget for utveksling av materiale slik at kilder kan fremstilles transparent av brukere. Verdiene av en slik standard kan knapt overvurderes. Og Histform ligger under sentrale deler av fremstillingen i Thorvaldsens bok. Håndboka gjør altså ikke bare opp forskningsstatus, men er i beste forstand et misjonsarbeid for Histform. Thorvaldsen kunne gjerne viet mer plass til Histform og de videre standardiseringsbestrebelsene på dette området. Interesserte med tilgang til World Wide Web vil finne mer informasjon på RHDs web-side http://www.rhd.uit.no/histform/histform.html Dette er ei håndbok som gir mer enn både forfatterens forord og forlagets vaskeseddel lover. Den oppfyller alle krav til et vitenskapelig verk. Den er velskrevet og lettleselig til tross for en kompakt form. At stoffet bare opptar ca 200 sider er godt gjort, også fordi Gunnar Thorvaldsen er en mann som forklarer det meste av det han tar opp. Han lykkes dessuten i å forklare det meste på en enkel og knapp måte, til og med når han behandler mer kompliserte edb-tekniske temaer.

Jeg nøler ikke med å kalle Gunnar Thorvaldsens bok et monumentalverk på sitt område. For registreringsprosjekter og brukere bør den få status som en «must» på grunn av nytten. Og både for det samlede forskningsmiljøet og brukermiljøet er det av betydning at den oppnår en slik status.

Trond Sirevåg i HIFO-nytt 1996/5