/ UiT Norges arktiske universitet
 

Feil i de historiske databasene?

Fra: Heimen 1/1999
Av: Gunnar Thorvaldsen


Registreringssentralen mottar fra tid til annen meldinger fra våre brukere om feil i data. Feilene kan være av flere typer. Mest alvorlig er meldinger om at personer mangler i kildene. Dobbeltføringer forekommer, men det kan ha sine naturlige grunner, for fra folketellinga 1875 skulle fraværende personer føres både på sitt egentlige hjemsted og der de bodde midlertidig. Meldinger om stavefeil eller feil i årstall forekommer også. I tillegg oppdager vi selv feil.

Det er imidlertid viktig å skille mellom feil avskrift fra kildene og feil som ble gjort den gang kildene ble skrevet ned. Målet med å lage databaseutgaver av historiske kilder er å gjengi innholdet i hver enkelt kilde bokstavrett. Ved å sammenligne informasjon fra flere kilder ser vi hvordan f eks stavemåten av navn varierer, fordi det var skriveren og ikke navnebæreren som bestemte ortografien. Vi kan ikke rette en "feil" i folketellinga fordi det kan påvises at en persons navn ble skrevet på en annen måte i dåpslista. I byene var det ofte huseierne som førte listene. Hvis vi da retter navnet, tar vi mer hensyn til prestens skrivemåte enn familiefarens egen.

Slike sammenligninger viser at de fleste uoverensstemmelser mellom ulike kilder fins i originalen, og at bare en relativt liten andel er introdusert ved overføring til maskinlesbar versjon. Derfor er det ofte slik at feil vi får rapportert ikke lar seg påvise når vi sammenligner med originalkilda. Dette tar tid fra arbeidet med å legge inn nytt materiale, og vi har derfor valgt å nedprioritere feilmeldinger, hvor det ikke foreligger sannsynlighet for at der er noe å rette. Se nærmere om dette i min Håndbok i registrering og bruk av historiske persondata fra 1996.

En viktig premiss i arbeidet med historiske protokolldata er at det kildematerialet som ønskes dataført, er langt større enn de ressurser som står til disposisjon. Det betyr at når arbeidskraft blir brukt til feilretting, begrenser vi størrelsen på det registrerte materialet. Våre kollegaer ved University of Minnesota har tatt konsekvensen av dette, og leser bare korrektur på representative stikkprøver når de registrerer utvalg fra de amerikanske folketellingene. Dette har sammenheng med at utvalgene kun skal anvendes til statistiske undersøkelser. Det lar seg gjøre å sammenligne tabeller fra hele materialet med tilsvarende tabeller fra den korrekturleste delen, og konstatere at forskningsresultatene blir de samme. Dette forholder seg annerledes når kildene skal brukes til personalhistoriske undersøkelser, slik vanlig er i Norge, både i bygdebøker og i genealogier. Da bør opplysningene om hvert enkelt individ være så korrekte som mulig, slik at vi ikke pga datafeil knytter sammen kildeopplysninger som egentlig ikke vedrører samme individ.

Her står vi imidlertid ved et paradoks. Originalkildene inneholder mange uoverensstemmelser. Disse er mye lettere å avdekke når flere kilder om de samme personene er søkbare på maskinleselig format. Dersom vi ikke leste korrektur ville det bli flere feil i de avskriftene vi gjør tilgjengelig på nettet. Men antallet personposter vi kunne dataføre ville fordobles. Det antallet feil vi avdekker gjennom korrektur, varierer mye avhengig av hvor vanskelig skriften er å lese. I enkle kilder, som f eks de nyere folketellingene, finner korrekturen relativt få feil, mens mange uoverenstemmelser kunne avdekkes ved å jevnføre to folketellinger, la oss si de fra 1865 og 1875. Her vil det altså lønne seg også i personalhistorisk sammenheng å bruke mindre ressurser på korrektur. Annerledes vil det forholde seg med kirkebøkene, især slike som ble ført uten skjema i tida før om lag 1814. Her finner korrekturleserne mange feil, blant annet fordi også trente skrifttydere kommer i tvil.

I begge tilfeller vil friske øyne oppdage feil i avskriftene både ved tredje og fjerde kontroll. Derfor oppfordrer vi våre brukere til å rapportere feil i databasene. Og feilmeldingene blir mer verdifulle når de er dokumenterte mot originalkildene!