/ UiT Norges arktiske universitet
 

Hvordan finne fram i historiske tekster?

Fra: Heimen 2/1996
Av: Gunnar Thorvaldsen

Hittil har historikere hovedsakelig brukt edb til kvantitative analyser og sortering av strukturert og rubrisert kildemateriale. De fleste arbeider imidlertid mest med tekster i vanlig språkdrakt, det være seg primærkilder eller historisk litteratur. Noen har forsøkt programvare for håndtering av såkalt fritekst, men erfaringer viser at slike metoder har et betydelig større potensial, særlig som verktøy for framfinning av informasjon. Tilgang til databaser med lokalhistoriske kilder og litteratur vil gjøre det lettere å søke fram stoff både om egen kommune og finne grunnlag for sammenligning med andre områder. Dessuten kan lokalhistorisk forskning bli mer reelt tilgjengelig for historikere og andre samfunnsvitere når de arbeider med større geografiske enheter eller søker å generalisere ut fra andres funn.

Med fritekst mener vi en vanlig prosatekst inndelt i kapitler, avsnitt og setninger - i utgangspunktet uten spesielle skilletegn og markører. Fritekstsystemer har i Norge blitt brukt til databaser over arkeologisk gjenstandsmateriale, utdrag fra middelalderdiplomer og tingbøker innenfor historiefaget. Rettslig materiale er kanskje det felt hvor tekstsøking har blitt mest anvendt i Norge, jfr de juridiske databasene hos stiftelsen Lovdata. Deler av Diplomatarium Norvegicum er tilgjengelig via Internett. Andre eksempler er leksika og avisstoff. Atekst - Aftenpostens redaksjonsarkiv - inneholder redaksjonelt stoff fra avisa siden august 1984.

For å databehandle fritekst er det utviklet særskilte edb-program. Ved hjelp av disse kan vi på et øyeblikk finne fram i store tekstmengder, som flere avisårganger, ved å søke etter ord og kombinasjoner av ord. Et problem ved tekstsøking er at vi ofte får for mange tilslag og må lese referanser til avsnitt i teksten av mindre interesse. Derfor er det vanlig å legge inn faste felt i starten av hver artikkel eller dokument med mer presis informasjon om innholdet. Ved å søke på felt eller merker unngår vi å treffe på irrelevant stoff som kommer med fordi et ord er brukt mer tilfeldig i dokumentet. Hvis vi for eksempel søker etter Troms i stedsnavnfeltet, unngår vi stoff hvor fylket bare er nevnt tilfeldig. Systemer for søking i fritekst kan altså finne informasjon både i løpende tekster og i strukturerte felt.

Det er vanlig å skille mellom to ulike former for datamaskinell søking. Med faktasøking mener vi at brukeren er ute etter eksakte svar på sitt spørsmål, for eksempel "Hvilke stortingsrepresentanter stemte mot korntoll på 1890-tallet?". Den andre formen for søking kalles interessesøking. Her er ikke brukeren først og fremst ute etter klare svar, men diverse informasjon til belysning av spørsmålet. Et eksempel fra arbeid med avstemninger kan være: "Hva var bakgrunnen for at representantene stemte for, respektive imot korntoll?". Da ber man ikke datamaskinen om fakta, men om henvisning til dokumenter som inneholder saksopplysninger fra debattene eller om representantene. Siden språkbruken i kildene er så variert, er denne typen forespørsler vanskeligere å besvare enn faktasøking. Andre begreper enn "toll" kan være brukt om saken, og mange begreper i kildene ("avgift") er upresise. Det svaret datamaskinen kan gi, vil derfor bare være et forslag til relevant informasjon om emnet. Det fins antakelig viktige dokumenter som ikke kom med i svaret. Et større problem ved interessesøking pleier imidlertid å være tilslag på en rekke dokumenter uten interesse for problemstillingen, fordi vi ikke evner å formulere et søk som er presist nok. Her vil det gjerne være stor forskjell på en uerfaren bruker og en bruker som kjenner mulighetene i søkeprogrammet og språkbruken innen det aktuelle fagfeltet.

Den som vil lage en database med fritekst, bør tenke gjennom et par motforestillinger mot metoden. Et spørsmål er om de tekstene vi ønsker å søke i, holder en så høy kvalitet at det er interessant og mulig å bearbeide dem med et fritekstsøkesystem. Den andre motforestillinga tar utgangspunkt i de store mengdene med tekst. Det er dyrt å skrive informasjonen av og vi kan trenge å investere i kraftigere dataverktøy enn vi allerede har tilgang til. En tredje advarsel er at mange tekster er vernet av lov om opphavsrett.