Til hovedsiden


Søk i:
Folketellinger
FT avansert
Kirkebok
Matrikkel1886

Dokumentasjon
Eilert Sundt

Linker
Adresser


tr
tr tr
tr
tr English

Optisk lesning av historiske kilder

Fra: Heimen 3/1995
Av: Gunnar Thorvaldsen

Det er ikke alt kildemateriale vi behøver å skrive av for å gjøre det maskinlesbart. Tallene nederst på giroblankettene har blitt lest maskinelt i en årrekke. Men hvordan stiller dette seg mht mer komplisert stoff som lærebøker, maskinskrevne manuskripter, trykte kilder fra ulike epoker eller håndskrevet materiale? Optisk lesning, OCR eller Optical Character Recognition var lenge en teknikk forbeholdt spesialiserte og ressurssterke miljøer. I dag kan man kjøpe grunnleggende utstyr og programvare for under 20000 kroner og installere det i en moderne PC. Tester i datapressen viser at utstyret klarer en rekke leseoppgaver. Spørsmålet er bare om historikernes kilder er like kurante som de moderne trykksakene man har prøvd i informatikkmiljøene.

Ved optisk lesning blir materialet side for side lagt inn i en skanner. Denne lager et elektronisk bilde eller raster som er prinsipielt forskjellig fra den representasjon med tegn vi har i en tekstbehandler. I siste fall "vet" maskinen for eksempel at bokstavene H, a, n og s fins i det vanlige fornavnet, og vi kan be programmet finne fram til alle forekomster av "Hans" i teksten. Slik søking er umulig i et rasterbilde. Oppgaven til OCR-programmet er å oversette fra raster til tegn. Det forsøker å skille ut enkelttegn og å kjenne dem igjen ved å sammenligne med kunnskaper om skrifttyper som er "lært" tidligere. Ut fra hvordan denne læringen har skjedd, kan vi skille mellom to hovedtyper av programvare for optisk lesning. De mest vanlige programmene, som for eksempel Omnipage, får sine kunnskaper innebygd hos programmererne. De blir lært hvordan en A vanligvis ser ut og er derfor i stand til å lese en rekke ulike typer A. Fordelen med slike "omnifont" programmer er at de kan lese en rekke ulike skrifttyper (fonter) uten å bli lært opp i hvert enkelt tilfelle. Ulempen er at de får problemer når skriftbildet avviker fra det programskaperne forutsatte.

For å bøte på dette har vi fått flere OCR-program som brukeren selv kan lære opp. Selv om dette tar tid, og programvaren gjerne er dyr i anskaffelse, vil det lønne seg når man ønsker å konvertere et materiale som er av en viss størrelse og som ikke er helt lett å lese. For en historiker vil skillet gjerne gå mellom tekst som er satt med fotosats og kilder som er trykket vha blysats. Blytypene var mindre standardisert enn nåtidas trykketeknikker. Når de ble slitt, oppsto spalter i bokstavene, og typografene var mestre i å lage tette ligaturer. En M kan bli til Ai, mens ligaturen Av blir til et uforståelig vraktegn. Snakker vi om manus produsert på skrivemaskin, er skriftkvaliteten avgjørende for om omnifont programmer klarer jobben eller om vi selv må lære opp et dyrere program. Husk at rettearbeidet etter at vi har brukt et uegnet OCR-program kan bli betydelig: En feilprosent på 2 gir i størrelsesorden 40 feil pr side!

Norske forsøk har vist hvordan omnifont programvare godt håndterer nominative lister fra moderne bygdebøker, men gir helt uakseptable resultater konfrontert med matrikler fra 1800-tallet hvor vi har proporsjonal skrift i kolonner med skillestreker mellom. Helst bør man ved større volumer investere i OCR-programmenes Rolls Royce: Kurzweil 5200. Det kan argumenteres for at høy lesehastighet og lav feilprosent forsvarer utlegget på 150000 kroner, siden dette programmet kombinerer de sterkeste sidene ved omnifont og opplærbare pakker. Da kan man gå løs på optisk lesning av gotisk skrift og av hebraiske tekster fra ulike perioder.

I mellomtida kan vi glede oss over de lovende OCR-programmene fra Russland. Vi kan for en billig penge anskaffe oss gode OCR-program derifra som kan spesialbestilles med moduler for tolking av den enkelte kildetypen, for eksempel 1886- matrikkelen. De mange maskinskrevne og trykte kildene som er listet i oversikten fra Lokalhistorisk institutt over trykte kilder, kan RHD ved behov forsøke å lese optisk for dem som vil databehandle dem. Noen har gjort forsøk med OCR på håndskrevne tekster. Her er konklusjonen klar: Det er ennå langt fram før vi har systemer som kan lese noe annet den mest sirlige blokkskrift.


Registreringssentral for historiske data
Universitetet i Tromsø, N-9037 Tromsø
Oppdatert: 10. november 2004