Til hovedsiden


Søk i:
Folketellinger
FT avansert
Kirkebok
Matrikkel1886

Dokumentasjon
Eilert Sundt

Linker
Adresser


tr
tr tr
tr
tr English

Folketellinger som statistisk materiale

Fra: Heimen 1/1997
Av: Terje Holtet

En presentasjon av et interaktivt statistikkprogram ved bruk av internett og World Wide Web

Kildematerialet og statistikk

Ved Registreringssentral for historiske data (RHD) ved Universitetet i Tromsø har man siden 1981 foretatt dataregistreringer av folketellingene i Norge for årene 1865, 1875 og 1900. I noen grad har man også dataregistrert 1891-tellingene. Folketellingene gir oss en situasjonsbeskrivelse av husholdsammensetning og enkeltindivider på et gitt tidspunkt da tellingene ble foretatt. De tekstlige opplysningene på individnivå gir oss innsikt i demografiske forhold ved befolkninga. Ut fra opplysningene kan man produsere sorterte lister, dvs alfabetiserte lister for hver enkelt rubrikkopplysning i tellinga, og ut fra disse listene kan man f eks, etter litt manuelt summeringsarbeid, danne seg et bilde av de ulike mønstre i mer eller mindre avgrensede befolkningsmengder. Dette er et forholdsvis tungt og tidkrevende arbeid som i vår dataalder slettes ikke skulle være nødvendig å gjøre. Behovet for å kunne foreta statistiske beregninger på folketellingsmateriale melder seg derfor naturlig.

Som mange har erfart er det forholdsvis komplisert å foreta statistiske beregninger på tekslig informasjon. Enkelte opplysninger i folketellingene er riktignok standardiserte, men de fleste opplysninger forekommer i klartekst. Man skulle f eks tro at opplysninger som fødested ville være forholdsvis standardisert. Instruksen til folketellingene sier at fødestedskommune skal registreres dersom personen er født utenfor kommunen. Dersom en person f eks er født i Trondenes kommune, skulle man gå ut fra at skrivemåten er entydig og grei, men så er ikke tilfelle. Trondenes blir i praksis skrevet på mange forskjellige måter, f eks: Trondarnes, Trondenæs, Trondeness, Throndarnæs, Thronæs, Tronnæs, bare for å nevne noen varianter. Dette tilsier at en frekvensopptelling på forekomsten av navnet Trondenes som fødested vil gi oss en underrepresentativitet i forhold til de som faktisk er født i kommunen. I tillegge kan opplysninger som f eks Født i Trondenes eller Antakelig Trondenes etc. også forekomme. Dette kompliserer bildet ytterligere mht å kunne foreta frekvensopptelling på navn som man i utgangspunktet hadde håpet skulle være forholdsvis entydige.

Fra tekstlig informasjon til standardiserte tallkoder

Behovet for å standardisere klartekstopplysninger til en entydige tallkode er ubetinget tilstede dersom man ønsker å behandle folketellingsmaterialet statistisk. I vår definisjon sier vi at: Koding av folketellinger vil si å konvertere data fra en tekstversjon til en tallversjon. Data i ei kodet fil er ordnet i et tallmatrise-format og er grunnlag for data for et statistikkprogram. I eksemplet ovenfor vil dette si at alle ulike varianter av fødestedet Trondenes blir gitt en og samme verdi, i dette tilfellet kommunenumret til Trondenes som er 1914. (Trondenes kommune eksisterer ikke i dag som egen kommune, men er sammenslått med Harstad.) På denne måten kan alle ulike fødestedsangivelser tilegnes et eksakt kommunenummer på fire siffer, hvor de to første sifrene angir fylket (19 = Troms) og de to siste angir selve kommunen innenfor hvert fylke (14=Trondenes).

På samme måte vil all informasjon i ei folketelling bli konvertert til tallkoder. Opplysninger som personnavn og gårdsnavn blir ikke kodet da vi ikke har funnet det hensiktsmessig å anvende et kodesystem for ulike egennavn. I andre tilfeller ville dette kanskje ha vært hensiktsmessig, f eks for navneforskere.

Alle opplysninger som er registrert i de originale tellingene, som f eks kjønn, fødested, familiestilling, sivilstand, yrke etc, blir overført til en tallkode. Rubrikkopplysninger i de originale tekstlige folketellingene blir behandlet via et kodeprogram som grupperer informasjonen i eksakte og entydige tallkoder. Et eksempel: Yrkesbetegnelsen som f eks Husmand med jord og Kobberværksarbeider vil bli kodet til følgende tallkode: 07 11 38 14. Denne koden er da representativ for de som er husmenn (dvs. gårdbrukere) og gruvearbeidere. Navneopplysninger, som for- og etternavn, gårdsnavn etc vil som sagt ikke bli kodet.

Det vil føre for langt å skulle forklare hvordan man har kodet de forskjellige rubrikkopplysningene i folketellingene. For dette formålet har man utarbeidet en kodebok hvor alle tallkodene som brukes er forklart.

Tilgjengelig statistikk og framdriftsplaner

Arbeidet med å konvertere folketellingenes tekstversjoner til tallversjoner er ferdig. Samtlige tellinger i RHDs database finnes nå i kodet versjon. Ca 22% av folketellingene for år 1900 finnes i RHDs database i kodet versjon. Unntakene er Kristiania by år 1875 og 1900. Ved RHD foretar man koding umiddelbart etter at ei folketelling er dataregistrert. Ved Teleslekt, som nå ligger ved Nasjonalbiblioteket i Rana (NBR), finnes også dataregistrerte folketellinger. Til sammen vil Teleslekt og RHD på sikt dekke det meste av landet mht dataregistrerte folketellinger, i første omgang for årene 1865 og 1900. For 1900-tellingens vedkommende har man nå dekket hele landet, med unntak av Kristiania 1900, der det pr i dag gjenstår ca ¼ -del. RHD vil om kort tid inngå et samarbeid med Teleslekt der vår oppgave er å gjøre alle folketellingene tilgjengelig i kodet versjon. På denne måten vil man for første gang få tilgang til et komplett statistisk tallmateriale fra folketellingene år 1900 for hele landet. Seinere vil også 1865 og ev 1875 materialet bli tilgjengelig.

Statistikkprogrammet ligger føreløpig ute som en prøvepakke på internett via World Wide Web (WWW) og er i dag tilgjengelig for 22 enkelt-tellinger fra 8 kommuner. Denne versjonen av programmet ble for første gang presentert offentlig for ¾ år side. Nye kommuner vil i tiden framover bli lagt ut på internett og gjort tilgjengelig for statistikk.

Om ønskelig kan brukerne selv laste ned datafilene (rådatafilene dvs. de versjonene som er kodet). Filene er "zippet" (komprimert) for å spare plass og brukerne må selv pakke ut filene lokalt på sin egen pc. All nødvendig dokumentasjon for bruk av statistikken, dvs kodebok og eksempler, ligger også tilgjengelig på internett.

Vi vil imidlertid gjøre oppmerskom på at "bugs" (datafeil) i kodematerialet kan finnes, men disse vil bli rettet så snart de blir oppdaget. Materialet er forholdsvis stort, ca 500.000 dataposter. Bare folketellinga for Trondheim by år 1875 inneholder ca 22.000 dataposter. Feil i kodefiler kan snike seg forbi de kontrollmekanismer som benyttes. Dette vet man av bitter erfaring, særlig vi som daglig jobber med store databaser av ymse slag. Materialet er sjekket opptil flere ganger før det legges tilgjengelig på internett via WWW og vi håper derfor at feilprosenten er tilnærmet lik null.

Dette statistiske materialet er fritt tilgjengelig for alle brukere uten ekstra omkostninger. Man opplever i disse tider at stadig nye internett-tjenester er kostnadsbelagt for brukerne. Bruk av RHDs statistikktjeneste er imidlertid gratis.

Hvordan anvende det statistiske tallmaterialet?

Folketellingsmaterialet som er kodet er å betrakte som et råmateriale eller grunnlagsdata. Dette tallmaterialet kan på en enkel måte brukes som datagrunnlag for alle typer statistikkprogram, f eks SPSS, SAS, NSDstat, etc. En vanlig fremgangsmåte er at rådata må defineres overfor det statistikkprogammet man ønsker å bruke. Poster og felt må deklareres. Tallmaterialet må deretter konverteres til et format som vedkommende statistikkprogram kan gjenkjenne. Denne prosessen kan være tidkrevende og forlanger pinlig nøyaktighet og en smule innsikt i de ulike statistikkprogrammenes finurligheter.

Det kan derfor oppfattes som problematisk for mange med begrenset datakompetanse å komme i gang med statistisk anvendelse av et datamateriale. Det er ikke alle brukere som synes de har nok datafaglig kompetanse og erfaring i å anvende avanserte statistikkprogram. Det tar dessuten en god del tid å sette seg inn i et nytt dataprogram. Manualer må helst leses på forhånd og brukermiljøene er små og begrensede. Tilbud på statistikkurs for den spesifikke statistikkpakken man har valgt å satse på er også begrenset. Statistikkprogram koster fra ca kr 2000.- og oppover (jfr NSDstat), og ofte må man betale årlige avgifter i oppgraderinger. Her er det altså mange hindringer i veien som medfører at mange vil kvie seg eller drøye i det lengste med å komme i gang.

RHD har tatt konsekvensen av dette og utviklet et interaktiv statistikkprogram som kan kjøres over internett via WWW. Derfor trenger brukerne ikke bekymre seg over hvilket statistikkprogram man skal bruke, hvordan data er konvertert eller hvordan felt er definert osv. En bruker kommer forholdvis raskt i gang med å stille hypoteser som statistikkprogrammet umiddelbart svarer på. Programmet er basert på at brukeren skal foreta valg med å klikke med musa. Man foretar valg av kommune (el kommuner) og tellingsår som man vil foreta en statistisk begregning for. Man kan også foreta et utvalg av spesielle variabler eller grupper av variabler eller intervall som det skal gjøres beregninger for. Dette kalles ofte for selektering innenfor statistikkterminologien. Resultatet av de statistiske beregningene blir presentert som histogram.

Tanken bak denne måten å løse en statistisk oppgave på er at brukeren skal komme raskt i gang, gjerne etter noen få minutter, og at man ved hjelp av prøving og feiling blir lært opp til å stille de riktige hypoteser. Programmet er oppbygd på en selvinstruerende måte. Man får straks se resultatet av de valg man har gjort. I utgangspunktet trenger man ikke dyptgående kunnskaper om statistikk før man tar programmet i bruk.

Hvem kan bruke statistikkprogrammet?

Hvilken målgruppe har man tatt sikte på? Det må først sies at statistikkprogrammet ikke er ment for forskere som har behov for avansert statistikk. Det er ikke mulig å foreta avanserte statistiske beregninger som f eks standardavvik, korrelasjonsanalyse, multivariat analyse, regresjonsanalyse, etc. Programmet foretar forholdvis enkle opptellinger, dvs frekvensopptellinger og selekteringer. Ved bruk av selekteringsmekanismene kan man oppnå svar på forholdvis kompliserte problemstillinger. Man kan selektere så mange variabelverdier som man måtte ønske. Den beste måten å forklare programmets brukervennlighet på er å prøve selv.

Hvilke faggrupper kan det så tenkes har nytte av et slikt statistikkprogram? Vi mener at programmet kan fenge interesse hos gruppen lærer/elev i skoleverket. Flere skoler har nå koblet seg på internett og har fysisk sett muligheten for å bruke programmet. I undervisning i lokalhistorie, sosialhistorie, demografi etc vil lærer/elev kunne bruke programmet for å få svar på enkle problemstillinger. Det er ofte ikke behov eller tid for dypere statistiske analyser i skolen. Lærer/elev vil derfor kunne få fullt utbytte i undervisningssammenheng av å bruke programmet. Det samme gjelder egentlig også for gruppen historiestudenter ved universitet og høyskoler. Studenter helt opp til hovedfagsnivå vil kunne ha utbytte av å arbeide med et statistikkprogram av denne typen.

Bygdebokforfattere vil utvilsomt kunne ha nytte av å bruke statistikkprogrammet. For å danne seg et bilde av befolkningstruktur, yrkesstruktur, aldersammensetning, boforhold, etc i et avgrenset område, vil programmet være et nyttig redskap. Man vil på en enkel og hurtig måte kunne teste sine historiske hypoteser uten å måtte gå veien om tungrodde og kompliserte statistikkprogram. På denne måten vinner man også tid i skriveprosessen. I mange sammenhenger er det statistiske arbeidet i bygdebokskrivinga ofte satt ut som konsulentoppdrag for eksterne forskere. Dette vanskeliggjør ofte framdriften i bygdebokarbeidet.

Man kan ikke se helt bort fra at også historieforskere ønsker å ta i bruk statistikkprogrammet. Innenfor historiemiljøet er bruk av databasert, avansert statistikk ofte fraværende i forskningssammenheng. Historikere har ofte en tradisjonell metodisk tilnærming til kildemateriale. De tvinges ofte til å foreta "case-studies", dvs utvalg fra et større kildemateriale. Dette fordi det ofte er uhyre tidkrevende å skulle foreta manuelle opptellinger og beregninger på et større datamateriale. Historikere har heller ikke vært den faggruppen som har stått på barrikadene i datautviklingen og tatt i bruk nye, avanserte databaserte verktøy. Kartotekkort og skoeske-prinsippet har vært, og er ennå, rådende metodikk innenfor faggruppen. Ved å introdusere et enkelt og brukervennlig statistikkprogram, som er tilgjengelig i WWW, skulle man kanskje formode at mange historikere ville synes at statistikkbehandling av store datamengder nå lar seg løse på en enkel og lettfattelig måte.

Brukerpotensialet for en slik tilnærming til statistikk er vanskelig å måle, men pga brukervennlighet, lett tilgang til programvare og datamengde og ikke minst pris, skulle man kunne fange opp ulike brukergrupper som har interesse av historisk informasjon og statistikk.

Hva kan man gjøre dersom man vil foreta avanserte statistiske beregninger?

Forskere som behersker statistikk og databehandling vil trolig synes at det er begrensede muligheter i statistikkprogrammet som her presenteres. Hvilke muligheter finnes for disse? Rådatafilene, dvs grunnlagsmaterialet eller de filene som er kodet, ligger tilgjengelig for nedlasting på internett. Dersom man ønsker å laste ned rådata er dette fullt mulig. Datafilene er gratis nedlastbare. Disse filene kan brukes i de statistikkprogram som man måtte ha tilgang til. Filene er riktignok komprimert for å redusere nedlastingstiden, men de såkalte zip-filene lar seg enkelt pakke ut med program som f eks "pkunzip". All nødvendig informasjon om statistikkprogrammet, dokumentasjon og rådata er tilgjengeliggjort i WWW på RHDs hjemmeside. En datakyndig statistiker vil neppe ha større problemer med å skjønne vedlagte dokumentasjon. Det anbefales likevel at alle brukere setter seg inn i dokumentasjonsdelen etter at man har prøvd ut systemet en stund. De kan være ting som man reint intuitivt ikke vil skjønne dersom man utelukkende kjører statistiske beregninger uten å sjekke veiledningen først.

Hvordan presenteres statistikken og hvordan er programmet bygd opp reint teknisk?

Resultatet av statistikkjøringene presenteres grafisk som histogram. Til forskjell fra andre statistikkprogram, som ofte presenterer resultatet i lister og tabeller, så presenteres resultatene her som histogram, dvs grafiske bilder, hvor frekvens er plottet inn på toppen av grafene. Utvalgene som er foretatt kan også avleses på resultatet.

Resultatfilene kan lastes ned og transporteres over på andre plattformer som leser grafiske filer. Ved hjelp av klikk og lim-teknikker er det enkelt å transportere disse grafiske presentasjonene over til tekstbehandlingsprogram. Den grafiske presentasjonen vises dessuten i farger, hvor fargene differensierer på visse verdier (bl a kjønn). Det er enkelt å printe ut web-sider fra browsere som bl a Netscape. Selv uten fargeskriver, kun sort-hvitt, blir resultatet brukbart.

Statistikksidene genereres ved at kodete datafiler leses inn i et program skrevet i programmeringsspråket Perl. Uønskede data filtreres bort fra datasettet, og de resterende dataene mates til statistikkprogrammet GNUPlot. Grafene som genereres blir så gjort om til grafikkformatet "gif", slik at de kan benyttes i web-dokumenter. Til slutt genererer perl-programmet et dokument hvor den inkluderer disse gif-bildene sammen med annen forklarende tekst.

Presentasjon av hovedmenyen i statistikkprogrammet.

Hovedmenyen i statistikkprogrammet viser i øvre felt hvilke kommuner, år og variabler man kan velge å foreta statistiske beregninger for. I nedre felt foretar man de utvalg (selekteringer) man måtte ønske. Man velger altså først hvilken kommune eller kommuner som man ønsker å foreta beregning for. (Se vinduet: Vis statistikk for:) Dernest må man foreta valg for hvilket tellingsår. (Se vinduet: Årstall:) Alle valgene foretas med et klikk på musa når man står med pekeren i feltet. Så beveger man seg over til vinduet for hvilken variabel (rubrikkopplysning) i folketellinga man ønsker å forta beregning for. (Se vinduet: Vis statistikk over:) Man kan, om ønskelig, velge om resultatet skal presenteres samlet for begge kjønn eller separat ved å krysse av i boksen som er merket Vis kjønnsfordeling. Man starter beregningen med å trykke på knappen for Vis statistikk. Hovedmenyen, som er sakset fra Netscape-browseren, presenteres nedenfor. Man må merke seg at det er kun den øvre halvdel av denne menysiden som gjengis her.

I hovedmenyens nedre del, dvs under overskriften Begrens utvalget det skal kjøres statistikk på, kan man foreta det eller de utvalg man måtte ønske. Et eksempel: I hovedmenyen (se ovenfor) kan man forta utvalg av aldersintervall for den folketellingen man velger. Her kan man selv skrive inn minimums- og maksimumsverdier for alder. I de originale folketellingene for årene 1875 og 1900 står oppført fødselsår for hvert individ, dvs ikke alder. Alder ved kommende fødselsdag er kun oppgitt i folketellingen for år 1865. Statistikkprogrammet fortar da automatisk beregning for individenes alder. En av de vanligste måtene å presentere aldersfordelig i en populasjon er å vise dette grafisk som en alderspyramide. Dette har vært baktanken i vår statistikkpresentasjon. Men man vil her se at de grafiske søylene er organisert parvis for hvert kjønn (blå=mann og rød=kvinne) og står loddrett på x-aksen. Den visuelle framstillingen av alder i fem-årsgrupper forringes ikke nevneverdig av denne grunn. Vi har nedenfor foretatt en statistisk beregning av alder for befolkningen i Lillehammer kommmune for år 1865:

Fargene i presentasjonen ovenfor kommer ikke fram i denne gjengivelsen. Ved bruk av pc med fargeskjerm framtrer både tekst og farger tydelig. Det kan i enkelte tilfeller forekomme at mengdeangivelsen på toppen av fem-årssøylene fremtrer utydelig pga av overlapping av tekst. Dette er fordi rammen for det grafiske bildet blir for trang. Dersom man overhodet ikke klarer å se tallene, kan man enklest kjøre den statistiske beregningen på nytt, men da separat for menn og kvinner.

Vi skal til slutt se på en statistisk beregning hvor man har selektert flere variabler. I dette tilfellet tar vi Trondenes kommune år 1875 som eksempel. En utlisting av variabelen Familiestilling viser at det finnes 418 tjenestefolk av totalt 5577 personer i kommunen. Vi har krysset av i boksen for kjønnsfordeling i statistikkprogrammet og ser at tjenestefolkene fordeler seg på 129 menn og 289 kvinner. Vi sjekker aldersfordelingen for kvinnene i denne gruppen og ser da at hovedtyngden av kvinnelige tjenestefolk fordeler seg på aldersgruppen mellom 15 og 29 år. Vi ønsker nå å undersøke hvilke kommuner denne kvinnelige tjenergruppen kommer fra. Personers fødestedsopplysning kan til en viss grad indikere dette. Etappeflytting, dvs flytting fra kommune til kommune, i perioden like før personer slår seg ned i Trondenes kommune, kan imidlertid gi andre innfallsvinkler på hvilke kommuner som avgir tjenere til bykommuner eller bylignende kommuner (Harstad ble opprettet som ladested i 1903). I vårt tilfelle får vi følgende fordeling av fødested for kvinnelige tjenere i aldersgruppen 15-29 år. (Pga plassmangel i skjembildet kommer ikke headingen med på dette utsnittet.) Programmet presenterer de mest frekvente fødestedskommune (fra venstre mot høyre), øvrige kommuner samles opp i gruppen Andre, dvs 31 personer i utvalget er født i andre kommuner. Ikke uventet er de fleste tjenere født i bokommunen og nabokommunene. Vi merker oss likevel at tre personer kommer fra henholdvis Dovre og Sverige og to personer fra Tromsø og Bø.

Sluttkommentarer

Dette statistikkprogrammet har opplagt sine berensninger mht avansert statistikk, men det viser likevel sin styrke i sin brukervennlighet og pris. Alle med internettilgang kan ta programmet i bruk kostnadsfritt. Om man har behov for rådatafiler, kan disse brukes fritt og tilpasses mer avansert programvare. Programmet vil bli forbedret i tiden framover. Programmet har flere utbyggingsmuligheter som man vil teste og prøve i tiden framover. En av fasilitetetene kunne f eks være at man genererte liste, hvor alle personopplysninger i tekstlig format ble vist, når man klikket på en av søylene (grafene). Begrensninger legges inn for lister over en viss maksimumslengde. Koblingen fra datafil til tekstfil er noe man vil prioritere å jobbe med på RHD.

Internett er kommet for å bli. Flere interaktive tjenester dukker stadig opp. Det vil høyst sannsynlig, innen kort tid, bli ganske vanlig med denne typen interaktive tjenester av ymse slag rundt omkring i verden. Vi har allerede i dag en rekke interaktive tjenester som er tilgjengelig på web-servere rundt omkring på verdensnettet. RHDs bidrag i så måte vil kanskje være med på å gjøre internett og WWW mer tiltrekkende for seriøse, forskningsmessige anvendelser. Vi er takknemlig for tilbakemelding på programmet. Statistikkprogrammet finnes på RHDs hjemmeside.


Registreringssentral for historiske data
Universitetet i Tromsø, N-9037 Tromsø
Oppdatert: 10. november 2004