|
De foregående kapitlene beskriver hvilken post- og
feltstruktur datafilene fra folketellingene skal ha for å følge
Histform- standardens ulike registreringsformater og dens
utvekslingsformat. I tillegg gis det til dels detaljerte instrukser
for dataverdienes utseende (dvs feltenes innhold). Til sammen kalles
disse spesifikasjonene gjerne for filenes "logiske format".
Dette kapitlet inneholder en del datatekniske og noen mer overordnede
spesifikasjoner av folketellingsfilene, de første ofte kalt filenes
"tekniske format". Når ikke annet er angitt, gjelder disse
spesifikasjonene for filer både i registrerings- og i
utvekslingsformat, men siden det er utvekslingsformatet som i
utgangspunktet skal benyttes ved all distribusjon av data, er det
desidert viktigst at spesifikasjonene følges for dette. Filer i
utvekslingsformat må kunne distribueres både via fysiske medier som
magnetbånd, diskett, CD-ROM m fl, og over datanett. Enkelte
registreringsprogrammer kan fremtvinge eller gjøre det hensiktsmessig
å velge andre tekniske løsninger for registreringsformatene.
Tekniske spesifikasjoner
- 1) FILTYPE:
- Datafilene både i registrerings- og utvekslingsformatet skal
være vanlige "flate tekstfiler".
Filene skal altså ikke være kodet eller på annen måte
tilpasset noen bestemt maskin- eller programvare.
- 2) FELTSKILLE:
- Tegnet lt;' "mindre enn") benyttes som skilletegn mellom
feltene i begge formater.
Dette medfører at tegnet lt;' ikke må forekomme i
dataverdiene, da dette vil føre til ødeleggende feltforskyvninger i
dataposten. Om mulig bør registreringsprogrammene forhindre dette, og
det må kontrolleres i konverteringsprogrammene.
- 3) ANTALL FELT:
- Antall feltskilletegn i en datapost skal alltid være lik det
antallet felt som er definert for den aktuelle posttypen i det
aktuelle formatet.
Dette vil si at en datapost aldri må "kuttes" etter siste
utfylte felt. Slike kuttede poster vil ofte medføre store problemer
ved innlesing av data til kommersielle databasesystemer m m.
- 4) POSTSKILLE:
- Tegnparet 'Ctrl-M' + 'Ctrl-J' (CR + LF, dvs vanlig
linjeskift) benyttes som skille mellom postene i begge
formater.
Dette betyr i klartekst at filene har en logisk datapost pr
linje.
- 5) POSTLENGDE:
- Både felt og poster i datafilene kan ha ubegrenset
lengde.
Dette er et idealkrav. I praksis burde en maksimal
postlengde (og dermed også feltlengde) på ca 1000 tegn være nok for
folketellingsfilene, slik at en logisk datapost vanligvis
ikke må fordeles på flere linjer på filen. På denne måten unngås
"skjøting" av poster.
Merk: At en dataskjerm ofte ikke har plass til mer enn 80
tegn pr linje, bør ikke skape problemer i denne sammenhengen. Derimot
er det et faktum at enkelte editorer, tekstbehandlingssystemer og
andre programmer ikke kan lese inn linjer som inneholder mer enn et
bestemt antall tegn. Maksimallengden er ofte mindre enn 1000 tegn.
Derfor vil det sammen med Histform datafiler om ønskelig bli levert et
lite program (gratis) som deler eventuelle lange poster i filen opp i
et nødvendige antall linjer a en lengde som spesifiseres av brukeren
(f eks 80 tegn). Tegnet '+' til slutt på en linje angir da at posten
fortsetter på neste linje. Det nevnte programmet vil også inneholde en
rutine som skjøter korte linjer sammen igjen til poster av ubegrenset
lengde.
- 6) TEGNSETT:
- Det internasjonalt vedtatte standardtegnsettet for
vesteuropeiske språk, ISO 8859/1 (også kalt "ISO Latin 1"), er
standard tegnsett for konvertering, lagring og distribusjon av filer i
Histforms utvekslingsformat.
Dette tegnsettet er i dag dominerende innenfor PC/Windows- og
Unix-miljøene i Norge og de fleste andre land. Konvertering av filer
mellom ISO 8859/1 og andre aktuelle tegnsett, som f eks 8-bits settet
for MS-DOS (CP 850), 8-bits settet for Apple Macintosh (Newton) og det
gamle 7-bits settet ISO 646/60 ("Norsk ASCII"), kan enkelt foretas av
distributøren eller helst mottakeren ved hjelp av filterprogrammer som
Pep, Aladdin m fl. Om nødvendig vil slike programmer bli utviklet
spesielt for Histform, og om ønskelig distribuert sammen med dataene.
Tegnsettet for filer i registreringsformat må i større grad
kunne tilpasses den maskin- og programvaren som blir benyttet under
registreringen.
Overordnede spesifikasjoner
- 7) DOKUMENTASJONSFIL:
- Sammen med enhver datafil som distribueres i Histforms
utvekslingsformat, skal det følge en egen dokumentasjonsfil med en del
overordnet informasjon om datafilen og dens tilblivelse. Følgende
informasjon kan f eks inngå i dokumentasjonsfilen (punktene a, b og d
skal alltid være med):
a) Filens innhold:
En statistisk oversikt over hvor mange poster av hver
posttype datafilen inneholder, og den maksimale postlengden (i antall
tegn) for hver posttype. For hvert felt i hver posttype oppgis videre
i hvor mange poster feltet er utfylt, og den maksimale feltlengden (i
antall tegn).
Dette siste er meget nyttig informasjon når brukeren av
dataene skal definere en egen database som dataene skal leses inn i.
En slik statistisk oversikt kan enkelt utarbeides rent
maskinelt.
b) Kildegrunnlag:
Kortfattede opplysninger om hvilken kilde datafilen er basert
på (tittel, geografisk område osv), hvor originalen blir oppbevart og
i hvilken form kilden er blitt benyttet (originalkilde, fotokopi,
mikrofilm e a).
c) Eventuelle spesielle forhold i kilden:
Under registreringen bør spesielle egenskaper ved hele
eller deler av kilden dokumenteres. Dette kan gjelde kildens
kompletthet, kvalitet (evt skader), skrift, systematiske avvik fra
tellingsinstruksen, spesiell føringspraksis osv. Fri tekst.
d) Filens tilblivelse:
En kronologisk gjennomgang i fri tekst av
arbeidsprosessen bak datafilens tilblivelse (registrering, korrektur,
konvertering osv). Beskrivelsen skal inneholde hvor, når og av hvem
(institusjon og/eller person) de enkelte arbeidsstegene er
utført.
e) Eventuelle avvik fra Histform-standarden:
Her opplyses det om hvilke instrukser i
Histform-standarden som eventuelt ikke er fulgt under registreringen
eller ved konverteringen til utvekslingsformatet. Selvfølgelig bør
slike avvik helst ikke forekomme, men kan f eks være forårsaket av
vektige effektivitets- eller kapasitetsgrunner.
f) "Gårdens nummer" i byene:
Her redegjøres det for hvilke(n) type(r) nummer som i
denne datafilen er plassert i feltet "Gårdens nummer" i bostedpostene.
Det kan f eks være nummer innenfor roden, branntakstnummer,
matrikkelnummer e a.
Linjene i dokumentasjonsfilen bør være maksimalt 80 tegn lange.
Appendix B inneholder et eksempel på en slik
dokumentasjonsfil.
- 8) FILNAVN:
- Navn på datafiler i Histforms utvekslingsformat skal være på
formen "Fåååkkkk.UTV", der 'F' står for Folketelling, 'ååå' for de tre
siste sifrene i folketellingsåret, og 'kkkk' for herredets/ byens
kommunenummer. Tilsvarende form for dokumentasjonsfiler er
"Fåååkkkk.DOK" og for filer i registreringsformat
"Fåååkkkk.REG".
Eksempel: Filen F8650432.UTV inneholder data i
utvekslingsformat fra folketellingen 31.12.1865 i Rendalen herred i
Hedmark fylke.
Appendix,
Innholdsfortegnelse.
|