Farao på ferie

Om bokstavfrekvensar i norsk!

André Bjerke er ein norsk forfattar som kanskje er mest kjend for krimlitteratur og dikt for vaksne. Men han skreiv også barnepoesi. "Fru Nitters datter", utgitt i 1966 med illustrasjonar av Mette Borchgrevink, var den første barnediktboka til Bjerke. Favoritten min i denne diktsamlinga er den underfundige "Farao på ferie". Prøv å lese dette høgt utan å le:

FARAO PÅ FERIE

I landet Miramarmora

var Farao på ferie

hos farmora og mormora.

En morgen klatret mormora

til Farao i furua
og så begynte moroa.

- Hva ler'u a'? Sa farmora.

- Av mormora, den furia!

- Hvor ser'u a'? sa farmora

- I furua! sa Farao.

- Kom ned igjen! sa farmora

til mormora i furua.

- Imorra, ja! sa mormora

til farmora til Farao.

Du ser av vår historie

at det å dra på ferie

i landet Miramarmora

til farmora og mormora,

den furia i furua,

har Farao hatt moro av!

'Farao på ferie' dobbeltside i boka 'Fru Nitters datter'.

"Farao på ferie" i boka "Fru Nitters datter". Illustrasjon av Mette Borchgrevink.

Bjerke skaper ei kreativ historie ved å kombinere ord som liknar på kvarandre, men som kulturelt, geografisk og dialektmessig ikkje høyrer saman. I tillegg utgjer bokstavkombinasjonane eit heilt nettverk av fonetiske snubletrådar! La oss sjå litt nærmare på Bjerke sine ordkonstruksjonar.

OM BOKSTAVFREKVENSAR

Når ein les "Farao på ferie", kjennest det intuitivt som om diktet har fleire førekomstar av enkelte bokstavar enn det som er vanleg i norsk. Det ser ut som det er spesielt mange av bokstavane a, f, m, o, r. Men er det tilfellet? Og kva er eigentleg fordelinga av bokstavar i det norske språket?

Dette går det an å finne ut av! Det finst oversikter over innbyrdes bokstavfordeling — såkalla relativ bokstavfrekvens — for språk, også norsk. Bokstavfrekvensen finn vi ved å lese gjennom tekstar og telje bokstavar. Dette høyrest ut som tidkrevjande arbeid, men vi har heldigvis datamaskiner som kan gjere jobben for oss! Det er nok ikkje mogeleg å finne absolutt korrekte tal, for resultatet vil alltid vere avhengig av kva materiale ein brukar som grunnlag for bokstavteljinga. Ein kan likevel få ein solid peikepinn.

METODE

For å få ei oversikt over bokstavfrekvensen i norsk, brukte eg ein studie gjort ved Universitetet i Oslo. Studien har funne ein bokstavfrekvens basert på eit stort antal nettsider på norsk bokmål. Bokstavfrekvensen i "Farao på ferie" fann eg sjølv ved å skrive Python-kode som sorterte og talde opp bokstavane i diktet. Her er begge bokstavfrekvensane plotta side om side:

Vi ser av grafen at hypotesen vår var rett. Det er ei heilt klar overvekt av bokstavane a, f, m, o og r i "Farao på ferie" samanlikna med den generelle bokstavfrekvensen i norsk. Forskjellane er endå tydelegare med eit gruppert stolpediagram:

Stolpediagram

Grunnen til opphopinga av bokstavar er enkel — Bjerke brukar eit sett med ord som blir gjentatt ofte: Farao, farmora, mormora, furua. Desse orda har mange forekomstar av a, f, m, o og r. I tillegg sper Bjerke på med fleire ord som også har mange forekomstar av a, f, m, o og r, for eksempel i dialogen på dialekt — ein genial vri!

DATASETT

UiO-studien inkluderer bokstavar med aksentar samt teiknsetting. For den vesle samanlikningsstudien vår, inkluderte eg kun dei 29 bokstavane i alfabetet vårt, og så rekna eg ut den relative bokstavfrekvensen på nytt basert på tala i studien.

NOWAC-STUDIEN

"Lista med bokstavfrekvenser i norsk er generert fra NoWaC. Den er sortert etter synkende frekvens og inkluderer alle tegn som forekommer i korpuset. Store og små bokstaver er slått sammen. Tegnene er oppgitt med absolutt frekvens og med prosentandel i parentes." (NoWaC)

DESIGN

Den horisontale grafen, font og graf-styling er inspirert av Mette Borchgrevink sin illustrasjon. Grafane er laga med D3.js og Rough.js.