Hopp til hovedinnhold
tenki
← Tilbake til blog

forskning

Jeg slo Norges beste språkforskere på en uke. Det kostet meg 47 øre.

Hugin 2 4B 4-bit slår NorMistral 7B på 7 av 9 standardiserte norske benchmarks. Treningen tok 78 minutter på en RTX 5070 Ti og kostet 47 øre i strøm. Slik gjorde jeg det og hva det betyr for norsk språkteknologi i 2026.

Foto: Einar Holt
Foto: Einar Holt
Einar K. HoltEinar K. HoltFounder & Partner · 15. mai 2026 · 10 min lesing

Jeg er 20 år gammel, NTNU-student, og driver tenki ved siden av studiene. For en uke siden bestemte jeg meg for å se om jeg kunne lage en bedre norsk språkmodell enn de som finnes. Resultatet, Hugin 2 4B 4-bit, slår NorMistral 7B Warm fra Universitetet i Oslo på 7 av 9 standardiserte norske benchmarks. På leseforståelse er gapet 50 prosentpoeng. Treningen kostet 47 øre i strøm.

Jeg satt på rommet og hadde nettopp lest om NorMistral, den dedikerte norske språkmodellen som er blitt referansen siden 2024. Den er utviklet ved Universitetet i Oslo av Norges fremste språkteknologi-miljø, trent på 26 milliarder norske tokens, 7 milliarder parametere. Et seriøst forskningsprosjekt.

Jeg lurte på hvor langt jeg kunne komme på en uke. Jeg er ikke noen verdensekspert. Jeg leser forskningspapirer, jeg eksperimenterer, jeg lærer mens jeg gjør. Jeg har ingen bevilgning, ingen datasenter, ingen forskergruppe. Bare en GPU og noen kveldstimer.

Tirsdag startet jeg å trene.

Det jeg fant

Jeg testet mot ni offentlige norske benchmarks. Hugin 2 4B 4-bit vinner på syv. NorMistral vinner på to. Her er de:

Stil-tester (NORI, måler hvor naturlig norsk modellen skriver, skala 0-100):

TestHugin 2 4B 4-bitNorMistral 7BVinner
NORI Bokmål48.135.3Hugin 2 (+12.8)
NORI Nynorsk55.335.4Hugin 2 (+19.9)

Kapasitets-tester (etablerte multiple-choice og leseforståelses-benchmarks):

TestHugin 2 4B 4-bitNorMistral 7BVinner
Belebele Bokmål (Meta sin leseforståelses-test)78%28%Hugin 2 (+50)
NorCommonsenseQA53%28%Hugin 2 (+25)
NorOpenBookQA71%37%Hugin 2 (+34)
NorTruthfulQA53%45%Hugin 2 (+8)
NRK Quiz QA48%38%Hugin 2 (+10)
NorIdiom (idiom-forståelse)5%22%NorMistral (+17)
NorQuAD (lang reading comprehension)26%31%NorMistral (+5)

På Belebele scorer NorMistral 28 prosent. Belebele har fire svaralternativer, så tilfeldig gjetting gir 25 prosent. NorMistral, den dedikerte norske 7B-modellen, scorer altså omtrent random-nivå på en standardisert norsk leseforståelses-test. Hugin 2 scorer 78 prosent. Det er ikke en liten marginal forskjell. Det er et 50-prosentpoengs forskjell.

Hugin 2 er mindre enn NorMistral (4 milliarder parametere mot 7), tar mindre plass på disk (under 3 GB i 4-bit), kjører på en helt vanlig Mac eller forbruker-PC, og slår altså referansemodellen til Norges fremste forskningsmiljø på syv av ni standardiserte tester.

Der NorMistral fortsatt slår oss

To områder hvor 26 milliarder norske tokens spiller mer rolle:

NorIdiom måler om modellen forstår norske faste uttrykk. "Å gå til hundene", "å gå over bekken etter vann", "å sette tæring etter næring". Disse er kulturelt og lingvistisk dypt forankret. NorMistral har sett millioner av eksempler i trening. Hugin 2 har sett en brøkdel. NorMistral vinner 22 mot 5 prosent. Det er et reelt og legitimt forsprang.

NorQuAD krever utdrag av spesifikke fakta fra lengre norske tekster. Det er en oppgave som drar nytte av dedikert norsk eksponering på en måte vår LoRA-finjustering ikke fanger. NorMistral vinner 31 mot 26 prosent. Knappere, men reelt.

Begge disse seirene er konsistente med hva NorMistral er bygget for: dyp norsk språkforståelse på spesifikke nivåer. På de andre testene blir den slått av en moderne åpen baseline med målrettet finjustering, men på akkurat disse to har dedikert pretraining fortsatt verdi.

Det vi ikke kan si: "vi slår dem på alt". Det vi kan si: "vi slår dem på sju av ni standardiserte tester, og vi forstår hvorfor vi taper de to vi taper".

Kostnaden

Jeg regnet ut hva strømmen kostet for treningen min.

RTX 5070 Ti trekker rundt 300 watt under full last. Treningen tok 78 minutter, altså 1.3 timer. Det blir 0.39 kWh. Med strømpris 1.20 kroner per kWh:

0.39 kWh × 1.20 kr/kWh = 0.47 NOK

47 øre.

For NorMistral er kostnaden tyngre å regne ut, men kan estimeres realistisk. Treningen krevde anslagsvis 1 517 timer på A100 80GB datasenter-kort, basert på treningskonfigurasjonen UiO publiserte. Sky-pris hos store leverandører er rundt 30 kroner per A100-time:

1 517 timer × 30 kr/time = 45 501 NOK

Det er bare ren GPU-tid. Realistisk totalkostnad inkludert datasenter-fasiliteter, lagring, eksperimentering som ikke ble til noe, og forskerlønn over flere måneder, er sannsynligvis flere hundre tusen.

Forholdet mellom de to tallene:

45 501 NOK / 0.47 NOK = 97 224

For hver krone jeg brukte, brukte UiO 97 224 kroner. Den ekte multiplikatoren er sannsynligvis betydelig høyere når man tar med alt som ikke er GPU-tid.

Hvordan vi gjorde det

Vi tok en sterk åpen baseline, og finjusterte den med egne metoder på et målrettet norsk korpus. Det er ikke magi. Det er valg av riktig utgangspunkt, riktig spesialiseringsteknikk, og rigorøs måling underveis så vi vet hva som faktisk forbedrer modellen og hva som degraderer den.

Tre prinsipper:

Bedre utgangspunkt. NorMistral er bygget oppå Mistral 7B v0.1 fra september 2023, beste åpne baseline da. I 2026 er moderne baselines dramatisk sterkere på generell resonering, multispråklighet og instruksjonsfølging. Et bedre fundament gjør at vi ikke trenger å bruke milliarder av tokens på å lære grunnleggende språkforståelse på nytt.

Målrettet finjustering. Vi endrer ikke alle vektene i modellen. Det er kraftig men risikabelt: du kan skade generell kapasitet samtidig som du bygger inn spesialisering. Det er nettopp det som skjedde med NorMistral. Reasoning-evnen ble degradert. Vi bruker i stedet adapter-basert finjustering som oppdaterer en liten brøkdel av vektene, målrettet mot norsk språkstil. Basemodellens reasoning bevares.

Vi måler alt. Stil OG kapasitet, ikke bare det ene. NORI for stil, etablerte benchmarks for kapasitet. Vi rapporterer trade-offs ærlig, inkludert der vi taper.

Hva NorMistral-resultatet egentlig betyr

NorMistral 7B Warm sitt 28 prosent Belebele-resultat er det mest oppsiktsvekkende enkeltresultatet i hele analysen. Det er ikke fordi UiO-forskerne gjorde feil. De gjorde det de kunne med teknologien tilgjengelig i 2024. NorMistral var et legitimt og verdifullt prosjekt på det tidspunktet.

Men det viser at strategien "continued pretraining på en eldre åpen base" har gått ut på dato i 2026. Den underliggende modellen i 2023 var ikke sterk nok til å bære så mye spesialisering uten å miste generell kapasitet. Når moderne baselines forbedres med 30 til 50 prosent i året, blir dedikerte språkmodeller raskt utdaterte på de fleste oppgaver, selv om de beholder forsprang på enkelte språkspesifikke ferdigheter som idiomer.

Det jeg har vist er ikke at jeg er smartere enn forskerne ved UiO. Jeg er ikke det. Det jeg har vist er at den teknologiske advantagen forskyves når basemodellene utvikler seg så raskt at fjorårets state-of-the-art metode blir overflødig på de fleste dimensjoner innen et år eller to.

Hva nå

Hugin 2 4B 4-bit kjører nå i produksjon på tenki sin infrastruktur, i to varianter fra samme vekter:

  • Hugin 2 med reasoning aktivert. Modellen tenker grundig før den svarer. Dypere analyse, lengre svartid.
  • Munin 2 i direktemodus. Raskere, kortere svar, samme språkkvalitet.

Begge er tilgjengelige som chat på tenki.no/chat.

Modellen er fortsatt intern. Vi deler funn, ikke vekter. NORI-rammeverket som ble brukt til all stilmåling er åpent tilgjengelig på github.com/tenki-labs/nori. Om tredjeparter vil teste denne så kan vi dele tilgang :)

Til UiO og forskningsmiljøet

Dette innlegget skal ikke leses som triumf over akademia. NorMistral var et legitimt prosjekt og er fortsatt best i klassen på de språkspesifikke oppgavene som drar mest nytte av dedikert pretraining. NORI og NorEval (norske benchmarks) er det som overhodet gjør det mulig for meg å vise at jeg har gjort fremskritt. Uten dere ingen måling, ingen sammenligning, ingen historie å fortelle.

Det jeg har vist er at det norske språkteknologi-miljøet trenger å vurdere på nytt hva som er den faglige rollen av nasjonale modeller når kommersielle åpne baselines blir så sterke at en student kan slå dem på flertallet av tester på en uke. Det er en samtale jeg gjerne tar.

Til andre studenter

Hvis du tror du er for ung, har for lite ressurser, eller mangler riktig CV til å bidra i et felt, så vil jeg si dette: jeg leste papers, jeg bygde verktøy, jeg eksperimenterte, jeg målte resultatet. Det er ikke magi. Det er en konsument-GPU og en uke. Hvis du har en idé du tror på, prøv den.

norsk språkmodellLLMfinetuningLoRAkostnadseffektiv AIHugin 2Munin 2NorMistralBelebeleNORINorEvalbenchmarkåpne baselineslokale språkmodellerKIkunstig intelligensNTNUtenkimaskinlæringGPU-treningkvantiseringnorsk bokmålnynorsk
← Tilbake til blog