Hopp til hovedinnhold
tenki
← Tilbake til blog

kunstig intelligens

Hvorfor hallusinerer kunstig intelligens?

Hvorfor språkmodeller finner på ting, hvorfor store tette modeller finner på mindre.

Foto: ChatGPT
Foto: ChatGPT
Einar K. HoltEinar K. HoltFounder & Partner · 11. mai 2026 · 6 min lesing

Hver gang en språkmodell svarer deg, sampler den det neste mest sannsynlige token-et fra en sannsynlighetsfordeling. Den har ingen sannhetsmåler innebygd, bare en koherens-måler. Det betyr at riktig spørsmål ikke er hvorfor den hallusinerer noen ganger, men hvorfor den noen gang treffer. I denne artikkelen ser vi på hallusinering som tapsbasert kompresjon og som nevrologisk konfabulering, og hvorfor de to bildene sammen peker mot RAG som en naturlig grense, ikke en lapp.

Hver gang en språkmodell svarer deg, gjør den i bunn og grunn én ting. Den sampler det neste mest sannsynlige token-et fra en sannsynlighetsfordeling. Den har ingen innebygd sannhetsmåler. Den har bare en koherens-måler.

Det betyr at riktig spørsmål ikke nødvendigvis er "hvorfor hallusinerer den noen ganger?". Det riktige spørsmålet er "hvorfor treffer den i det hele tatt?".

Når du først ser det sånn, faller mye på plass. Hallusineringen er standard, og det er nøyaktigheten som er det merkverdige fenomenet som krever forklaring. Resten av denne artikkelen handler om to forklaringer som henger sammen, og hvorfor de peker mot RAG som en slags naturlig grense.

Modellen er en lossy versjon av treningsdataene

Den enkleste måten å forstå en språkmodell på er som en JPEG av hele internettet.

Tenk på hva en JPEG faktisk gjør. Den fjerner informasjon for å spare plass. Når du åpner bildet igjen, fyller dekoderen inn pikslene som ble kastet, basert på det den vet om hvordan bilder pleier å se ut. Lavere bitrate gir flere oppfunnede piksler. Bildet ser fortsatt riktig ut, men du har strengt tatt aldri sett originalen.

Språkmodeller er nesten det samme. Under trening blir milliarder av tekster komprimert ned til vekter. Når modellen genererer et svar, dekomprimerer den fra disse vektene. De bitene den ikke har lagret nøyaktig nok, må den rekonstruere fra mønstre. Den rekonstruksjonen er hallusinering, og den er strukturelt umulig å fjerne så lenge kompresjonen er tapsbasert. Som DeepMind har vist eksplisitt: språkmodellering er kompresjon, matematisk sett.

Dette er den mest direkte forklaringen på et empirisk fenomen folk ofte snubler i: store, tette modeller hallusinerer mindre. Det er ikke fordi de er smartere på en magisk måte. De har bare høyere bitrate. Flere parametre betyr at flere konkrete scenarier, fakta og kontekster ligger lagret med høy nok presisjon til at modellen kan forankre svaret sitt i noe spesifikt, ikke bare i et generelt mønster.

Mindre, sparsommere modeller må gjette mer fordi de har komprimert mer aggressivt. De har like flytende språk, men færre konkrete krokfester å henge svaret på.

Modellen er en forteller uten kildehukommelse

Den andre forklaringen kommer fra et helt annet sted, og den er kanskje mer urovekkende: nevrologi.

På 1960-tallet behandlet nevrologen Roger Sperry epilepsipasienter ved å kutte hjernebjelken som forbinder de to hjernehalvdelene. Det stoppet anfallene, men avslørte noe merkelig. Hvis du ga venstre hjernehalvdel (den som styrer høyre hånd og som ikke har språk) en instruks via synet, og personen utførte handlingen, så fant den verbale hjernehalvdelen, som aldri så instruksen, på en helt flytende forklaring for hvorfor de gjorde det.

Personen visste ikke at de ikke visste. De bare fortalte.

Det samme skjer i større skala hos pasienter med Korsakoffs syndrom, en tilstand som ofte følger alvorlig alkoholmisbruk. Pasienten produserer flytende, koherente fortellinger om hendelser som aldri har skjedd, helt uten bevissthet om at noe er galt. Nevrologene kaller dette konfabulering, ikke løgn. Pasienten lyver ikke. De har bare en forteller-modul som kjører videre uten kildemateriale, og den fyller inn det som er borte.

En språkmodell er strukturelt nesten identisk med denne tilstanden. Den har en svært kompetent fortellermekanisme, altså selve språkmodellen, men ingen separat episodisk hukommelse som kan stille bremsen og spørre "vent, husker jeg faktisk dette, eller fyller jeg bare inn?". Sannhet og koherens kjennes nøyaktig likt på innsiden. Modellen har ingen måte å vite forskjellen.

Det er dette som gjør at selvtillit i modellsvar aldri er en god indikator på korrekthet. Den er like flytende når den lyver som når den siterer. Det er konfabulering, ikke løgn, og det skiller seg fra menneskelig drittprat på akkurat samme måte: ingen intensjon, bare en mekanisme som ikke har bremsene den ser ut til å ha.

Hvorfor RAG er asymptoten, ikke et triks

Nå kobler vi de to forklaringene sammen.

Hvis det er sant at tette modeller hallusinerer mindre fordi flere scenarier gir bedre forankring, hva får vi om vi tar den tanken til sin grense?

Vi får en modell som i praksis har lagret hele treningskorpuset sitt verbatim, og som ved svartid kan slå opp i originalen før den genererer noe som helst. Men det er jo ikke en stor modell lenger. Det er en database med et språkgrensesnitt. Det er RAG.

Det er det interessante poenget her: RAG er ikke en lapp på et hull. RAG er den naturlige grensen tette modeller konvergerer mot. Når du gir modellen muligheten til å hente konkrete dokumenter inn i konteksten før generering, gjør du to ting samtidig.

For det første flytter du "hukommelsen" fra de tapsbaserte vektene over til et nøyaktig, kildebasert lager. For det andre gir du fortellermekanismen en kilde å forankre fortellingen i, akkurat som å gi en split-brain-pasient øynene tilbake.

Hallusinering forsvinner ikke helt. Modellen kan fortsatt velge å ignorere kilden eller mislese den. Men den blir kraftig redusert, fordi sannsynlighetsfordelingen for neste token nå er kondisjonert på spesifikke fakta og ikke bare på generelle mønstre. Forskjellen er målbar i de fleste benchmarks som finnes.

Hva man konkret gjør med dette

Snu problemet på hodet og spør hvordan man ville garantert maksimal hallusinering, så får man oppskriften baklengs.

Tren uten kilder. Beløn flytende svar fremfor korrekte (mye RLHF gjør dette utilsiktet, fordi annotatører liker svar som høres sikre ut). Ikke gi modellen lov til å si "jeg vet ikke", tving frem et svar uansett. Nekt modellen verktøy og oppslag, hold den i closed-book-modus.

Snu disse fire, så har du forebyggingsoppskriften:

  1. Forankre i kilder via RAG. Det største og mest robuste grepet. Inkluder dokumentene modellen skal generere fra, og bygg sitering inn i prompt-strukturen. Det forskjellsignalet du gir modellen mellom "påstand" og "påstand med kildereferanse" er enormt.
  2. Tren og evaluer på faktualitet, ikke bare flyt. Det finnes etter hvert konkrete fakta-benchmarks (TruthfulQA, FActScore og lignende) som kan brukes både som evalueringssignal og som beløningssignal under finjustering.
  3. Tillat avholdenhet. Modeller som har lov til å si "jeg er usikker" er langt mer brukbare i produksjon enn modeller som alltid svarer. Forskning viser at modeller faktisk vet ganske godt selv hvor sikre de er, hvis de bare har lov til å rapportere det.
  4. Gi modellen verktøy. Kalkulator, kodekjører, websøk, intern kunnskapsbase. Ethvert verktøy som flytter en del av svaret fra "rekonstruksjon fra vekter" til "oppslag i sannhet" reduserer hallusinering proporsjonalt.

For tette modeller spesielt: bruk dem der konteksten er mager og du må stole på modellens innebygde verdensmodell. For RAG-systemer: du kan ofte slippe unna med en mindre modell, men da må retrieveren være god. Den asymptotiske grensen er den samme. Kostnadene er ikke det.

Den ubehagelige konklusjonen

Hallusinering kommer ikke til å forsvinne, fordi det ikke er en defekt. Det er det som skjer når en flytende forteller får i oppgave å snakke uten kilder.

Vi har bygget et system med menneskets sterkeste språklige evner, og uten menneskets sterkeste epistemiske mekanisme: følelsen av at "dette husker jeg ikke faktisk". Det er en imponerende halv-menneskelighet, og den lyver med samme letthet som den forteller sant, av samme grunn som en split-brain-pasient gjør det. Mekanismen vet ikke at det er en forskjell.

Den gode nyheten er at vi vet hva som mangler, og vi vet hvordan vi gir modellen det tilbake. Tette modeller gir oss bedre intern hukommelse. RAG gir oss ekstern hukommelse med kilder. Verktøy gir oss handlende sannhetstilgang. Sammen gjør de hallusinering til et håndterbart fenomen, ikke et eksistensielt problem.

Modellen er en flink forteller. Vår jobb er å gi den noe sant å fortelle om.


Referanser og videre lesning

Hvorfor modeller hallusinerer

  • Ji, Z. et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys. Den standard akademiske oversikten over fenomenet.
  • Kalai, A. T. & Vempala, S. S. (2024). Calibrated Language Models Must Hallucinate. Argumenterer for at hallusinering er matematisk uunngåelig under standard treningsregimer.
  • OpenAI (2025). Why Language Models Hallucinate. Kobler treningsincentiver til hvorfor modeller foretrekker selvsikre gjetninger over avholdenhet.

Kompresjon som intelligens

  • Delétang, G. et al. (2024). Language Modeling Is Compression. DeepMind. Viser eksplisitt at språkmodeller fungerer som tapsbaserte kompressorer, og at kompresjonsraten korrelerer med modellkapabilitet.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. Det empiriske fundamentet for hvorfor flere parametre gir bedre forankring.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla-paperet). Forholdet mellom data og parametre i en kompresjonsramme.

RAG og forankring

  • Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Original-paperet som etablerte RAG-paradigmet.
  • Shuster, K. et al. (2021). Retrieval Augmentation Reduces Hallucination in Conversation. Empirisk evidens for at RAG reduserer hallusinering signifikant.
  • Gao, Y. et al. (2024). Retrieval-Augmented Generation for Large Language Models: A Survey. Bred oversikt over moderne RAG-arkitekturer.

Kalibrering og avholdenhet

  • Kadavath, S. et al. (2022). Language Models (Mostly) Know What They Know. Anthropic. Viser at modeller har relativt god intern kalibrering når de får lov til å rapportere usikkerhet.
  • Lin, S., Hilton, J. & Evans, O. (2022). TruthfulQA: Measuring How Models Mimic Human Falsehoods. Den mest siterte benchmarken for sannhetsadferd.

Konfabulering i nevrologi (analogien)

  • Gazzaniga, M. S. (2000). Cerebral specialization and interhemispheric communication: Does the corpus callosum enable the human condition? Brain. Klassisk oversikt over split-brain-funn og "left-brain interpreter".
  • Schnider, A. (2008). The Confabulating Mind: How the Brain Creates Reality. Oxford University Press. Standardverket om konfabulering ved Korsakoffs syndrom og relaterte tilstander.
  • Hirstein, W. (2005). Brain Fiction: Self-Deception and the Riddle of Confabulation. MIT Press. Filosofisk og nevrologisk behandling av hvorfor friske og syke hjerner konfabulerer.
hallusineringspråkmodellerLLMRAGretrieval-augmented generationtette modellermodellkompresjonscaling lawskalibreringkonfabuleringsplit-brainkunstig intelligensgenerativ KIfaktualitetprompt engineeringKI-forskningtenki
← Tilbake til blog