AI-Benchmarking
Benchmark-tall lyver ikke, men de forteller heller ikke sannheten
Hva skjer når vi optimaliserer for det som er lett å måle, i stedet for det som er vanskelig å forstå?

ARC-AGIs nye leaderboard viser score og kostnad per oppgave. o3-preview løste 75% av ARC-AGI-1, men til over 200 dollar per oppgave. Mennesker løser det samme til 17 dollar.
Det første bildet du møter i de fleste AI-pressemeldinger er en tabell. En samling modellnavn langs én akse, et sett med benchmark-navn langs den andre, og tall som stiger fra venstre til høyre. Øverst til høyre sitter alltid det nyeste systemet, med den høyeste scoren. Den implisitte påstanden er klar: dette er fremgang. Dette er bedre intelligens.
Jeg er ikke overbevist.
Ikke fordi jeg tror fremgangen er falsk. Mye av den er veldig reell, og jeg bruker disse modellene hver eneste dag. Men det er en forskjell mellom "bedre på benchmarks" og "bedre til å tenke", og den forskjellen er viktigere enn den ser ut.
Hva en benchmark egentlig er
Et benchmark er en eksamen med fasit. Du tar et datasett, stiller modellen spørsmål den ikke har fått se under trening, og teller opp korrekte svar. Det er raskt, reproduserbart og lar deg sammenligne to modeller med ett enkelt tall. Det er åpenbart nyttig.
Problemet er det samme som med alle eksamener: den som lager oppgavene, og den som svarer på dem, spiller mot hverandre over tid. Et benchmark mister validitet i det øyeblikket det blir kjent nok til å trene på. MMLU, Massive Multitask Language Understanding, er kanskje det mest brukte benchmarket i bransjen. Det tester kunnskap på 57 faglige domener, fra medisin til juss til matematikk. Det er en god idé i utgangspunktet. Men etter fire år med intensive rangeringer og offentlig tilgjengelige spørsmål, er det ikke åpenbart lenger hva det faktisk måler: generell kunnskap, eller systematisk eksponering for nettopp disse spørsmålene under trening.
Spillerne er ikke uredelige. De optimaliserer bare for det de blir målt på. Det er det rasjonelle å gjøre.
Mønstergjenkjenning er ikke det samme som forståelse
Det er noe fristende med å lese en modell som scorer 90% på et medisinsk kunnskapstest som "forstår medisin". Men det vi faktisk vet er at den har lært å gjenkjenne hva slags svar som er korrekt i det formatet testspørsmålet er stilt.
For meg ble dette tydelig da jeg begynte å jobbe med lineær regresjon fra bunnen av, ikke ved å bruke sklearn, men ved å utlede gradientene selv og implementere oppdateringsregelen for hånd. Det er klart at en modell kan produsere kode for lineær regresjon uten noensinne å ha "forstått" hva minstekvadraters metode faktisk gjør geometrisk. Den har sett nok eksempler til at outputen ser riktig ut. Det er et veldig nyttig triks, men det er ikke det samme som forståelse.
Det er en konkret og viktig distinksjon. For der mønstergjenkjenning er nok til å gjøre det bra på MMLU, er det ikke nok til å løse et problem du aldri har sett før i en ny kontekst.
ARC-AGI: da verden ble mer nyansert
I 2019 publiserte François Chollet ARC-AGI, Abstraction and Reasoning Corpus for Artificial General Intelligence. Designfilosofien er annerledes enn de fleste benchmarks. Oppgavene er enkle å forstå visuelt: et rutenett av farger som endrer seg etter en regel, og du skal gjette hva den neste transformasjonen er. Men reglene er alltid nye. Du har aldri sett akkurat denne typen oppgave under trening. Det er ingen mengde memorert kunnskap som hjelper deg. Du må faktisk resonnere fra noen eksempler til en generell regel, og deretter bruke den regelen på et nytt tilfelle.
Barn på seks år løser dette uten problemer.
Store språkmodeller har i mange år slitt enormt. GPT-4, da det kom, scoret omtrent 33%. For kontekst: et tilfeldig valg ville gitt deg rundt 20 til 25%. Det er ikke null fremgang, men det er langt fra imponerende.
Nyere modeller har forbedret seg. o3 fra OpenAI scoret rundt 88% i desember 2024, et virkelig bemerkelsesverdig hopp. Men det skjedde ved å bruke svært mye datakraft under selve testingfasen, ikke bare ved å ha lært noe mer generelt under trening. Og da man begynte å se nærmere på metodene, dukket det opp noe interessant: modellene begynte å vise tegn til å ha memorert mønstre fra treningsdataene som lignet på ARC-oppgaver. Benchmarket holder fremdeles, men gapet mellom "gjør det bra på ARC" og "generaliserer til virkelig ukjente problemer" er ikke lukket.
Det er ikke en kritikk av disse systemene. De er imponerende. Men det minner oss på at gode tall på en test ikke nødvendigvis betyr det vi ønsker at de skal bety.
Goodharts lov og det uunngåelige problemet
Det finnes en gammel formulering i økonomi og vitenskapsteori som heter Goodharts lov: "Når et mål blir et mål, slutter det å være et godt mål." Det ble opprinnelig sagt om pengepolitikk, men det passer nesten bedre på AI-evaluering.
I det øyeblikket en benchmark er viktig nok til å påvirke investeringsbeslutninger, headlinestories og modellutviklingsvalg, begynner selve optimiseringstrykket å erodere validiteten. Det skjer ikke fordi noen jukser. Det skjer fordi hvis du trener på nok tekst fra internett, og en bestemt test har vært diskutert og analysert og publisert nok, da finnes det en statistisk kobling mellom treningsdataene og testspørsmålene som er vanskelig å kvantifisere og vanskelig å eliminere.
Dette er ikke et løsbart problem på en enkel måte. Nye benchmarks dukker opp, og det tar tid før de blir "kompromittert" av det samme trykket. Men syklusen fortsetter.
Hva vi egentlig burde spørre om
Jeg er ikke ute etter å si at benchmarks er ubrukelige. De er langt fra det. Men det er en nyttig distinksjon mellom hva de faktisk måler og hva de impliserer.
Det de måler godt: kvantifiserbar kunnskap innen veldefinerte domener, ytelse på oppgavetyper der det finnes fasit, sammenlignbarhet mellom modeller over tid på faste testsett.
Det de måler dårlig: evne til å generalisere til oppgaver og formuleringsformer du ikke har sett, robusthet når problemet er litt feil formulert, fleksibel resonnering som krever at du bygger en ny strategi fra ingenting.
Det siste er det som faktisk er vanskelig. Og det er det som faktisk avgjør om en modell er nyttig i de situasjonene som betyr noe, der brukeren ikke gir deg en ryddig multiple-choice-oppgave, men en uklar, halvferdig beskrivelse av noe de ikke vet hvordan de skal sette ord på.
Fra arbeidet i Tenki ser vi dette tydelig. En modell som scorer veldig høyt på standard benchmarks kan likevel svikte overraskende mye på reelle kundeutfordringer, ikke fordi den ikke er god, men fordi kundeutfordringer sjelden er formulert som eksamensspørsmål. De er løse, konteksttunge og preget av taus kunnskap. Det er en annen type problem.
Reinforcement learning fra menneskelig feedback gjør dette verre
Det er et ekstra lag her som er verdt å tenke på. Moderne store språkmodeller trenes ikke bare på tekst. De finjusteres på menneskelig feedback via RLHF (Reinforcement Learning from Human Feedback). Det betyr at modellen lærer seg hva slags svar mennesker foretrekker. Og mennesker foretrekker svar som høres tillitsvekkende ut, er godt strukturerte og virker kompetente.
Det er ikke det samme som svar som er riktige.
Det er fullt mulig å trene en modell til å produsere svar som scores høyt av menneskelige vurderere og scorer høyt på benchmarks, uten at den egentlig resonnerer bedre. Den har bare blitt flinkere til å gjenkjenne hva slags svar som belønnes. Det er mønstergjenkjenning i et nytt domene, domenet for menneskelig preferanse.
Jeg sier ikke at RLHF ikke bidrar positivt; den gjør helt klart det på mange fronter. Men det legger enda et lag mellom "hva tallene sier" og "hva som faktisk skjer inne i modellen".
Det virkelige spørsmålet for neste dekade
Jeg tror ikke fremgangen i AI-feltet er falsk. Jeg tror faktisk fremgangen er bemerkelsesverdig, og at vi er i en periode der ting endrer seg fort nok til å gjøre det svært vanskelig å ha en oppdatert og kalibrert forventning.
Men det er noe vi bør være ærlige om: vi optimaliserer for det vi kan måle. Og det vi kan måle, er nesten per definisjon ikke det vanskeligste å forstå. Det vanskeligste å forstå, ekte generalisering, robutt resonnering under usikkerhet, evnen til å bygge et nytt mentalt rammeverk fra noen få eksempler, er nettopp vanskelig fordi det er vanskelig å måle.
ARC-AGI er et forsøk på å komme nærmere. Det er nesten sikkert at det vil bli "løst" med nok innsats og datakraft, på samme måte som MMLU er blitt "løst". Og da vil noen lage noe enda vanskeligere.
Kanskje er det slik fremgang alltid ser ut: en evig veksling mellom å sette en liste og å klatre den. Det interessante spørsmålet er ikke om modellene er gode. Det er om vi har verktøyene til å vite hva de faktisk er gode til.
Det er ikke et spørsmål jeg har svaret på. Men det er et spørsmål jeg tror feltet ikke kan unngå å stille mer ærlig.
Andreas Grønbeck studerer maskinlæring og kunstig intelligens ved UiO og er medgründer og partner i Tenki.