Test Set Leakage og Dekontaminering i LLM-benchmarking: Slik sikrer du ekte AI-resultater

April 7, 2026
Comments 7
Teknologi og kunstig intelligens

Tenk deg at du skal ta en eksamen, men du har tilfeldigvis lest fasiten til alle oppgavene dagen før. Du får toppkarakter, men betyr det at du faktisk har forstått faget? Slik fungerer test set leakage (lekkasje av testsett) i verdenen av store språkmodeller (LLM). Når testdataene som skal måle hvor smart en AI er, ved et uhell havner i treningssettet, får vi resultater som ser fantastiske ut på papiret, men som er helt ubrukelige i virkeligheten. Problemet er at mange av dagens mest populære benchmarks er offentlig tilgjengelige på nettet. Siden LLM-er trenes på enorme mengder internettdata, "sluker" de ofte spørsmålene og svarene fra testene. Resultatet er at modellen ikke resonnerer seg fram til et svar, men rett og slett gjenkjenner mønstre den har sett før. Dette skaper en falsk trygghet for bedrifter som implementerer AI i kritiske systemer, bare for å oppdage at modellen kollapser når den møter ekte, ukjente problemer.

Hva egentlig skjer ved datakontaminering?

Datakontaminering oppstår når grensen mellom treningsdata og evalueringsdata viskes ut. I en ideell verden skal en modell testes på data den *aldri* har sett før. Men i praksis ser vi ofte at modeller presterer 15-30 % bedre på kontaminerte benchmarks enn på rene varianter. Dette er ikke et tegn på intelligens, men på memorering.

Forskere som Ruijie Xu og teamet hans dokumenterte dette i 2024 ved å analysere 31 ulike modeller. De fant omfattende misbruk av testsett, spesielt innen matematiske oppgaver. Når en modell har sett fasiten, forsvinner evnen til å måle faktisk logisk resonnering. Dette gjør historiske sammenligninger mellom modeller nesten meningsløse, da vi ikke lenger vet om en forbedring skyldes bedre arkitektur eller bare et større "jukseark" i treningsdataene.

Hvordan avslører vi juks i AI-modellene?

For å finne ut om en modell er kontaminert, kan vi ikke bare se på sluttsvaret. Vi må se på *hvordan* modellen kommer fram til svaret. En av de mest effektive metodene er å måle perplexity (overraskelsesmoment). Hvis en modell er ekstremt sikker på nøyaktig hvilke ord som kommer i et komplisert testspørsmål, er det et rødt flagg for at den har sett teksten før.

En annen smart tilnærming er TS-Guessing (Testset Slot Guessing). Her fjerner man deler av spørsmålet eller svaralternativene og ber modellen gjette hva som mangler. En modell som ikke er kontaminert, vil gjette riktig i kanskje 25-40 % av tilfellene. En modell som har "lekkasje", kan treffe med 65-85 % nøyaktighet fordi den kjenner malen utenat.

Effekten av lekkasje på populære benchmarks
Benchmark	Skores (Kontaminert)	Skores (Dekontaminert)	Differanse
MMLU	75-85 %	60-75 % (estimert reelt)	~15 %
TruthfulQA	55-65 %	35-45 %	~20 %
HumanEval	87.7 % (GPT-4)	69.5 % (HumanEval T)	18.2 %

Krystallspeil som viser kontrasten mellom memorering og resonnering i en AI-modell.

Strategier for dekontaminering og renere testing

Hvordan fikser vi dette? Det finnes ingen enkel knapp for å "rense" en ferdigtrent modell, men vi kan endre hvordan vi tester dem. Dekontaminering handler om å skape evalueringer som er resistente mot memorering.

Kombinatorisk testdesign: I stedet for faste spørsmål, bruker man maler som genererer dynamiske variasjoner av problemet. Hvis du endrer tallene i en matteoppgave, men beholder logikken, vil en modell som bare har memorert svaret feile, mens en modell som faktisk kan matte vil lykkes.
Private benchmarks: Den eneste sikre måten å unngå lekkasje på er å bruke datasett som aldri har vært publisert på nettet. Bedrifter i finans og helse leder an her, da de ofte lager egne, lukkede tester basert på interne data.
MMLU-Hard: Dette er en strengere versjon av den klassiske MMLU-testen, designet for å være vanskeligere å "gjette» seg til gjennom overfladisk mønstergjenkjenning.

Det er imidlertid en pris å betale. Å lage egne, domenespesifikke benchmarks er ekstremt tidkrevende. Noen rapporter indikerer at det kan ta 200-300 timer med ekspertarbeid per testsett. I tillegg risikerer man "språklig drift", der private datasett blir utdaterte etter hvert som fagspråket utvikler seg.

Hvorfor dette skaper krise i AI-miljøet?

Eksperter som Dr. Yoav Goldberg fra Allen Institute for AI har beskrevet situasjonen som en "krise». Når 22 av 25 store modeller viser tegn til lekkasje på matte-benchmarks, mister vi evnen til å vite hva som faktisk fungerer. Dette fører til at utviklere kaster bort måneder på å optimere modeller basert på falske tall, bare for å oppdage at modellen ikke er blitt smartere i det hele tatt.

På den andre siden finnes det stemmer, som hos Anthropic, som mener at en viss mengde overlapp er uunngåelig og til og med ønskelig. Argumentet er at AI-en skal fungere i en verden full av informasjon, og at det å ha sett eksempler på hvordan problemer løses er en del av læringen. Men det er stor forskjell på å lære en metode og det å huske svaret på spørsmål 42 i en spesifikk test.

Elegant ingeniør som skaper et gyllent, rent datasett for AI-testing i en futuristisk hage.

Slik implementerer du renere evaluering i ditt prosjekt

Hvis du skal evaluere en LLM for bruk i en bedrift, bør du unngå å stole blindt på offentlige ledertavler. Her er en praktisk fremgangsmåte:

Lag et "Golden Dataset": Identifiser 100-500 kritiske oppgaver modellen din faktisk må løse i produksjon. Skriv disse manuelt slik at de ikke finnes på nettet.
Bruk perturbasjon: Ta eksisterende tester og endre små detaljer (navn, datoer, verdier). Hvis modellens nøyaktighet faller drastisk, har du sannsynligvis avdekket kontaminering.
Kjør perplexity-analyser: Bruk verktøy for å sjekke om modellen er mistenkelig trygg på test-promptene dine.
Iterativ oppdatering: Private tester må oppdateres jevnlig for å hindre at de blir utdaterte eller at de lekkasje-filtreres gjennom indirekte kilder.

For mange krever dette 2-3 spesialiserte ingeniører som jobber fulltid i flere måneder, men alternativet er å bygge hele forretningslogikken sin på en modell som i realiteten bare er en veldig avansert papegøye.

Veien videre: Fra generelle til spesifikke tester

Vi beveger oss mot slutten av "one-size-fits-all" benchmarks. Gartner spår at innen 2027 vil 85 % av alle bedrifter bruke egne, domenespesifikke tester i stedet for offentlige standarder. Dette er en nødvendighet, spesielt med tanke på EU AI Act, som begynner å kreve beviselige dekontamineringsprotokoller for AI-systemer med høy risiko.

Fremtiden ligger i dynamiske evalueringer som endrer seg i sanntid, slik at modellene aldri kan memorere testsettet. Det vil kreve mer ressurser, men det er den eneste måten vi kan skille ekte intelligens fra avansert mønstergjenkjenning.

Hva er forskjellen på memorering og resonnering i en LLM?

Memorering er når modellen gjenkjenner en spesifikk sekvens av ord fra treningsdataene og gjengir svaret uten å prosessere logikken. Resonnering er når modellen bruker lærte prinsipper for å løse et problem den aldri har sett nøyaktig slik før.

Er alle offentlige benchmarks ubrukelige?

Ikke nødvendigvis, men de bør brukes som indikatorer snarere enn absolutte sannheter. De gir en pekepinn på generelle evner, men for kritiske beslutninger må de suppleres med dekontaminerte eller private testsett.

Hvorfor er det så vanskelig å dekontaminere treningsdata?

Moderne LLM-er trenes på trillioner av tokens fra hele internett. Å identifisere og fjerne hver eneste forekomst av en spesifikk benchmark-setning i et så enormt datasett er teknisk utfordrende og krever enorme beregningsressurser.

Hva er HumanEval T?

HumanEval T er en templated variant av HumanEval-benchmarkenfor koding. Den genererer dynamiske varianter av oppgavene for å sjekke om modellene faktisk kan programmere eller om de bare husker løsningen på de originale oppgavene.

Hvilke bransjer er mest utsatt for denne problematikken?

Bransjer med høye krav til presisjon, som finans, medisin og juridisk sektor, er mest utsatt. Her kan en feilvurdering av modellens kapabiliteter på grunn av lekkasje føre til alvorlige økonomiske eller menneskelige konsekvenser.

Post Comments (7)

Olav Finne

April 8, 2026 AT 12:51

Det er på tide at vi begynner å snakke om hvorfor bransjen i det hele tatt tillater slike metodikker. Bruken av offentlige benchmarks som eneste sannhet er intellektuelt uærlig, og det er rimelig forventet at enhver seriøs aktør allerede har implementert egne lukkede testsett for å unngå nettopp dette fenomenet.

Even Ødegård

April 9, 2026 AT 09:20

Dette er bare starten. De vil lure oss til å tro at maskinene er smarte, mens de egentlig bare stjeler alt vi har skrevet for å lure oss i fella. Hele greia med AI er et spill for å kontrollere hva vi tror er sant!

Runa Kalypso

April 10, 2026 AT 14:57

Helt enig i at dette er et problem! Det er sykt rart at folk stoler på tallene uten å sjekke om det er juks. Kanskje vi burde lage en slags open source liste over hva som er lekket så folk vet hva de skal se etter?
Hadde vært kult om vi kunne samarbeida om det.

Geir Isaksen

April 12, 2026 AT 03:06

Lol, folk tror seriøst at GPT-4 er smart. Den er basically en glorified autocomplete. At noen faktisk blir overraska over data leakage i 2024 viser bare hvor lavt nivået er på de fleste "AI-ekspertene" i Norge. Gjesp.

Torolf Bjoerklund

April 12, 2026 AT 22:15

Men er ikke egentlig all menneskelig læring bare en form for mønstergjenkjenning? Vi kaller det resonnering når vi ikke husker kilden, men i bunn og grunn er vi bare biologiske LLM-er som har lest for mange bøker 🙄. Hele skillet mellom memorering og intelligens er en illusjon vi klamrer oss til for å føle oss spesielle.

Kari Viitanen

April 14, 2026 AT 21:58

Det er virkelig bekymringsverdig når man tenker på konsekvensene for helsesektoren. Hvis en modell virker kompetent fordi den har sett fasiten på en medisinsk test, men feiler i et reelt pasientmøte, er risikoen altfor høy. Vi må prioritere sikkerhet og genuine resultater over raske overskrifter om "gjennombrudd".

Hayden Kjelleren

April 15, 2026 AT 00:22

Alt føles bare litt for mye.