Hva egentlig skjer ved datakontaminering?
Datakontaminering oppstår når grensen mellom treningsdata og evalueringsdata viskes ut. I en ideell verden skal en modell testes på data den *aldri* har sett før. Men i praksis ser vi ofte at modeller presterer 15-30 % bedre på kontaminerte benchmarks enn på rene varianter. Dette er ikke et tegn på intelligens, men på memorering.
Forskere som Ruijie Xu og teamet hans dokumenterte dette i 2024 ved å analysere 31 ulike modeller. De fant omfattende misbruk av testsett, spesielt innen matematiske oppgaver. Når en modell har sett fasiten, forsvinner evnen til å måle faktisk logisk resonnering. Dette gjør historiske sammenligninger mellom modeller nesten meningsløse, da vi ikke lenger vet om en forbedring skyldes bedre arkitektur eller bare et større "jukseark" i treningsdataene.
Hvordan avslører vi juks i AI-modellene?
For å finne ut om en modell er kontaminert, kan vi ikke bare se på sluttsvaret. Vi må se på *hvordan* modellen kommer fram til svaret. En av de mest effektive metodene er å måle perplexity (overraskelsesmoment). Hvis en modell er ekstremt sikker på nøyaktig hvilke ord som kommer i et komplisert testspørsmål, er det et rødt flagg for at den har sett teksten før.
En annen smart tilnærming er TS-Guessing (Testset Slot Guessing). Her fjerner man deler av spørsmålet eller svaralternativene og ber modellen gjette hva som mangler. En modell som ikke er kontaminert, vil gjette riktig i kanskje 25-40 % av tilfellene. En modell som har "lekkasje", kan treffe med 65-85 % nøyaktighet fordi den kjenner malen utenat.
| Benchmark | Skores (Kontaminert) | Skores (Dekontaminert) | Differanse |
|---|---|---|---|
| MMLU | 75-85 % | 60-75 % (estimert reelt) | ~15 % |
| TruthfulQA | 55-65 % | 35-45 % | ~20 % |
| HumanEval | 87.7 % (GPT-4) | 69.5 % (HumanEval T) | 18.2 % |
Strategier for dekontaminering og renere testing
Hvordan fikser vi dette? Det finnes ingen enkel knapp for å "rense" en ferdigtrent modell, men vi kan endre hvordan vi tester dem. Dekontaminering handler om å skape evalueringer som er resistente mot memorering.
- Kombinatorisk testdesign: I stedet for faste spørsmål, bruker man maler som genererer dynamiske variasjoner av problemet. Hvis du endrer tallene i en matteoppgave, men beholder logikken, vil en modell som bare har memorert svaret feile, mens en modell som faktisk kan matte vil lykkes.
- Private benchmarks: Den eneste sikre måten å unngå lekkasje på er å bruke datasett som aldri har vært publisert på nettet. Bedrifter i finans og helse leder an her, da de ofte lager egne, lukkede tester basert på interne data.
- MMLU-Hard: Dette er en strengere versjon av den klassiske MMLU-testen, designet for å være vanskeligere å "gjette» seg til gjennom overfladisk mønstergjenkjenning.
Det er imidlertid en pris å betale. Å lage egne, domenespesifikke benchmarks er ekstremt tidkrevende. Noen rapporter indikerer at det kan ta 200-300 timer med ekspertarbeid per testsett. I tillegg risikerer man "språklig drift", der private datasett blir utdaterte etter hvert som fagspråket utvikler seg.
Hvorfor dette skaper krise i AI-miljøet?
Eksperter som Dr. Yoav Goldberg fra Allen Institute for AI har beskrevet situasjonen som en "krise». Når 22 av 25 store modeller viser tegn til lekkasje på matte-benchmarks, mister vi evnen til å vite hva som faktisk fungerer. Dette fører til at utviklere kaster bort måneder på å optimere modeller basert på falske tall, bare for å oppdage at modellen ikke er blitt smartere i det hele tatt.
På den andre siden finnes det stemmer, som hos Anthropic, som mener at en viss mengde overlapp er uunngåelig og til og med ønskelig. Argumentet er at AI-en skal fungere i en verden full av informasjon, og at det å ha sett eksempler på hvordan problemer løses er en del av læringen. Men det er stor forskjell på å lære en metode og det å huske svaret på spørsmål 42 i en spesifikk test.
Slik implementerer du renere evaluering i ditt prosjekt
Hvis du skal evaluere en LLM for bruk i en bedrift, bør du unngå å stole blindt på offentlige ledertavler. Her er en praktisk fremgangsmåte:
- Lag et "Golden Dataset": Identifiser 100-500 kritiske oppgaver modellen din faktisk må løse i produksjon. Skriv disse manuelt slik at de ikke finnes på nettet.
- Bruk perturbasjon: Ta eksisterende tester og endre små detaljer (navn, datoer, verdier). Hvis modellens nøyaktighet faller drastisk, har du sannsynligvis avdekket kontaminering.
- Kjør perplexity-analyser: Bruk verktøy for å sjekke om modellen er mistenkelig trygg på test-promptene dine.
- Iterativ oppdatering: Private tester må oppdateres jevnlig for å hindre at de blir utdaterte eller at de lekkasje-filtreres gjennom indirekte kilder.
For mange krever dette 2-3 spesialiserte ingeniører som jobber fulltid i flere måneder, men alternativet er å bygge hele forretningslogikken sin på en modell som i realiteten bare er en veldig avansert papegøye.
Veien videre: Fra generelle til spesifikke tester
Vi beveger oss mot slutten av "one-size-fits-all" benchmarks. Gartner spår at innen 2027 vil 85 % av alle bedrifter bruke egne, domenespesifikke tester i stedet for offentlige standarder. Dette er en nødvendighet, spesielt med tanke på EU AI Act, som begynner å kreve beviselige dekontamineringsprotokoller for AI-systemer med høy risiko.
Fremtiden ligger i dynamiske evalueringer som endrer seg i sanntid, slik at modellene aldri kan memorere testsettet. Det vil kreve mer ressurser, men det er den eneste måten vi kan skille ekte intelligens fra avansert mønstergjenkjenning.
Hva er forskjellen på memorering og resonnering i en LLM?
Memorering er når modellen gjenkjenner en spesifikk sekvens av ord fra treningsdataene og gjengir svaret uten å prosessere logikken. Resonnering er når modellen bruker lærte prinsipper for å løse et problem den aldri har sett nøyaktig slik før.
Er alle offentlige benchmarks ubrukelige?
Ikke nødvendigvis, men de bør brukes som indikatorer snarere enn absolutte sannheter. De gir en pekepinn på generelle evner, men for kritiske beslutninger må de suppleres med dekontaminerte eller private testsett.
Hvorfor er det så vanskelig å dekontaminere treningsdata?
Moderne LLM-er trenes på trillioner av tokens fra hele internett. Å identifisere og fjerne hver eneste forekomst av en spesifikk benchmark-setning i et så enormt datasett er teknisk utfordrende og krever enorme beregningsressurser.
Hva er HumanEval T?
HumanEval T er en templated variant av HumanEval-benchmarkenfor koding. Den genererer dynamiske varianter av oppgavene for å sjekke om modellene faktisk kan programmere eller om de bare husker løsningen på de originale oppgavene.
Hvilke bransjer er mest utsatt for denne problematikken?
Bransjer med høye krav til presisjon, som finans, medisin og juridisk sektor, er mest utsatt. Her kan en feilvurdering av modellens kapabiliteter på grunn av lekkasje føre til alvorlige økonomiske eller menneskelige konsekvenser.