Tenk deg at du ber en AI om å finne en juridisk presedens for en sak, og den svarer med full selvsikkerhet om en domstolssak som aldri har eksistert. Den dikter opp saksnummer, datoer og til og med sitater fra dommeren. Dette er ikke en teknisk feil i tradisjonell forstand, men et uttrykk for det vi kaller AI-hallusinasjoner. For mange virker det absurd at en teknologi som kan bestå legeeksamener, plutselig kan lyve så skamløst. Men sannheten er at AI-en ikke lyver - den gjør nøyaktig det den er designet for: å gjette hva det neste ordet bør være.
For å forstå hvorfor dette skjer, må vi se på hva som egentlig foregår under panseret. En stor språkmodell (LLM) er en type dyp læringsmodell som er trent på enorme mengder tekst for å forutsi det neste tokenet i en sekvens basert på statistiske mønstre . Den har ingen innebygd sannhetsmåler eller tilgang til en ekstern database over fakta i sanntid. Den opererer i en verden av sannsynligheter, ikke sannheter.
Sannsynlighet over sannhet: Maskineriet bak feilene
Kjernen i problemet ligger i at modeller som GPT-4 eller Claude 3 er probabilistiske. Det betyr at når du stiller et spørsmål, regner modellen ut hvilket ord (eller del av et ord) som statistisk sett er mest sannsynlig å følge det forrige. Hvis modellen har lest tusenvis av juridiske dokumenter, vet den hvordan en domsavsigelse ser ut. Den vet at etter ordene "Høyesterett fastslo i saken..." følger vanligvis et navn og et årstall. Hvis den ikke finner det spesifikke svaret i sine egne vekter, genererer den noe som ligner på et riktig svar fordi det er statistisk plausibelt.
Dette er det forskere kaller "stokastiske papegøyer". Modellen gjentar mønstre uten å forstå meningen bak ordene. Dr. Emily M. Bender har påpekt at språkmodeller ikke besitter mening, kun statistikk. Når en AI hallusinerer, er det egentlig bare en statistisk gjettleik som har gått galt. Jo mer kompleks oppgaven er, desto større er risikoen. Studier viser at hallusinasjonsratene kan variere fra 15 % helt opp til 76 %, avhengig av hvor spesialisert domenet er.
Snøballeffekten og kildeamnesi
Et av de mest frustrerende fenomenene er det som kalles kaskadefeil. Når en modell først har skrevet en feilaktig påstand, begynner den å bygge videre på denne feilen for å opprettholde en intern logikk i teksten. Dette skaper en snøballeffekt hvor feilraten øker med nesten 37 % etter den første faktiske feilen i en samtale. Siden modellen prøver å være konsistent med det den nettopp skrev, graver den seg bare dypere ned i sitt eget dikt.
I tillegg lider modellene av "kildeamnesi". De husker mønstrene fra treningsdataene, men ikke hvor dataene kom fra. De kan gjengi en kompleks vitenskapelig teori, men hvis du spør om kilden, kan de finne på en plausibel referanse til et tidsskrift som ikke finnes, rett og slett fordi referansen ser korrekt ut i forhold til resten av teksten.
| Modell | Feilrate (%) | Hovedutfordring |
|---|---|---|
| Gemini Ultra | 18,3 % | Kompleks resonnering |
| GPT-4 | 22,7 % | Overkonfident generering |
| Llama 2 | 34,1 % | Datamangfold |
Hvordan vi prøver å tøyle fantasien til AI-en
Siden vi ikke kan endre den grunnleggende arkitekturen i dagens modeller uten å bygge dem helt på nytt, har vi utviklet flere teknikker for å redusere risikoen. Den mest effektive metoden i dag er Retrieval-Augmented Generation (RAG), eller hentingsforsterket generering. RAG er en arkitektur som tvinger modellen til å søke i en spesifikk, verifisert kunnskapsbase før den svarer, i stedet for å stole utelukkende på sine egne interne vekter.
RAG kan redusere hallusinasjoner med mellom 42 % og 68 %. Tenk på det som forskjellen mellom å be en student svare på eksamen fra hukommelsen (standard LLM) kontra å la studenten ha med boka (RAG). Selv om studenten fortsatt kan lese feil eller misforstå teksten, er sjansen for at de dikter opp helt nye fakta mye mindre.
Andre metoder inkluderer:
- Chain-of-Thought (Tanke-kjede): Man ber modellen forklare resonnementet sitt steg for steg. Dette reduserer feil i matematikk og logikk med rundt 27 %, men gjør svarene tregere.
- Prosess-supervisjon: I stedet for å bare belønne modellen for et riktig sluttsvar, trener man den til å verifisere hvert enkelt steg i tankerekken. OpenAI har rapportert at dette kan redusere resonneringsfeil med over 50 %.
- Nevro-symbolske systemer: Dette er fremtiden, hvor man kombinerer nevrale nettverk (statistikk) med symbolske systemer (harde regler og logikk). MIT har vist at dette kan nå en nøyaktighet på 93 % i medisinske spørsmål, selv om det går saktere.
Hvorfor størrelsen ikke alltid hjelper
Det var en utbredt tro i starten at jo større modellen var (flere parametere), desto mer nøyaktig ville den bli. Vi så modeller gå fra 175 milliarder til over 1,7 billioner parametere. Men det viser seg at større modeller av og til blir bedre til å hallusinere. Fordi de er så gode på å fange opp subtile mønstre, blir de også flinkere til å generere tekster som ser ekstremt overbevisende ut, selv når innholdet er helt feil.
Dette skaper et paradoks for brukere i kritiske sektorer. I markedsføring er en hallusinasjon kanskje bare "kreativitet". Men i helsevesenet eller jussen er en feilrate på 5 % for høy. Den europeiske AI-loven (EU AI Act) har derfor satt strenge krav til rapportering av feilrater for høyrisikosystemer, med potensielle bøter på opptil 6 % av global omsetning for de som ikke følger reglene.
Praktiske tips for å unngå AI-feller
Siden hallusinasjoner er en innebygd egenskap ved dagens arkitektur, kan vi ikke forvente at de forsvinner helt. Her er noen tommelfingerregler for å bruke generativ AI trygt:
- Krev kilder: Be modellen oppgi nøyaktige referanser, men vær obs på at den kan hallusinere disse også. Sjekk alltid at lenken eller boktittelen faktisk eksisterer.
- Bruk "Negative Constraints": Fortell modellen eksplisitt: "Hvis du ikke vet svaret, skal du si at du ikke vet det. Ikke gjett."
- Iterativ verifisering: Be modellen kritisere sitt eget svar. Spør: "Er det noen faktiske feil i teksten over? Sjekk spesielt årstall og navn."
- Kryssjekking: Bruk to ulike modeller (for eksempel GPT-4 og Claude 3) på samme spørsmål. Hvis de gir ulike fakta, er sannsynligheten for en hallusinasjon høy.
Kan AI-hallusinasjoner fjernes helt?
Med dagens autoregressive arkitektur er svaret sannsynligvis nei. Siden modellene er bygget for å forutsi sannsynlige sekvenser av tegn, vil det alltid være en risiko for at det mest sannsynlige tegnet ikke er det faktiske tegnet. Full eliminering vil trolig kreve et paradigmeskifte mot hybrid nevro-symbolsk AI.
Hva er forskjellen på en hallusinasjon og en vanlig feil?
En vanlig feil kan være en skrivefeil eller en misforståelse av instruksen. En hallusinasjon er når modellen genererer informasjon som presenteres som faktum, men som ikke har rot i treningsdataene eller virkeligheten, ofte med høy grad av selvsikkerhet.
Hvorfor er RAG bedre enn bare å gi modellen mer data?
Å trene en modell på mer data gjør den flinkere til å gjette mønstre, men den kan fortsatt blande sammen fakta. RAG fungerer som et oppslagsverk; modellen må finne den faktiske informasjonen i et dokument før den skriver svaret, noe som flytter ansvaret fra statistisk gjetting til informasjonshenting.
Hvilke bransjer er mest utsatte for hallusinasjonsrisiko?
Juridiske tjenester, medisin og finans er mest utsatt fordi konsekvensene av feil informasjon her er kritiske. En feilaktig juridisk henvisning eller en feil medisinering kan få katastrofale følger, i motsetning til en feil i en kreativ reklamekampanje.
Hva er en "stokastisk papegøye"?
Begrepet beskriver hvordan språkmodeller bare gjentar statistiske mønstre fra treningssettet uten å ha noen egentlig forståelse av konseptene de snakker om. De "aper" språket vårt uten å forstå meningen.