Tenk deg at du ber en AI om å finne en juridisk presedens for en sak, og den svarer med full selvsikkerhet om en domstolssak som aldri har eksistert. Den dikter opp saksnummer, datoer og til og med sitater fra dommeren. Dette er ikke en teknisk feil i tradisjonell forstand, men et uttrykk for det vi kaller AI-hallusinasjoner. For mange virker det absurd at en teknologi som kan bestå legeeksamener, plutselig kan lyve så skamløst. Men sannheten er at AI-en ikke lyver - den gjør nøyaktig det den er designet for: å gjette hva det neste ordet bør være.
For å forstå hvorfor dette skjer, må vi se på hva som egentlig foregår under panseret. En stor språkmodell (LLM) er en type dyp læringsmodell som er trent på enorme mengder tekst for å forutsi det neste tokenet i en sekvens basert på statistiske mønstre . Den har ingen innebygd sannhetsmåler eller tilgang til en ekstern database over fakta i sanntid. Den opererer i en verden av sannsynligheter, ikke sannheter.
Sannsynlighet over sannhet: Maskineriet bak feilene
Kjernen i problemet ligger i at modeller som GPT-4 eller Claude 3 er probabilistiske. Det betyr at når du stiller et spørsmål, regner modellen ut hvilket ord (eller del av et ord) som statistisk sett er mest sannsynlig å følge det forrige. Hvis modellen har lest tusenvis av juridiske dokumenter, vet den hvordan en domsavsigelse ser ut. Den vet at etter ordene "Høyesterett fastslo i saken..." følger vanligvis et navn og et årstall. Hvis den ikke finner det spesifikke svaret i sine egne vekter, genererer den noe som ligner på et riktig svar fordi det er statistisk plausibelt.
Dette er det forskere kaller "stokastiske papegøyer". Modellen gjentar mønstre uten å forstå meningen bak ordene. Dr. Emily M. Bender har påpekt at språkmodeller ikke besitter mening, kun statistikk. Når en AI hallusinerer, er det egentlig bare en statistisk gjettleik som har gått galt. Jo mer kompleks oppgaven er, desto større er risikoen. Studier viser at hallusinasjonsratene kan variere fra 15 % helt opp til 76 %, avhengig av hvor spesialisert domenet er.
Snøballeffekten og kildeamnesi
Et av de mest frustrerende fenomenene er det som kalles kaskadefeil. Når en modell først har skrevet en feilaktig påstand, begynner den å bygge videre på denne feilen for å opprettholde en intern logikk i teksten. Dette skaper en snøballeffekt hvor feilraten øker med nesten 37 % etter den første faktiske feilen i en samtale. Siden modellen prøver å være konsistent med det den nettopp skrev, graver den seg bare dypere ned i sitt eget dikt.
I tillegg lider modellene av "kildeamnesi". De husker mønstrene fra treningsdataene, men ikke hvor dataene kom fra. De kan gjengi en kompleks vitenskapelig teori, men hvis du spør om kilden, kan de finne på en plausibel referanse til et tidsskrift som ikke finnes, rett og slett fordi referansen ser korrekt ut i forhold til resten av teksten.
| Modell | Feilrate (%) | Hovedutfordring |
|---|---|---|
| Gemini Ultra | 18,3 % | Kompleks resonnering |
| GPT-4 | 22,7 % | Overkonfident generering |
| Llama 2 | 34,1 % | Datamangfold |
Hvordan vi prøver å tøyle fantasien til AI-en
Siden vi ikke kan endre den grunnleggende arkitekturen i dagens modeller uten å bygge dem helt på nytt, har vi utviklet flere teknikker for å redusere risikoen. Den mest effektive metoden i dag er Retrieval-Augmented Generation (RAG), eller hentingsforsterket generering. RAG er en arkitektur som tvinger modellen til å søke i en spesifikk, verifisert kunnskapsbase før den svarer, i stedet for å stole utelukkende på sine egne interne vekter.
RAG kan redusere hallusinasjoner med mellom 42 % og 68 %. Tenk på det som forskjellen mellom å be en student svare på eksamen fra hukommelsen (standard LLM) kontra å la studenten ha med boka (RAG). Selv om studenten fortsatt kan lese feil eller misforstå teksten, er sjansen for at de dikter opp helt nye fakta mye mindre.
Andre metoder inkluderer:
- Chain-of-Thought (Tanke-kjede): Man ber modellen forklare resonnementet sitt steg for steg. Dette reduserer feil i matematikk og logikk med rundt 27 %, men gjør svarene tregere.
- Prosess-supervisjon: I stedet for å bare belønne modellen for et riktig sluttsvar, trener man den til å verifisere hvert enkelt steg i tankerekken. OpenAI har rapportert at dette kan redusere resonneringsfeil med over 50 %.
- Nevro-symbolske systemer: Dette er fremtiden, hvor man kombinerer nevrale nettverk (statistikk) med symbolske systemer (harde regler og logikk). MIT har vist at dette kan nå en nøyaktighet på 93 % i medisinske spørsmål, selv om det går saktere.
Hvorfor størrelsen ikke alltid hjelper
Det var en utbredt tro i starten at jo større modellen var (flere parametere), desto mer nøyaktig ville den bli. Vi så modeller gå fra 175 milliarder til over 1,7 billioner parametere. Men det viser seg at større modeller av og til blir bedre til å hallusinere. Fordi de er så gode på å fange opp subtile mønstre, blir de også flinkere til å generere tekster som ser ekstremt overbevisende ut, selv når innholdet er helt feil.
Dette skaper et paradoks for brukere i kritiske sektorer. I markedsføring er en hallusinasjon kanskje bare "kreativitet". Men i helsevesenet eller jussen er en feilrate på 5 % for høy. Den europeiske AI-loven (EU AI Act) har derfor satt strenge krav til rapportering av feilrater for høyrisikosystemer, med potensielle bøter på opptil 6 % av global omsetning for de som ikke følger reglene.
Praktiske tips for å unngå AI-feller
Siden hallusinasjoner er en innebygd egenskap ved dagens arkitektur, kan vi ikke forvente at de forsvinner helt. Her er noen tommelfingerregler for å bruke generativ AI trygt:
- Krev kilder: Be modellen oppgi nøyaktige referanser, men vær obs på at den kan hallusinere disse også. Sjekk alltid at lenken eller boktittelen faktisk eksisterer.
- Bruk "Negative Constraints": Fortell modellen eksplisitt: "Hvis du ikke vet svaret, skal du si at du ikke vet det. Ikke gjett."
- Iterativ verifisering: Be modellen kritisere sitt eget svar. Spør: "Er det noen faktiske feil i teksten over? Sjekk spesielt årstall og navn."
- Kryssjekking: Bruk to ulike modeller (for eksempel GPT-4 og Claude 3) på samme spørsmål. Hvis de gir ulike fakta, er sannsynligheten for en hallusinasjon høy.
Kan AI-hallusinasjoner fjernes helt?
Med dagens autoregressive arkitektur er svaret sannsynligvis nei. Siden modellene er bygget for å forutsi sannsynlige sekvenser av tegn, vil det alltid være en risiko for at det mest sannsynlige tegnet ikke er det faktiske tegnet. Full eliminering vil trolig kreve et paradigmeskifte mot hybrid nevro-symbolsk AI.
Hva er forskjellen på en hallusinasjon og en vanlig feil?
En vanlig feil kan være en skrivefeil eller en misforståelse av instruksen. En hallusinasjon er når modellen genererer informasjon som presenteres som faktum, men som ikke har rot i treningsdataene eller virkeligheten, ofte med høy grad av selvsikkerhet.
Hvorfor er RAG bedre enn bare å gi modellen mer data?
Å trene en modell på mer data gjør den flinkere til å gjette mønstre, men den kan fortsatt blande sammen fakta. RAG fungerer som et oppslagsverk; modellen må finne den faktiske informasjonen i et dokument før den skriver svaret, noe som flytter ansvaret fra statistisk gjetting til informasjonshenting.
Hvilke bransjer er mest utsatte for hallusinasjonsrisiko?
Juridiske tjenester, medisin og finans er mest utsatt fordi konsekvensene av feil informasjon her er kritiske. En feilaktig juridisk henvisning eller en feil medisinering kan få katastrofale følger, i motsetning til en feil i en kreativ reklamekampanje.
Hva er en "stokastisk papegøye"?
Begrepet beskriver hvordan språkmodeller bare gjentar statistiske mønstre fra treningssettet uten å ha noen egentlig forståelse av konseptene de snakker om. De "aper" språket vårt uten å forstå meningen.
Post Comments (9)
Dette er bare begynnelsen. De vil lure oss alle! Først sier de at det er en "feil", men egentlig er det jo sånn de kan kontrollere hva vi tror er sant. Hvem er det egentlig som bestemmer hva AI-en skal "hallusinere"? Det er helt sikkert noen store selskaper som styrer dette for å manipulere oss!
Hahaha, helt sant! Jeg har prøvd dette selv med GPT-4, og den er jo helt vill når den først begynner å lyve 😂 Det er nesten imponerende hvor selvsikker den er mens den tar helt feil! RAG er greit og vel miRNAs, men vi kommer aldri til å stole på disse tingene i juss uten at et menneske sjekker alt 🚀
Det er jo nesten rørende at folk tror RAG er løsningen. Som om en enkel database-oppslag kan redde en fundamentalt defekt arkitektur. Men det er jo egentlig ganske fascinerende hvordan systemene speiler vår egen menneskelige tendens til å dikte opp ting når vi føler oss presset til å ha et svar, ikke sant? Litt som i akademia, egentlig, hvor folk publiserer tull bare for å få finansiering 🌸
Jeg er enig i analysen av RAG, men det hadde vært interessant å se mer data på hvordan nevro-symbolske systemer faktisk implementeres i praksis for medisinske applikasjoner. Hvis vi kan kombinere hard logikk med nevrale nettverk, vil vi kanskje kunne eliminere behovet for manuell verifisering av hver enkelt kilde, noe som ville økt effektiviteten i helsevesenet betraktelig.
helt enig med Kristian her, det hadde vært kjempebra å se mer av det der!
Serr, er det mulig å være så naiv? Å tru at MIT har "løst" dette med nevro-symbolske greier er jo bare tragisk. De fleste av disse tallene er uansett pynta på for å tiltrekke seg investorer. Det er bare mer av det samme tullballet, bare med fancy navn.
Synes det er spennende å lese om! 🌟 Kanskje vi kan se på det som at AI-en bare er veldig kreativ? 🎨
Godt forklart. Dette er viktig kunnskap for alle som begynner med AI. Bare ta det rolig og sjekk alltid fakta selv, så går det fint for alle!
Jeg føler bare at alt dette tekniske egentlig bare gjør oss mer ensomme og distanserte fra virkeligheten. Hva betyr egentlig sannhet når maskinene bare gjetter? Det er ganske trist.