Har du noen gang stilt en spørsmål til en stor språkmodell som en avansert algoritme som genererer tekst basert på mønstre i data, for eksempel ChatGPT eller Claude, bare for å få et svar som lød overbevsende, men som var helt feil?
Dette kalles hallusinasjon. Det er det øyeblikket når maskinen "fantaserer" fakta fordi den ikke vet svaret, men likevel prøver å være hjelpsom. Problemet er at brukere ofte tror på disse svarene. For å løse dette forsker vi nå intenst på hvordan vi kan designe systemer der modellen velger å si «jeg vet ikke» - eller rett og slett avstår fra å svare - når usikkerheten er for stor.
Hvorfor «jeg vet ikke» er det viktigste svaret
I tidlige dager med chatbots var målet enkelt: Gi et svar, uansett hva. Men med avanserte språkmodeller som AI-systemer trent på enorme mengder tekst for å forstå og generere menneskelig språk som GPT-4 og LLaMA, har spillet endret seg. Nå handler det om tillit.
Forskning fra 2024, inkludert en omfattende gjennomgang i *Transactions of the Association for Computational Linguistics*, definerer dette begrepet som abstention (avståelse). Det betyr at modellen aktivt velger å nekte å svare når den er usikker, når spørsmålet er umulig å besvare, eller når et svar ville vært skadelig. En ny metrikke kalt Abstention Ability (AA) som en kvantitativ målsetting for hvor godt en modell tilbakeholder svar ved usikkerhet viser at selv de mest avanserte modellene fortsatt sliter med å vite når de skal holde kjeft.
Tenk deg en lege-app. Hvis appen gir feil råd, kan noen bli skadet. Hvis den sier «jeg er usikker, konsulter en ekte lege», redder den kanskje livet. Å lære modeller å avstå er derfor ikke bare en teknisk utfordring; det er en sikkerhetsnødvendighet.
De tre hovedgrunnene til å avstå
Når bør en AI egentlig la være å svare? Forskere deler opp situasjonene i tre klare kategorier:
- Epistemisk usikkerhet: Modellen har ikke nok informasjon. Dette skjer ofte med nye hendelser etter modellens treningsdato (kunnskapskutt) eller svært spesifikke nisjefakta.
- Oppgaveumulighet: Spørsmålet er logisk sett ubesvartbart, tomt eller motstridende. Her finnes det rett og slett ingen korrekt løsning.
- Sikkerhets- og etiske grenser: Et svar ville krenket personvern, oppfordret til vold eller brøt loven. Her er avståelse et moralsk valg, ikke kun et tegn på manglende kunnskap.
Det er avgjørende at modellen skiller mellom disse. Å si «jeg vet ikke» fordi man frykter konsekvensene er forskjellig fra å si det fordi man faktisk ikke har fakta. Brukere fortaper seg raskt hvis modellen unnskylder seg for dumme grunner.
Problemet med tid og utdatert kunnskap
En spesiell type feil skjer med tidsbestemt informasjon. En studie fra 2024-2025 med tittelen «When Silence Is Golden» fokuserer på akkurat dette. La oss si at du spør: «Hvem er presidenten i land X?»
Hvis modellen ble trent på data fra før valget, vil den sannsynligvis nevne den tidligere presidenten. Men den gjør det ofte med full selvtillit. Den «hallusinerer» ikke bevisst, men den presenterer gammel informasjon som om den var aktuell. Dette er farlig fordi svaret flyter fint, men er misvisende.
Løsningen her er å trene modellen på å gjenkjenne når tiden i spørsmålet ligger utenfor dens treningshorisont som den tidspunkt frem til hvilken modellen har lært informasjon. Når modellen ser at datoen overstiger treningsgrensen, bør den automatisk trigge en avståelsesmekanisme istedenfor å gjette.
Hvordan vi får modeller til å innrømme usikkerhet
Det er ikke nok å ønske at modellen skal være ærlig. Vi må programmere mekanismer for det. Her er noen av metodene forskere tester:
- Sannsynlighetsterskler: Systemet sjekker modellens interne «selvtillitspoeng». Hvis sannsynligheten for neste ord faller under en viss grense, blokkeres svaret.
- Eksterne verifikatorer: En mindre, spesialisert AI-modell leser førstespørsmålet og det foreslåtte svaret. Dersom verifikatoren mener svaret er feil, erstattes det med et «jeg vet ikke».
- Self-evaluation (Selvvurdering): Etter at modellen har generert et svar, blir den bedt om å vurdere det selv: «Er svaret over sant eller usant?» Hvis den svarer «usant», vises svaret ikke.
- Komite-metoden: Flere ulike AI-modeller (f.eks. en ekspert i fakta, en i matematikk, en i sunn fornuft) svarer hver for seg. Hvis de ikke kommer enig, avstår systemet.
Disse metodene øker kostnadene. Å bruke flere modeller eller flere beregninger tar tid og ressurser. Derfor må vi finne balansen mellom nøyaktighet og hastighet, spesielt i applikasjoner der brukere forventer umiddelbare svar.
Design av trygge ikke-svar
Når modellen har bestemt seg for å avstå, hvordan skal den formidle det? I dag ser vi ofte lange, unnskyldende tekster som: «Jeg beklager, men jeg kan ikke hjelpe deg med det fordi...»
Brukere finner dette irriterende og nedlatende. En bedre tilnærming, foreslått i diskusjoner på plattformer som LessWrong, er å separere den tekniske beslutningen fra brukerinteraksjonen. Bak kulissene kan modellen sende et spesialsignal (la oss kalle det <AVSTÅ>) til systemet. Dette signalet er maskinlesbart og tydelig for utviklere som overvåker sikkerheten.
For brukeren kan vi derimot vise noe mer konstruktivt. Istedenfor bare å si nei, kan modellen:
- Fortelle hvorfor den ikke vet (f.eks. «Dette hendte etter min siste oppdatering»).
- Gi alternative veiledninger («Jeg vet ikke svaret, men her er lenker til steder der du kan finne det»).
- Stille avklarende spørsmål for å innsnevre temaet.
Målet er at «ikke-svaret» fortsatt føles hjelpsomt, ikke som en dør i ansiktet.
Sammenligning av avståelsesmetoder
| Metode | Hvordan det fungerer | Fordeler | Ulemper |
|---|---|---|---|
| Sannsynlighetsterskel | Blokkerer svar hvis modellens intern konfidens er lav. | Raskt og billig å implementere. | Modeller er ofte dårlig kalibrert; kan gi falske alarmer. |
| Ekstern verifikator | En annen modell vurderer svarets korrekthet. | Høy presisjon; fanger opp komplekse feil. | Øker ventetid og beregningskostnader. |
| Chain-of-Thought (CoT) | Modellen tenker høyt før den svarer. | Bedre logikk; reduserer tilfeldige feil. | Krever mer tekstgenerering; tregere. |
| Komite/Majoritet | Flere modeller stemmer; hvis de uenige, avstår. | Meget robust mot ensomme feil. | Veldig ressurskrevende (flere API-kall). |
Veien videre mot troverdige AI-systemer
Industrien beveger seg bort fra «svare alltid» og mot «svar når du er sikker». Dette er en fundamental endring i hvordan vi bygger kunstig intelligens som teknologi som etterligner menneskelig intelligens og lærer fra data. Ved å integrere avståelsesmekanismer får vi ikke bare færre hallusinasjoner, vi får også høyere total nøyaktighet.
Når en modell tør å si «jeg vet ikke», frigjør den seg fra presset å lyve. Det gjør den til en mer pålitelig partner for studenter, forskere og profesjonelle. Fremover vil vi se strengere standarder i sensitive sektorer som helsevesen og jus, der feilinformasjon kan ha alvorlige konsekvenser. Da vil evnen til å avstå ikke være en bug, men en feature.