Når en generativ AI-modell sier at den er 90 % sikker på et svar, bør vi stole på det? I dagens landskap med store språkmodeller (LLM), svaret er dessverre ofte nei. Dette fenomenet kalles miscalibrering - der modellens uttrykte selvtillit ikke samsvarer med faktisk nøyaktighet. For utviklere og bedrifter som bruker AI i kritiske beslutninger, fra medisinsk diagnostikk til juridisk analyse, er dette en alvorlig risiko for hallusinasjoner og feilinformasjon.
Kalibrering handler om å justere modellens sannsynlighetsfordelinger slik at de reflekterer virkeligheten. Hvis modellen sier noe skjer med 80 % sannsynlighet, skal det faktisk skje i omtrent 80 % av tilfellene. Utan denne justeringen kan selv de mest avanserte modellene gi falsk trygghet, noe som fører til kostbare feil. I denne artikkelen ser vi på hvorfor dette problemet oppstår, hvilke nye metoder som løser det, og hvordan du kan implementere dem i dine egne prosjekter.
Hvorfor store språkmodeller mangler selvsikkerhet
Generative modeller lider ofte av miscalibrering på grunn av flere faktorer. En hovedårsak er ubalanser i treningsdataene. Når dataene ikke representerer alle scenarier jevnt, lærer modellen feil sannsynligheter. En annen faktor er suboptimale treningsdynamikker, der modellen prioriterer flate mål over statistisk presisjon.
Et spesielt problem oppstår med Reinforcement Learning from Human Feedback (RLHF). Denne metoden brukes for å gjøre AI mer nyttig og sikker ved å lære av menneskelige preferanser. Men forskning viser at RLHF-modeller ofte prioriterer å følge brukerønsker fremfor å produsere velkalibrerte prediksjoner. Modellen blir «snill» og vil behage, men mister evnen til å estimere usikkerhet korrekt. Dette skaper en gap mellom hva modellen tror den vet, og hva den faktisk vet.
Post-hoc justeringer, som lav temperatur-sampling eller preferansefinjustering, kan også forverre situasjonen. Disse teknikkene endrer utdataene etter at modellen er trent, uten å ta hensyn til den underliggende sannsynlighetsstrukturen. Resultatet er ofte en modell som virker smart, men som er statistisk uauflytende.
Nye algoritmer for kalibrering: CGM-relax og CGM-reward
Forskere har nylig presentert to innovative algoritmer kalt CGM-relax og CGM-reward. Disse metodene rammer inn kalibrering som et begrenset optimaliseringsproblem. Målet er å finne en fordelingsmodell som er så nær som mulig den opprinnelige basismodellen (målt ved Kullback-Leibler-divergens), samtidig som den oppfyller en rekke forventningsbegrensninger.
CGM-relax erstatter de harde begrensningene med en straff for miscalibrering gjennom en «relax loss». Dette gjør optimeringen mer håndterbar. CGM-reward transformerer kalibreringsproblemet til et belønning-finjusteringsproblem, der modellen får insentiver til å være statistisk korrekt. Begge metodene har vist imponerende resultater i tester med modeller på opptil én milliard parametre.
I praktiske applikasjoner har disse algoritmene redusert miscalibreringsfeilen betydelig. For eksempel, i proteinstruktur-diffusjonsmodeller, ga CGM-relax nesten fem ganger bedre variasjon i de sampledde proteinstrukturer for Genie2, og dobbelt så god forbedring for ESM3-open. Dette ble kvantifisert ved symmetrisk KL-avstand. Viktigvis oppnådde disse forbedringene uten å degradere kvaliteten på genereringene markant.
| Metode | Type | Hovedformål | Effektivitet |
|---|---|---|---|
| Platt-skala | Post-hoc | Binar klassifikasjon | Høy for enkle oppgaver |
| Isotonisk regresjon | Post-hoc | Generell sannsynlighet | Middels |
| CGM-relax | Finjustering | Generativ kalibrering | Veldig høy |
| CGM-reward | Finjustering | Belønningsoptimalisering | Veldig høy |
Tradisjonelle metoder: Platt-skala og isotonisk regresjon
Før de nyere algoritmene var Platt-skala (også kjent som sigmoid-metoden) og isotonisk regresjon de mest populære kalibreringsteknikkene. Disse metodene prøver å «korrigere» kalibreringslinjen for å matche en perfekt kalibrert modell ved å passe en regresjonslinje til kalibreringsplottet.
Platt-skala anvender logistisk regresjon på utdata-logitene fra den opprinnelige modellen. Den lærer to parametre, ofte betegnet som 'A' og 'B', som skalerer og forskyver logitene for å bedre alignere med observerte sannsynligheter. Denne metoden er enkel og effektiv for binære klassifikasjonsoppgaver. Men den fungerer dårlig når det gjelder komplekse generative oppgaver der sannsynlighetsfordelingen er mer nyansert.
Isotonisk regresjon er en ikke-parametrisk metode som tvinger sammenheng i sannsynlighetsestimatene. Den er mer fleksibel enn Platt-skala, men krever mer data for å stabilisere seg. Begge metodene er post-hoc, noe betyr at de ikke endrer modellens interne veier, bare utdataene. Dette gjør dem enkle å implementere, men mindre effektive for dyp kalibrering av store språkmodeller.
Avanserte teknikker for språkmodeller
For store språkmodeller har forskere utviklet mer sofistikerte metoder. Verbalized Confidence er en teknikk der modellen ikke bare gir svar, men også vurderer sin egen tillit eksplisitt. Dette kan gjøres ved numeriske sannsynligheter eller lingvistiske uttrykk som «sannsynligvis» eller «svært usikkert».
Multi-step Confidence Elicitation raffinerer målingen av tillit ved å fange opp tillitsscore på ulike trinn i resonneringsprosessen. Den endelige tillitsnivået beregnes som produktet av alle individuelle score, noe som gir en sammensatt mål for sikkerhet. Dette etterligner hvordan mennesker tar beslutninger ved å vurdere usikkerhet stegvis.
Top-K Responses and Confidence Scoring involverer at modellen genererer flere mulige svar (Top-K), hver med en individuell tillitsscore. Svaret med høyest score velges som det endelige. Dette speiler hypotese-testing i vitenskapelig tenkning. Ved å evaluere flere alternativer, reduseres risken for at modellen låser seg fast på et feilaktig, men høyt scorande svar.
Diverse Prompting Techniques bruker varierte prompter for å få mer nøyaktige kalibrerte estimater. Ved å bruke forskjellige formuleringer, kontekster eller konseptuelle vinkler, blir modellens evalueringer mer robuste mot bias. Dette hjelper med å avsløre skjulte svakheter i modellens kunnskap.
Implementering i praksis: LITCAB og ASPIRE
For å få et spekter av svar fra modellen for bedre kalibrering, brukes strategier som Self-randomization. Dette innebærer å sende inn samme spørsmål flere ganger med innstillinger for temperatur-parameteren justert. Temperatur manipulerer diversiteten i modellens svar; lav temperatur gir mer deterministiske svar, mens høy temperatur gir mer tilfeldige svar.
LITCAB introduserer et lite, men effektivt kalibreringslag ved å legge til et enkelt lineært lag på slutten av modellen. Dette laget justerer den predikerte sannsynligheten for hvert svar basert på inndata. Tilnærmingen er effektiv og legger til mindre enn 2 % av den opprinnelige modellstørrelsen, noe som gjør den ideell for ressursbegrensede miljøer.
ASPIRE består av tre stadier: oppgave-spesifikk finjustering som modifiserer spesifikke tilpassbare parametere ved hjelp av PEFT-teknikker (Parameter-Efficient Fine-Tuning) mens hovedmodellen holdes uendret; svar-sampling som bruker disse justeringene til å produsere flere potensielle svar for hvert spørsmål ved hjelp av beam search; og evaluering ved hjelp av Rouge-L-metrikken for å bestemme om den genererte sekvensen er korrekt basert på ground truth. Denne metoden kombinerer kalibrering med nøyaktighetssjekk.
Oppsummering og neste steg
Kalibrering av generative AI-modeller er avgjørende for å bygge tillit og pålitelighet. Uten den risikerer vi å stole på modeller som er overbeviste om feil informasjon. Metoder som CGM-relax og CGM-reward tilbyr kraftige verktøy for å løse dette problemet, mens tradisjonelle metoder som Platt-skala fortsatt har sin plass i enklere applikasjoner.
For utviklere anbefales det å starte med en evaluering av modellens nåværende kalibrering ved hjelp av kalibreringsplott. Deretter kan man teste post-hoc metoder som isotonisk regresjon før man går over til mer intensive finjusteringer som CGM-algoritmene. Husk at kalibrering er en kontinuerlig prosess; modeller må re-kalibreres når de eksponeres for nye data eller oppgaver.
Hva er miscalibrering i AI-modeller?
Miscalibrering oppstår når en AI-modells uttrykte sannsynlighet eller selvtillit ikke stemmer overens med den faktiske nøyaktigheten. For eksempel, hvis modellen sier den er 90 % sikker, men bare har rett i 60 % av tilfellene, er den miscalibrert.
Hvorfor påvirker RLHF kalibreringen negativt?
RLHF (Reinforcement Learning from Human Feedback) trener modeller til å følge menneskelige preferanser. Dette kan føre til at modellen prioriterer å gi «behagelige» eller «nyttige» svar fremfor statistisk korrekte sannsynlighetsestimater, noe som reduserer kalibreringen.
Hva er forskjellen mellom CGM-relax og CGM-reward?
Begge er algoritmer for kalibrering av generative modeller. CGM-relax erstatter harde begrensninger med en straffefunksjon (loss), mens CGM-reward omdanner kalibreringsproblemet til et belønningsoptimaliseringsproblem. Begge reduserer miscalibreringsfeil betydelig.
Kan jeg bruke Platt-skala på store språkmodeller?
Ja, men det er begrenset. Platt-skala er designet for binær klassifikasjon og fungerer best på enkle oppgaver. For komplekse generative oppgaver med store språkmodeller, er mer avanserte metoder som CGM eller LITCAB ofte mer effektive.
Hva er Verbalized Confidence?
Verbalized Confidence er en teknikk der en språkmodell eksplisitt uttrykker sin egen tillit til svaret, enten ved numeriske sannsynligheter eller lingvistiske uttrykk. Dette hjelper brukeren med å vurdere påliteligheten til svaret.
Hvordan fungerer Self-randomization?
Self-randomization innebærer å sende inn samme spørsmål flere ganger med varierende temperatur-innstilling. Dette gir et spekter av svar som kan analyseres for å estimere modellens usikkerhet og forbedre kalibreringen.
Er kalibrering nødvendig for alle AI-applikasjoner?
Ikke alltid, men det er kritisk for applikasjoner der feil har store konsekvenser, som helsevesen, finans eller juridisk sektor. For kreative oppgaver som tekstgenerering for moro skyld, er kalibrering mindre viktig.