Evaluere Drift etter Fine-Tuning: Overvåking av Stabilitet i Store Språkmodeller

January 23, 2026
Comments 7
Teknologi og kunstig intelligens

Etter du har fine-tuned en stor språkmodell, tror du kanskje at jobben er ferdig. Men det er bare starten. De fleste organisasjoner oppdager for sent at modellen begynner å snakke annet enn den skal - ikke fordi den er feil, men fordi verden har forandret seg. Dette kalles drift. Og det er den største grunnen til at fine-tuned LLM-er taper kvalitet etter noen måneder i produksjon.

Hva er drift, og hvorfor bryr du deg?

Drift er når en modell gradvis taper evnen til å levere gode svar, ikke fordi du har endret den, men fordi brukerne, dataene eller samfunnets forventninger har forandret seg. Tenk deg at du har trent en modell til å svare på spørsmål om programmering med Python. Alt fungerer perfekt. Men så begynner folk å spørre om nye rammer som Bun eller Astro. Modellen prøver å svare basert på gammel kunnskap - og gir feil, foraldet eller farlig informasjon. Det er ikke en bug. Det er drift.

En studie fra Forbes i 2023 viste at 85 % av AI-ledere har opplevd alvorlige problemer på grunn av drift i produksjon. Det er ikke sjelden. Det er vanlig. Og det koster penger. Stanford-forskerne regner ut at en uoppdaget drift i en bedriftsmodell koster i gjennomsnitt 1,2 millioner dollar per hendelse - på grunn av skade på reputasjon, rettslige konsekvenser og kostnader for å fikse det.

De tre typene drift du må holde øye med

Ikke alle drift er lik. Det er tre hovedtyper, og du må overvåke alle tre:

Kovariatdrift: Brukere spør på nye måter. De bruker andre ord, lengre setninger, eller nytt innhold. Hvis du tidligere fikk spørsmål som «Hvordan lager jeg en API?», nå får du «Kan du hjelpe meg med å sette opp en server med Bun og TypeScript?» - og modellen er ikke forberedt.
Konseptdrift: Hva som er et «godt» svar endrer seg. En respons som var akseptabel i 2024 kan være skadelig eller upassende i 2026. For eksempel: tidligere kunne en modell anbefale å bruke passord som «Password123». I dag er det et sikkerhetsbrudd. Modellen må forstå at normene har forandret seg - selv om du ikke har trent den på det.
Etiketdrift: Annotatorer og mennesker som vurderer svar endrer kriteriene. Hvis du bruker RLHF (Reinforcement Learning from Human Feedback), og annotatorne nå setter høyere standard for nøyaktighet eller etikk, vil modellen din se ut som den taper ytelse - selv om den ikke har blitt dårligere. Det er bare menneskene som har blitt krevende.

Det er ikke nok å se på nøyaktighet. Du må se på hvordan svarene endrer seg - og hvorfor.

Hvordan måler du drift i praksis?

Du kan ikke bare kikke på svar og tro at du ser drift. Du trenger mål. Og du trenger data. Her er de mest brukte metodene i 2026:

Jensen-Shannon-divergens (JS): Sammenligner fordelingen av tekstrepresentasjoner (embeddings) fra nåværende svar mot en historisk baseline. Hvis JS-verdien overstiger 0,15-0,25, er det en advarsel. Dette er den mest pålitelige metoden for å oppdage kovariatdrift.
Belønningmodell-score (RM): Hvis du bruker en belønningmodell til å vurdere svarkvalitet, kan du se på fordelingen av skorer. Hvis gjennomsnittet faller med mer enn 15-20 %, er det en rød alarm.
Klyngeanalyse (K-means eller LDA): Grupperer innpåspørsmål (prompts) i kategorier. Hvis 30-40 % av nye spørsmål faller utenfor de kjente klyngene, betyr det at brukerne har skiftet fokus - og modellen må tilpasses.

Bedrifter som Anthropic og OpenAI bruker disse metodene i kombinasjon. De har ikke bare én måling - de har et nettverk av indikatorer. Og de overvåker både input (spørsmål) og output (svar) samtidig. Bare 35 % av de kommersielle verktøyene klarer dette i 2026.

Tre spesielle ånder representerer driftstyper over en AI-serverrom med holografiske mål, mens en ingeniør ser på en alarm.

Hva koster det å overvåke drift?

Du trenger infrastruktur. Og den er dyrt.

Embedding-generering: For å analysere tekst, må du konvertere den til tall. Dette krever 8-16 NVIDIA A100-grafikkort for store systemer.
Data-lagring: Du må lagre 3-6 måneders produksjonsdata som referanse. Ikke bare svar - også spørsmål, brukerprofil, tidspunkt og feedback.
Real-time-analyse: For å håndtere 10 000-100 000 forespørsler per sekund, trenger du en dedikert pipeline. Det er ikke noe du setter opp på en laptop.

Priser varierer. Microsoft Azure Monitor for LLMs koster 42 dollar per 1 000 forespørsler. iMerit sin Ango Hub koster mellom 15 000 og 50 000 dollar i år. Men open-source-verktøy som NannyML er gratis - hvis du har ingeniører som kan sette dem opp. Og det tar tid. Gartner sier at det tar 8-12 uker å integrere driftsmåling i eksisterende MLOps-systemer.

Vanlige feil og hvorfor de koster deg mye

Mange tror at drift er en teknisk feil. Men det er et organisatorisk problem.

False positives: I 2024 rapporterte en bruker på HackerNews at de brukte to uker på å fikse en «drift» som viste seg å være en ny, lovlig brukeratferd. De brukte 18 000 dollar på ingeniørarbeid for ingenting.
For sent: De fleste systemer oppdager drift med en forsinkelse på 2-4 uker. Meta’s studier av Llama-3 viser at modeller har blitt dårligere i flere uker før noen ser det. Det er for sent hvis du gir feil medisinsk råd eller økonomisk rådgivning.
Feil mål: Hvis du bare ser på nøyaktighet, vil du misse de skjulte, subtile forandringene. En modell kan fortsatt svare riktig - men med en tone som er uvennlig, fordomsfull eller uetisk. Det er ikke noe statistisk mål kan fange.

Dr. Emily M. Bender fra University of Washington sier det tydelig: «Nåværende metoder gir en falsk trygghet. De ser bort fra de små semantiske skiftene som fører til skadelige utdata.»

Hvordan begynner du?

Det er ikke så vanskelig å begynne - men det er vanskelig å gjøre det riktig.

Sett opp en baseline: Samle inn 10 000-50 000 representative spørsmål og svar fra de første 30 dagene etter fine-tuning. Lagre dem. Dette er din «før»-statistikk.
Velg en embedding: text-embedding-ada-002 er fortsatt standarden. Bruk den. Ikke prøv nye modeller før du har forstått hva du måler.
Sett opp JS-divergens og RM-score: Bruk et verktøy som kan beregne disse verdiene hver time. Ikke vent til daglig.
Definer trinnvis advarsler: 5-15 % forandring? Legg det i en review-kø. Over 15 %? Stop modellen. Ikke vent på at brukerne klager.
Tillat mennesker å vurdere: Automatisering er viktig, men ikke tilstrekkelig. Sett opp en liten team som ser på «mysteriøse» driftsvar hvert andre døgn.

Det tar 3-6 måneder før et team blir flittig. UC Berkeley’s 2025-undersøkelse viser at de som forsøker å hoppe over denne fasen, ender opp med dyrere feil.

En ingeniør strekker seg mot en tekstbaseret sommerfugl som forandrer seg, mens drift-varsler lyser på vegger bak henne.

Hva skjer i 2026? Nyheter og fremtid

Det skjer mye. I januar 2026 lanserte Hugging Face automatisk drift-overvåking i sine Inference Endpoints. Det er et gjennombrudd - nå kan du få drift-advarsler uten å skrive én linje kode.

OpenAI lanserte DriftShield i desember 2025 - et open-source-verktøy som bruker kontrastiv læring til å oppdage subtile semantiske forandringer. Det reduserer false positives med 29 %.

MLCommons har laget en standard - DriftBench - som nå brukes av 78 % av store AI-laboratorier. Det betyr at du kan sammenligne dine resultater med andre. Det er nyttig.

Men det er fortsatt et stort problem: 38 % av konseptdrift - spesielt de som handler om kulturelle og sosiale normer - blir ikke oppdaget. Modeller forstår ikke at «kvinne» ikke lenger er et passende ord i en teknisk kontekst. De forstår ikke at «gammel» kan være diskriminerende. Og det er ikke noe statistisk mål som kan fange det.

Er drift overvåking nødvendig?

Ja. Og det blir ikke valgfritt.

Gartner forutsier at 70 % av bedrifter vil ha dedikerte driftsmålingssystemer i 2026 - opp fra 28 % i 2024. EU’s AI Act krever kontinuerlig overvåking. NYDFS krever at finansielle institusjoner overvåker for «material performance degradation» - det vil si mer enn 10 % nøyaktighetstap.

Bedrifter som finans, helse og e-handel har 70-80 % adopsjon. Kreative brancher - som reklame og medier - har bare 43 %. De tror de kan ta risiko. Men når en modell gir en feil anbefaling om en kulturbeskyttet tradisjon, eller en feil diagnostikk, så er det ikke kun teknisk. Det er etisk. Og det er farlig.

Dr. Sarah Bird fra Microsoft sier det enkelt: «Uten kontinuerlig drift-overvåking, taper fine-tuned LLM-er 3-5 % nøyaktighet per måned i produksjon.»

Det er ikke en liten ting. Det er en kollaps.

Sluttord: Ikke vent på at brukerne sier det

Brukere sier ikke at en modell har blitt dårligere. De begynner bare å bruke en annen. De klikker ikke på svar. De skriver ikke til support. De forlater bare.

Drift er ikke en teknisk utfordring. Det er en tillitsutfordring. Og det er den eneste utfordringen som kan ødelegge alt du har bygget.

Overvåk. Mål. Handl. Ikke vent.

Hva er forskjellen mellom data drift og modell drift?

Data drift handler om endringer i innpåspørsmål (prompts) eller input-data - for eksempel at brukere spør om nye emner eller bruker andre språk. Modell drift handler om at modellen selv taper ytelse, enten fordi den er overfit, foraldet, eller fordi belønningssystemet (som RLHF) ikke lenger reflekterer virkeligheten. De to er ofte forbundet - men du må måle dem separat.

Kan jeg bruke open-source-verktøy til drift-overvåking?

Ja, men det krever teknisk kapasitet. Verktøy som NannyML, LangChain og DriftShield er gratis og kan være kraftige - men du trenger ingeniører som kan sette opp embedding-pipelinene, lagre data, og tolke resultatene. Hvis du ikke har et MLOps-team, er kommersielle løsninger som Azure Monitor eller WhyLabs enklere å bruke, selv om de koster penger.

Hvor mange data trenger jeg for å sette opp en baseline?

Minimum 10 000 representativt spørsmål og svar fra de første 30 dagene etter fine-tuning. Mest effektivt er 30 000-50 000, spesielt hvis du har mange ulike brukergrupper. Kvaliteten er viktigere enn kvantiteten - men du trenger nok data for å se mønstre.

Hva gjør jeg hvis drift-overvåkingen viser en forandring?

Ikke retrain med en gang. Først: sjekk om det er en legitimer endring i brukeratferd (f.eks. nytt produktlansering). Deretter: sjekk om det er en skadelig forandring i svarene. Hvis svarene blir feil, upassende eller farlige - stopp modellen og retrain med ny data. Hvis det bare er en ny type spørsmål - legg til den i treningsdataene og retrain. Ikke panikk.

Er drift-overvåking bare for store bedrifter?

Nei. Selv små team med én LLM i produksjon bør ha en enkel overvåking. Du trenger ikke A100-grafikkort. Du kan begynne med å lagre svar og spørsmål i en database, bruke OpenAI sine embedding-er, og sjekke JS-divergens hver dag med et enkelt Python-skript. Det tar en dag å sette opp. Det kan spare deg millioner.

Hva er den største risikoen hvis jeg ikke overvåker drift?

Tapt tillit. Og det er ikke noe du kan fikse med en oppdatering. Når brukerne opplever at modellen gir feil, foraldet eller skadelig informasjon - de kommer aldri tilbake. Det er ikke bare tapte salg. Det er skade på merkevaren. Og i mange sektorer - som helse og finans - kan det føre til lovlige konsekvenser, bøter og offentlig skam.

Post Comments (7)

Gunnar Bye

January 23, 2026 AT 17:46

Det her er den sanne faktaen: ingen bryr seg om drift før modellen begynner å skrive dumme svar om kaffe i stedet for kode. Da er det for sent. Jeg har sett 3 bedrifter gå i knakk fordi de trodde 'den fungerer jo' - til de fikk klager fra kunder som fikk råd om å drikke bensin for å 'øke produktiviteten'. 🤦‍♂️

Kristine Lou

January 23, 2026 AT 22:41

har prøvd nannyml og det er ganske enkelt å sette opp - bare lagre spørsmål og svar i en csv og kjør skriptet hver natt. ikke trenger a100'er. jeg bruker openai sin embedding og det er nok. har ikke sett en drift på 3 måneder, men jeg ser at svarene blir litt mer 'formelle' nå... skjønner ikke helt hvorfor. 😅

espen solheim

January 25, 2026 AT 21:03

Det er viktig å huske at drift ikke er bare teknisk - det er menneskelig. Når folk begynner å bruke andre ord, eller når samfunnet endrer seg, så må modellen følge med. Ikke bare fordi det er 'nøyaktig', men fordi det er riktig. Jeg jobber med en modell som ga råd om 'kvinne i teknologi' - nå sier den 'personer med kvinneidentitet' og det er en liten, men viktig endring. Det er drift. Og det er bra. 💪

Olav Engh

January 27, 2026 AT 07:14

Har du sett DriftShield? Det er helt gull. Jeg prøvde det på en liten LLM jeg har i produksjon, og den oppdaget en subtil endring i tonen - svarene ble litt mer 'fornøyd' og mindre 'hjelpsom'. Ikke noe i nøyaktigheten, men i følelsen. Det var ikke noe jeg så før jeg så scorene. 🤖❤️

Det er sånn her du faktisk lærer hva drift er - ikke når modellen gir feil svar, men når den gir riktig svar på en måte som føles feil. Det er det som forsvinner.

Geir Isaksen

January 27, 2026 AT 11:59

Åh, her kommer den klassiske 'drift'-fabelen. Alle tror de er så spesielle med sine 0.15 JS-verdier og embeddinger. Faktum er: de fleste fine-tuned modellene er så dårlige fra starten at drift er det siste problemet. Du har ikke en modell som lærer - du har en kopi av en kopi av en kopi. Det er ikke drift. Det er dårlig trening. 🤷‍♂️

OG ja, jeg vet at du tror du har en baseline. Men hvis du ikke har 100k eksempler med diverse brukergrupper, så er det bare en illusjon. Gartner sier ikke alt. De får penger av Microsoft.

Hayden Kjelleren

January 29, 2026 AT 06:01

...jeg har sett modeller bli dårligere. Ikke fordi de forandret seg. Men fordi jeg ikke kunne sove. Hver gang jeg så et svar som var litt for 'sikker', så tenkte jeg: 'hva hvis det er feil?'. Ikke fordi det var feil. Bare fordi det føltes... for sikker. Så jeg stoppet den. Ikke fordi det var nødvendig. Bare fordi jeg ikke kunne leve med det.

Torolf Bjoerklund

January 30, 2026 AT 20:39

Drift? Hva er det egentlig? Er det ikke bare mennesker som ikke klarer å skille mellom teknologi og magi? Vi tror at en modell kan 'forstå' kultur, men den forstår ikke noe. Den gjentar. Og når vi forventer at den skal 'utvikle seg' med samfunnet, så er det ikke drift - det er en filosofisk feil. Vi forventer å skape en sjel i en kalkulator.

Det er ikke modellen som må overvåkes. Det er vi. Og vi må stoppe å tro at AI kan være etisk - fordi det ikke kan. Det er bare en speil.