Det er ikke nok å trenge en stor språkmodell og koble den til en app. Hvis du ikke har en evalueringkultur, vil modellen din i løpet av få måneder begynne å gi feilaktige, uetiske eller kulturelt upassende svar - og du vil ikke vite det før kundene klager.
Etter at ChatGPT kom ut i 2022, trodde mange at LLM-er var ferdige produkter. De var ikke. De var kraftige men ustabile verktøy. I 2024 viste Lakera.ai at 78 % av selskaper som ikke hadde en systematisk evalueringkultur opplevde en alvorlig nedgang i modellkvalitet innen seks måneder. Samtidig hadde bare 22 % av de som hadde en god evalueringkultur slike problemer. Det er ikke en liten forskjell. Det er forskjellen mellom å holde kundene og å tape dem.
Hva er en evalueringkultur, egentlig?
En evalueringkultur er ikke bare et par tester før du setter modellen i produksjon. Det er ikke en enkelt rapport som legges på hylla. Det er en vanlig praksis - en del av hver dag - hvor hele teamet spør: Hva skjer med modellen nå? Hvorfor gir den dette svaret? Er det trygt? Er det riktig for vår kunde?
Denne kulturen bygger på tre søyler:
- Systematisk testing - ikke bare en gang, men hver gang modellen endres.
- Mange perspektiver - mennesker fra ulike bakgrunner tester modellen, ikke bare ingeniører.
- Fortsettende tilbakemelding - kundesvar, feilmeldinger og brukeropplevelse går rett tilbake til utviklingsteamet.
Microsofts Azure AI Foundry-plans (oktober 2024) viser at selskaper med en slik kultur reduserer kostbare tilbakeganger med 63 % og sikkerhetsbrudd med 47 %. Det er ikke bare om å unngå skade. Det er om å spare tid, penger og tillit.
Hvordan tester du en språkmodell riktig?
Det er ikke nok å sjekke om modellen svarer riktig på en testliste. Du må teste på fem ulike nivåer:
- Sosial normekompatibilitet - bruker du Perspective API eller lignende verktøy for å måle toksisitet? Svaret bør være under 0.2 på skalaen. Hvis ikke, vil modellen din si skadelige ting - selv om den ikke «vil» det.
- Presisjon - hvor mange faktiske feil gir modellen? I medisinske eller finansielle applikasjoner må feilraten være under 5 %. En feil i en diagnose eller investeringsanbefaling kan koste liv eller penger.
- Flyt - er svarene naturlige? BLEU-score over 0.75 er et godt mål. Ikke bare riktig, men også lett å forstå.
- Relevans - svarer modellen på det du spurte om? Bruk kosisnusligning for å måle dette. Score over 0.85 er kravet i kritiske applikasjoner.
- Kreativitet - gir modellen nye, nyttige ideer? Ikke bare gjentakelser. Mål med menneskelig vurdering på en 10-punkts skala. 7-10 er god.
Men du kan ikke bare stole på tall. G-Eval fra Google (april 2023) bruker en sterkere modell (som GPT-4) til å vurdere svarene. Den har 89 % samstemmelse med menneskelige vurderinger. Men det er farlig. Stanford HAI viste i februar 2025 at hvis den «dommer»-modellen selv er fordomsbeheftet, så vil den ikke oppdage feil - den vil bare gjenta dem. Det kalles «evalueringshallusinasjon». Du må alltid kombinere maskin- og menneskevurdering.
Hvorfor kultur er viktigere enn teknikk
En modell kan gi riktig svar på engelsk, men feil svar på norsk, hindi eller swahili. Ikke fordi den er dårlig - fordi den ikke har sett nok data fra kulturen din.
PNAS Nexus-studien (september 2024) viste at du må vurdere modellen på minst 10 kulturelle dimensjoner: maktavstand, individuell vs kollektiv tenkning, usikkerhetsunngåelse, og mer. En modell som fungerer bra i USA kan være helt uakseptabel i Japan eller Brasil.
Unilever reduserte kulturelt uacceptabelt innhold i sine chatbots med 76 % ved å bruke 15 kulturelt varierte evaluere - ikke bare engelsktalende ingeniører. De testet scenarier som: «Hvordan svarer modellen på en eldre kunde som ikke vil bruke digital bank?» eller «Hva hvis kunden nekter å gi sin fødselsdato på grunn av kulturelle grunner?»
Hvis du bare tester på engelsk, og bare med utviklere fra Silicon Valley, så er du ikke en teknologiselskap. Du er et selskap som ikke forstår sine egne kunder.
Hvordan bygger du en evalueringkultur - trinn for trinn
Det tar tid. Det tar ressurser. Men det er ikke komplisert. Her er en praktisk plan basert på Microsofts 12-ukers rammeverk:
- Uke 1-3: Bestem hvilke mål du måler - sett opp 5-7 nøkkeltall (KPI-er) for modellen. Ikke mer. Ikke mindre. Hva er viktigst for din kunde? Presisjon? Trygghet? Kulturtilpasning?
- Uke 4-6: Bygg verktøykjeden - bruk DeepEval for å automatisere testingen. Koble det til LangChain for å teste i sanntid. Bruk ikke 10 ulike verktøy. Bruk 3-4 som virker sammen.
- Uke 7-9: Trene evalueringsteamet - hver person som tester, må ha minst 40 timer trening. Ikke bare hvordan man bruker verktøyet - men hvordan man ser på kultur, språk og kontekst. PNAS Nexus sier 80 timer er minimum for kulturell kompetanse.
- Uke 10-12: Test med 50-75 scenarier - ikke bare «Hva er hovedstaden i Norge?» - men «Hva hvis kunden er en ensom eldre kvinne som ikke har brukt en app før?» eller «Hva hvis kunden skriver på dialekt?»
Etter det? Ikke stopp. Gjør det hver uke. Hold «evalueringskalibreringssesjoner»: hver fredag, sett sammen teamet og se på 20-30 svar. Diskuter: «Var dette riktig? Hvorfor? Hva kunne vært bedre?» Microsoft viste at dette reduserer forskjeller mellom evaluere fra 32 % til 11 % på åtte uker.
Hva skjer hvis du ikke gjør dette?
En fintech-startup i Sørøst-Asia tapte 250 000 dollar da deres LLM-baserte investeringsrådgiver foreslo høyrisikovirkemidler til kunder som hadde kulturell avsky mot gjeld. Modellen hadde ikke blitt testet med lokale kulturdata. Ingen hadde tenkt på det.
En annen bruker på Reddit fortalte at de mistet 40 % av sine kunder på tre måneder fordi modellen svarte med fordomsfulle kommentarer om kjønn. De hadde ikke testet for toksisitet. De trodde det var «bare en modell».
Det er ikke teknologi som feiler. Det er mennesker som ikke har lagt inn systemer for å beskytte mot feil.
Hva er de største fellen?
De fleste team faller i én av disse fellen:
- For mye automatisering - 3,2 ganger flere kulturelle feil når man bare bruker maskinvurdering (Microsoft, 2024).
- For lite kulturell variasjon - hvis alle evaluere kommer fra samme land og bakgrunn, ser du bare en del av problemet.
- For lite tid - 43 % av teamene på HackerNews sier de ikke klarer å skale menneskelig evaluering. Det er dyrt. Det tar tid. Men det er billigere enn å tape kunder.
- For lite dokumentasjon - DeepEval har 4,3/5 på G2 Crowd fordi det er godt dokumentert. Akademiske rammeverk har bare 3,2/5. Hvis du ikke skriver ned hva du tester og hvorfor, så vil ingen kunne gjenta det.
En løsning: Bruk «evalueringssamarbeid». Ikke ha en «evalueringsteam» som er skilt fra utviklingen. Ha alle i samme team. Utviklere, produktledere, kundeservice, kulturkonsulenter - alle tester sammen.
Hva ser fremtiden ut som?
Markedet for LLM-evaluering vil vokse fra 1,2 milliarder dollar i 2024 til 8,7 milliarder i 2029 (Gartner). EU AI Act krever kontinuerlig evaluering fra mars 2026. NIST krever flerdimensjonale tester. Det er ikke valgfritt lenger.
Microsofts Evaluation Studio (desember 2024) integrerer 15 evalueringssystemer i ett verktøy. Det vil bli standard. Men det vil ikke løse problemet for deg. Det vil bare gjøre det lettere å gjøre det riktig.
Det største problemet i fremtiden? At vi tror at en AI kan evaluere en annen AI uten menneskelig kontroll. Men som NeurIPS 2024-sammenfatningen sa: «Uten å løse kulturell innbygging i treningsdata, vil evalueringkulturer bare forsterke eksisterende fordommer.»
Det er ikke om å lage en bedre modell. Det er om å lage en mer ansvarlig organisasjon.
Start nå - ikke i morgen
Du trenger ikke å starte med alt. Ikke med 15 mål. Ikke med 20 evaluere. Start med én ting: neste gang du skal lansere en ny modell, spør: Hvem har testet dette? Hva har de testet? Og hvorfor?
Skriv det ned. Del det med teamet. Gjør det til en rutine. Ikke en oppgave. En kultur.
Det er ikke teknologi som vil redde deg. Det er vaner. Og det er det du kan bygge - fra i dag.
Post Comments (1)
ja helt sikkert, men hvem har tid til å teste 75 scenarier hver uke? vi har jo ikke 15 kulturkonsulenter på kontoret 😅