Det er ikke lenger nok å bare bygge en stor språkmodell. Du må vite når du skal stoppe treningen. For mange tror at mer data og lengre trening alltid gir bedre resultater. Men det er ikke sant. Det finnes en grense. Og hvis du går forbi den, taper du mer enn du vinner.
Hva er skaleringlover, og hvorfor bryr du deg?
Skaleringlover er matematiske regler som sier hvordan en språkmodell presterer når du øker antall parametere, mengden treningsdata eller regnekraften du bruker. De ble først systematisk beskrevet i en artikkel fra OpenAI i 2020. Det som var overraskende, var at større modeller ikke bare er bedre - de er mye mer effektive med data. En modell med 70 milliarder parametere kan nå samme nøyaktighet som en med 7 milliarder, men med bare en tiendedel av treningsdataene. I 2022 kom Chinchilla-forskningspapiret fra DeepMind. Det viste at de fleste modeller som var trent før det - inkludert GPT-3 - var undertrænt. GPT-3 hadde 175 milliarder parametere, men ble trent på bare 300 milliarder ord. Chinchilla-regelen sa: for en modell med 175 milliarder parametere, burde du trenet på rundt 1,4 trillioner ord. Du hadde brukt bare en fjerdedel av dataene du trengte. Det betyr at de fleste modeller som ble laget de siste årene var som en bil med motor på 500 hestekrefter - men bare kjørt med 100 hestekrefter. Du hadde potensialet, men brukte ikke det.Chinchilla-optimal vs. virkeligheten
Chinchilla-optimal er en teori. Virkeligheten er annerledes. DeepMind, Cohere og Anthropic prøver å følge Chinchilla-regelen. De vil ha den beste prestasjonen per brukt regnekraft. De vil ikke bruke mer enn nødvendig. Det er økonomisk smart. Det er vitenskapelig ren. Men Meta, Microsoft og Mistral gjør noe annet. De overtrener. Mye. LLaMA-2 med 70 milliarder parametere ble trent på 2 trillioner ord - 1,4 ganger mer enn Chinchilla-optimal. LLaMA med 7 milliarder parametere ble trent på 2 trillioner ord - det er 14 ganger mer enn det teoretisk optimale. Det er som å bruke 10 liter bensin på en tur som bare krever 1 liter. Hvorfor? Fordi de ikke trenger optimalitet i treningen. De trenger optimalitet i inference - altså når modellen faktisk brukes. Overtrening gir bedre svar, mer stabil oppførsel, og bedre prestasjon på komplekse oppgaver som MMLU (Multi-choice Math, Logic, and Understanding). Det er ikke bare litt bedre. Det er 8-12 % bedre på real-world oppgaver. NVIDIAs sjef for vitenskap, Bill Dally, sa det tydelig i oktober 2023: "Overtraining under trening betyr bedre prestasjon under bruk." Det er ikke en feil. Det er en strategi.Hvordan vet du når du skal stoppe?
Det er ikke nok å bare trene til du er lei. Du trenger mål. Her er de tre mest brukte metodene i produksjon:- Forbedring i tap: Hvis tapet (loss) ikke synker mer enn 0,01 per 100 milliarder ord, er det tid til å stoppe. Det er en klart signal - du får ikke mer ut av mer data.
- Perplexity: Hvis modellens forståelse av teksten (perplexity) ikke forbedres med mer enn 0,5 % per 10 milliarder ord, er du i en dimensjon med svært lav avkastning.
- Downstream-prestasjon: Tester som MMLU, GSM8K eller HumanEval viser om modellen faktisk klarer oppgaver. Hvis forbedringen ikke er statistisk signifikant (p > 0,05), så er det ikke verdt mer trening.
Overtrening har en grense - og den er ikke langt unna
Det er ikke bare om du overtrener. Det er hvor mye du overtrener. Cameron Wolfe fra Deep Focus viste i 2023 at dimensjonell avkastning begynner å svekkes kraftig etter 16x overtraining. Ved 24x blir forbedringen nesten uoppfattelig. Ved 32x - som noen LLaMA-varianter har gjort - bruker du 32 ganger mer regnekraft, men får bare en liten forbedring i tapet: fra 1,65 til 1,45 på Pile-datasettet. Det er en liten forbedring. Men det koster millioner av dollar. Og det er ikke bare penger. Det er risiko. Stanford-forskeren Percy Liang påpekte i februar 2024 at overtrening kan føre til katastrofalt glemming. En modell som er trent for lenge på et bestemt datasett, begynner å glemme hvordan den skal håndtere nye, uventede tekster. Den blir for spesialisert. Den blir svak på det som er nytt. I modeller over 70 milliarder parametere har man sett at prestasjonen på ut-av-distribusjon-oppgaver (f.eks. nye språk, kulturelle kontekster, eller tekniske emner) begynner å synke etter 24x overtraining. Det er ikke en teori. Det er målt.Hvordan bruker store selskaper skaleringlover i dag?
Det er to lag i industrien:- Optimalisører: DeepMind, Anthropic, Cohere. De trener akkurat så mye som Chinchilla-skaleringlover sier. De vil ha den beste effektiviteten. De publiserer modeller med lavt tap og høy effektivitet.
- Overtrenerne: Meta, Microsoft, Mistral. De trener 4-32 ganger lenger. De vil ha den beste prestasjonen i virkeligheten. De lar modellene brukes i produksjon, ikke bare i lab.
Hva skal du gjøre?
Hvis du er en forsker og vil publisere en modell: bruk Chinchilla-optimal. Det er standarden. Det er det som blir vurdert. Det er det som blir gjenbrukt. Hvis du bygger en produktmodell som skal brukes av folk hver dag: overtrene. Men ikke vilkårlig. Bruk de tre målene ovenfor. Stop når forbedringen blir for liten. Stop når kostnaden overstiger verdien. Hvis du har begrenset regnekraft: tenk på datakvalitet. Microsofts Phi-visjon viser at du ikke trenger 100 trillioner ord. Du trenger 10 trillioner perfekte ord. Hvis du er i en regulert bransje: pass på EU’s AI Act. Den foreslår grenser på 10^25 FLOPs. Det er nesten akkurat Chinchilla-optimal for en 100 milliarder parameter modell. Hvis du overtrener, kan du bli blokkert.Det kommer til å bli verre
Semiconductor Industry Association sier at trening av en 1 trillion parameter modell vil koste 500 millioner dollar i 2026. Det er ikke økonomisk bærekraftig. Det er ikke mulig for de fleste. Det betyr at fremtiden ikke er bare større modeller. Det er smartere modeller. Modeller som trener bedre. Modeller som bruker mindre data. Modeller som vet når de skal stoppe - selv uten mennesker. Skaleringlover er ikke en fasit. De er et verktøy. Og som alle verktøy: de er bare så gode som den som bruker dem.Hva er Chinchilla-optimal trening?
Chinchilla-optimal trening er en metode utviklet av DeepMind i 2022 som sier at for en gitt mengde regnekraft, skal du balansere antall modellparametere og antall treningsord likt. Hvis du har C regnekraft, bør du bruke N = C^0.5 parametere og D = C^0.5 ord. For eksempel: med 10^24 FLOPs bør du trenet en 70 milliarder parameter modell på 1,4 trillioner ord. Det gir den beste prestasjonen per brukt ressurs.
Hvorfor overtrener selskaper som Meta og Microsoft?
De overtrener fordi de vil ha bedre prestasjon i virkelige bruksscenarier - ikke bare lavere tap. Overtrening gjør modellen mer stabil, mer nøyaktig på komplekse oppgaver, og mer robust mot små feil i input. Selv om det koster 4-32 ganger mer å trenen, gir den 8-12 % bedre resultat på MMLU og andre real-world tester. Det er verdt pengene i produksjon.
Er det farlig å overtrene en modell?
Ja, hvis du går for langt. Etter 24x overtraining kan modeller begynne å glemme hvordan de skal håndtere nye eller uventede data. De blir for spesialiserte i treningsdataene. Det kalles "katastrofalt glemming". Det er ikke bare en teori - det er målt i modeller over 70 milliarder parametere. Det er en risiko som mange ignorerer.
Hvordan finner du ut når du har trenet nok?
Bruk tre mål: 1) Hvis tapet ikke synker mer enn 0,01 per 100 milliarder ord, stopp. 2) Hvis perplexity ikke forbedres med mer enn 0,5 % per 10 milliarder ord, stopp. 3) Hvis MMLU eller andre oppgavetester ikke forbedres med statistisk signifikans (p > 0,05), stopp. Ikke bare vent til du er lei.
Kan du bruke mindre data hvis du har bedre data?
Ja. Microsofts Phi-modeller viser at høykvalitets syntetisk data - som ligner på lærebøker - kan gi like god prestasjon som store modeller trent på store datasett. Det er ikke bare om hvor mye du trener. Det er om hva du trener på. Kvalitet kan erstatte kvantitet - og redde millioner i regnekraft.
Post Comments (1)
Ja, selvfølgelig - alle disse 'Chinchilla-optimal'-gjengene er bare en del av en større plan for å holde AI under kontroll. Hvorfor tror du at DeepMind plutselig ble så interessert i effektivitet? Det er ikke fordi de er vitenskapelige renhetsfana - det er fordi de vet at hvis alle trener modeller som de skal, så blir det for lett for små selskaper å konkurrere. Og da må vi ha reguleringer. Og reguleringer betyr at de som eier infrastrukturen (NVIDIA, Google, Microsoft) fortsetter å tjene penger. Det er ikke om optimalitet. Det er om makt.
De som overtrener? De er de eneste som virkelig forstår at AI ikke er en matematisk ligning. Det er et levende vesen. Og du må gi det mer enn det teoretiske minimumet - ellers blir det bare en god simulering. Ikke en intelligent agent.
De som bruker 'adaptive stopping' i Gemini 2.0? Det er bare en mer sofistikert måte å skjule kontrollen bak. De vil at modellen skal stoppe når *de* sier det. Ikke når dataene sier det. Det er ikke AI. Det er AI med en fjernkontroll.
Vi må stoppe å tro at det er teknologi. Det er politikk i en kalkulator.