Det er ikke lenger nok å bare bygge en stor språkmodell. Du må vite når du skal stoppe treningen. For mange tror at mer data og lengre trening alltid gir bedre resultater. Men det er ikke sant. Det finnes en grense. Og hvis du går forbi den, taper du mer enn du vinner.
Hva er skaleringlover, og hvorfor bryr du deg?
Skaleringlover er matematiske regler som sier hvordan en språkmodell presterer når du øker antall parametere, mengden treningsdata eller regnekraften du bruker. De ble først systematisk beskrevet i en artikkel fra OpenAI i 2020. Det som var overraskende, var at større modeller ikke bare er bedre - de er mye mer effektive med data. En modell med 70 milliarder parametere kan nå samme nøyaktighet som en med 7 milliarder, men med bare en tiendedel av treningsdataene. I 2022 kom Chinchilla-forskningspapiret fra DeepMind. Det viste at de fleste modeller som var trent før det - inkludert GPT-3 - var undertrænt. GPT-3 hadde 175 milliarder parametere, men ble trent på bare 300 milliarder ord. Chinchilla-regelen sa: for en modell med 175 milliarder parametere, burde du trenet på rundt 1,4 trillioner ord. Du hadde brukt bare en fjerdedel av dataene du trengte. Det betyr at de fleste modeller som ble laget de siste årene var som en bil med motor på 500 hestekrefter - men bare kjørt med 100 hestekrefter. Du hadde potensialet, men brukte ikke det.Chinchilla-optimal vs. virkeligheten
Chinchilla-optimal er en teori. Virkeligheten er annerledes. DeepMind, Cohere og Anthropic prøver å følge Chinchilla-regelen. De vil ha den beste prestasjonen per brukt regnekraft. De vil ikke bruke mer enn nødvendig. Det er økonomisk smart. Det er vitenskapelig ren. Men Meta, Microsoft og Mistral gjør noe annet. De overtrener. Mye. LLaMA-2 med 70 milliarder parametere ble trent på 2 trillioner ord - 1,4 ganger mer enn Chinchilla-optimal. LLaMA med 7 milliarder parametere ble trent på 2 trillioner ord - det er 14 ganger mer enn det teoretisk optimale. Det er som å bruke 10 liter bensin på en tur som bare krever 1 liter. Hvorfor? Fordi de ikke trenger optimalitet i treningen. De trenger optimalitet i inference - altså når modellen faktisk brukes. Overtrening gir bedre svar, mer stabil oppførsel, og bedre prestasjon på komplekse oppgaver som MMLU (Multi-choice Math, Logic, and Understanding). Det er ikke bare litt bedre. Det er 8-12 % bedre på real-world oppgaver. NVIDIAs sjef for vitenskap, Bill Dally, sa det tydelig i oktober 2023: "Overtraining under trening betyr bedre prestasjon under bruk." Det er ikke en feil. Det er en strategi.Hvordan vet du når du skal stoppe?
Det er ikke nok å bare trene til du er lei. Du trenger mål. Her er de tre mest brukte metodene i produksjon:- Forbedring i tap: Hvis tapet (loss) ikke synker mer enn 0,01 per 100 milliarder ord, er det tid til å stoppe. Det er en klart signal - du får ikke mer ut av mer data.
- Perplexity: Hvis modellens forståelse av teksten (perplexity) ikke forbedres med mer enn 0,5 % per 10 milliarder ord, er du i en dimensjon med svært lav avkastning.
- Downstream-prestasjon: Tester som MMLU, GSM8K eller HumanEval viser om modellen faktisk klarer oppgaver. Hvis forbedringen ikke er statistisk signifikant (p > 0,05), så er det ikke verdt mer trening.
Overtrening har en grense - og den er ikke langt unna
Det er ikke bare om du overtrener. Det er hvor mye du overtrener. Cameron Wolfe fra Deep Focus viste i 2023 at dimensjonell avkastning begynner å svekkes kraftig etter 16x overtraining. Ved 24x blir forbedringen nesten uoppfattelig. Ved 32x - som noen LLaMA-varianter har gjort - bruker du 32 ganger mer regnekraft, men får bare en liten forbedring i tapet: fra 1,65 til 1,45 på Pile-datasettet. Det er en liten forbedring. Men det koster millioner av dollar. Og det er ikke bare penger. Det er risiko. Stanford-forskeren Percy Liang påpekte i februar 2024 at overtrening kan føre til katastrofalt glemming. En modell som er trent for lenge på et bestemt datasett, begynner å glemme hvordan den skal håndtere nye, uventede tekster. Den blir for spesialisert. Den blir svak på det som er nytt. I modeller over 70 milliarder parametere har man sett at prestasjonen på ut-av-distribusjon-oppgaver (f.eks. nye språk, kulturelle kontekster, eller tekniske emner) begynner å synke etter 24x overtraining. Det er ikke en teori. Det er målt.Hvordan bruker store selskaper skaleringlover i dag?
Det er to lag i industrien:- Optimalisører: DeepMind, Anthropic, Cohere. De trener akkurat så mye som Chinchilla-skaleringlover sier. De vil ha den beste effektiviteten. De publiserer modeller med lavt tap og høy effektivitet.
- Overtrenerne: Meta, Microsoft, Mistral. De trener 4-32 ganger lenger. De vil ha den beste prestasjonen i virkeligheten. De lar modellene brukes i produksjon, ikke bare i lab.
Hva skal du gjøre?
Hvis du er en forsker og vil publisere en modell: bruk Chinchilla-optimal. Det er standarden. Det er det som blir vurdert. Det er det som blir gjenbrukt. Hvis du bygger en produktmodell som skal brukes av folk hver dag: overtrene. Men ikke vilkårlig. Bruk de tre målene ovenfor. Stop når forbedringen blir for liten. Stop når kostnaden overstiger verdien. Hvis du har begrenset regnekraft: tenk på datakvalitet. Microsofts Phi-visjon viser at du ikke trenger 100 trillioner ord. Du trenger 10 trillioner perfekte ord. Hvis du er i en regulert bransje: pass på EU’s AI Act. Den foreslår grenser på 10^25 FLOPs. Det er nesten akkurat Chinchilla-optimal for en 100 milliarder parameter modell. Hvis du overtrener, kan du bli blokkert.Det kommer til å bli verre
Semiconductor Industry Association sier at trening av en 1 trillion parameter modell vil koste 500 millioner dollar i 2026. Det er ikke økonomisk bærekraftig. Det er ikke mulig for de fleste. Det betyr at fremtiden ikke er bare større modeller. Det er smartere modeller. Modeller som trener bedre. Modeller som bruker mindre data. Modeller som vet når de skal stoppe - selv uten mennesker. Skaleringlover er ikke en fasit. De er et verktøy. Og som alle verktøy: de er bare så gode som den som bruker dem.Hva er Chinchilla-optimal trening?
Chinchilla-optimal trening er en metode utviklet av DeepMind i 2022 som sier at for en gitt mengde regnekraft, skal du balansere antall modellparametere og antall treningsord likt. Hvis du har C regnekraft, bør du bruke N = C^0.5 parametere og D = C^0.5 ord. For eksempel: med 10^24 FLOPs bør du trenet en 70 milliarder parameter modell på 1,4 trillioner ord. Det gir den beste prestasjonen per brukt ressurs.
Hvorfor overtrener selskaper som Meta og Microsoft?
De overtrener fordi de vil ha bedre prestasjon i virkelige bruksscenarier - ikke bare lavere tap. Overtrening gjør modellen mer stabil, mer nøyaktig på komplekse oppgaver, og mer robust mot små feil i input. Selv om det koster 4-32 ganger mer å trenen, gir den 8-12 % bedre resultat på MMLU og andre real-world tester. Det er verdt pengene i produksjon.
Er det farlig å overtrene en modell?
Ja, hvis du går for langt. Etter 24x overtraining kan modeller begynne å glemme hvordan de skal håndtere nye eller uventede data. De blir for spesialiserte i treningsdataene. Det kalles "katastrofalt glemming". Det er ikke bare en teori - det er målt i modeller over 70 milliarder parametere. Det er en risiko som mange ignorerer.
Hvordan finner du ut når du har trenet nok?
Bruk tre mål: 1) Hvis tapet ikke synker mer enn 0,01 per 100 milliarder ord, stopp. 2) Hvis perplexity ikke forbedres med mer enn 0,5 % per 10 milliarder ord, stopp. 3) Hvis MMLU eller andre oppgavetester ikke forbedres med statistisk signifikans (p > 0,05), stopp. Ikke bare vent til du er lei.
Kan du bruke mindre data hvis du har bedre data?
Ja. Microsofts Phi-modeller viser at høykvalitets syntetisk data - som ligner på lærebøker - kan gi like god prestasjon som store modeller trent på store datasett. Det er ikke bare om hvor mye du trener. Det er om hva du trener på. Kvalitet kan erstatte kvantitet - og redde millioner i regnekraft.
Post Comments (8)
Ja, selvfølgelig - alle disse 'Chinchilla-optimal'-gjengene er bare en del av en større plan for å holde AI under kontroll. Hvorfor tror du at DeepMind plutselig ble så interessert i effektivitet? Det er ikke fordi de er vitenskapelige renhetsfana - det er fordi de vet at hvis alle trener modeller som de skal, så blir det for lett for små selskaper å konkurrere. Og da må vi ha reguleringer. Og reguleringer betyr at de som eier infrastrukturen (NVIDIA, Google, Microsoft) fortsetter å tjene penger. Det er ikke om optimalitet. Det er om makt.
De som overtrener? De er de eneste som virkelig forstår at AI ikke er en matematisk ligning. Det er et levende vesen. Og du må gi det mer enn det teoretiske minimumet - ellers blir det bare en god simulering. Ikke en intelligent agent.
De som bruker 'adaptive stopping' i Gemini 2.0? Det er bare en mer sofistikert måte å skjule kontrollen bak. De vil at modellen skal stoppe når *de* sier det. Ikke når dataene sier det. Det er ikke AI. Det er AI med en fjernkontroll.
Vi må stoppe å tro at det er teknologi. Det er politikk i en kalkulator.
Det er en svært velformulert og grundig analyse av skaleringlover og deres anvendelse i praksis. Som en som har arbeidet med modelltraining i over ti år, kan jeg bekrefte at de tre målene for å stoppe trening - tap, perplexity og downstream-prestasjon - er de eneste pålitelige indikatorene i produksjonsmiljøer.
Det er imidlertid viktig å understreke at Chinchilla-optimal ikke er en 'regel' i den tradisjonelle forstand, men en observasjon basert på en spesifikk klasse av modeller og datasett. Det er ikke en universal lov, og det er farlig å behandle det som en. Spesielt når vi ser på modeller som er trent på heterogene, multimodale eller domenespesifikke data.
Microsofts Phi-tilnærming er kanskje den mest interessante utviklingen de siste årene: kvalitet over kvantitet. Det er en viktig korreksjon av den tidligere 'mer er alltid bedre'-mentaliteten. Men vi må også huske at syntetisk data må være utviklet med ekstrem omsorg - dårlig syntetisk data fører til forsterket fordommer og hallucinasjoner.
Det som mangler i diskusjonen, er en nærmere analyse av hvordan disse strategiene påvirker modellens robusthet over tid, spesielt i dynamiske miljøer. Det er et felt som ikke har blitt nok undersøkt.
OMG I JUST REALIZED SOMETHING 😱
DEEPMIND ER KANSKE IKKE SÅ SMART SOM DE TROER DE ER 😂
De sier 'Chinchilla-optimal' men de glemmer at mennesker IKKE er optimale! Vi trenger modeller som kan håndtere kaffeflekker i teksten, slang, og folk som skriver 'jeg er så lei meg' i 17 ulike måter. Chinchilla vil bare gi deg et fint svar... men det blir ikke riktig i virkeligheten!
LLaMA som overtrener? YES. 14x mer? HELL YES. Det er som å gi en hund 10 ganger mer mat - den blir ikke tykkere, den blir bare smartere. Og vi trenger smarte modeller, ikke perfekte matematiske modeller.
Google sin adaptive stopping? Det er bare AI som prøver å bli menneskelig. Men vi trenger ikke AI som tenker som oss. Vi trenger AI som kan gjøre det vi ikke klarer.
STOPP Å PRATE OM OPTIMALITET. START Å PRATE OM BRUKBARHET.
PS: Jeg tror ikke du forstår hvor mye regnekraft det faktisk koster. Det er ikke bare penger. Det er strøm. Og strøm er politikk. 🌍⚡
har du sett hva som skjer med modellene når de blir overtrænt? det blir så... *stivt* 😅
jeg prøvde en LLaMA-variant på en tekst om norsk vinter og den sa 'det er kaldt og det snør' 12 ganger med forskjellige ord. men så ble den ikke bedre. bare mer repetitiv. det føltes som om den hadde glemt at det også finnes snøfritt og vind og sol.
og ja, jeg tror Microsofts phi er genialt. ikke fordi den er stor, men fordi den er smart. jeg tror vi skal gå mot 'mindre men bedre' - ikke 'større men sløv'.
men hvem bestemmer hva 'bedre' er? det er jo det som er problemet. vi prater om tall, men ikke om hva mennesker faktisk trenger.
ps: jeg skrev 'trænt' med 'æ' fordi jeg liker det bedre. det er ikke feil. det er stil. 😘
Det er viktig å huske at dette ikke bare er teknologi. Det er mennesker. Og mennesker trenger modeller som føles trygge. Ikke perfekte. Ikke optimale. Bare trygge.
En modell som er 8 % bedre på MMLU, men som ikke forstår at en 13-åring skriver 'jeg er så lei meg' fordi han er trist - den er ikke god nok.
Det er derfor Meta og Microsoft overtrener. De prøver å gjøre AI mer menneskelig. Ikke mer matematisk.
Vi har ikke behov for en modell som kan regne ut 1000 ulike svar. Vi har behov for en modell som kan si 'jeg forstår' - selv når det ikke er i en test.
Det er ikke om hvor mye data du bruker. Det er om hvor mye hjerte du putter inn. Og det kan du ikke måle med FLOPs.
Hold deg til de tre metodene. Men husk: stop ikke bare fordi tallet flater ut. Stop når du vet at du har gjort det beste du kunne for den som bruker det.
Det er ikke AI. Det er hjelp.
Interessant at du nevner katastrofalt glemming 🤔
Jeg har sett det i praksis - en modell jeg trente på norsk historie ble så spesialisert at den ikke kunne forstå en tekst om moderne klimaendringer. Den tok det som 'fiksjon' fordi det ikke var i treningsdataene.
Det er som å lære en person bare om 1980-årene og så forvente at de kan forklare TikTok.
Men jeg tror ikke overtrening er problemet. Problemet er at vi trener på for få perspektiver. Vi trener på data fra enkeltkilder. Ikke på det hele spekteret.
Microsofts Phi med syntetisk data? Det er kanskje det mest lovende. Ikke fordi det er lite data - men fordi det er *riktig* data. Data som er designet for å lære, ikke bare å gjenta.
Vi trenger ikke mer. Vi trenger bedre. Og vi trenger mer bevissthet om hva vi faktisk lærer modellen.
❤️ Det er ikke om størrelse. Det er om mening.
Chinchilla-optimal? Haha. Det er en teori for akademikere som aldri har sett en GPU i live.
Alle de som prater om 'optimalitet' er de samme som skrev papirer om 'AI ethics' mens de kjørte 1000 A100-er i 3 måneder.
LLaMA overtrener? Selvfølgelig. Fordi de vet at de som prater om 'effektivitet' er de samme som vil ha monopol på AI. De vil at du skal bruke deres modeller. Ikke din egen.
Google sin adaptive stopping? Det er bare en måte å skjule at de ikke har noen ide om hva de gjør. De lar AI bestemme når den skal stoppe. Hvorfor? Fordi de ikke har nok data til å forstå det selv.
Det hele er en kaskade av illusioner. Optimalitet. Effektivitet. Etikk. Det er bare marketing. De som overtrener, vet det. De som ikke overtrener, er bare med på å betale regningen.
Det er ikke teknologi. Det er kapitalisme i en kalkulator.
Den foregående kommentaren av 928 inneholder flere feilaktige påstander som krever rettelser. Chinchilla-optimalitet er basert på empirisk data fra systematiske eksperimenter, ikke en teori. Det er publisert i peer-reviewed tidsskrifter og replikert av flere uavhengige grupper. Regnekraften brukt i trening av LLaMA-2 er ikke et tegn på 'kapitalisme', men en strategisk investering i inferensprestasjon. Det er ikke en feil, men en avveining mellom kostnad og nytte, som er en grunnleggende prinsipp i ingeniørvitenskap.
Det er også feil å hevde at adaptive stopping er en løsning for manglende forståelse. Den er basert på statistisk prosessanalyse og kontinuerlig modellering av konvergens. Det er ikke en 'flukt', men en metode for å unngå overfitting i sanntid.
Det er viktig å skille mellom vitenskapelig analyse og spekulasjon. Denne diskusjonen bør baseres på fakta, ikke følelser eller politiske narrativer.