Har du noen gang lurt på hvorfor det koster milliarder av kroner å trene en ny generasjon store språkmodeller er avanserte AI-systemer som lærer språk og logikk fra enorme datamengder? Svaret ligger ikke i magi, men i matematikk. Nøyaktigere sagt, i noe forskere kaller skaleringslover. Disse lovene fungerer som et kart for ingeniører. De forteller oss nøyaktig hvor mye bedre en modell blir når vi øker antall parametere, mengden treningsdata eller mengden beregningskraft (compute). For deg som bygger, finjusterer eller kjøper inn AI-løsninger, er dette kunnskapen som skiller en vellykket prosjektplan fra en økonomisk katastrofe.
I de siste fem årene har forståelsen av disse lovene endret seg dramatisk. Fra tidlig optimisme om at «større er alltid bedre», til innsikten om at balanse mellom data og modellstørrelse er alt avgjørende. Denne artikkelen tar deg gjennom hva skaleringslover egentlig er, hvordan de har utviklet seg siden 2020, og hvilke konkrete steg du må ta for å unngå å spilde ressurser på ineffektiv trening.
Hva er skaleringslover egentlig?
La oss starte med grunnleggende. En skaleringslov er en empirisk sammenheng - ofte beskrevet som en potenslov - som viser hvordan feilen (loss) i en modell synker når vi øker størrelsen på modellen, mengden data eller beregningsressursene. Tenk på det som fysikkloven tyngdekraften: hvis du slipper en stein, vet du nøyaktig hvor raskt den faller. På samme måte vet AI-ingeniører nå omtrent hvor mye smartere en modell blir per ekstra dollar brukt på GPU-er.
De fire hovedvariablene her er:
- N (Model Size): Antall parametere i nettverket.
- D (Dataset Size): Antall token (ordstykker) modellen leser under trening.
- C (Compute): Totalt antall flyttallsoperasjoner (FLOPs) brukt under trening.
- L (Loss): Målet på hvor feil modellens forutsigelser er (ofte kryntropi).
Den opprinnelige banebrytende studien kom fra OpenAI i 2020. Jared Kaplan og kollegaene deres viste at tapet (L) følger en predikterbar kurve når man øker N, D eller C. Formelen ser ut omtrent slik: L(N) = L∞ + A·N^(-α). Det betyr at selv om du dobler modellstørrelsen, får du ikke dobbelt så god ytelse, men en forutsigbar, gradvis forbedring. Dette ga industrien tryggheten til å investere i modeller med hundre milliarder parametere, fordi de visste at kurven ville holde seg stabil.
Fra GPT-3 til Chinchilla: Paradigmeskiftet
Inntil 2022 trodde mange at nøkkelen til suksess var å bygge gigantiske modeller med relativt lite data. GPT-3 var det perfekte eksempelet: 175 milliarder parametere trent på ca. 300 milliarder token. Men i mars 2022 publiserte DeepMind en studie som vendte opp ned på dette. Den ble kjent som «Chinchilla-paperet».
Jordan Hoffmann og teamet hans viste at mange av de store modellene på markedet var trent på en suboptimal måte. De hadde for få data i forhold til sin egen størrelse. Chinchilla-modellen, som var bare 70 milliarder parametere (mindre enn GPT-3), overgikk GPT-3 på flere tester fordi den var trent på nesten syv ganger så mye data.
Den nye regelen, ofte kalt Chinchilla-loven er en retningslinje for optimal fordeling av beregningskraft mellom modellstørrelse og treningsdata, sier at for hver gang du øker beregningskraften (C), bør du øke både modellstørrelsen (N) og datamengden (D) proporsjonalt. Spesielt anbefales det en balanse der du trener på omtrent 20 token per parameter. Hvis du planlegger en 10-gangs økning i beregningskraft, bør du øke både modell og datasett med omtrent 3,1 ganger, ikke bare den ene.
| Strategi | Fokus | Data per parameter | Resultat ved fast compute |
|---|---|---|---|
| Kaplan (2020) | Større modeller | Lav (~1.7x) | God, men ikke optimal |
| Chinchilla (2022) | Balanse | Høy (~20x) | Optimal ytelse pr. dollar |
Hvorfor kvaliteten på data vinner frem
Å øke mengden data er bra, men bare hvis dataene er gode. En studie fra ACL 2025, tittet «Revisiting Scaling Laws for Language Models: The Role of Data», avslørte et fenomen de kalte «sub-skalerting». Når dataene blir for tette eller repetitive - tenk millioner av kopierte Wikipedia-artikler eller lavkvalitets webscraping - begynner forbedringen å avta raskere enn skaleringslovene forutsier.
Det betyr at det ikke lenger holder å bare «snu dataskruen». Hvis du legger til mer søppel-data, vil modellen din lære mindre nyttig informasjon per token. Forskerne fant at mangfold og kvalitet i datasettet kan gi større gevinst enn å doble modellstørrelsen. For praksis betyr dette at deduplikering av data og kuratering av høykvalitetskilder (som kode, vitenskapelige artikler eller strukturert tekst) er like viktig som selve beregningskraften.
Praktisk veiledning: Hvordan bruke skaleringslover i 2026
Som praktiker trenger du ikke være teoretiker for å dra nytte av denne kunnskapen. Her er en sjekkliste basert på nyeste forskning fra MIT og andre ledende laboratorier:
- Fastsett budsjett først: Bestem hvor mye beregningskraft (GPU-timer) du har tilgjengelig før du velger modellarkitektur.
- Tren en trapp av små modeller: Ikke gjett. Trene minst 5 ulike versjoner av modellen din med ulik størrelse på ditt spesifikke datasett. Bruk disse resultatene til å fitte en skaleringskurve.
- Ignorer starten av treningen: Tidlige faser av treningen (før ca. 10 milliarder token for store modeller) er støyete og gir dårlige estimater. Ekskluder disse punktene når du beregner forventet ytelse.
- Forvent avtagende avkastning: Skaleringslover er potenslover. Det første ti-doblingen av kraften gir enorm gevinst. Den neste ti-doblingen gir mindre relativ gevinst. Vær realistisk med målsettingene dine.
- Test inferens-beregning (TTC): Du kan også «scale» under bruk. Ved å øke test-time compute - for eksempel ved å la modellen tenke lenger (Chain-of-Thought) eller generere flere svaralternativer - kan du forbedre nøyaktigheten uten å trene om modellen.
MIT-forskere rapporterte i 2025 at hvis du følger disse metodene, kan du forutsi ytelsen til en stor modell med en absolutt relativ feil (ARE) på så lite som 4 %. Det er nesten så nøyaktig som mulig gitt tilfeldigheter i algoritmer. Selv en feilmargin på 20 % er nyttig for å velge mellom to arkitekturalternativer.
Inférens og fremtidens utfordringer
Tradisjonelle skaleringslover fokuserer på treningsfasen. Men i produksjon handler det om inferens. Nyere forskning viser at test-time compute (TTC) er mengden beregningsressurser brukt når modellen genererer svar, ikke under lærefasen også følger skaleringslover. Hvis du lar en modell bruke mer tid på å resonere, bruke lengre kontekstvinduer eller kjøre ensemble-metoder, synker feilen.
Utfordringen er kostnad. Hver ekstra sekond tenketid koster penger og bruker tid for sluttkunden. Som praktiker må du finne «sweet spot»-en der økt TTC gir akseptabel ytelsesøkning innenfor dine latenskrav. Dette krever empirisk testing for hver enkelt oppgave, da eksponentene varierer sterkt mellom f.eks. oversettelse og matematisk problemløsning.
Videre påvirker nye arkitekturer, som Mixture-of-Experts (MoE) og retrieval-augmented generation (RAG), de klassiske lovverket. MoE-modeller aktiverer bare deler av nettverket per token, noe som endrer effektiviteten. RAG legger til ekstern kunnskap, noe som reduserer behovet for å memorere fakta i selve parameterne. Derfor bør du aldri stole blindt på historiske skaleringslover fra 2020. De er gode rettesnore, men du må alltid validere dem mot din egen teknologi og dine egne data.
Hva er Chinchilla-loven kort fortalt?
Chinchilla-loven er en retningslinje som sier at for optimal ytelse per beregningsenhet, bør man øke modellstørrelsen og mengden treningsdata proporsjonalt. Spesifikt anbefales det å trene på omtrent 20 token per parameter.
Kan jeg bruke skaleringslover fra OpenAI til min egen modell?
Du kan bruke dem som grove estimater, men det er risikabelt. Skaleringslovene er spesifikke for arkitektur, datatype og treningsmetode. For nøyaktige prediksjoner bør du trene små pilotmodeller på ditt eget datasett for å finne dine egne eksponenter.
Hva mener man med «sub-skalerting»?
Sub-skalerting refererer til situasjoner der ytelsesforbedringen avtar raskere enn forutsagt av standard skaleringslover. Dette skjer ofte når datakvaliteten er lav, dataene er repetitive, eller når modellen når en grense for hva den kan lære fra den gitte datafordelingen.
Hvorfor er datakvalitet viktigere enn kvantitet i dag?
Fordi store mengder lavkvalitetsdata (som duplikater eller støy fra nettet) gir liten ny informasjon per token. Forskning fra 2025 viser at mangfold og renhet i dataene driver ytelsen mer effektivt enn bare å legge til mer rådata, spesielt når modeller blir svært store.
Hvordan påvirker Test-Time Compute (TTC) ytelsen?
Ved å øke beregningskraften under inferens (f.eks. ved å la modellen generere flere svar eller bruke lengre tenketid), kan man redusere feilen ytterligere. Dette følger også skaleringslover, men må balanseres mot kostnad og hastighet for brukeren.