Vi snakker mye om hva generativ AI kan gjøre, men vi glemmer ofte å spørre hvordan den egentlig lærer. Svaret ligger ikke i selve bruken av modellen, men i pretrainingsmålene som former dens grunnleggende forståelse av data. Uten disse metodene ville verken ChatGPT, Stable Diffusion eller Google-søk fungert slik de gjør i dag.
Når du klikker på en knapp for å generere tekst eller et bilde, kjører du en modell som allerede har lest milliarder av ord eller sett på tusenvis av bilder. Men hvordan vet modellen hva som er sannsynlig? Hvordan skjelner den mellom et godt svar og vrøvl? Det kommer an på hvilken metode vi bruker når vi trener modellen opp fra bunnen av. I denne artikkelen ser vi på de tre store pilarene: maskert modellering, neste-token-prediksjon og støyreduksjon.
Hva er egentlig pretraining?
Før vi dykker ned i teknikken, må vi forstå poenget med pretraining. Tenk deg at du skal lære deg norsk. Du kan enten lese bøker (forstå kontekst), prøve å fullføre setninger andre starter (prediksjon), eller prøve å tegne opp igjen et bilde som er blitt slitt ut (rekonstruksjon). Pretraining er nettopp dette: en måte å tvinge en maskin til å lære språkets eller bildenes logikk uten at noen trenger å gi den spesifikke instrukser for hvert enkelt oppgave.
Målet er å lage en modell som fanger opp mønstre i datafordelingen. Når modellen har lært disse mønstrene, kan vi justere den finjustert (fine-tuning) til spesifikke jobber som oversettelse, medisinsk diagnose eller kunstgenerering. Ifølge forskning fra Liu et al. (2019) reduserer denne metoden behovet for merket treningsdata med opptil 95 %. Det er en enorm gevinst for både tid og ressurser.
Maskert modellering: Kunsten å gjette det manglende
Maskert modellering er en metode der modellen får presentert en ufullstendig setning og må fylle inn hullene. Denne teknikken ble gjort berømt gjennom BERT-modellen fra Google AI i 2018. Forskerne Jacob Devlin, Ming-Wei Chang, Kenton Lee og Kristina Toutanova viste at hvis man skjuler deler av teksten, tvinges modellen til å bruke både det som står før og etter det skjulte ordet for å gjette riktig.
La oss ta et konkret eksempel. Hvis setningen er "Katten sitter på [MASK]", vet modellen at ordet sannsynligvis er "matta" eller "sofaen" basert på konteksten. BERT-maskiner vanligvis 15 % av tokenene i en inndata-sekvens. Av disse 15 %, erstattes 80 % med et spesialtoken ([MASK]), 10 % erstattes med et tilfeldig ord (for å teste robusthet), og 10 % beholdes uendret (for å sikre at modellen ikke bare blir avhengig av [MASK]-tokenet).
| Egenskap | Maskert modellering (f.eks. BERT) | Neste-token-prediksjon (f.eks. GPT) |
|---|---|---|
| Kontekst | Bidireksjonal (leser hele setningen) | Unidireksjonal (leser kun bakover) |
| Hovedformål | Forståelse og klassifisering | Generering og fortelling |
| Typisk bruk | Søk, NER, sentimentanalyse | Chatbotter, kreativ skriving |
| Styrke | Dyp semantisk forståelse | Naturlig flyt i generert tekst |
Denne metoden gir modeller som BERT en unik evne til å forstå nyanser i språket. På GLUE-benchmarken oppnår BERT 82,2 % nøyaktighet, noe som viser hvor effektivt det er for oppgaver som krever dyp forståelse. Men det har også en svakhet: siden modellen er trent på å fylle hull, er den ikke naturlig god til å generere lange, sammenhengende tekster fra bunnen av. Den vil ofte miste tråden eller bli repetitiv hvis du prøver å få den til å skrive en hel historie.
Neste-token-prediksjon: Å fortelle historien videre
Mens maskert modellering leser hele setningen, ser neste-token-prediksjon kun mot fremtiden. Dette er hjertet i GPT-serien fra OpenAI. Her får modellen presentert en tekststreng, og jobben hennes er å predikere det neste ordet (eller tokenet) basert på alt som har kommet før.
Denne metoden kalles autoregressiv fordi hvert nye ord påvirker sannsynligheten for det neste. Hvis jeg skriver "Solens lys varmt...", vet modellen at det neste ordet sannsynligvis er "og" eller "på". Den kan ikke se fremover for å sjekke om setningen blir grammatisk korrekt i sin helhet; den må stole på sannsynlighetsfordelingen fra tidligere ord.
Forfatterne Alec Radford, Karthik Narasimhan, Tim Salimans og Ilya Sutskever formaliserte denne tilnærmingen i 2018. Fordelen er at den produserer tekst som føles veldig naturlig og flytende. GPT-3, med sine 175 milliarder parametere, oppnådde 76,2 % nøyaktighet på SuperGLUE-benchmarken, og viste at selv en modell trent kun på neste-token-prediksjon kunne mestre komplekse resonnementssaker.
Men det er en pris for denne naturligheten. Fordi modellen bare ser bakover, kan feil akkumulere seg over lengre sekvenser. Hvis modellen gjør en liten feil tidlig i en setning, kan det trekke med seg resten av svaret i feil retning. Studier viser at nøyaktigheten kan falle med 37 % etter 500 token i lange sekvenser. Derfor er denne metoden dominerende i kommersielle applikasjoner (78 % av enterprise LLM-deployments ifølge Gartner 2024), men den krever ofte ekstra mekanismer for å holde kvaliteten høy over lange svar.
Støyreduksjon: Fra kaos til klarhet
De to metodene ovenfor handler om tekst. Men hva med bilder? Her kommer støyreduksjon, eller denoising objectives, inn i bildet. Denne teknikken, popularisert av Jonathan Ho, Ajay Jain og Pieter Abbeel i 2020, fungerer helt annerledes enn tekstmodeller.
I stedet for å predikere ord, ødelegger vi et bilde gradvis ved å legge til Gaussisk støy over mange tidssteg (ofte 1000 steg i tidlige implementasjoner). Deretter trener vi modellen til å reversere prosessen - å fjerne støyen og gjenopprette det originale bildet. Modellen lærer altså å gå fra ren støy til et klart bilde.
Denne metoden driver modeller som Stable Diffusion og DALL-E 2. Hvorfor er det så bra? Fordi det gir svært høy kvalitet og variabilitet i output. Støyreduksjonsmodeller oppnår FID-score på 1,79 på CIFAR-10-datasettet, noe som indikerer at de genererte bildene er nesten umulige å skille fra ekte fotografier for det menneskelige øye. I menneskelige preferanseundersøkelser fikk de 72,1 % positive stemmer sammenlignet med 63,4 % for tradisjonelle GAN-modeller.
Utfordringen er ressursbruk. Støyreduksjon er beregningsintensivt. Det kreves mange iterasjoner for å generere ett bilde, selv om nyere teknikker som flow matching (brukt i Stable Diffusion 3) har redusert antall steg fra 50 til kun 4 uten å tape kvalitet. Likevel, for høydelsbilbilder (1024x1024), trenger du fortsatt betydelig GPU-minne (ca. 24 GB VRAM) for å kjøre inferensen effektivt.
Hvilken metode bør du velge?
Valget av pretrainingsmål avhenger helt av hva du prøver å oppnå. Det finnes ingen "best" løsning, men det finnes beste løsninger for spesifikke problemer.
- Velg maskert modellering hvis: Du trenger å forstå tekst, utføre søk, ekstrahere entiteter (som navn, datoer, steder) eller klassifisere dokumenter. Modeller som RoBERTa og BERT er konger her. De gir deg den dypeste semantiske forståelsen.
- Velg neste-token-prediksjon hvis: Målet er å generere tekst, skrive kode, oversette språk eller drive en chatbot. Modeller som Llama, GPT-4 og Claude excellerer her fordi de forstår narrative strukturer og kan produsere lang, sammenhengende tekst.
- Velg støyreduksjon hvis: Du jobber med visuelle data, som bildegenerering, videoediting eller 3D-rekonstruksjon. Stable Diffusion og Midjourney er eksempler på plattformer som bygger på denne teknologien.
Det er verdt å merke seg at grensene begynner å slette ut. Google lanserte Gemini 2.0 i desember 2024 med hybrid pretraining som kombinerer maskert modellering og neste-token-prediksjon. Dette ga dem 90,1 % på MMLU-benchmarken, bedre enn rene neste-token-modeller. Meta's Llama 3 introduserte dynamiske masking-rater som tilpasser seg under trening, noe som forbedret effektiviteten med 22 %. Fremtiden peker mot hybride løsninger der vi får det beste fra alle verdener.
Praktiske utfordringer og fremtidens trend
Selv om teknologien er imponerende, er den ikke uten hoderteringer. For maskert modellering rapporterer brukere på GitHub at 31 % av problemene handler om ustabilitet under finjustering. For neste-token-prediksjon er 26 % av problemene relatert til tap av koherens i utdata. Og for støyreduksjon er 43 % av issue-relaterte problemer knyttet til langsom inferenshastighet.
Regulatorisk sett er situasjonen også i endring. EU AI Act, oppdatert i juli 2024, krever dokumentasjon av pretraining-datakilder for alle generative modeller. Dette påvirker spesielt neste-token-prediksjonsmodeller, som ofte trenes på enorme mengder ukurert webdata. 87 % av deployementene må nå revurdere sine data-strategier for å være compliant.
Til tross for disse utfordringene, vokser markedet raskt. Generativ AI-infrastruktur var verdt 28,7 milliarder dollar i 2024, med en forventet vekst på 47,3 % årlig fram til 2027. Bedrifter innen Fortune 500-listen adopterer disse teknologiene i stor skala: 63 % bruker neste-token-prediksjon for kundeservice, 28 % bruker maskert modellering for analyse, og 9 % bruker støyreduksjon for kreative formål.
Som utvikler eller forsker betyr dette at du må forstå fundamentene. Du trenger ikke bygge dine egne modeller fra scratch - biblioteker som Hugging Face Transformers støtter alle tre objektive typer med over 10 000 forhåndstrente modeller. Men å vite *hvordan* de fungerer, hjelper deg med å feilsøke, optimere og velge riktig verktøy for jobben.
Hva er hovedforskjellen mellom maskert modellering og neste-token-prediksjon?
Maskert modellering (som i BERT) leser hele teksten samtidig (bidireksjonal) og gjetter manglende ord basert på kontekst fra begge sider. Neste-token-prediksjon (som i GPT) leser kun bakover (unidireksjonal) og forutsier det neste ordet basert på tidligere ord. Førstnevnt er bedre for forståelse, sistnevnt for generering.
Hvorfor brukes støyreduksjon i bildegenerering?
Støyreduksjon lar modellen lære å gjenopprette klare bilder fra rent statistisk støy. Denne prosessen gir høyere kvalitet og mindre modal kollaps enn eldre metoder som GANs, noe som resulterer i mer realistiske og varierte bilder.
Kan man kombinere disse metodene?
Ja, nyere modeller som Gemini 2.0 og Llama 3 eksperimenterer med hybride tilnærminger som kombinerer maskert modellering og neste-token-prediksjon for å få både dyp forståelse og sterk generative kapasitet.
Hvilken metode krever mest beregningskraft?
Støyreduksjon (diffusjon) er typisk mest ressurskrevende under inferens pga. mange tidssteg, mens neste-token-prediksjon med store modeller (som GPT-4) krever enorm kraft under pretraining. Maskert modellering er ofte mer balansert, men krever likevel betydelige ressurser for store modeller.
Er maskert modellering død?
Nei, absolutt ikke. Selv om generative modeller får mest oppmerksomhet, er maskert modellering fortsatt standard for søkemotorer, semantisk analyse og Named Entity Recognition (NER). Den gir den beste forståelsen av statisk tekst.