Pretrainingsmål i generativ AI: Maskert modellering, neste-token-prediksjon og støyreduksjon

May 17, 2026
Comments 9
Teknologi og kunstig intelligens

Vi snakker mye om hva generativ AI kan gjøre, men vi glemmer ofte å spørre hvordan den egentlig lærer. Svaret ligger ikke i selve bruken av modellen, men i pretrainingsmålene som former dens grunnleggende forståelse av data. Uten disse metodene ville verken ChatGPT, Stable Diffusion eller Google-søk fungert slik de gjør i dag.

Når du klikker på en knapp for å generere tekst eller et bilde, kjører du en modell som allerede har lest milliarder av ord eller sett på tusenvis av bilder. Men hvordan vet modellen hva som er sannsynlig? Hvordan skjelner den mellom et godt svar og vrøvl? Det kommer an på hvilken metode vi bruker når vi trener modellen opp fra bunnen av. I denne artikkelen ser vi på de tre store pilarene: maskert modellering, neste-token-prediksjon og støyreduksjon.

Hva er egentlig pretraining?

Før vi dykker ned i teknikken, må vi forstå poenget med pretraining. Tenk deg at du skal lære deg norsk. Du kan enten lese bøker (forstå kontekst), prøve å fullføre setninger andre starter (prediksjon), eller prøve å tegne opp igjen et bilde som er blitt slitt ut (rekonstruksjon). Pretraining er nettopp dette: en måte å tvinge en maskin til å lære språkets eller bildenes logikk uten at noen trenger å gi den spesifikke instrukser for hvert enkelt oppgave.

Målet er å lage en modell som fanger opp mønstre i datafordelingen. Når modellen har lært disse mønstrene, kan vi justere den finjustert (fine-tuning) til spesifikke jobber som oversettelse, medisinsk diagnose eller kunstgenerering. Ifølge forskning fra Liu et al. (2019) reduserer denne metoden behovet for merket treningsdata med opptil 95 %. Det er en enorm gevinst for både tid og ressurser.

Maskert modellering: Kunsten å gjette det manglende

Maskert modellering er en metode der modellen får presentert en ufullstendig setning og må fylle inn hullene. Denne teknikken ble gjort berømt gjennom BERT-modellen fra Google AI i 2018. Forskerne Jacob Devlin, Ming-Wei Chang, Kenton Lee og Kristina Toutanova viste at hvis man skjuler deler av teksten, tvinges modellen til å bruke både det som står før og etter det skjulte ordet for å gjette riktig.

La oss ta et konkret eksempel. Hvis setningen er "Katten sitter på [MASK]", vet modellen at ordet sannsynligvis er "matta" eller "sofaen" basert på konteksten. BERT-maskiner vanligvis 15 % av tokenene i en inndata-sekvens. Av disse 15 %, erstattes 80 % med et spesialtoken ([MASK]), 10 % erstattes med et tilfeldig ord (for å teste robusthet), og 10 % beholdes uendret (for å sikre at modellen ikke bare blir avhengig av [MASK]-tokenet).

Sammennigning av maskert modellering vs. neste-token-prediksjon
Egenskap	Maskert modellering (f.eks. BERT)	Neste-token-prediksjon (f.eks. GPT)
Kontekst	Bidireksjonal (leser hele setningen)	Unidireksjonal (leser kun bakover)
Hovedformål	Forståelse og klassifisering	Generering og fortelling
Typisk bruk	Søk, NER, sentimentanalyse	Chatbotter, kreativ skriving
Styrke	Dyp semantisk forståelse	Naturlig flyt i generert tekst

Denne metoden gir modeller som BERT en unik evne til å forstå nyanser i språket. På GLUE-benchmarken oppnår BERT 82,2 % nøyaktighet, noe som viser hvor effektivt det er for oppgaver som krever dyp forståelse. Men det har også en svakhet: siden modellen er trent på å fylle hull, er den ikke naturlig god til å generere lange, sammenhengende tekster fra bunnen av. Den vil ofte miste tråden eller bli repetitiv hvis du prøver å få den til å skrive en hel historie.

Manga-figur som forutsier neste ord basert på strømmen av data bak seg

Neste-token-prediksjon: Å fortelle historien videre

Mens maskert modellering leser hele setningen, ser neste-token-prediksjon kun mot fremtiden. Dette er hjertet i GPT-serien fra OpenAI. Her får modellen presentert en tekststreng, og jobben hennes er å predikere det neste ordet (eller tokenet) basert på alt som har kommet før.

Denne metoden kalles autoregressiv fordi hvert nye ord påvirker sannsynligheten for det neste. Hvis jeg skriver "Solens lys varmt...", vet modellen at det neste ordet sannsynligvis er "og" eller "på". Den kan ikke se fremover for å sjekke om setningen blir grammatisk korrekt i sin helhet; den må stole på sannsynlighetsfordelingen fra tidligere ord.

Forfatterne Alec Radford, Karthik Narasimhan, Tim Salimans og Ilya Sutskever formaliserte denne tilnærmingen i 2018. Fordelen er at den produserer tekst som føles veldig naturlig og flytende. GPT-3, med sine 175 milliarder parametere, oppnådde 76,2 % nøyaktighet på SuperGLUE-benchmarken, og viste at selv en modell trent kun på neste-token-prediksjon kunne mestre komplekse resonnementssaker.

Men det er en pris for denne naturligheten. Fordi modellen bare ser bakover, kan feil akkumulere seg over lengre sekvenser. Hvis modellen gjør en liten feil tidlig i en setning, kan det trekke med seg resten av svaret i feil retning. Studier viser at nøyaktigheten kan falle med 37 % etter 500 token i lange sekvenser. Derfor er denne metoden dominerende i kommersielle applikasjoner (78 % av enterprise LLM-deployments ifølge Gartner 2024), men den krever ofte ekstra mekanismer for å holde kvaliteten høy over lange svar.

Støyreduksjon: Fra kaos til klarhet

De to metodene ovenfor handler om tekst. Men hva med bilder? Her kommer støyreduksjon, eller denoising objectives, inn i bildet. Denne teknikken, popularisert av Jonathan Ho, Ajay Jain og Pieter Abbeel i 2020, fungerer helt annerledes enn tekstmodeller.

I stedet for å predikere ord, ødelegger vi et bilde gradvis ved å legge til Gaussisk støy over mange tidssteg (ofte 1000 steg i tidlige implementasjoner). Deretter trener vi modellen til å reversere prosessen - å fjerne støyen og gjenopprette det originale bildet. Modellen lærer altså å gå fra ren støy til et klart bilde.

Denne metoden driver modeller som Stable Diffusion og DALL-E 2. Hvorfor er det så bra? Fordi det gir svært høy kvalitet og variabilitet i output. Støyreduksjonsmodeller oppnår FID-score på 1,79 på CIFAR-10-datasettet, noe som indikerer at de genererte bildene er nesten umulige å skille fra ekte fotografier for det menneskelige øye. I menneskelige preferanseundersøkelser fikk de 72,1 % positive stemmer sammenlignet med 63,4 % for tradisjonelle GAN-modeller.

Utfordringen er ressursbruk. Støyreduksjon er beregningsintensivt. Det kreves mange iterasjoner for å generere ett bilde, selv om nyere teknikker som flow matching (brukt i Stable Diffusion 3) har redusert antall steg fra 50 til kun 4 uten å tape kvalitet. Likevel, for høydelsbilbilder (1024x1024), trenger du fortsatt betydelig GPU-minne (ca. 24 GB VRAM) for å kjøre inferensen effektivt.

Kunstnerisk visning av støyreduksjon der klarhet oppstår fra statisk støy

Hvilken metode bør du velge?

Valget av pretrainingsmål avhenger helt av hva du prøver å oppnå. Det finnes ingen "best" løsning, men det finnes beste løsninger for spesifikke problemer.

Velg maskert modellering hvis: Du trenger å forstå tekst, utføre søk, ekstrahere entiteter (som navn, datoer, steder) eller klassifisere dokumenter. Modeller som RoBERTa og BERT er konger her. De gir deg den dypeste semantiske forståelsen.
Velg neste-token-prediksjon hvis: Målet er å generere tekst, skrive kode, oversette språk eller drive en chatbot. Modeller som Llama, GPT-4 og Claude excellerer her fordi de forstår narrative strukturer og kan produsere lang, sammenhengende tekst.
Velg støyreduksjon hvis: Du jobber med visuelle data, som bildegenerering, videoediting eller 3D-rekonstruksjon. Stable Diffusion og Midjourney er eksempler på plattformer som bygger på denne teknologien.

Det er verdt å merke seg at grensene begynner å slette ut. Google lanserte Gemini 2.0 i desember 2024 med hybrid pretraining som kombinerer maskert modellering og neste-token-prediksjon. Dette ga dem 90,1 % på MMLU-benchmarken, bedre enn rene neste-token-modeller. Meta's Llama 3 introduserte dynamiske masking-rater som tilpasser seg under trening, noe som forbedret effektiviteten med 22 %. Fremtiden peker mot hybride løsninger der vi får det beste fra alle verdener.

Praktiske utfordringer og fremtidens trend

Selv om teknologien er imponerende, er den ikke uten hoderteringer. For maskert modellering rapporterer brukere på GitHub at 31 % av problemene handler om ustabilitet under finjustering. For neste-token-prediksjon er 26 % av problemene relatert til tap av koherens i utdata. Og for støyreduksjon er 43 % av issue-relaterte problemer knyttet til langsom inferenshastighet.

Regulatorisk sett er situasjonen også i endring. EU AI Act, oppdatert i juli 2024, krever dokumentasjon av pretraining-datakilder for alle generative modeller. Dette påvirker spesielt neste-token-prediksjonsmodeller, som ofte trenes på enorme mengder ukurert webdata. 87 % av deployementene må nå revurdere sine data-strategier for å være compliant.

Til tross for disse utfordringene, vokser markedet raskt. Generativ AI-infrastruktur var verdt 28,7 milliarder dollar i 2024, med en forventet vekst på 47,3 % årlig fram til 2027. Bedrifter innen Fortune 500-listen adopterer disse teknologiene i stor skala: 63 % bruker neste-token-prediksjon for kundeservice, 28 % bruker maskert modellering for analyse, og 9 % bruker støyreduksjon for kreative formål.

Som utvikler eller forsker betyr dette at du må forstå fundamentene. Du trenger ikke bygge dine egne modeller fra scratch - biblioteker som Hugging Face Transformers støtter alle tre objektive typer med over 10 000 forhåndstrente modeller. Men å vite *hvordan* de fungerer, hjelper deg med å feilsøke, optimere og velge riktig verktøy for jobben.

Hva er hovedforskjellen mellom maskert modellering og neste-token-prediksjon?

Maskert modellering (som i BERT) leser hele teksten samtidig (bidireksjonal) og gjetter manglende ord basert på kontekst fra begge sider. Neste-token-prediksjon (som i GPT) leser kun bakover (unidireksjonal) og forutsier det neste ordet basert på tidligere ord. Førstnevnt er bedre for forståelse, sistnevnt for generering.

Hvorfor brukes støyreduksjon i bildegenerering?

Støyreduksjon lar modellen lære å gjenopprette klare bilder fra rent statistisk støy. Denne prosessen gir høyere kvalitet og mindre modal kollaps enn eldre metoder som GANs, noe som resulterer i mer realistiske og varierte bilder.

Kan man kombinere disse metodene?

Ja, nyere modeller som Gemini 2.0 og Llama 3 eksperimenterer med hybride tilnærminger som kombinerer maskert modellering og neste-token-prediksjon for å få både dyp forståelse og sterk generative kapasitet.

Hvilken metode krever mest beregningskraft?

Støyreduksjon (diffusjon) er typisk mest ressurskrevende under inferens pga. mange tidssteg, mens neste-token-prediksjon med store modeller (som GPT-4) krever enorm kraft under pretraining. Maskert modellering er ofte mer balansert, men krever likevel betydelige ressurser for store modeller.

Er maskert modellering død?

Nei, absolutt ikke. Selv om generative modeller får mest oppmerksomhet, er maskert modellering fortsatt standard for søkemotorer, semantisk analyse og Named Entity Recognition (NER). Den gir den beste forståelsen av statisk tekst.

Post Comments (9)

Olav Finne

May 18, 2026 AT 23:15

Det er interessant å se på de tekniske detaljene her, men det mangler en viktig diskusjon om dataproveniens. Mange glemmer at pretraining ikke skjer i et vakuum. Når vi snakker om neste-token-prediksjon, bør man også nevne hvor dataene kommer fra. Det er sjelden reelt eller rent. Jeg har sett for mange modeller som bare speiler skjevhetene i internett uten noen form for kritisk refleksjon. Vi må være mer nøye med kildene.

Gunnar Bye

May 20, 2026 AT 13:59

Haha, nei Olav, slapp av litt! :D Dette er jo kjempebra forklart egentlig. Jeg brukte BERT til en oppgave i fjor og tenkte aldri over at den leste begge veier. Det var først da jeg prøvde å få den til å skrive en historie at jeg skjønnet hvorfor den ble så repetitiv. GPT er mye morsommere å leke med selv om den kan dra ut svipet. Kjekt å ha litt faglig innføring likevel! Thumbs up 👍

Even Ødegård

May 21, 2026 AT 11:17

Dette er jo bare propaganda fra Silicon Valley. De vil at du skal tro at disse maskinene er smarte, men de er bare store kalkulatorer som spiser strøm. Støyreduksjon? Nei, det er bare algoritmer som stjeler kunstnere sin stil og selger det tilbake til deg for penger. Ingen menneskelig kreativitet her. Bare kontroll.

Kristian Krokslett

May 23, 2026 AT 06:35

Jeg tror det er viktig å skille mellom teknikken og bruken. Selvsagt er det etisk problematikker knyttet til datasetter, men det betyr ikke at matematikken bak diffusjonsmodeller er 'propaganda'. Jonathan Ho sitt arbeid med støyreduksjon er faktisk revolusjonerende for generativ modellering fordi det unngår modal collapse-problemet vi så hos GANs. Det er ren statistikk og sannsynlighetsteori. Hvis man ser bort fra de ideologiske lagene, er dette fremdeles imponerende ingeniørarbeid. Kan dere anbefale noen gode ressurser for å lære mer om flow matching?

Kathinka Haugsand

May 24, 2026 AT 16:51

Ah, den typiske naive optimisten. Du tror virkelig at 'ren statistikk' er nøytral? Veldig søtt. La meg fortelle deg noe: når du trener en modell på hele internettet, trener du den på hele menneskehetens mørkeste sider. Og ja, Even har rett i én ting – det er tyveri. Men han feiler i å forstå at det er systematisk tyveri designet for å maksimere profitt for tech-gigantene. Jeg har analysert flere av disse 'hybride' modellene, og de er fulle av bias. Ikke la dere lure av glansbildene. Det er en dystopi i klær.

Kristine Lou

May 26, 2026 AT 10:34

jeg skjønner ikkje helt hva med støyen... er det slik at man ødelegger bildet for å fikse det igjen? lyder litt rart. men det var grei artikkel ellers. likte tabellen der oppe.

Runa Kalypso

May 27, 2026 AT 14:29

Hei Kristine! Ja, det høres kanskje rart ut første gang man hører det. Tenk deg at du har et bilde som er blitt veldig uskarpt eller fullt av snø (støy). Modellen lærer å 'rense' dette trinn for trinn. Den starter med å se på det mest uroede bildet og prøver å gjette hva som lå under. Over tid lærer den mønstrene i hvordan bilder ser ut, så den kan bygge opp et klart bilde fra bunnen av. Det er litt som å løse et puslespill der brikkene er blandet sammen, men du vet hvordan bildet skal se ut til slutt. Håper det hjalp!

espen solheim

May 28, 2026 AT 22:44

Så bra at dere får hjelp her! Det er viktig å spørre når man ikke forstår. Teknologien utvikler seg fort, og det er greit å ta det rolig. Husk at dere ikke trenger å bli eksperter over natten. Bare nyte å lære litt etter litt.

Olav Engh

May 29, 2026 AT 06:00

Interessant debatt her! 🤔 Jeg lurer på om hybrid-modellene som nevnes (Gemini/Llama) virkelig blir standard snart? Føles som at industrien går mot det. Noen erfaringer med finjustering av slike hybrider? 😊🚀