Tenk deg en maskin som lærer å forstå språk uten noen å fortelle den hva som er riktig. Ingen svarkort. Ingen korrekte svar å memorere. Bare millioner av sider med tekst fra internett - og den må selv finne ut hva som gir mening. Dette er selvovervåket læring (self-supervised learning, SSL), og det er det som gjør at moderne språkmodeller som ChatGPT og LLaMA kan skrive, svare og tenke som mennesker.
Hva er selvovervåket læring?
Selvovervåket læring er ikke det samme som uovervåket læring, selv om mange blander dem sammen. I uovervåket læring søker modellen etter mønstre - kanskje gruppering av ord eller klustering av setninger. Men i selvovervåket læring er det en korrekt svar - bare at den ikke er gitt av en menneskelig annotator. Den er skjult i dataene selv.
Tenk på det slik: Du får en setning som: "Jeg drar til Oslo for å se på
Dette er ikke tilfeldig. Det er en systematisk måte å trene modeller på ved å bruke den enorme mengden tekst som allerede finnes - uten å måtte betale folk for å merke hver setning. Og det har endret alt.
Hvordan fungerer det i praksis?
Det finnes to hovedmetoder som driver selvovervåket læring i NLP. Den ene er maskeordmodellering, som BERT bruker. Den andre er next token prediction, som GPT bruker. Begge er enkle i prinsipp, men kraftige i virkning.
BERT tar en tekst og skjuler noen ord med
GPT gjør noe annet. Den tar en setning og spør: "Hva er det neste ordet?" Du gir den: "Jeg drar til Oslo for å se på", og den må gjette "festivalen". Den gjør det ord for ord, hele veien. Ingen masking. Ingen tilbakeblikk. Bare forutsetning basert på det som har kommet før. Denne metoden er spesielt godt egnet for å lage tekst - fordi den lærer å skrive, ikke bare å gjette.
Begge metodene bruker samme grunnprinsipp: dataen gir sine egne svar. Og det er nettopp det som gjør det så effektivt. Du trenger ikke et datasett med 100 millioner merkede setninger. Du trenger bare et datasett med 100 millioner setninger - uansett om de er merket eller ikke.
Hvorfor er dette så viktig for store språkmodeller?
Alle store språkmodeller - GPT-3, LLaMA, Claude, PaLM - starter med selvovervåket læring. Det er den første og viktigste fasen i treningen. Her lærer modellen grunnleggende språk. Hva ord betyr. Hva en setning bør se ut som. Hva som er rimelig og hva som er nonsens.
Etter det kommer to andre faser: overvåket læring og forsterkningslæring. I den andre fasen får modellen eksempler som: "Skriv en sammendrag av denne teksten" eller "Svar på dette spørsmålet på en venlig måte". Her lærer den å følge instruksjoner. I den tredje fasen får den tilbakemelding fra mennesker: "Det svaret var bra" eller "Det svaret var feil og farlig". Men uten den første fasen - selvovervåket læring - ville modellen ikke hatt noen grunn til å forstå hva en "forsøk" er. Den ville ikke ha kjent språket.
Det er som å lære et barn å snakke. Først hører det ord og setninger hele dagen. Så lærer det å bruke dem i riktig sammenheng. Så lærer det å svare på spørsmål. Men uten den første fasen - bare å høre - ville det aldri kunnet snakke.
Hvordan skiller det seg fra andre metoder?
La oss sammenligne:
- Overvåket læring: Du gir modellen input og riktig svar. Eksempel: "Denne teksten er positiv" - og du forteller den at den er positiv. Den lærer å klassifisere. Men du trenger mye merker data - og det er dyrt og tidkrevende.
- Uovervåket læring: Du gir modellen bare data. Den søker etter mønstre. Kanskje den grupperer ord som ofte kommer sammen. Den kan brukes til å redusere dimensjoner eller finne grupper. Men den lærer ikke å forutsi - bare å oppdage.
- Selvovervåket læring: Du gir modellen data, og den lager sine egne "svar" fra dataene. Den lærer å forutsi. Og det er det som gjør den så kraftig. Den lærer språk på en måte som er nær det menneskelige læringssystemet.
Selvovervåket læring er den eneste metoden som kombinerer mengde med presisjon. Du kan bruke hele internett som trening - og likevel ha et klart, objektivt mål for hver forutsigelse.
Hva er fordelen med å bruke det sammen med overført læring?
En av de største styrkene ved selvovervåket læring er at den lager pre-trainede modeller. Når du har trent en modell på millioner av setninger, har den lært grunnleggende språk. Den er ikke flink på en spesifikk oppgave - som å klassifisere kundetilbakemeldinger - men den har en solid forståelse av språk.
Så tar du den modellen og trener den videre på et lite datasett med kundetilbakemeldinger. Bare 1000 eksempler. Og plutselig er den flink til å si om en tilbakemelding er positiv eller negativ. Det er overført læring. Og det er mulig fordi selvovervåket læring har laget en grunnleggende språkforståelse.
Uten selvovervåket læring, ville du måttet samle 10 000 merkede kundetilbakemeldinger for å trene en modell. Med selvovervåket læring trenger du bare 1000. Og resultatet er bedre.
Hva er grensene?
Selvovervåket læring er ikke magisk. Den har problemer.
For det første: den lærer alt - også feil. Hvis treningsdataene inneholder fordommer, stereotyper eller feil fakta, så lærer modellen det også. GPT-3 har skrevet tekst som er sexistisk, racistisk eller feilaktig - ikke fordi den er ond, men fordi internett er det.
For det andre: selvovervåket læring alene gir ikke en nyttig modell. Den kan ikke svare på spørsmål. Den kan ikke følge instruksjoner. Den kan ikke skrive en e-post. Den kan bare gjette ord. Du må kombinere den med overvåket læring og forsterkningslæring for å få en modell som virkelig fungerer.
For det tredje: den trenger enorm mengder data og regnekraft. GPT-3 hadde 175 milliarder parametere. Det betyr at den måtte trene på tusenvis av GPU-er i måneder. Bare store selskaper kan gjøre det.
Hva er fremtiden?
Selvovervåket læring er ikke bare en teknikk. Den er en ny måte å tenke på læring. Den har gjort det mulig å bygge modeller som ikke bare kan gjette ord - men som kan skrive romaner, svare på vitenskapelige spørsmål, og skape kode.
Fremtiden vil ikke komme med en ny metode som erstatter selvovervåket læring. Den vil komme med bedre måter å bruke den. Bedre data. Bedre maskiner. Bedre måter å finne ut hva som er riktig i dataene. Og kanskje, en dag, modeller som kan lage sine egne oppgaver - og lærer av seg selv, uten mennesker.
Men i dag er det fortsatt selvovervåket læring som holder alt sammen. Det er den første, største, og mest viktige byggestenen i alle store språkmodeller. Og det er ikke bare teknologi. Det er en ny form for kunnskap - lærte av ordene selv.
Hva er forskjellen mellom selvovervåket læring og overvåket læring?
I overvåket læring får modellen forhåndsmerkede data - for eksempel en setning med et merke som "positiv" eller "negativ". I selvovervåket læring lager modellen sine egne "merker" fra dataene. For eksempel: den tar en setning, skjuler et ord, og prøver å gjette det. Svaret finnes i selve teksten - men det er ikke gitt av en person.
Hvorfor bruker GPT og BERT ulike metoder?
GPT bruker next token prediction fordi den er bygget for å generere tekst - den må kunne fortsette en setning. BERT bruker maskeordmodellering fordi den er bygget for å forstå kontekst - den må kunne gjette et savnet ord basert på det som kommer før og etter. Begge er selvovervåket, men de er designet for ulike oppgaver.
Kan selvovervåket læring brukes uten store data?
Nei. Selvovervåket læring fungerer bare når du har masse data - millioner eller milliarder av setninger. Med lite data vil modellen overfitte - den husker mønstre i små mengder, ikke generelle språkregler. Det er derfor bare store selskaper med tilgang til store datamengder kan trene de beste modellene.
Er selvovervåket læring det samme som deep learning?
Nei. Deep learning er en teknikk for å bygge modeller med mange lag - som nevronale nettverk. Selvovervåket læring er en måte å trene dem på. Du kan bruke deep learning med overvåket, uovervåket eller selvovervåket læring. De er forskjellige nivåer.
Hvorfor er selvovervåket læring så viktig for NLP?
Fordi språk er uendelig komplekst. Det finnes ikke nok merkede data for å dekke alle situasjoner. Selvovervåket læring lar oss bruke hele internett som trening - og lage modeller som forstår språk på en måte som ingen tidligere metode har klart. Den har gjort det mulig å bygge modeller som kan skrive, snakke og tenke - og det er grunnen til at AI nå virker som science fiction.