Tenk på all dataen som finnes i verden. Vi snakker om milliarder av nettsider, bilder og dokumenter. Problemet er at nesten ingen av disse er "merket" med fasitsvar. For en maskin er dette som å lese en bok på et språk den ikke kan, uten ordbok. Tradisjonell maskinlæring krever at mennesker sitter og kategoriserer hver eneste bit med data, noe som er ekstremt dyrt og tidkrevende. Men hva om maskinen kunne lære seg mønstrene selv, bare ved å se på dataene? Det er her selvsupervisert læring (SSL) kommer inn. Det er denne teknologien som gjør at dagens generative AI-modeller faktisk fungerer, og det er selve motoren bak alt fra ChatGPT til Midjourney.
Hva er egentlig selvsupervisert læring?
Kort fortalt er selvsupervisert læring en metode der AI-modellen lager sine egne "oppgaver» eller gåter for å lære. I stedet for at et menneske sier "dette er et bilde av en katt", maskerer modellen en del av dataene og prøver å gjette hva som mangler. Ved å gjenta dette millioner av ganger, begynner modellen å forstå strukturen i språket eller logikken i et bilde. Yann LeCun fra Meta har beskrevet dette som "intelligensens mørke materie" fordi det lar systemene lære fra enorme mengder umerkede data - faktisk opp mot 98 % av all tilgjengelig data globalt.
Veien fra pretraining til ferdig modell
Prosessen med å bygge en moderne generativ AI skjer vanligvis i to hovedfaser: pretraining og finjustering. Det er som å sende en student gjennom en generell grunnutdanning før hen tar en spesialisert mastergrad.
Pretraining: Den store kunnskapsinnhentingen
Under pretraining blir modellen eksponert for enorme datasett. Målet her er ikke å løse en spesifikk oppgave, men å lære seg hvordan verden henger sammen. For tekstmodeller bruker man ofte kausal språkmodellering, hvor modellen prøver å forutsi det neste ordet i en setning. GPT-4 er et skoleeksempel på dette; den har lest så mye tekst at den kan simulere nesten hvilken som helst menneskelig tankegang basert på sannsynlighet.
For bilder fungerer det litt annerledes. Man kan bruke kontrastiv læring, der modellen trenes til å se forskjell på to nesten like bilder, eller så kan man bruke "inpainting", hvor man fjerner 50-80 % av et bilde og tvinger modellen til å gjenskape det som mangler. Dette krever enorme mengder regnekraft. Faktisk brukte pretrainingen av GPT-3 over 3 600 petaflop/s-dager på NVIDIA-maskinvare.
Finjustering: Spesialisering for brukeren
Når modellen har lært det generelle mønsteret, er den som en ekstremt belest person som ikke vet hvordan den skal oppføre seg i en spesifikk jobb. Her kommer finjustering inn. Ved å bruke et mye mindre, men nøye utvalgt sett med merkede data, lærer modellen å følge instruksjoner, unngå giftig språk eller bli en ekspert på medisinsk diagnostikk. En stor fordel med SSL er at du trenger langt mindre merkede data i denne fasen - ofte bare 10-20 % av det som ville vært nødvendig hvis du ikke hadde hatt en pretrainet modell.
| Egenskap | Supervisert læring | Selvsupervisert læring (SSL) |
|---|---|---|
| Datakrav | Krever 100 % merkede data | Bruker hovedsakelig umerkede data |
| Kostnad ved datainnsamling | Høy (menneskelig annotering) | Lav (automatisk innsamling) |
| Regnekraftbehov (trening) | Moderat | Ekstremt høyt under pretraining |
| Generaliseringsevne | Begrenset til treningssettet | Svært høy på tvers av domener |
Hvorfor dette er en game-changer for industrien
Det er ikke bare forskere som er begeistret. Bedrifter ser nå konkrete resultater ved å implementere SSL i sine arbeidsflyter. I finanssektoren brukes teknikken til å oppdage svindel ved å analysere millioner av transaksjoner uten at noen trenger å manuelt markere hva som er "svindel" og hva som er "lovlig". Dette har i noen tilfeller redusert antall falske positive varsler med 27 %.
Innen produksjon har selskaper som Siemens brukt SSL på sensordata fra fabrikker. Ved å lære hvordan en maskin fungerer når den er "frisk", kan modellen oppdage avvik som tyder på feil opptil 72 timer før det faktisk skjer, selv med veldig få eksempler på faktiske maskinhavari.
Utfordringene vi fortsatt står overfor
Selv om SSL høres ut som magi, er det noen betydelige snublesteiner. For det første er det regningsrekningen. Å trene en modell fra bunnen av krever millioner av GPU-timer, noe som gjør det til et spill forbeholdt teknologigigantene. For det andre er det problemet med «black box»-natur. Det er vanskelig å forklare nøyaktig hvorfor en modell har lært et spesifikt mønster.
En annen kritisk utfordring er bias. Siden SSL lærer fra internett, lærer den også alt det verste fra internett. Studier viser at SSL-modeller kan forsterke fordommer 18-25 % mer enn modeller som er trent på nøye utvalgte datasett. Dette betyr at selv om pretraining er automatisk, må finjusteringen og sikkerhetslagene være strengt kontrollerte.
Hva skjer videre?
Vi beveger oss nå mot en tid med multimodal SSL. Det betyr modeller som ikke bare lærer tekst eller bilder hver for seg, men som forstår sammenhengen mellom dem i én og samme treningsøkt. Google har allerede vist med PaLM-E 2 at man kan oppnå toppresultater med 40 % mindre regnekraft ved å kombinere tekst, bilder og sensordata.
Vi ser også en trend mot "sparse SSL" og adaptive maskeringsmetoder, som gjør treningen mer effektiv. Målet er å beholde 95 % av ytelsen, men kutte energiforbruket og kostnadene drastisk. For den gjennomsnittlige utvikleren betyr dette at verktøy som Hugging Face Transformers blir stadig viktigere, da de demokratiserer tilgangen til disse tunge modellene.
Hva er forskjellen på usupervisert og selvsupervisert læring?
Usupervisert læring prøver vanligvis å finne naturlige grupperinger eller klynger i data uten noe mål. Selvsupervisert læring skaper derimot en spesifikk oppgave (som å gjette et manglende ord) for å tvinge modellen til å lære nyttige representasjoner av dataene.
Kan man bruke SSL hvis man har veldig lite data?
SSL fungerer best når man har store mengder umerket data. Hvis du har veldig lite data totalt, vil tradisjonell supervisert læring eller bruk av en ferdig pretrainet modell (transfer learning) være mer effektivt.
Hvorfor er pretraining så dyrt?
Fordi modellene må behandle trillioner av tokens eller bilder gjennom milliarder av parametere. Dette krever tusenvis av spesialiserte GPU-er som kjører i ukesvis, noe som fører til enorme strømkostnader og maskinvareleie.
Hva er en "pretext task"?
En pretext task er den kunstige oppgaven modellen løser under pretraining for å lære. Eksempler inkluderer å forutsi neste ord i en setning, gjette om to bilder viser samme objekt, eller fylle inn et maskert område i et bilde.
Er SSL trygt å bruke i sensitive bransjer som helse?
Ja, men det krever varsomhet. SSL har vist seg svært effektivt i medisinsk bildediagnostikk, men modellene må alltid finjusteres og valideres av eksperter for å unngå hallusinasjoner eller feilaktige mønstergjenkjenninger.