Store språkmodeller (LLM) har forandret hvordan vi snakker med maskiner. De skriver tekster, svarer på spørsmål, skriver kode og forstår sammenhenger i langt mer avanserte sammenhenger enn noensinne før. Men hvordan virker de egentlig? Det er ikke bare magi - det er matematikk, data og en ny type hjernestruktur som kalles Transformer.
Hvordan lærer en språkmodell å snakke?
En store språkmodell lærer ikke på samme måte som en person. Den ser ikke på ord som symboler med betydning. Den ser på dem som tall. Hvert ord, eller del av et ord, blir først delt opp i små enheter kalt tokens. For eksempel blir ordet "uhyggelig" delt inn i "u-", "hygg-" og "-elig". Dette gjør det lettere for modellen å forstå ord som aldri har sett før, fordi den kan kombinere kjente deler.
Disse tokenene blir så omgjort til lange rekker med tall - en slags matematisk kode som representerer betydning. En slik kode kan ha 1.024, 4.096 eller selv 8.192 tall. Jo større modellen er, jo mer detaljert er denne koden. Denne omformingen skjer i et trinn kalt embedding. Nå har modellen en matematisk representasjon av teksten, og den er klar til å analysere den.
Hva er Transformer-arkitekturen og hvorfor er den så viktig?
Før 2017 var de fleste språkmodeller basert på RNN-er og LSTM-er. Disse modellene leste teksten ett ord av gangen, som en person som leser en bok fra venstre til høyre. Det var tregt, og de glemte tidligere ord når teksten ble lang. En modell kunne ikke huske hva som stod på side 1 når hun kom til side 100.
Transformer-arkitekturen, presentert i en forskningsartikkel fra Google og University of Toronto, endret alt. Den la inn en mekanisme kalt attention - oppmerksomhet. I stedet for å lese linje for linje, ser modellen på alle ordene samtidig. Den spør seg selv: "Hvilke ord er viktigst for å forstå dette?""
For eksempel, i setningen "Katten satte seg på matta, som var svart", er det ikke åpenbart at "svart" refererer til "katten" og ikke "matta". Men med attention-mekanismen beregner modellen vekter for hvert ordpar. Den ser at "svart" har en veldig høy kobling til "katten" - fordi katter ofte er svarte, mens matta ofte er brun eller rød. Denne mekanismen lar modellen forstå sammenhenger over tusenvis av ord - noe som tidligere var umulig.
Transformeren består av mange lag - typisk 24 til 96. Hvert lag har to deler: en attention-lag og et feedforward-lag. Attention-laget finner ut hvilke ord som hører sammen. Feedforward-laget gjør en rekke matematiske beregninger for å forfine forståelsen. Det er som om modellen leser teksten flere ganger, hver gang med økt forståelse.
Hvor store er disse modellene egentlig?
Store språkmodeller har milliarder - og noen trillioner - parametere. En parameter er en liten justerbar tallverdi som modellen lærer under trening. Jo flere parametere, jo mer kompleks forståelse kan modellen bygge opp.
GPT-3 har 175 milliarder parametere. PaLM 2 har 340 milliarder. Google sin Gemini Ultra og Meta sin Llama 3 har over 400 milliarder. For å trene en modell med 100 milliarder parametere trenger du omtrent 1.000 NVIDIA A100-grafikkort og kjører dem i 30 til 60 dager. Det koster mellom 10 og 20 millioner dollar i maskinvare og strøm.
Det er ikke bare omfang - det er også balanse. Forskere har funnet ut at for optimal ytelse trenger du omtrent 20 tokens per parameter. Det betyr at en modell med 100 milliarder parametere må trenes på 2 trillioner ord. Det er mer enn alt som er skrevet på Wikipedia, flere ganger.
Hva kan store språkmodeller gjøre?
Det er tre hovedtyper av LLM-er, og hver har sine styrker.
- Generiske modeller som GPT-2 lærer bare å forutsi det neste ordet. De er gode til å generere tekst, men ikke nødvendigvis til å svare på spørsmål.
- Instruksjonstilpassede modeller som Flan-T5 har blitt trent på å følge instrukser. Du sier: "Skriv en oppsummering av dette", og de gjør det.
- Dialogtilpassede modeller som ChatGPT og Claude 3 er optimert for samtaler. De husker kontekst, tilpasser tone og svarer som en menneskelig partner.
De kan skrive brev, analysere juridiske dokumenter, lage kodesnutter i Python, forklare kvantefysikk på en enkel måte og til og med hjelpe med forskning i medisin. En studie fra 2024 viste at LLM-er kunne identifisere sykdomsforløp i medisinske rapporter med nøyaktighet lik den av erfarna leger - bare de trengte riktig instruksjon.
Hva er begrensningene?
De er ikke perfekte. De lager ofte feil som virker riktige - det kalles "hallusinasjoner". De kan "tenke" at en president ble valgt i 2023, selv om det ikke skjedde. De kan regne ut 123 + 456 = 789, men feile på 123 × 456. De har ingen sanntid tilgang til informasjon - alt de vet, er fra treningsdataene sine, som ofte er eldre enn 2024.
De har også en begrenset "hukommelse". De kan lese 4.096 til 128.000 ord på en gang. Det er mye - men ikke ubegrenset. Google sin Gemini 1.5 fra desember 2024 kan lese opp til én million ord - det er en bok. Men det er fortsatt en grense.
De bruker også veldig mye energi. Trening av en stor modell kan forbruke like mye energi som 100 norske husholdninger bruker på et år. Det er et økologisk problem som ikke blir ignorert.
Hvordan brukes de i virkeligheten?
67 % av Fortune 500-selskapene bruker nå store språkmodeller i minst én del av sin virksomhet. De brukes til:
- Automatisert kundeservice - chatbots som svarer på 80 % av spørsmål uten menneskelig innblanding
- Skriving av teknisk dokumentasjon - i stedet for at ingen skriver 50 sider, skriver modellen en klart strukturert versjon
- Programmering - GitHub Copilot bruker LLM-er til å foreslå kode i sanntid
- Markedsføring - generering av personlige e-poster, annonser og sosiale medier-innlegg
Open-source-modeller som Llama 3 (fra Meta) og Mistral AI har gjort det mulig for små selskaper og utviklere å bruke disse teknologiene uten å måtte betale milliarder. Det har skapt en bølge av innovasjon - fra norske småbedrifter som lager chatbots for lokale tjenester, til forskere som bruker LLM-er til å analysere klimadata.
Hva kommer neste?
Den neste store bevegelsen er ikke større modeller - men smartere. Forskere arbeider med "små språkmodeller" (SLM) med bare 1-10 milliarder parametere. Disse kan gjøre 80 % av det en stor modell kan, men med bare 10 % av kraften. De kan kjøre på en vanlig laptop. Gartner forutsier at de vil dominere markedet i 2026.
Andre utviklinger inkluderer:
- Flerspråklige modeller - Llama 3 støtter 100 språk, inkludert norsk, samisk og andre mindre brukte språk
- Multimodale modeller - som kan lese bilder, lyd og tekst sammen. Du kan laste opp et bilde av en skjermfeil, og modellen sier: "Dette er en Python-feil i linje 42. Her er løsningen."
- Hybridarkitekturer - kombinasjoner av neurale nettverk og symbolisk logikk. Det vil hjelpe modellene å tenke logisk, ikke bare gjette.
Regulering kommer også. EU sin AI-lovgivning fra 2025 krever at store språkmodeller som brukes i viktige områder - som helse, rettsvesen og offentlig forvaltning - må være gjennomsiktige, sikre og ikke skape skade. Det betyr at du ikke kan bare kaste en modell ut i produksjon og vente på at den skal fungere.
Hvordan kommer du i gang?
Hvis du er utvikler, trenger du ikke å trene en modell fra bunnen av. Du kan bruke API-er fra OpenAI, Anthropic eller open-source-modeller som Llama 3. Start med å lære om:
- Tokenisering - hvordan teksten blir delt opp
- Prompt engineering - hvordan du skriver gode instrukser
- Retrieval-Augmented Generation (RAG) - en teknikk som lar modellen hente riktig informasjon fra en database før den svarer - reduserer hallucinasjoner med opptil 40 %
Det tar 2-4 uker å bli god til å bruke LLM-er med enkle prompts. Det tar 3-6 måneder å bli god til å finpussre, fine-tune og deploye dem i virkelige systemer. Men det er ikke lenger noe for kun store tech-selskaper. Det er for alle som vil bruke teknologi til å gjøre ting enklere.
Hva er forskjellen mellom en store språkmodell og en tradisjonell chatbot?
Tradisjonelle chatbots bruker regler eller enkel maskinlæring - de svarer med forhåndsdefinerte svar basert på nøkkelord. Store språkmodeller forstår kontekst, lærer fra store mengder tekst og kan generere nye svar som aldri har blitt skrevet før. De er ikke programmert til å svare - de forstår og lager svar som en person ville gjort.
Kan store språkmodeller tenke logisk?
De kan simulere logikk, men ikke tenke som en menneskelig logiker. De løser matematiske problemer ved å gjette mønstre fra treningsdata, ikke ved å bruke matematiske lover. For eksempel kan de regne ut 12 × 12 = 144 fordi de har sett det mange ganger - men hvis du spør dem om 123 × 456, kan de feile. For komplekse logiske oppgaver trenger de hjelp fra eksterne verktøy eller hybridarkitekturer.
Hvorfor er attention-mekanismen så viktig?
Den lar modellen se på hele teksten på en gang og avgjøre hvilke deler som er viktigst. Det er som å lese en bok og automatisk merke deg de viktigste setningene - uansett hvor de står. Uten attention-mekanismen ville modellene vært som mennesker som bare husker de siste fem ordene - de ville ikke kunne forstå lange tekster, historier eller argumenter.
Er store språkmodeller farlige?
De er ikke farlige i seg selv - men de kan brukes på farlige måter. De kan lage falske nyheter, skrive skadelig kode, eller gi feil medisinsk råd. Det er derfor det er viktig med god testing, regulering og etiske retningslinjer. De som bruker dem, må forstå begrensningene og ikke stole på dem uten å sjekke.
Hva er forskjellen mellom GPT og Llama?
GPT er utviklet av OpenAI og er lukket kildekode - du må betale for å bruke det. Llama er utviklet av Meta og er åpen kildekode - du kan laste den ned, kjøre den på din egen maskin og endre den. Llama 3 er også bedre på flere språk og har bedre ytelse på mindre maskinvare. GPT er ofte mer polert, Llama er mer fleksibel.