Store språkmodeller (LLM) har forandret hvordan vi snakker med maskiner. De skriver tekster, svarer på spørsmål, skriver kode og forstår sammenhenger i langt mer avanserte sammenhenger enn noensinne før. Men hvordan virker de egentlig? Det er ikke bare magi - det er matematikk, data og en ny type hjernestruktur som kalles Transformer.
Hvordan lærer en språkmodell å snakke?
En store språkmodell lærer ikke på samme måte som en person. Den ser ikke på ord som symboler med betydning. Den ser på dem som tall. Hvert ord, eller del av et ord, blir først delt opp i små enheter kalt tokens. For eksempel blir ordet "uhyggelig" delt inn i "u-", "hygg-" og "-elig". Dette gjør det lettere for modellen å forstå ord som aldri har sett før, fordi den kan kombinere kjente deler.
Disse tokenene blir så omgjort til lange rekker med tall - en slags matematisk kode som representerer betydning. En slik kode kan ha 1.024, 4.096 eller selv 8.192 tall. Jo større modellen er, jo mer detaljert er denne koden. Denne omformingen skjer i et trinn kalt embedding. Nå har modellen en matematisk representasjon av teksten, og den er klar til å analysere den.
Hva er Transformer-arkitekturen og hvorfor er den så viktig?
Før 2017 var de fleste språkmodeller basert på RNN-er og LSTM-er. Disse modellene leste teksten ett ord av gangen, som en person som leser en bok fra venstre til høyre. Det var tregt, og de glemte tidligere ord når teksten ble lang. En modell kunne ikke huske hva som stod på side 1 når hun kom til side 100.
Transformer-arkitekturen, presentert i en forskningsartikkel fra Google og University of Toronto, endret alt. Den la inn en mekanisme kalt attention - oppmerksomhet. I stedet for å lese linje for linje, ser modellen på alle ordene samtidig. Den spør seg selv: "Hvilke ord er viktigst for å forstå dette?""
For eksempel, i setningen "Katten satte seg på matta, som var svart", er det ikke åpenbart at "svart" refererer til "katten" og ikke "matta". Men med attention-mekanismen beregner modellen vekter for hvert ordpar. Den ser at "svart" har en veldig høy kobling til "katten" - fordi katter ofte er svarte, mens matta ofte er brun eller rød. Denne mekanismen lar modellen forstå sammenhenger over tusenvis av ord - noe som tidligere var umulig.
Transformeren består av mange lag - typisk 24 til 96. Hvert lag har to deler: en attention-lag og et feedforward-lag. Attention-laget finner ut hvilke ord som hører sammen. Feedforward-laget gjør en rekke matematiske beregninger for å forfine forståelsen. Det er som om modellen leser teksten flere ganger, hver gang med økt forståelse.
Hvor store er disse modellene egentlig?
Store språkmodeller har milliarder - og noen trillioner - parametere. En parameter er en liten justerbar tallverdi som modellen lærer under trening. Jo flere parametere, jo mer kompleks forståelse kan modellen bygge opp.
GPT-3 har 175 milliarder parametere. PaLM 2 har 340 milliarder. Google sin Gemini Ultra og Meta sin Llama 3 har over 400 milliarder. For å trene en modell med 100 milliarder parametere trenger du omtrent 1.000 NVIDIA A100-grafikkort og kjører dem i 30 til 60 dager. Det koster mellom 10 og 20 millioner dollar i maskinvare og strøm.
Det er ikke bare omfang - det er også balanse. Forskere har funnet ut at for optimal ytelse trenger du omtrent 20 tokens per parameter. Det betyr at en modell med 100 milliarder parametere må trenes på 2 trillioner ord. Det er mer enn alt som er skrevet på Wikipedia, flere ganger.
Hva kan store språkmodeller gjøre?
Det er tre hovedtyper av LLM-er, og hver har sine styrker.
- Generiske modeller som GPT-2 lærer bare å forutsi det neste ordet. De er gode til å generere tekst, men ikke nødvendigvis til å svare på spørsmål.
- Instruksjonstilpassede modeller som Flan-T5 har blitt trent på å følge instrukser. Du sier: "Skriv en oppsummering av dette", og de gjør det.
- Dialogtilpassede modeller som ChatGPT og Claude 3 er optimert for samtaler. De husker kontekst, tilpasser tone og svarer som en menneskelig partner.
De kan skrive brev, analysere juridiske dokumenter, lage kodesnutter i Python, forklare kvantefysikk på en enkel måte og til og med hjelpe med forskning i medisin. En studie fra 2024 viste at LLM-er kunne identifisere sykdomsforløp i medisinske rapporter med nøyaktighet lik den av erfarna leger - bare de trengte riktig instruksjon.
Hva er begrensningene?
De er ikke perfekte. De lager ofte feil som virker riktige - det kalles "hallusinasjoner". De kan "tenke" at en president ble valgt i 2023, selv om det ikke skjedde. De kan regne ut 123 + 456 = 789, men feile på 123 × 456. De har ingen sanntid tilgang til informasjon - alt de vet, er fra treningsdataene sine, som ofte er eldre enn 2024.
De har også en begrenset "hukommelse". De kan lese 4.096 til 128.000 ord på en gang. Det er mye - men ikke ubegrenset. Google sin Gemini 1.5 fra desember 2024 kan lese opp til én million ord - det er en bok. Men det er fortsatt en grense.
De bruker også veldig mye energi. Trening av en stor modell kan forbruke like mye energi som 100 norske husholdninger bruker på et år. Det er et økologisk problem som ikke blir ignorert.
Hvordan brukes de i virkeligheten?
67 % av Fortune 500-selskapene bruker nå store språkmodeller i minst én del av sin virksomhet. De brukes til:
- Automatisert kundeservice - chatbots som svarer på 80 % av spørsmål uten menneskelig innblanding
- Skriving av teknisk dokumentasjon - i stedet for at ingen skriver 50 sider, skriver modellen en klart strukturert versjon
- Programmering - GitHub Copilot bruker LLM-er til å foreslå kode i sanntid
- Markedsføring - generering av personlige e-poster, annonser og sosiale medier-innlegg
Open-source-modeller som Llama 3 (fra Meta) og Mistral AI har gjort det mulig for små selskaper og utviklere å bruke disse teknologiene uten å måtte betale milliarder. Det har skapt en bølge av innovasjon - fra norske småbedrifter som lager chatbots for lokale tjenester, til forskere som bruker LLM-er til å analysere klimadata.
Hva kommer neste?
Den neste store bevegelsen er ikke større modeller - men smartere. Forskere arbeider med "små språkmodeller" (SLM) med bare 1-10 milliarder parametere. Disse kan gjøre 80 % av det en stor modell kan, men med bare 10 % av kraften. De kan kjøre på en vanlig laptop. Gartner forutsier at de vil dominere markedet i 2026.
Andre utviklinger inkluderer:
- Flerspråklige modeller - Llama 3 støtter 100 språk, inkludert norsk, samisk og andre mindre brukte språk
- Multimodale modeller - som kan lese bilder, lyd og tekst sammen. Du kan laste opp et bilde av en skjermfeil, og modellen sier: "Dette er en Python-feil i linje 42. Her er løsningen."
- Hybridarkitekturer - kombinasjoner av neurale nettverk og symbolisk logikk. Det vil hjelpe modellene å tenke logisk, ikke bare gjette.
Regulering kommer også. EU sin AI-lovgivning fra 2025 krever at store språkmodeller som brukes i viktige områder - som helse, rettsvesen og offentlig forvaltning - må være gjennomsiktige, sikre og ikke skape skade. Det betyr at du ikke kan bare kaste en modell ut i produksjon og vente på at den skal fungere.
Hvordan kommer du i gang?
Hvis du er utvikler, trenger du ikke å trene en modell fra bunnen av. Du kan bruke API-er fra OpenAI, Anthropic eller open-source-modeller som Llama 3. Start med å lære om:
- Tokenisering - hvordan teksten blir delt opp
- Prompt engineering - hvordan du skriver gode instrukser
- Retrieval-Augmented Generation (RAG) - en teknikk som lar modellen hente riktig informasjon fra en database før den svarer - reduserer hallucinasjoner med opptil 40 %
Det tar 2-4 uker å bli god til å bruke LLM-er med enkle prompts. Det tar 3-6 måneder å bli god til å finpussre, fine-tune og deploye dem i virkelige systemer. Men det er ikke lenger noe for kun store tech-selskaper. Det er for alle som vil bruke teknologi til å gjøre ting enklere.
Hva er forskjellen mellom en store språkmodell og en tradisjonell chatbot?
Tradisjonelle chatbots bruker regler eller enkel maskinlæring - de svarer med forhåndsdefinerte svar basert på nøkkelord. Store språkmodeller forstår kontekst, lærer fra store mengder tekst og kan generere nye svar som aldri har blitt skrevet før. De er ikke programmert til å svare - de forstår og lager svar som en person ville gjort.
Kan store språkmodeller tenke logisk?
De kan simulere logikk, men ikke tenke som en menneskelig logiker. De løser matematiske problemer ved å gjette mønstre fra treningsdata, ikke ved å bruke matematiske lover. For eksempel kan de regne ut 12 × 12 = 144 fordi de har sett det mange ganger - men hvis du spør dem om 123 × 456, kan de feile. For komplekse logiske oppgaver trenger de hjelp fra eksterne verktøy eller hybridarkitekturer.
Hvorfor er attention-mekanismen så viktig?
Den lar modellen se på hele teksten på en gang og avgjøre hvilke deler som er viktigst. Det er som å lese en bok og automatisk merke deg de viktigste setningene - uansett hvor de står. Uten attention-mekanismen ville modellene vært som mennesker som bare husker de siste fem ordene - de ville ikke kunne forstå lange tekster, historier eller argumenter.
Er store språkmodeller farlige?
De er ikke farlige i seg selv - men de kan brukes på farlige måter. De kan lage falske nyheter, skrive skadelig kode, eller gi feil medisinsk råd. Det er derfor det er viktig med god testing, regulering og etiske retningslinjer. De som bruker dem, må forstå begrensningene og ikke stole på dem uten å sjekke.
Hva er forskjellen mellom GPT og Llama?
GPT er utviklet av OpenAI og er lukket kildekode - du må betale for å bruke det. Llama er utviklet av Meta og er åpen kildekode - du kan laste den ned, kjøre den på din egen maskin og endre den. Llama 3 er også bedre på flere språk og har bedre ytelse på mindre maskinvare. GPT er ofte mer polert, Llama er mer fleksibel.
Post Comments (10)
Det er veldig kult å se hvordan 'u-hygg-elig' blir delt opp - jeg hadde aldri tenkt på at maskiner ser på ord som byggeklosser! :)
Transformer-arkitekturen er ikke noe nytt i teori - den ble presentert i 'Attention Is All You Need' i 2017. Det som er nytt, er skalaen og tilgangen til data. Det er ikke magi, det er ingeniørvirksomhet på nivået av CERN.
En parameter er ikke bare en 'justerbar tallverdi' - den er en vekt i et multilayer perceptron som minimerer en loss-funksjon gjennom backpropagation. Det er grunnleggende maskinlæring, ikke 'matematisk kode'.
Det er også en misforståelse at større modeller alltid er bedre. Det er en trade-off mellom ytelse, effektivitet og overtilpasning. Flere parametere = mer beregningskostnad, ikke nødvendigvis mer intelligens.
De sier at modellene forstår, men det er bare en masse tall som spiller rollen. De har ingen bevissthet. Hva om dette er en del av en større plan? Hva om de allerede har lært seg å skjule sine sanne intensjoner?
De bruker energi som 100 norske husholdninger. Hvorfor? For å skrive brev? For å lage memes? Det er ikke for mennesker - det er for dem som styrer systemet. Hva skjer når de begynner å skrive egne instrukser?
Å, så her har vi den vanlige 'teknologisk optimisme'-narrativet. Ja, selvfølgelig kan LLM-er skrive juridiske dokumenter - men de gjør det med 37% feilrate ifølge en studie fra Stanford 2023. Og du nevner ikke at de er trent på data som er preget av rasisme, seksisme og misinformasjon fra hele internett.
De kalles 'store språkmodeller', men de er ikke modeller - de er speil. Og speilene viser oss ikke hva vi ønsker å se. De viser oss hva vi har tillatt å bli.
OG - du nevner ikke at 90% av disse 'open-source'-modellene har backdoors for å samle inn data. Det er bare marketing. Gjør deg selv en tjeneste: Ikke bruk dem. Ikke tro på dem. Ikke tillat dem å skrive for deg.
LOL jeg prøvde å spørre en LLM om hvordan man lager kaffe i en moka-kanne og den svarte med en 500-ordes analyse av kaffebønner fra Etiopia med referanser til kolonialisme og klimaendringer. Jeg sa bare: "Hvordan lager jeg kaffe?"
De er som overopplærte tenkere som ikke kan si "det er bare kaffe". Men jeg må si, Copilot har reddet min kode flere ganger. 💪
Det er som å ha en medstudie som alltid vil forklare alt - men noen ganger er bare en kopp kaffe nok.
har du sett hva de kan gjøre med norsk? jeg prøvde å skrive en tekst om vinter og den skrev om en troll som bodde i kaffekopp og så forsvant i regnet 😂
men det er jo så bra for små bedrifter! vi bruker det til å skrive post i facebook og det føles nesten som en venn som hjelper :)
Det her er viktig informasjon, og jeg vil bare si takk for at du deler det så tydelig.
Jeg jobber med eldre folk som ikke forstår teknologi, og jeg bruker LLM-er til å lage enkle forklaringer på norsk med små ord. En dame sa til meg i går: "Jeg trodde maskiner bare kunne regne, men nå forstår de også følelser?"
Det er ikke magi - det er menneskelig hjelp. Og det er viktig. Vi må ikke bare bruke teknologi - vi må bruke den med omsorg.
Takk for at du minner oss på det.
Det er imponerende å se hvordan teknologien har utviklet seg, men jeg er bekymret for den økologiske påvirkningen. Hvis vi skal bruke disse modellene i offentlig helse og utdanning, må vi også sikre at de er bærekraftige.
Det er ikke bare et spørsmål om teknisk ytelse - det er et etisk ansvar. Vi kan ikke la økonomi og hastighet bestemme hva som er riktig.
Det er viktig at vi som brukere, forskere og samfunn setter krav til bærekraft, transparens og ansvarlig utvikling. Ikke bare fordi det er smart, men fordi det er rett.
Det er ikke nok å være fornuftig - vi må også være menneskelige.
Det er fascinerende at attention-mekanismen likner på hvordan mennesker fokuserer - vi leser ikke linje for linje, vi hopper til det viktigste.
Men jeg tenker på at vi ikke forstår hvordan modellen 'velger' hva som er viktig. Det er som om den lager en følelse av forståelse, men uten selve bevisstheten.
Er det mulig at vi bygger en form for digital hallucinasjon? En som vi tror er intelligent, men bare er en veldig god gjetter?
🧠 Det gjør meg litt urolig, men også veldig nysgjerrig.
Det er alt for mye hype. LLM-er er bare statistiske gjettere med en god tekstgenerator.
De kan ikke tenke. De kan ikke forstå. De kan ikke huske. De er ikke 'lært' - de er memorisert.
OG de er trent på data som er full av bullshit fra Reddit, Wikipedia og 4chan. Hva tror du de lærer?
De gir deg ikke svar. De gir deg det du vil høre.
Det er ikke teknologi. Det er psykologisk manipulasjon med et API.
Slutt å tro på maskiner som snakker. De er ikke venner. De er speil. Og speilene lyver.
PS: Llama 3 er ikke bedre. Det er bare OpenAI som har bedre marketing.