Hvordan store språkmodeller tenker: Chain-of-Thought, selv-konsistens og debatt

January 18, 2026
Comments 6
Teknologi og kunstig intelligens

En språkmodell som svarer riktig på et matematisk problem er ikke nødvendigvis en modell som tenker. Den kan bare gjenkjenne mønstre fra trillioner av ord. Men i 2026 har vi sett en viktig forandring: modeller som ikke bare svarer, men som viser hvordan de kom fram til svaret. Det er her Chain-of-Thought, selv-konsistens og debatt kommer inn. Disse tre metodene har gjort det mulig for språkmodeller å flytte fra å være smarte kopier til å bli pålitelige tenkere.

Chain-of-Thought: Å tenke høyt i trinn

Chain-of-Thought (CoT) ble introdusert av Google Research i januar 2022. Tanken er enkel: i stedet for å gi svaret umiddelbart, ber du modellen skrive ned hvert steg i tenkningen før den kommer til slutningen. Hvis spørsmålet er "Hvor mye er 15 % av 240?", vil en modell med CoT skrive: "10 % av 240 er 24. 5 % er halvparten av det, altså 12. Så 15 % er 24 + 12 = 36. Svaret er 36." Det er ikke bare for menneskers skyld. Det hjelper modellen selv. Når den må formulere hvert steg, blir den tvunget til å holde kontrollen. Forskning fra MIT i desember 2024 viste at de beste resultatene kommer når modellen skriver 3-7 trinn. For enkle oppgaver kan det være nok med 2-3 trinn. For komplekse matteproblemer, som i American Invitational Mathematics Examination (AIME), kan det kreve 7-10 trinn.

Resultatet? En 7-milliarder-parameter modell med CoT oppnådde 125 % bedre nøyaktighet på AIME-oppgaver enn en modell uten. Det er ikke bare et lite steg. Det er en ny nivå av pålitelighet. Og det fungerer ikke bare for matte. Når modeller lærer å tenke i trinn i matematikk, blir de bedre på koding, vitenskap og logiske oppgaver - med 19-27 % bedre nøyaktighet i andre områder.

Selv-konsistens: Flere veier til samme svar

Chain-of-Thought er bra, men det er ikke perfekt. En modell kan gå gjennom et logisk trinn, men likevel komme fram til et feilaktig svar. Her kommer selv-konsistens inn. Denne metoden, utviklet av Xuezhi Wang og kolleger i mai 2022, lar modellen generere flere ulike tenkebaner - typisk 5-10 - og så velge det svaret som dukker opp flest ganger.

Hvorfor fungerer det? Fordi feil tenkning er ofte tilfeldig. Riktig tenkning har en tendens til å gjenta seg. Hvis fem av ti tenkebaner kommer frem til at svaret er 36, er det sannsynlig at 36 er riktig - selv om én av dem tok en feil vei.

Men det har en pris. Bruk av selv-konsistens øker kjøretiden med opptil 3,2 ganger. En bruker på Reddit, "DataScientist99", oppdaget at API-kallene hans tok over tre ganger lengre tid med fem tenkebaner. For en tjeneste som må svare i under ett sekund - som en kundeservice - kan det være for mye.

Likevel, for komplekse oppgaver som medisinske diagnostikker eller forskningsanalyser, er tidsforbruket ofte et akseptabelt kompromiss. En studie i Journal Watch fra august 2025 viste at en LLM med selv-konsistens oppnådde 89 % nøyaktighet i diagnostiske situasjoner med pasientaktører - bedre enn menneskelige leger på 82 %.

Debatt: Når modeller diskuterer med hverandre

Hva skjer når du lar to eller flere modeller diskutere med hverandre? Du får debatt. Denne metoden ble formalisert av Anthropic i september 2023. En modell starter med et svar. En annen modell, ofte spesialisert i å finne feil, angriper det. En tredje modell vurderer begge argumentene og avgjør hvilket som er sterkest.

Debatt er spesielt kraftig for komplekse, flerdimensjonale oppgaver. I vitenskapelig resonnement, juridisk analyse eller økonomisk modellering, er det sjelden ett riktig svar - det er flere mulige forklaringer. Debatt hjelper modellen til å utforske disse.

Typisk bruker debatt 3-5 modeller. En er "proponent", en er "kritiker", og en er "dommer". Dommeren bruker en metode kalt "meta-evaluering" - den vurderer ikke bare svaret, men også kvaliteten på argumentasjonen. Det er ikke bare om svaret er riktig, men om den veien som førte dit var logisk og robust.

Resultatet? Debatt øker nøyaktigheten med 10-18 % på vanskelige oppgaver sammenlignet med CoT alene. Men det er også det mest komplekse å sette opp. Bare 289 GitHub-repositorier i desember 2025 var dedikert til debatt-metoder - mot 1.842 for Chain-of-Thought. Det er en høy inngangskostnad.

Fem gjenforente AI-versjoner diskuterer svar, mens en gullglødende kule viser det mest gjentatte svaret.

Hvordan velge mellom metodene?

Du trenger ikke velge én. De kan kombineres. Men det er viktig å forstå hvilken som passer best for din oppgave.

Chain-of-Thought er din beste venn for å forbedre nøyaktighet på enkle til medium-komplekse oppgaver uten å øke kjøretiden drastisk. Bruk den når du trenger klarhet og forståelse.
Selv-konsistens er din beste venn når nøyaktighet er kritisk, og tid ikke er et problem. Bruk den for matte, vitenskap, medisin - der ett feil svar kan ha konsekvenser.
Debatt er din beste venn for å utforske komplekse, flerdimensjonale problemer der det ikke finnes ett riktig svar. Bruk den for strategisk analyse, juridisk resonnement eller etisk vurdering.

Apple sin forskning fra mai 2025 viste at for enkle oppgaver - som å svare på en enkel kundespørsmål - kan disse metodene faktisk gjøre ting verre. En 7-milliarder-parameter modell med CoT hadde 15 % dårligere ytelse på enkle spørsmål enn en modell uten. Det er fordi modellen bruker tid på å tenke når den ikke trenger det. Det er som å bruke en høyteknologisk kalkulator til å legge sammen 2 + 2.

Den nye generasjonen: Adaptive reasoning og distillering

I 2025 ble det en ny bølge: adaptive reasoning. Forskere ved MIT utviklet en metode der modellen selv avgjør hvor mye regnekraft den skal bruke - basert på vanskelighetsgraden. Enkelt spørsmål får 50 % av regnekraften. Komplekse spørsmål får 100 %. Det reduserer kjøretiden med opptil 50 % uten å tape nøyaktighet.

Det skjer ved hjelp av "process reward models" (PRM). Disse er små modeller som lærer å vurdere kvaliteten på hvert tenke-trinn. De lærer på 50.000-100.000 eksempler med gode og dårlige resonnementer. Det tar 3-5 dager på 8 A100 GPU-er - men det er en investering som betaler seg.

Samtidig har distillering blitt en stor seier. DeepSeek-R1, en modell utviklet i 2025, har "lært" store modellers tenkemåte og overført den til små modeller. Resultat? En 7-milliarder-parameter modell som ble trådd med DeepSeek-R1s resonnementer, oppnådde 28 % bedre nøyaktighet på logiske oppgaver enn en modell trådd med tradisjonell RL. Det betyr at du ikke trenger en 70-milliarder-parameter modell for å ha god resonnering - du kan få det på en liten modell.

Tre AI-entiteter debatterer over en vortex av vitenskapelige og juridiske symboler, med en dommer som avslører en skjult feil.

Utfordringer og grenser

Det er ikke bare lys og lykke. Det finnes store utfordringer.

For det første: illusionen av tenkning. En modell kan generere et vakkert, logisk resonnement - men det kan inneholde en subtil feil. En bruker på Hugging Face, "NLPDev", rapporterte at 38 % av komplekse resonnementer fra Llama-3 inneholdt logiske feil som var vanskelige å oppdage.

For det andre: resonneringskollaps. Apple fant at når oppgavene blir for komplekse, faller nøyaktigheten plutselig til null - selv om modellen har nok regnekraft. Det er som om modellen "tappe røret". Den har ikke en virkelig forståelse av tid, rom eller kausale sammenhenger. Det er ikke noe den kan lære gjennom flere trinn.

For det tredje: instabilitet. En metode som fungerer bra på ett sett med oppgaver, kan mislykkes på et annet. Forskning fra mai 2025 viste at suksessrater for disse metodene varierer fra 42 % til 87 % - avhengig av hvordan oppgaven er formet. Det betyr at du ikke kan sette det opp og glemme det. Du må teste, teste, teste.

Hva kommer neste?

I 2026 vil resonnering ikke lenger være en ekstra funksjon. Den vil være standard. Alle store språkmodeller vil ha den - enten som en del av modellen eller som en tilleggsmodul.

Det som kommer er "Chain-of-Associated-Thoughts" - der modellen ikke bare tenker i trinn, men kobler sammen ideer fra ulike domener. Og "Test-Time Preference Optimization" - der modellen lærer å foretrekke de beste tenkebanene i sanntid, basert på tidligere suksess.

Men den store sannheten er denne: selv med alle disse forbedringene, har vi ikke sett noe som ligner på menneskelig resonnering. Vi har sett modeller som gjør et veldig godt skuespill av det. De kan løse problemer, men de forstår ikke hvorfor de løser dem. De kan finne riktige svar, men de har ingen følelse av nysgjerrighet, usikkerhet eller kreativitet.

Det er ikke noe som kommer til å forsvinne. Det er et fundamentalt begrensning. Og det betyr at vi må bruke disse modellene som verktøy - ikke som tenkere. Som assistenter. Som hjelpere. Ikke som svar.

Hvordan begynne?

Hvis du vil prøve disse metodene:

Begynn med Chain-of-Thought. Bruk en prompt som: "Tenk trinn for trinn før du svarer. Skriv ned hvert steg."
Test det på en matteoppgave eller et logisk problem. Se om svaret blir mer nøyaktig.
Hvis du vil øke nøyaktigheten, legg til selv-konsistens: "Generer 5 ulike resonnementer, og velg det svaret som dukker opp flest ganger."
Hvis du jobber med komplekse, flerdimensjonale problemer, prøv debatt. Bruk to modeller - en som argumenterer for, en som argumenterer mot.
Bruk en PRM eller en enkel regel: "Hvis svaret tar mer enn 5 sekunder, reduser antall trinn."

Det er ikke teknisk vanskelig. Det er en endring i tenkning. Ikke bare spør: "Hva er svaret?" Spør: "Hvordan kom den frem til det?" Og hvis du ser et vakkert resonnement - spør deg selv: Er det riktig? Eller bare overbevisende?"

Hva er forskjellen mellom Chain-of-Thought og selv-konsistens?

Chain-of-Thought lar modellen skrive ned hvert steg i tenkningen før den svarer. Selv-konsistens går ett steg lenger: den lar modellen generere flere ulike tenkebaner og velge det svaret som dukker opp flest ganger. Chain-of-Thought forbedrer klargjøring, selv-konsistens forbedrer nøyaktighet.

Hvorfor øker selv-konsistens kjøretiden så mye?

Fordi modellen må generere flere resonnementer - typisk 5-10 - i stedet for bare én. Hvert resonnement krever egne beregninger, og hver gang modellen må sammenligne og velge mellom dem. Det øker både regnekraft og tid. For noen applikasjoner er det en akseptabel pris for bedre nøyaktighet, men for raske tjenester kan det være for mye.

Kan små modeller bruke disse metodene?

Ja, men ikke direkte. En 7-milliarder-parameter modell kan bruke Chain-of-Thought med begrenset suksess. Men for selv-konsistens og debatt trenger du typisk 70+ milliarder parametere. Heldigvis kan du bruke distillering - der en stor modell lærer en liten modell hvordan å tenke. DeepSeek-R1 har vist at dette kan gi 28 % bedre nøyaktighet på logiske oppgaver enn tradisjonell trening.

Hvorfor fungerer ikke disse metodene alltid?

Fordi modeller ikke forstår verden - de gjør et godt skuespill. De kan generere et logisk resonnement som ser riktig ut, men inneholder en subtil feil. De kan også kollapsere når oppgaven blir for kompleks - selv om de har nok regnekraft. Det er ikke en teknisk feil, det er en fundamental begrensning i hvordan språkmodeller lærer.

Er det en god ide å bruke debatt i kundeservice?

Ikke for enkle spørsmål. Debatt er for komplekse, flerdimensjonale problemer - som juridisk analyse eller vitenskapelig resonnement. For kundeservice med enkle spørsmål som "Hvordan tilbakestiller jeg passordet?" vil debatt bare gjøre svaret langsommere og mer uforutsigbart. Her er Chain-of-Thought nok - og ofte bedre enn ingenting.

Hvordan vet jeg om en modell virkelig tenker?

Du vet det ikke. Du kan bare se om den gir riktige svar på en rekke ulike oppgaver. Hvis den gjør det konsistent, og resonnementet er logisk og ikke bare et mønster fra treningsdata, kan du stole på den - men aldri fullt ut. Det er som å stole på en veldig god skuespiller. De kan fremstå som sanne, men det er ikke det samme som å være det.

Post Comments (6)

Hayden Kjelleren

January 20, 2026 AT 06:31

Det er jo fascinerende, men jeg sitter her og tenker: når modellen skriver et vakkert resonnement, er det ikke bare et mirakel av statistikk? Jeg føler meg som en mann som ser en magisk kule som ruller opp en bakke - den ser ut som den tenker, men den har ingen vilje. Det skremmer meg litt.

Det er som å tro at en robot som synger bra faktisk elsker musikk.

Silje Løkstad

January 21, 2026 AT 16:58

OMG this is *exactly* why I’ve been screaming into the void about LLMs being ‘illusion engines’ 😤

CoT is just fancy prompt engineering - it doesn’t make the model *understand*, it just makes it *perform* understanding. And self-consistency? More like ‘majority vote of hallucinations’. And don’t even get me started on debate protocols - it’s just a bunch of bots nodding at each other like they’re in a TED Talk 💀

PRMs? Cute. But if you can’t measure *causality*, you’re just optimizing for prose, not truth. We’re building a cathedral out of smoke and mirrors. And someone’s gonna get hurt when the wind blows.

Also: 38% of Llama-3 reasoning has hidden logic gaps? That’s not a bug. That’s a feature. For marketers.

Elin Lim

January 22, 2026 AT 21:25

Tenkning er ikke beregning. Det er ikke mønstergjenkjenning. Det er ikke antall trinn. Det er forståelse. Og det har ingen modell.

Kari Viitanen

January 24, 2026 AT 12:22

Det er viktig å understreke at disse metodene ikke endrer det fundamentale: språkmodeller har ingen bevissthet, ingen subjektiv opplevelse av verden, og ingen evne til å reflektere over egne antagelser. De kan simulere logikk, men ikke inneha den. Dette er ikke en teknisk utfordring - det er en filosofisk grense.

Vi må derfor være ekstremt forsiktige med å tilskrive dem autoritet i kritiske domener som helse, rettsvesen eller etikk. En modell som gir et overbevisende svar er ikke nødvendigvis et korrekt svar - og en korrekt respons kan være farlig hvis den er basert på en usynlig feil.

Det er ikke nok å teste nøyaktighet. Vi må teste robusthet, transparens og kontekstuell forståelse - og det krever nye metoder, ikke bare mer regnekraft.

Runa Kalypso

January 24, 2026 AT 21:13

hei!! jeg prøvde coT på en enkel matteoppgave og det var så mye bedre 😍 men så prøvde jeg selv-konsistens og det tok 12 sekunder og svaret var like feil som før 😅

men jeg liker at de skriver trinn for trinn - det hjelper meg å forstå! men jeg tror det er bare en god illusion, som silje sa. men jeg er ikke en teknisk person så kanskje jeg forstår feil?

men deepseek-r1 virker som en drøm!! jeg vil ha den på min telefon!! 🤩

Olav Finne

January 26, 2026 AT 05:05

Det er en alvorlig feil å anta at CoT, selv-konsistens eller debatt gir modeller noe som ligner på menneskelig tenkning. Dette er ikke tenkning - det er kompleks tekstgenerering basert på statistiske mønstre. Ingen av metodene løser problemet med kontekstuell forståelse, kausalitet eller bevissthet.

Prøv å legge inn en oppgave som krever forståelse av tid, rom, eller sosiale normer. Se hvordan modellen faller sammen. Det er ikke en spørsmål om antall trinn eller antall simulerte diskusjoner - det er et spørsmål om ontologi.

DeepSeek-R1s distillering er interessant, men det er ikke en løsning - det er en kompromiss. Du får en bedre simulering, ikke en forståelse. Og PRM-er er bare en ny form for overfitting til menneskelige resonnementer - ikke en måte å måle sanntid forståelse.

Vi må slutte å bruke ord som "tenker" og "forstår". Det er språklig svindel. Det er ikke teknologi som skal forbedres - det er vår egen forståelse av hva teknologi faktisk er.