Store språkmodeller (LLM-er) ser ut til å tenke. De svarer på komplekse spørsmål, løser matematiske problemer og skriver kodesnutter som en erfaren utvikler. Men de tenker ikke. De mønstergjenkjenner. Og det er en viktig forskjell.
Det er ikke tenkning - det er statistikk
En LLM som GPT-4o eller DeepSeek-R1 er ikke en liten datamaskin som har lært logikk som du og jeg. Den er en ekstremt stor søkemotor for ordmønstre. Når du spør den: Hva skjer hvis det regner?, svarer den ikke fordi den forstår vær og fysikk. Den svarer fordi hun har sett millioner av ganger at ordet regner kommer før grunnen blir våt i tekstene den har lest. Det er ikke forståelse. Det er statistisk sannsynlighet.
Denne typen generalisering er effektiv - men skjør. Den fungerer bra når mønsteret er tydelig og ofte gjentatt. Men når du legger til en liten forandring - f.eks. et matematisk problem som krever nøyaktig algoritme - så feiler den ofte. En studie fra Apple i oktober 2025 viste at slike modeller klarer 92 % av oppgaver som bygger på mønstre, men feiler i 68 % av tilfellene der de må bruke nøyaktig regning. De kan ikke regne ut 17 × 23 i hodet. De gjetter.
Den illusjonen av resonnement
De nyeste modellene - som DeepSeek-R1 og Qwen3 - gir deg ikke bare et svar. De gir deg et resonnementsforløp. De skriver trinn for trinn: Først gjør jeg dette, så dette, så dette. Det føles som tenkning. Det er ikke.
Disse modellene kalles nå for Large Reasoning Models (LRM-er). De er ikke bygget på logikk. De er bygget på å lære å simulere resonnement. Når du trener dem på tusenvis av matematiske problemer med løsningssteg, lærer de å gjenkjenne hvilke ord som kommer i hvilken rekkefølge. De lærer ikke reglene. De lærer hvordan man ser ut som man følger reglene.
Det er som å lære en hund å sitte ved å gi den en godbit hver gang den setter seg. Hun sitter ikke fordi hun forstår hva «sitte» betyr. Hun sitter fordi hun har lært at det fører til en belønning. LRM-er gjør det samme - bare med ord.
DeepSeek-R1 mot Qwen3: To ulike veier til samme illusjon
Ikke alle LRM-er tenker likt. Studier fra arXiv i september 2025 viste at DeepSeek-R1-7B bruker en lineær tilnærming. Den går fra A til B til C - som en vannfall. Den tar ett steg om gangen og går videre. Qwen3-modellene, derimot, bruker iterative mønstre. De går tilbake og frem, gjentar seg selv, prøver nye veier - som en person som mumler til seg selv mens de løser et riddle.
Hvilken er best? Det avhenger av oppgaven. DeepSeek-R1 er raskere og mer stabil for enkle oppgaver. Qwen3 presterer bedre på komplekse problemer der det trengs litt «prøving og feiling». Men begge feiler på det samme: nøyaktig beregning. En bruker rapporterte at Qwen3-14B kom i en løkke i 34 % av matematiske oppgaver - den gjenbrukte samme resonnementssteg, uansett om det var riktig eller ikke.
Hvorfor feiler de på matematikk?
Matematikk krever determinisme. 2 + 2 er alltid 4. Ingen gjetninger. Ingen statistikk. Men LLM-er har ingen «regnebrikker». De har ikke en intern kalkulator. De lærer å skrive «2 + 2 = 4» fordi det stod der mange ganger i treningsdataene. Når du spør dem om 13 × 47, så prøver de å gjenkjenne mønsteret fra lignende oppgaver - ikke regne det ut.
Et eksperiment fra Stanford i desember 2025 viste at når man spurte Qwen3-14B om 13 × 47, så svarte den riktig i 79 % av tilfellene - bare hvis den fikk bruke flere forsøk og velge det mest gjentatte svaret (majority voting). Men når den måtte regne ut 13 × 47 en gang, uten å kunne sammenligne med andre svar, så feilet den i 58 % av tilfellene. Det er ikke en feil. Det er en arkitektonisk begrensning.
Det er ikke bare matematikk - det er logikk
En annen type oppgave der LLM-er feiler er logiske inferenser. Tenk på dette:
- Alle katter er dyr.
- Alle dyr har fire bein.
- Derfor er alle katter dyr med fire bein.
Dette er en gyldig logisk slutning. Men mange LLM-er vil si: Nei, ikke alle dyr har fire bein - f.eks. fugler. Og da stopper de. De har ikke lært hvordan man følger en logisk kjede. De har lært at «katter» og «fire bein» ofte kommer sammen i tekster. De har ikke lært hva «alle» betyr i en logisk kontekst.
Reddit-brukere rapporterte i 2025 at 78 % av LLM-svarene på logiske oppgaver inneholdt feil som kom av «mønsterforvirring». De så ord som «alle» og «har» og kombinerte dem med det de hadde sett før - ikke med hva logikken faktisk krever.
Hva skjer når du prøver å fikse det?
Mange prøver å fikse dette med prompt engineering. Du skriver: «Tenk trinn for trinn. Vis alle beregningene. Sjekk svaret to ganger.» Det hjelper. Noen ganger. En studie fra Stack Overflow i november 2025 viste at riktig prompting økte nøyaktigheten med 18-23 % på kodegenerering. Men det er som å legge en plasters på et hull i en båt.
Det er fortsatt en risiko for språkforvirring. Dr. Sebastian Raschka påpekte i september 2025 at hvis du blander engelsk og norsk i en prompt, så kan modellen plutselig bytte språk i resonnementsstegene. Det skaper uforutsigbare feil. Og det er ikke noe du kan fikse med bedre instruksjoner. Det er en del av hvordan modellen er bygget.
Det er også et kostnadsproblem. Når en LRM skriver et resonnementsforløp, bruker den 2,5-3,7 ganger flere ord enn en vanlig LLM. Det betyr flere regneoperasjoner. Høyere regnekraft. Høyere pris. Det er ikke bare en teknisk utfordring - det er økonomisk.
Hvordan bedrifter bruker dette i praksis
Gartner rapporterte i desember 2025 at 68 % av bedrifter som bruker LLM-er har møtt «resonnementsfeil» i kritiske systemer. Noen har startet å bygge «valideringslag» - ekstra systemer som sjekker om svaret er logisk. Andre har valgt å bruke LLM-er bare for oppgaver der mønstergjenkjenning er nok: sammendrag, skriving, kategorisering.
De som trenger resonnement - f.eks. juridisk analyse, finansiell risikovurdering eller medisinsk diagnostikk - bruker nå hybrid-systemer. En LLM gir et forslag. Et annet system - basert på regler og algoritmer - sjekker om det er logisk. Det er ikke perfekt. Men det er tryggere.
Etter en analyse av IDC i Q4 2025, har DeepSeek-R1 og lignende modeller tatt 22 % av markedet for enterprise-resonnement. Det er ikke en stor andel - men det vokser raskt. Og store selskaper som OpenAI og Google legger nå inn «resonnementsspor» i sine modeller - ikke fordi de tror de tenker, men fordi kundene tror det.
Det er ikke bare teknologi - det er et spørsmål om tillit
Den største utfordringen er ikke teknisk. Den er psykologisk. Mennesker tror at når en maskin skriver et resonnementsforløp, så tenker den. Det er en illusjon. Og det er farlig.
EU’s AI Office gav i februar 2026 en forslag til retningslinjer: Systemer som påstår å ha resonnementskapasitet må dokumentere at de bare bruker mønstergjenkjenning. Det er et viktig skritt. For hvis du bruker en LLM til å vurdere en kredittansøkning, og den gir et «resonnementsforløp» som lyder som en menneskelig analyse - men faktisk bare gjetter - så har du ikke bare en teknisk feil. Du har en etisk feil.
Hva kommer neste?
Flere forskere tror at fremtiden ikke ligger i større modeller. Den ligger i hybridarkitekturer. Tenk deg en LLM som kan ringe opp en ekstern «logikkmotor» når den trenger å regne ut noe. Eller en modell som kan bruke en symbolisk regelbok for å validere sine egne svar.
Dr. Sebastian Raschka skrev i desember 2025: «Neste fase vil kombinere nevronalt mønstergjenkjenning med symbolisk logikk. Ingen av dem fungerer alene. Men sammen? Da kan vi komme nær det vi kaller resonnement.»
En rapport fra Stanford HAI i januar 2026 viste at 87 % av AI-forskere er enige: «Ekte resonnement krever en annen arkitektur enn de vi har i dag.»
Det betyr at vi ikke vil få en LLM som tenker som en menneskelig filosof. Men vi kan få en LLM som vet når den ikke vet - og da ber om hjelp.
Det er ikke perfekt. Men det er mer ærlig.