Kostnadene ved intern deliberasjon i resonnerende språkmodeller

April 18, 2026
Comments 9
Teknologi og kunstig intelligens

Det er en utbredt oppfatning at mer intelligens i AI bare handler om flere parametere. Men med inntoget av resonnerende språkmodeller (LRMs) har spillereglene endret seg. Det handler ikke lenger bare om hvor stor modellen er, men om hvor mye den "tenker" før den svarer. Denne interne prosessen, kjent som deliberasjon, gir oss utrolige resultater i kompleks problemløsning, men den kommer med en prislapp som kan sende budsjetter rett i taket hvis man ikke passer på.

Hva er egentlig internal deliberation i LRMs?

Tradisjonelle språkmodeller spytter ut neste ord basert på sannsynlighet. En Large Reasoning Model er annerledes. Den fungerer mer som et menneske som stopper opp for å planlegge svaret sitt. Ved å bruke modulære operatorer som Generate, Refine, Aggregate, Select, Backtrack og Evaluate, kan modellen revidere egne tankerekker før den presenterer et endelig svar.

Denne strukturen styres av policy- og verdinettverk som dynamisk bestemmer neste steg. For brukeren ser det kanskje ut som en liten pause, men bak kulissene foregår det en massiv beregningsmessig innsats. Dette skaper det vi kaller deliberasjonskostnader. I motsetning til standard inferens, hvor kostnaden er lineær per token, er kostnaden i en LRM knyttet til hvor mange resonneringssteg modellen føler hun må ta for å løse oppgaven.

Hvorfor det koster mer: Den tekniske realiteten

Hvis vi ser på tallene, er spranget i ressursbruk betydelig. En vanlig språkmodell bruker omtrent 1-2 FLOPs per parameter per token. En LRM kan øke dette behovet med 3 til 10 ganger, avhengig av hvor komplisert logikken er.

La oss ta et konkret eksempel. Hvis du ber en 70-milliarders parameter-modell om å løse en kompleks juridisk tvist, kan den bruke 2 500 tokens på intern deliberasjon, mens en standardmodell kanskje bare hadde brukt 800 tokens på et (sannsynligvis mindre nøyaktig) svar. Med en pris på $0.0001 per 1 000 tokens, ser vi at kostnadene øker raskt. Det er ikke bare penger, men også maskinvare; studier fra University of Pennsylvania viser at man trenger 40-60 % mer GPU-minne bare for å holde styr på resonneringstilstanden underveis.

Sammenligning av kostnadsdrivere: Standard LLM vs. LRM
Metrikk	Standard LLM	Resonnerende LRM	Differanse
Beregninger (FLOPs)	1-2 per parameter/token	3-20 per parameter/token	Opptil 10x økning
Strømforbruk (per query)	~0.22 Wh	0.85 - 4.7 Wh	2.3x - 4.7x høyere
GPU-minnebehov	Basislinje	+40-60 %	Betydelig høyere
Token-forbruk (kompleks oppgave)	Lavt/Medium	Høyt (interne steg)	Ofte 3x+ flere tokens

Surrealistisk serverrom med lysende kretser som viser ukontrollert resonnering.

Når lønner det seg egentlig å bruke resonneringsmodeller?

Det er fristende å bruke den smarteste modellen til alt, men det er en økonomisk katastrofe. Hvis du spør om hovedstaden i Frankrike, er en LRM totalt unødvendig. Her vil en standardmodell koste kanskje $0.000015, mens en LRM bruker $0.000045 på grunn av unødvendig overhead. Det er en 300 % prisøkning for nøyaktig samme svar.

Men når vi beveger oss over til analyse av karbonavgifter kontra kvotesystemer, endrer bildet seg. Her viser data fra Anthropic at LRMs faktisk har en kostnadsfordel på 28-42 % per oppnådd nøyaktighetseining. Hvorfor? Fordi de treffer riktig svar på første forsøk, mens en standardmodell krever at brukeren skriver prompten på nytt fem ganger for å få et logisk svar.

Det kritiske punktet, eller "break-even", ligger vanligvis rundt 17-23 resonneringssteg. Er oppgaven enklere enn det, kast bort pengene på en standardmodell. Er den mer kompleks, er LRM det eneste rasjonelle valget.

Fellene: "Uncontrolled Reasoning Expansion"

Det skumleste med disse modellene er når de går i loop. Dr. Marcus Johnson fra DeepMind har advart mot det han kaller ukontrollert resonneringsutvidelse. Dette skjer når modellen genererer endeløse mengder mellomliggende steg uten at det faktisk forbedrer svaret. I verste fall kan kostnadene øke med 500 til 2 000 % uten at du får et bedre resultat.

Vi har sett eksempler på Reddit og HackerNews der ingeniører har opplevd at en enkelt spørring kostet over 17 dollar fordi modellen havnet i en logisk sirkel. En CTO rapporterte til og med om en analyse som kostet 214 dollar - mer enn hele månedsbudsjettet for den spesifikke tjenesten. Dette viser at man ikke kan slippe en LRM løs i produksjon uten strenge grenser for hvor dypt modellen får grave.

Illustrasjon av en hybrid AI-strategi som balanserer enkle og komplekse oppgaver.

Slik kontrollerer du kostnadene i praksis

For å unngå økonomisk kaos må bedrifter implementere det som kalles deliberation budgeting. Dette betyr at man klassifiserer spørsmål før de når modellen. Er dette et enkelt faktaspørsmål? Send det til en billig modell. Er dette strategisk planlegging? Tillat 5-8 resonneringssteg. Er det en kompleks policy-evaluering? Gi den 8-12 steg.

Verktøy som Azure Reasoning Optimizer har vist at man kan redusere kostnadene med over 50 % ved å velge operatorer mer intelligent. Et annet viktig grep er å bruke rammeverk som FoReaL-Decoding, som er betydelig mer token-effektivt enn naiv "Chain-of-Thought"-tilnærming.

Hvis du sitter med implementeringen nå, bør du følge disse tommelfingerreglene for resonneringsdybde:

Faktisk analyse: 3-5 steg.
Strategisk planlegging: 5-8 steg.
Kompleks policyevaluering: 8-12 steg.

Går du utover 12 steg, ser man ofte en kraftig avtagende nytteverdi, mens kostnadene fortsetter å stige eksponensielt.

Veien videre mot 2026 og utover

Markedet beveger seg raskt. Vi ser nå introduksjonen av konsepter som "resonneringskompresjon", slik som i Llama-Reason 3.0, som klarer å beholde 95 % av kvaliteten med bare 40 % av kostnadene. Det mest spennende er likevel de kommende systemene for adaptive budsjetter som automatisk vil analysere kost-nytte i sanntid mens modellen tenker.

For de fleste bedrifter vil ikke løsningen være å velge én modell, men å bruke en hybrid strategi. Ved å rute 76 % av alle forespørsler til standardmodeller og kun bruke LRMs for de virkelig tunge oppgavene, kan man oppnå den nødvendige presisjonen uten at AI-budsjettet eksploderer. Det handler om å finne balansen mellom maskinell "tenketid" og økonomisk realitet.

Hvorfor er resonnerende modeller dyrere enn vanlige LLMer?

De er dyrere fordi de utfører en intern prosess med deliberasjon. I stedet for å generere et svar direkte, går de gjennom flere steg med generering, raffinering og evaluering. Dette krever betydelig flere tokens, mer GPU-minne og mer strøm per spørring.

Hva er "uncontrolled reasoning expansion"?

Dette er en situasjon der modellen genererer altfor mange interne tankesteg uten at det fører til et bedre svar. Dette kan skje hvis modellen havner i en logisk loop, og kan føre til at kostnadene for en enkelt spørring øker med flere hundre prosent.

Når bør jeg velge en LRM over en standard LLM?

Du bør bruke en LRM når oppgaven krever mer enn 17-23 resonneringssteg, eller når nøyaktighet er kritisk og standardmodeller krever for mange manuelle forsøk på å få riktig svar (f.eks. i medisinsk diagnostikk eller kompleks finansanalyse).

Hvordan kan jeg redusere kostnadene ved bruk av resonneringsmodeller?

Den beste metoden er å implementere "deliberation budgeting", hvor du begrenser antall resonneringssteg basert på oppgavens kompleksitet. I tillegg kan bruk av token-effektive dekodingsmetoder som FoReaL-Decoding redusere kostnadene betraktelig.

Hvor mye mer strøm bruker en LRM i "deep reasoning mode"?

Analyser viser at LRMs kan bruke mellom 2,3 og 4,7 ganger mer elektrisitet per spørring sammenlignet med standard inferens. Dette skyldes den økte beregningsbelastningen under den interne tenkeprosessen.

Post Comments (9)

Olav Finne

April 20, 2026 AT 05:32

Det er problematisk at teksten overforenkler sammenhengen mellom parametere og resonnering. Flops per parameter er en grov målestokk, og man må ta hensyn til KV-cache og minnebåndbredde for å faktisk forstå hvorfor kostnadene stiger. Det er ikke bare snakk om "tenketid", men om den faktiske arkitektoniske overheaden ved rekursive kall.

Even Ødegård

April 21, 2026 AT 18:00

Dette er sikkert bare noe de sier for å lure oss til å betale mer. Sannsynligvis styrer de disse "loopene" selv for å tømme kontoene våre. Alt dette med AI er uansett bare en måte å overvåke oss på.

Kathinka Haugsand

April 22, 2026 AT 04:24

Så utrolig søtt at folk tror dette er ny informasjon. For oss som faktisk analyserer dette på et høyere nivå, er det helt åpenbart at dette er en bevisst strategi fra OpenAI og gjengen for å skape et kunstig skille mellom gratisbrukere og corporate-klienter. Men det er jo egentlig ganske fascinerende hvordan massene bare svelger disse tallene uten å se det store bildet av maktkonsentrasjonen her.

Runa Kalypso

April 23, 2026 AT 05:42

Veldig bra forklart! Men jeg tror det er en skrivefeil i tabelen der, eller kanskje jeg ser feil? Uansett er det jo sykt dyrt med strømmen no om dage, så dette høres helt krise ut for miljøet!

Torolf Bjoerklund

April 24, 2026 AT 08:10

Er vi virkelig så naive at vi tror "nøyaktighet" er det viktigste? Kanskje det er nettopp i loopene at den egentlige sannheten ligger, skjult bak en vegg av tokens 🌀. Det er jo nesten poetisk at maskinen prøver å finne mening i et kaos vi selv har skapt. Men ja, penger er jo så banalt.

Christoffer Sundby

April 26, 2026 AT 04:50

Det viktigste her er å finne en bærekraftig implementering. Det hjelper ikke å ha den smarteste modellen hvis den spiser opp hele driftsbudsjettet på en uke. Vi må fokusere på å bygge robuste systemer som kan rute forespørslene riktig.

Hayden Kjelleren

April 26, 2026 AT 12:42

Jeg orker ikke engang å tenke på hvor mye energi dette krever. Alt føles bare så tomt.

Kristian Krokslett

April 27, 2026 AT 08:10

Det er interessant å se på sammenhengen mellom antall resonneringssteg og nøyaktighetsgevinst. Hvis man ser på break-even punktet ved 17-23 steg, antyder det at det finnes en spesifikk kognitiv terskel for visse oppgavetyper. Dette åpner for spennende muligheter innenfor dynamisk ruting av API-kall for å optimalisere både latenstid og kostnad.

Kari Viitanen

April 28, 2026 AT 11:09

Det er virkelig tankevekkende hvordan den teknologiske utviklingen tvinger oss til å revurdere hva vi anser som effektivt. Det kan føles overveldende for mindre bedrifter å navigere i dette landskapet uten å risikere store økonomiske tap, men med riktig veiledning og en balansert tilnærming til budsjettering, kan man likevel dra nytte av disse kraftige verktøyene uten at det går på bekostning av stabiliteten i organisasjonen.