Det er en utbredt oppfatning at mer intelligens i AI bare handler om flere parametere. Men med inntoget av resonnerende språkmodeller (LRMs) har spillereglene endret seg. Det handler ikke lenger bare om hvor stor modellen er, men om hvor mye den "tenker" før den svarer. Denne interne prosessen, kjent som deliberasjon, gir oss utrolige resultater i kompleks problemløsning, men den kommer med en prislapp som kan sende budsjetter rett i taket hvis man ikke passer på.
Hva er egentlig internal deliberation i LRMs?
Tradisjonelle språkmodeller spytter ut neste ord basert på sannsynlighet. En Large Reasoning Model er annerledes. Den fungerer mer som et menneske som stopper opp for å planlegge svaret sitt. Ved å bruke modulære operatorer som Generate, Refine, Aggregate, Select, Backtrack og Evaluate, kan modellen revidere egne tankerekker før den presenterer et endelig svar.
Denne strukturen styres av policy- og verdinettverk som dynamisk bestemmer neste steg. For brukeren ser det kanskje ut som en liten pause, men bak kulissene foregår det en massiv beregningsmessig innsats. Dette skaper det vi kaller deliberasjonskostnader. I motsetning til standard inferens, hvor kostnaden er lineær per token, er kostnaden i en LRM knyttet til hvor mange resonneringssteg modellen føler hun må ta for å løse oppgaven.
Hvorfor det koster mer: Den tekniske realiteten
Hvis vi ser på tallene, er spranget i ressursbruk betydelig. En vanlig språkmodell bruker omtrent 1-2 FLOPs per parameter per token. En LRM kan øke dette behovet med 3 til 10 ganger, avhengig av hvor komplisert logikken er.
La oss ta et konkret eksempel. Hvis du ber en 70-milliarders parameter-modell om å løse en kompleks juridisk tvist, kan den bruke 2 500 tokens på intern deliberasjon, mens en standardmodell kanskje bare hadde brukt 800 tokens på et (sannsynligvis mindre nøyaktig) svar. Med en pris på $0.0001 per 1 000 tokens, ser vi at kostnadene øker raskt. Det er ikke bare penger, men også maskinvare; studier fra University of Pennsylvania viser at man trenger 40-60 % mer GPU-minne bare for å holde styr på resonneringstilstanden underveis.
| Metrikk | Standard LLM | Resonnerende LRM | Differanse |
|---|---|---|---|
| Beregninger (FLOPs) | 1-2 per parameter/token | 3-20 per parameter/token | Opptil 10x økning |
| Strømforbruk (per query) | ~0.22 Wh | 0.85 - 4.7 Wh | 2.3x - 4.7x høyere |
| GPU-minnebehov | Basislinje | +40-60 % | Betydelig høyere |
| Token-forbruk (kompleks oppgave) | Lavt/Medium | Høyt (interne steg) | Ofte 3x+ flere tokens |
Når lønner det seg egentlig å bruke resonneringsmodeller?
Det er fristende å bruke den smarteste modellen til alt, men det er en økonomisk katastrofe. Hvis du spør om hovedstaden i Frankrike, er en LRM totalt unødvendig. Her vil en standardmodell koste kanskje $0.000015, mens en LRM bruker $0.000045 på grunn av unødvendig overhead. Det er en 300 % prisøkning for nøyaktig samme svar.
Men når vi beveger oss over til analyse av karbonavgifter kontra kvotesystemer, endrer bildet seg. Her viser data fra Anthropic at LRMs faktisk har en kostnadsfordel på 28-42 % per oppnådd nøyaktighetseining. Hvorfor? Fordi de treffer riktig svar på første forsøk, mens en standardmodell krever at brukeren skriver prompten på nytt fem ganger for å få et logisk svar.
Det kritiske punktet, eller "break-even", ligger vanligvis rundt 17-23 resonneringssteg. Er oppgaven enklere enn det, kast bort pengene på en standardmodell. Er den mer kompleks, er LRM det eneste rasjonelle valget.
Fellene: "Uncontrolled Reasoning Expansion"
Det skumleste med disse modellene er når de går i loop. Dr. Marcus Johnson fra DeepMind har advart mot det han kaller ukontrollert resonneringsutvidelse. Dette skjer når modellen genererer endeløse mengder mellomliggende steg uten at det faktisk forbedrer svaret. I verste fall kan kostnadene øke med 500 til 2 000 % uten at du får et bedre resultat.
Vi har sett eksempler på Reddit og HackerNews der ingeniører har opplevd at en enkelt spørring kostet over 17 dollar fordi modellen havnet i en logisk sirkel. En CTO rapporterte til og med om en analyse som kostet 214 dollar - mer enn hele månedsbudsjettet for den spesifikke tjenesten. Dette viser at man ikke kan slippe en LRM løs i produksjon uten strenge grenser for hvor dypt modellen får grave.
Slik kontrollerer du kostnadene i praksis
For å unngå økonomisk kaos må bedrifter implementere det som kalles deliberation budgeting. Dette betyr at man klassifiserer spørsmål før de når modellen. Er dette et enkelt faktaspørsmål? Send det til en billig modell. Er dette strategisk planlegging? Tillat 5-8 resonneringssteg. Er det en kompleks policy-evaluering? Gi den 8-12 steg.
Verktøy som Azure Reasoning Optimizer har vist at man kan redusere kostnadene med over 50 % ved å velge operatorer mer intelligent. Et annet viktig grep er å bruke rammeverk som FoReaL-Decoding, som er betydelig mer token-effektivt enn naiv "Chain-of-Thought"-tilnærming.
Hvis du sitter med implementeringen nå, bør du følge disse tommelfingerreglene for resonneringsdybde:
- Faktisk analyse: 3-5 steg.
- Strategisk planlegging: 5-8 steg.
- Kompleks policyevaluering: 8-12 steg.
Går du utover 12 steg, ser man ofte en kraftig avtagende nytteverdi, mens kostnadene fortsetter å stige eksponensielt.
Veien videre mot 2026 og utover
Markedet beveger seg raskt. Vi ser nå introduksjonen av konsepter som "resonneringskompresjon", slik som i Llama-Reason 3.0, som klarer å beholde 95 % av kvaliteten med bare 40 % av kostnadene. Det mest spennende er likevel de kommende systemene for adaptive budsjetter som automatisk vil analysere kost-nytte i sanntid mens modellen tenker.
For de fleste bedrifter vil ikke løsningen være å velge én modell, men å bruke en hybrid strategi. Ved å rute 76 % av alle forespørsler til standardmodeller og kun bruke LRMs for de virkelig tunge oppgavene, kan man oppnå den nødvendige presisjonen uten at AI-budsjettet eksploderer. Det handler om å finne balansen mellom maskinell "tenketid" og økonomisk realitet.
Hvorfor er resonnerende modeller dyrere enn vanlige LLMer?
De er dyrere fordi de utfører en intern prosess med deliberasjon. I stedet for å generere et svar direkte, går de gjennom flere steg med generering, raffinering og evaluering. Dette krever betydelig flere tokens, mer GPU-minne og mer strøm per spørring.
Hva er "uncontrolled reasoning expansion"?
Dette er en situasjon der modellen genererer altfor mange interne tankesteg uten at det fører til et bedre svar. Dette kan skje hvis modellen havner i en logisk loop, og kan føre til at kostnadene for en enkelt spørring øker med flere hundre prosent.
Når bør jeg velge en LRM over en standard LLM?
Du bør bruke en LRM når oppgaven krever mer enn 17-23 resonneringssteg, eller når nøyaktighet er kritisk og standardmodeller krever for mange manuelle forsøk på å få riktig svar (f.eks. i medisinsk diagnostikk eller kompleks finansanalyse).
Hvordan kan jeg redusere kostnadene ved bruk av resonneringsmodeller?
Den beste metoden er å implementere "deliberation budgeting", hvor du begrenser antall resonneringssteg basert på oppgavens kompleksitet. I tillegg kan bruk av token-effektive dekodingsmetoder som FoReaL-Decoding redusere kostnadene betraktelig.
Hvor mye mer strøm bruker en LRM i "deep reasoning mode"?
Analyser viser at LRMs kan bruke mellom 2,3 og 4,7 ganger mer elektrisitet per spørring sammenlignet med standard inferens. Dette skyldes den økte beregningsbelastningen under den interne tenkeprosessen.