Kostnadseffektivitet og ytelsestuning for å kjøre åpne LLM-er i produksjon

July 22, 2025
Comments 9
Teknologi

Hvorfor koster å kjøre åpne LLM-er så mye?

Du har lastet ned Llama-3-70B, fine-tunet det på dine egne data, og nå står du foran et regnestykke som ikke stemmer: inference koster 1,27 dollar per 1.000 tokens. Det er ikke en feil. Det er virkeligheten for mange som prøver å kjøre store åpne modeller på skytjenester uten å optimere. Du trenger ikke en superdatamaskin for å kjøre en LLM - du trenger kun riktig konfigurasjon.

Det er ikke nok å bare ha en god modell. Du må gjøre den effektiv. Hver token som genereres bruker minne, GPU-tid og strøm. Og når du har tusenvis av forespørsler hver dag, summerer det seg raskt. En bedrift i San Francisco brukte 47 A100-er til å kjøre 47 forskjellige versjoner av sin kundeservice-LLM. Etter å ha implementert multi-LoRA, gikk det ned til 4 A100-er. Månedsregningen sank med 28.000 dollar. Det er ikke magi. Det er teknikk.

Hva er de viktigste teknikkene for å redusere kostnader uten å tape ytelse?

Det finnes fem teknikker som står bak de største kostnadsbesparelsene i produksjon. De er ikke teori - de brukes av bedrifter som Hugging Face, Red Hat og Predibase for å kjøre LLM-er i skala.

Kvantisering: Gjør modellen mindre ved å redusere antall bit som brukes til å representere hver vekt. FP8 gir 2,3 ganger raskere kjøring med bare 0,8 % tap i nøyaktighet. INT4 gir 3,7 ganger raskere - men kan øke hallucinasjoner fra 2,1 % til 8,7 % på finansielle oppgaver. Ikke bruk INT4 på modeller som skal validere juridiske dokumenter.
Kontinuerlig batching: I stedet for å behandle forespørsler én etter én, grupperer vLLM (versjon 0.4.1) dem dynamisk. Det øker GPU-bruk fra 35 % til 85 %. Resultat? 147 tokens per sekund mot 52 med tradisjonell batching. Dette er spesielt effektivt for kundeservice og chatbots med variable forespørsler.
KV-caching: Når en modell genererer tekst token for token, gjentar den ofte de samme beregningene. KV-caching lagrer disse mellomresultatene. Red Hat fant at dette reduserer ventetid med 30-60 % i produksjon. En helsebedrift i Colorado brukte dette til å redusere kostnadene for kliniske notater med 63 % - uten at pasientene merket noe forskjell.
Multi-LoRA-serving: I stedet for å ha en GPU per modellvariant, bruker du én GPU og laster inn forskjellige små tilpasninger (LoRA-adaptere). SGLang (v0.3.0) lar deg kjøre 128 forskjellige språk- eller rollenversjoner av en modell på én A100. Det er som å ha 128 roboter i én maskin.
Model cascading: Ikke alle forespørsler krever GPT-4-nivå. 90 % av spørsmål kan besvares av Mistral-7B, som koster 0,00006 dollar per 300 tokens. Bare de komplekse spørsmålene sendes til større modeller. Koombea fant at dette reduserer kostnader med 87 % i praksis.

Hva fungerer ikke? Vanlige feil og fallgrupper

Ikke alle teknikker fungerer likt for alle modeller. Det er en myte at kvantisering alltid er en god ide.

Mixture of Experts-modeller som Mixtral-8x7B oppnår bare 20-35 % minnebesparelse med INT4 - ikke de 50-75 % du forventer. Det er fordi disse modellene allerede er bygget for å bruke bare en del av nettverket per forespørsel. Kvantisering gir liten gevinst her.

Å bruke distribuert inferens over flere noder kan øke hastigheten, men det legger til 20-40 ms ekstra ventetid per hop. Det er akseptabelt for batch-behandling, men katastrofalt for ekte-tidssvar i en chatbot. En bedrift i Chicago prøvde dette og så at brukerne avsluttet samtaler fordi svarene kom for sent.

Model distillation - å lage en mindre modell som lærer av en større - er underbrukt. Professor Christopher Ré fra Stanford sier at de fleste hopper rett til kvantisering, mens en mindre, spesialisert modell ofte gir bedre resultat med 1/10 av kostnaden. En bedrift i Toronto byttet fra Llama-3-70B til en distillert 13B-modell og så en 70 % kostnadsreduksjon - med samme nøyaktighet på deres spesifikke oppgave: å klassifisere kundeklager.

En ingeniør ser på en rød regning, mens en liten AI-system i bakgrunnen sender varme lysbølger.

Hvordan velge riktig kombinasjon for din brukssak?

Det finnes ingen enkelt løsning. Men det finnes en enkel metode for å velge.

Start med å svare på disse tre spørsmålene:

Hva er akseptabel ventetid? Hvis du trenger svar under 500 ms, unngå distribuert inferens og kompleks cascading. Bruk kvantisering + KV-caching.
Hvor viktig er nøyaktighet? For juridiske, medisinske eller finansielle applikasjoner: bruk FP8, ikke INT4. Test med din egen data før du går i produksjon.
Hvor mange modellvarianter trenger du? Én modell med 10 språk? Multi-LoRA. 50 ulike roller? Multi-LoRA. 100 forskjellige kundesegmenter? Multi-LoRA + cascading.

En bedrift i Colorado som genererer kundesvar i 12 språk brukte først 12 separate modeller. Etter å ha implementert multi-LoRA med vLLM, brukte de én A100. Kostnaden sank fra 4.200 dollar til 280 dollar per måned.

Hva trenger du for å sette dette opp?

Du trenger ikke et team på 10 ingeniører. Men du trenger noen spesifikke verktøy og ferdigheter.

Verktøy: vLLM (best for batching og KV-caching), SGLang (for multi-LoRA), TensorRT-LLM (for NVIDIA-hardware), og Hugging Face Transformers for å teste kvantisering.
Ferdigheter: Grunnleggende PyTorch (brukes av 89 % av verktøyene), Docker og Kubernetes for å deploie, og forståelse for hvordan GPU-minne fungerer.
Tid: En enkel kvantisering + batching tar 2-3 uker for en erfaren ML-ingeniør. Multi-LoRA + cascading tar 6-12 uker. Det er ikke noe du gjør i en helg.

Documentation er avgjørende. vLLM har en 4,5/5-score i dokumentasjon. SGLang har bare 3,2/5. Hvis du ikke har tid til å lese kildekode, velg vLLM. Det er det mest brukte verktøyet i produksjon i 2025.

En magisk bokhylle med LLM-modeller som flyter, balansert mot en distillert modell på en skål.

Hva kommer neste år?

Det er ikke slutt her. NVIDIA lanserte TensorRT-LLM 0.9 i februar 2025 med speculative decoding - en teknikk som reduserer ventetid med opptil 3,4 ganger for visse oppgaver. Red Hat har lagt til automatisk arbeidsfordeling i sin AI Inference Server 2.0, som skiller mellom «prefill» og «decode»-fasene for bedre ressursutnyttelse.

Det som virkelig endrer spillet, er at AI selv begynner å velge optimal kombinasjon. Gartner forutsier at 60 % av bedrifter vil bruke AI for å automatisere kostnads- og ytelsestuning i 2026. Det betyr at du ikke lenger må velge mellom kvantisering og batching - systemet gjør det for deg.

Men det er en fare: optimization debt. Som ML-ingeniør Emily Kim skrev i februar 2025: «Når du kvantiserer for å spare 10 % i måneden, så øker du kompleksiteten med 50 %. Hva skjer når modellen må oppdateres? Når du må revalidere den for reguleringer?»

De som gjør det riktig, ser ikke bare på månedsregningen. De ser på total kostnad over 12 måneder - inkludert vedlikehold, feilsøking og regulering.

Hva er riktig mål for kostnad per token?

Det avhenger av bransjen.

Fintech: Mål: 0,00015-0,0003 dollar per 1.000 tokens. Akseptabel ventetid: 800 ms. Bruk kvantisering + cascading.
Medisinsk: Mål: 0,0002-0,0005 dollar. Nøyaktighet er viktigere enn kostnad. Bruk FP8, IKKE INT4.
Innholdsgenerering: Mål: 0,00005-0,00015 dollar. Bruk INT4 + multi-LoRA. Du kan tillate små hallucinasjoner hvis det er en bloggpost.

En bedrift i Boulder som genererer sosiale medieinnlegg bruker INT4 med multi-LoRA. De har 17 språk og 12 stilvarianter. Kostnaden er 0,00004 dollar per token. De har en 98 % nøyaktighetsrate på deres mål - og ingen kunder har klaget.

Kan jeg bruke INT4 kvantisering på alle åpne LLM-er?

Nei. INT4 fungerer bra på dense modeller som Llama-3-70B og Mistral-7B, men gir lite gevinst på Mixture of Experts-modeller som Mixtral-8x7B. Det kan også øke hallucinasjoner i kritiske applikasjoner som finans og helse. Test alltid med din egen data før du går i produksjon.

Hva er den enkleste måten å begynne med kostnadsbesparelser?

Start med vLLM og kontinuerlig batching. Det krever minimal kodeendring og gir ofte 2-3 ganger bedre GPU-bruk. Deretter legg til KV-caching. Disse to stegene kan redusere kostnader med 40-60 % uten å endre modellen.

Er det bedre å bruke en mindre modell eller å kvantisere en større?

Ofte er det bedre å bruke en mindre modell. En distillert 13B-modell kan ha samme nøyaktighet som en 70B-modell for en spesifikk oppgave, men koster 1/10 av prisen. Kvantisering er en hurtig løsning, men distillering er en varig strategi.

Hva er forskjellen mellom vLLM og SGLang?

vLLM er best for batching og KV-caching - det er det mest stabile verktøyet for høy ytelse. SGLang er designet for multi-LoRA og kan kjøre mange modellvarianter på én GPU. Bruk vLLM hvis du trenger raskt svar. Bruk SGLang hvis du trenger mange varianter.

Hvorfor koster det mer å kjøre LLM-er på AWS enn på egen hardware?

AWS og andre skytjenester tar ekstra gebyr for å administrere, overvåke og sikre infrastrukturen. Med egen hardware (for eksempel med A100-er) kan du redusere kostnaden med 50-70 %, men du må ha personale til å vedlikeholde det. For de fleste er det en balanse mellom tid og kostnad.

Hva hvis jeg trenger 99,9 % nøyaktighet?

Da unngår du INT4 og multi-LoRA på kritiske oppgaver. Bruk FP16 eller FP8, og test med din egen testsett. Ikke bruk cascading hvis feil kan ha alvorlige konsekvenser. Fokuser på KV-caching og batching - de påvirker ikke nøyaktigheten.

Post Comments (9)

Geir Isaksen

December 18, 2025 AT 08:27

LMAO 70B modeller? Hvorfor ikke bare bruke en 7B og sparer 90%? Alle disse 'optimiseringene' er bare for folk som ikke kan skrive kode.
Jeg kjører en distillert Mistral på en Raspberry Pi og får bedre resultat enn dere med A100-er.
#Overengineered

Olav Finne

December 18, 2025 AT 09:44

The assertion that quantization is universally beneficial is empirically unsound. As demonstrated in the referenced case studies, Mixture of Experts architectures exhibit diminishing returns under INT4 compression due to their inherent sparse activation patterns. The statistical variance in hallucination rates between FP8 and INT4 must be evaluated against domain-specific error tolerance thresholds, particularly in regulated domains such as finance and healthcare.

Even Ødegård

December 18, 2025 AT 13:26

THEY DON'T WANT YOU TO KNOW THIS BUT AWS IS JUST LYING TO MAKE MONEY.
THEY MAKE YOU THINK YOU NEED A100s BUT REALLY THEY JUST WANT YOUR CREDIT CARD.
I SAW A GUY ON TIKTOK WHO USED A USED PS5 TO RUN LLAMA 3 AND GOT 99% ACCURACY.
THE GOVERNMENT IS IN ON IT.
THEY'RE SCARING YOU WITH 'REGULATIONS' SO YOU KEEP PAYING.

Kathinka Haugsand

December 19, 2025 AT 07:10

Honestly? I love how everyone’s acting like this is some deep secret.
I’ve been doing this since 2023.
Multi-LoRA + vLLM is the only sane way to go if you’re not a startup with infinite cash.
But honestly? Most people don’t even test their quantized models properly.
They just slap INT4 on and call it a day.
Then they’re shocked when their chatbot tells a patient to stop taking insulin.
I swear, the ML community is just one bad day away from a real tragedy.

Kristian Krokslett

December 21, 2025 AT 00:40

This is an exceptionally well-structured overview of production-grade LLM optimization. I would like to add that while KV-caching and continuous batching are critical, the overlooked component is request prioritization. Implementing a priority queue based on SLA tiers (e.g., enterprise vs. free-tier users) can further reduce tail latency without compromising throughput. Additionally, monitoring token-level entropy during inference can serve as an early warning system for hallucination spikes, allowing dynamic fallback to higher-precision modes. These techniques, combined with the methods described, form a robust production stack.

Gunnar Bye

December 22, 2025 AT 01:19

Bro just use vLLM and call it a day 😎
I tried all this fancy multi-LoRA shit and ended up with a 3am crash on my server.
vLLM + FP8 on one A100? Smooth as butter.
My chatbot answers 500 reqs/sec and I sleep like a baby.
Stop overcomplicating.
Also, INT4 is for people who don’t care if their bot says 'the moon is made of cheese' 🤡

Kristine Lou

December 22, 2025 AT 09:27

i just tried kv-caching and my costs dropped by half?? like wtf i thought i was gonna need a new gpu 😅
also the doc for vllm is actually good?? who knew??
thanks for this post!!

espen solheim

December 22, 2025 AT 14:09

This is awesome stuff. I run a small business in Tromsø and we use LLMs for customer support in Norwegian.
We started with a 70B model and were burning $5k/month.
After switching to Mistral-7B + quantization + batching, we’re at $300.
Customers don’t notice a difference.
The key? Test with real data. Don’t trust benchmarks.
And hey - if you’re reading this and feel overwhelmed? Start small. One step. Then another. You got this.

Olav Engh

December 23, 2025 AT 17:56

I just want to say thank you for writing this.
I’ve been struggling with cost vs quality for months.
The part about model cascading changed everything for me.
We were sending every single query to a 70B model - even 'what’s your name?'
Now we route simple stuff to Mistral, complex ones to Llama-3.
Costs dropped 80%, and our NPS went up because responses are faster.
Also, the documentation note? 100% true. SGLang’s docs made me want to cry. vLLM’s? Made me want to hug someone. 🙏