Hvorfor koster å kjøre åpne LLM-er så mye?
Du har lastet ned Llama-3-70B, fine-tunet det på dine egne data, og nå står du foran et regnestykke som ikke stemmer: inference koster 1,27 dollar per 1.000 tokens. Det er ikke en feil. Det er virkeligheten for mange som prøver å kjøre store åpne modeller på skytjenester uten å optimere. Du trenger ikke en superdatamaskin for å kjøre en LLM - du trenger kun riktig konfigurasjon.
Det er ikke nok å bare ha en god modell. Du må gjøre den effektiv. Hver token som genereres bruker minne, GPU-tid og strøm. Og når du har tusenvis av forespørsler hver dag, summerer det seg raskt. En bedrift i San Francisco brukte 47 A100-er til å kjøre 47 forskjellige versjoner av sin kundeservice-LLM. Etter å ha implementert multi-LoRA, gikk det ned til 4 A100-er. Månedsregningen sank med 28.000 dollar. Det er ikke magi. Det er teknikk.
Hva er de viktigste teknikkene for å redusere kostnader uten å tape ytelse?
Det finnes fem teknikker som står bak de største kostnadsbesparelsene i produksjon. De er ikke teori - de brukes av bedrifter som Hugging Face, Red Hat og Predibase for å kjøre LLM-er i skala.
- Kvantisering: Gjør modellen mindre ved å redusere antall bit som brukes til å representere hver vekt. FP8 gir 2,3 ganger raskere kjøring med bare 0,8 % tap i nøyaktighet. INT4 gir 3,7 ganger raskere - men kan øke hallucinasjoner fra 2,1 % til 8,7 % på finansielle oppgaver. Ikke bruk INT4 på modeller som skal validere juridiske dokumenter.
- Kontinuerlig batching: I stedet for å behandle forespørsler én etter én, grupperer vLLM (versjon 0.4.1) dem dynamisk. Det øker GPU-bruk fra 35 % til 85 %. Resultat? 147 tokens per sekund mot 52 med tradisjonell batching. Dette er spesielt effektivt for kundeservice og chatbots med variable forespørsler.
- KV-caching: Når en modell genererer tekst token for token, gjentar den ofte de samme beregningene. KV-caching lagrer disse mellomresultatene. Red Hat fant at dette reduserer ventetid med 30-60 % i produksjon. En helsebedrift i Colorado brukte dette til å redusere kostnadene for kliniske notater med 63 % - uten at pasientene merket noe forskjell.
- Multi-LoRA-serving: I stedet for å ha en GPU per modellvariant, bruker du én GPU og laster inn forskjellige små tilpasninger (LoRA-adaptere). SGLang (v0.3.0) lar deg kjøre 128 forskjellige språk- eller rollenversjoner av en modell på én A100. Det er som å ha 128 roboter i én maskin.
- Model cascading: Ikke alle forespørsler krever GPT-4-nivå. 90 % av spørsmål kan besvares av Mistral-7B, som koster 0,00006 dollar per 300 tokens. Bare de komplekse spørsmålene sendes til større modeller. Koombea fant at dette reduserer kostnader med 87 % i praksis.
Hva fungerer ikke? Vanlige feil og fallgrupper
Ikke alle teknikker fungerer likt for alle modeller. Det er en myte at kvantisering alltid er en god ide.
Mixture of Experts-modeller som Mixtral-8x7B oppnår bare 20-35 % minnebesparelse med INT4 - ikke de 50-75 % du forventer. Det er fordi disse modellene allerede er bygget for å bruke bare en del av nettverket per forespørsel. Kvantisering gir liten gevinst her.
Å bruke distribuert inferens over flere noder kan øke hastigheten, men det legger til 20-40 ms ekstra ventetid per hop. Det er akseptabelt for batch-behandling, men katastrofalt for ekte-tidssvar i en chatbot. En bedrift i Chicago prøvde dette og så at brukerne avsluttet samtaler fordi svarene kom for sent.
Model distillation - å lage en mindre modell som lærer av en større - er underbrukt. Professor Christopher Ré fra Stanford sier at de fleste hopper rett til kvantisering, mens en mindre, spesialisert modell ofte gir bedre resultat med 1/10 av kostnaden. En bedrift i Toronto byttet fra Llama-3-70B til en distillert 13B-modell og så en 70 % kostnadsreduksjon - med samme nøyaktighet på deres spesifikke oppgave: å klassifisere kundeklager.
Hvordan velge riktig kombinasjon for din brukssak?
Det finnes ingen enkelt løsning. Men det finnes en enkel metode for å velge.
Start med å svare på disse tre spørsmålene:
- Hva er akseptabel ventetid? Hvis du trenger svar under 500 ms, unngå distribuert inferens og kompleks cascading. Bruk kvantisering + KV-caching.
- Hvor viktig er nøyaktighet? For juridiske, medisinske eller finansielle applikasjoner: bruk FP8, ikke INT4. Test med din egen data før du går i produksjon.
- Hvor mange modellvarianter trenger du? Én modell med 10 språk? Multi-LoRA. 50 ulike roller? Multi-LoRA. 100 forskjellige kundesegmenter? Multi-LoRA + cascading.
En bedrift i Colorado som genererer kundesvar i 12 språk brukte først 12 separate modeller. Etter å ha implementert multi-LoRA med vLLM, brukte de én A100. Kostnaden sank fra 4.200 dollar til 280 dollar per måned.
Hva trenger du for å sette dette opp?
Du trenger ikke et team på 10 ingeniører. Men du trenger noen spesifikke verktøy og ferdigheter.
- Verktøy: vLLM (best for batching og KV-caching), SGLang (for multi-LoRA), TensorRT-LLM (for NVIDIA-hardware), og Hugging Face Transformers for å teste kvantisering.
- Ferdigheter: Grunnleggende PyTorch (brukes av 89 % av verktøyene), Docker og Kubernetes for å deploie, og forståelse for hvordan GPU-minne fungerer.
- Tid: En enkel kvantisering + batching tar 2-3 uker for en erfaren ML-ingeniør. Multi-LoRA + cascading tar 6-12 uker. Det er ikke noe du gjør i en helg.
Documentation er avgjørende. vLLM har en 4,5/5-score i dokumentasjon. SGLang har bare 3,2/5. Hvis du ikke har tid til å lese kildekode, velg vLLM. Det er det mest brukte verktøyet i produksjon i 2025.
Hva kommer neste år?
Det er ikke slutt her. NVIDIA lanserte TensorRT-LLM 0.9 i februar 2025 med speculative decoding - en teknikk som reduserer ventetid med opptil 3,4 ganger for visse oppgaver. Red Hat har lagt til automatisk arbeidsfordeling i sin AI Inference Server 2.0, som skiller mellom «prefill» og «decode»-fasene for bedre ressursutnyttelse.
Det som virkelig endrer spillet, er at AI selv begynner å velge optimal kombinasjon. Gartner forutsier at 60 % av bedrifter vil bruke AI for å automatisere kostnads- og ytelsestuning i 2026. Det betyr at du ikke lenger må velge mellom kvantisering og batching - systemet gjør det for deg.
Men det er en fare: optimization debt. Som ML-ingeniør Emily Kim skrev i februar 2025: «Når du kvantiserer for å spare 10 % i måneden, så øker du kompleksiteten med 50 %. Hva skjer når modellen må oppdateres? Når du må revalidere den for reguleringer?»
De som gjør det riktig, ser ikke bare på månedsregningen. De ser på total kostnad over 12 måneder - inkludert vedlikehold, feilsøking og regulering.
Hva er riktig mål for kostnad per token?
Det avhenger av bransjen.
- Fintech: Mål: 0,00015-0,0003 dollar per 1.000 tokens. Akseptabel ventetid: 800 ms. Bruk kvantisering + cascading.
- Medisinsk: Mål: 0,0002-0,0005 dollar. Nøyaktighet er viktigere enn kostnad. Bruk FP8, IKKE INT4.
- Innholdsgenerering: Mål: 0,00005-0,00015 dollar. Bruk INT4 + multi-LoRA. Du kan tillate små hallucinasjoner hvis det er en bloggpost.
En bedrift i Boulder som genererer sosiale medieinnlegg bruker INT4 med multi-LoRA. De har 17 språk og 12 stilvarianter. Kostnaden er 0,00004 dollar per token. De har en 98 % nøyaktighetsrate på deres mål - og ingen kunder har klaget.
Kan jeg bruke INT4 kvantisering på alle åpne LLM-er?
Nei. INT4 fungerer bra på dense modeller som Llama-3-70B og Mistral-7B, men gir lite gevinst på Mixture of Experts-modeller som Mixtral-8x7B. Det kan også øke hallucinasjoner i kritiske applikasjoner som finans og helse. Test alltid med din egen data før du går i produksjon.
Hva er den enkleste måten å begynne med kostnadsbesparelser?
Start med vLLM og kontinuerlig batching. Det krever minimal kodeendring og gir ofte 2-3 ganger bedre GPU-bruk. Deretter legg til KV-caching. Disse to stegene kan redusere kostnader med 40-60 % uten å endre modellen.
Er det bedre å bruke en mindre modell eller å kvantisere en større?
Ofte er det bedre å bruke en mindre modell. En distillert 13B-modell kan ha samme nøyaktighet som en 70B-modell for en spesifikk oppgave, men koster 1/10 av prisen. Kvantisering er en hurtig løsning, men distillering er en varig strategi.
Hva er forskjellen mellom vLLM og SGLang?
vLLM er best for batching og KV-caching - det er det mest stabile verktøyet for høy ytelse. SGLang er designet for multi-LoRA og kan kjøre mange modellvarianter på én GPU. Bruk vLLM hvis du trenger raskt svar. Bruk SGLang hvis du trenger mange varianter.
Hvorfor koster det mer å kjøre LLM-er på AWS enn på egen hardware?
AWS og andre skytjenester tar ekstra gebyr for å administrere, overvåke og sikre infrastrukturen. Med egen hardware (for eksempel med A100-er) kan du redusere kostnaden med 50-70 %, men du må ha personale til å vedlikeholde det. For de fleste er det en balanse mellom tid og kostnad.
Hva hvis jeg trenger 99,9 % nøyaktighet?
Da unngår du INT4 og multi-LoRA på kritiske oppgaver. Bruk FP16 eller FP8, og test med din egen testsett. Ikke bruk cascading hvis feil kan ha alvorlige konsekvenser. Fokuser på KV-caching og batching - de påvirker ikke nøyaktigheten.
Post Comments (2)
Jeg kjører en distillert Mistral på en Raspberry Pi og får bedre resultat enn dere med A100-er.
#Overengineered