Finetunede modeller for spesifikke bruksområder: Når spesialisering slår generelle LLM-er

July 9, 2025
Comments 6
Verktøy og plattformer

En generell språkmodell som GPT-4 eller Llama 3 kan skrive poesi, forklare kvantefysikk og lage kafferecept. Men hvis du trenger den til å lese juridiske avtaler, koding av medisinske diagnostikker eller å svare på kundefråger med nøyaktig merkevarestemme? Da fungerer den ikke godt nok. Finetuning er ikke bare en teknisk forbedring - det er en strategisk valg som kan gjøre forskjellen mellom et system som fungerer og et som faktisk løser et problem.

Hva er egentlig en finetunet modell?

En finetunet modell starter som en generell språkmodell - en stor modell som har blitt trent på milliarder av tekstlinjer fra internett. Den kan snakke om nesten alt. Men den vet ikke hvordan du vil bruke den. Når du finetunerer den, tar du den og trener den videre med dine egne data. Ikke noe generisk. Ikke noe teoretisk. Dine dokumenter, dine svar, dine prosesser.

For eksempel: Et juridisk firma trenger en modell som kan finne relevante dommer i en 50-siders avtale. En generell modell vil gi en sammendrag - men den kan glemme viktige juridiske termer, misforstå avtalepunkter eller skrive ut noe som ikke er lovlig. En finetunet modell, trent på 10.000 tidligere avtaler og dommer fra firmaet sitt, vil forstå at «force majeure» ikke betyr «værforhold», men en spesifikk juridisk klause. Den vil gi 92% nøyaktighet i sammendrag - mot 68% for en generell modell.

Hvorfor fungerer det bedre?

Det handler om kontekst. Generelle modeller er som en lege som har lest alle lærebøkene i verden - men aldri har sett en pasient. En finetunet modell er som en spesialist som har behandlet 500 tilfeller av samme sykdom. Den har lært hvilke signaler som betyr noe, og hvilke som er støy.

Forskning fra Coders GenAI Technologies (2025) viser at finetunede modeller presterer 30-50% bedre på spesifikke oppgaver. I kundeforhold: 89% av svarene er i merkevarestemme, mot bare 54% for generelle modeller. I helse: Reduserer feil i medisinsk koding med 47%. I finans: Identifiserer 94% av regulative brudd, mot 76% med generelle modeller.

Det er ikke bare nøyaktighet. Det er pålitelighet. En finetunet modell har ikke «hallusinasjoner» like ofte. I juridiske applikasjoner, faller feilaktige uttalelser fra 32% til 8%. Det betyr mindre juridisk risiko, mindre revisjoner, mindre tid brukt på å sjekke svar.

Hvordan fungerer det teknisk?

Du trenger ikke en superdatamaskin for å finetune en modell lenger. Det var tidligere nødvendig med 78,5 GB GPU-minne for bare en 7 milliarder parameter modell som Llama 2. I dag bruker du QLoRA - en teknikk som kvantisering og lav-rank-tilpasning kombinerer. Med QLoRA trenger du bare 15,5 GB minne. Det betyr at du kan finetune en modell på en enkelt NVIDIA A100 - ikke en hekk med H100-er.

Meta AI offentliggjorde i oktober 2024 at QLoRA reduserer treningstid og kostnader med opptil 80%. Og det er ikke bare for store selskaper. En liten juridisk praksis i Boulder kan nå finetune sin egen modell på en klynge av 2-3 GPU-er i skyen.

Det viktigste: Du beholder den samme arkitekturen. Du endrer ikke modellen. Du endrer vektene. Som å lære en lærer nytt stoff - ikke å bytte lærer.

Hva må du ha for å starte?

Du kan ikke bare ta en generell modell og si «trene den på mine PDF-er». Du trenger:

5.000-10.000 høyt kvalitets eksempler - ikke bare tekst, men korrekte svar. For eksempel: En juridisk avtale + riktig sammendrag.
Et klart mål. Ikke «gjør den smartere». Hva skal den gjøre? Skrive sammendrag? Fylle ut skjemaer? Sjekke for overtrædelser?
Python, Hugging Face Transformers og grunnleggende ML-kunnskaper. 78% av utviklere som har prøvd det sier de trenger mellom middels og avansert kunnskap.

Mange små selskaper står fast her. Codecademy sin rapport fra Q1 2025 viser at 68% av dem ikke har nok gode data. De har masse dokumenter - men ingen som har merket dem riktig. Det er den største hindringen.

En medisinsk koder omgitt av glødende diagnostiske koder og en AI-venn.

Hva er farlig med finetuning?

Det er ikke bare lykkelig. Det er farlig hvis du gjør det feil.

Det første problemet: katastrofal glemming. Når du trener modellen på juridisk språk, kan den glemme hvordan man legger sammen tall. En bruker på Hacker News skrev: «Min modell kunne ikke lenger regne ut 15 + 7 etter å ha blitt trent på medisinske rapporter.» Det skjer fordi modellen erstatter generell kunnskap med spesifikk. Den blir for spesialisert.

Det andre: for spesialisert. En modell trent på medisinske koder vil ikke kunne skrive en bloggpost om kaffe. Den vil prøve å bruke kodeliste-terminologi overalt. Det blir stivt. Ufleksibelt. Og da blir den ubrukelig hvis brukeren skriver noe utenfor treningsdataene - noe som skjer oftere enn du tror.

Professor Andrew Ng sier det tydelig: «Finetuning gir høyest tilbakebetaling for applikasjoner som krever merkevarestemme, strukturerte utdata eller oppfyller regulative krav.» Ikke for kreativitet. Ikke for generell intelligens.

Hva er bedre: finetuning eller RAG?

RAG - Retrieval-Augmented Generation - er en annen teknikk. Den lar modellen hente informasjon fra en database i sanntid, i stedet for å ha den inne i modellen. Det er som å la en lege slå opp i en medisinsk database mens han snakker med pasienten.

Meta AI anbefaler: «Start med RAG. Se om det er godt nok. Hvis ikke, finetun.»

Hvorfor? Fordi RAG er raskere å endre. Du kan legge til nye dokumenter i løpet av minutter. Finetuning tar uker. Og RAG har ikke katastrofal glemming. Men RAG kan gi ustabilt svar hvis dataene er dårlige eller utdaterte.

De fleste virksomheter som gjør det riktig, bruker begge. En hybridmodell: RAG for å holde seg oppdatert, finetuning for å sikre kvalitet og stemme.

En studie fra McKinsey i januar 2025 viser at 82% av AI-ledere nå planlegger å bruke finetunede modeller med RAG. Det er fremtiden. Ikke enten-eller. Begge.

Hvem bruker det i virkeligheten?

Ikke bare tech-selskaper. Det er i praksis:

Medisinsk sektor: 22% av hele markedet for finetunede modeller. Modeller som koder diagnostikker med 92% nøyaktighet, og reduserer HIPAA-overtrædelser med 78%.
Finans: 19% av markedet. Banker bruker dem til å skanne transaksjoner etter svindel. Feilaktige varsler faller med 63%.
Juridisk: 14% av markedet. Firmaer bruker dem til å analysere kontrakter i sekunder, ikke timer.

Forrester rapporterer at 67% av Fortune 500-selskapene nå bruker minst én finetunet modell. Det var 29% for ett år siden.

En hybrid AI med to ansikter: RAG og QLoRA, som når mot en gullnøkkel.

Hva er neste steg?

Hvis du tenker på å finetune en modell:

Start med et konkret problem. Ikke med «jeg vil ha en smartere chatbot». Hva er det konkrete problemet? Hvor mange ganger skjer det? Hvor mye tid koster det?
Saml 5.000-10.000 eksempler. Ikke bare tekst. Riktige input/output-par. Hvis du ikke har det, sett opp en prosess for å samle det.
Prøv RAG først. Det er billigere og raskere. Hvis svarene er nøyaktige og konsistente - kanskje trenger du ikke finetuning.
Hvis du trenger mer nøyaktighet, stemme og struktur - da finetun. Bruk QLoRA. Ikke full finetuning.
Test alltid på nye data. Ikke bare på det du trente på. Se om modellen klarer noe den ikke har sett før.

Hva hvis du ikke har data?

Da kan du ikke finetune. Ikke prøv. Det vil bare skape en dårlig modell.

I stedet:

Bruk RAG med dine egne dokumenter som kilde.
Legg til prompt-instruksjoner: «Svar som en juridisk rådgiver med 10 år erfaring. Bruk kun informasjon fra dokumentene jeg lastet opp.»
Start med små prosjekter. Ikke forsøk å automatisere hele kundeforholdet. Begynn med å generere sammendrag av e-poster.

Er det verdt det?

Ja - hvis du har et spesifikt problem, og du har data for å løse det.

Nei - hvis du bare vil ha en «bedre» chatbot for å se ut som en tech-firma.

Det er ikke om å være modern. Det er om å løse et problem bedre enn før. En finetunet modell er ikke en magisk kule. Den er en spesialverktøy. Som en skreddersydd jakke. Den passer perfekt - men bare for én kropp.

Hvis du bruker den på feil kropp - blir den ubrukelig.

Hva kommer neste år?

Modeller som Phi-3-mini (3,8 milliarder parametre) viser at små modeller kan slå store når de er finetunet. Gartner forventer at markedet for spesialiserte modeller vil vokse til 12,3 milliarder dollar i 2027. Men de advarer også: Modeller trent i 2023 kan allerede være dårligere enn dagens generelle modeller. Fordi generelle modeller forbedres fort.

Det betyr: Ikke finetun for å være «fremtidssikret». Finetun for å løse et problem nu.

Hvis du gjør det riktig - vil du ikke bare spare tid. Du vil spare risiko. Spare penger. Og gi brukerne et svar de kan stole på.

Hva er forskjellen mellom en generell LLM og en finetunet modell?

En generell LLM er trent på masse data fra internett og kan svare på nesten hva som helst - men ofte med lav nøyaktighet i spesifikke områder. En finetunet modell er en generell modell som har blitt trent videre med dine egne data, slik at den blir spesialisert for en oppgave - som juridisk analyse, medisinsk koding eller kundeforhold. Den er mindre fleksibel, men mye mer nøyaktig innenfor sitt område.

Kan jeg finetune en modell på en vanlig datamaskin?

Ja, hvis du bruker QLoRA eller LoRA. Med QLoRA kan du finetune en modell som Llama 2 7B på en enkelt NVIDIA A100 med bare 15,5 GB GPU-minne. Det er mulig på en sky-instances som koster under 10 dollar per time. Du trenger ikke en serverhage. Du trenger gode data og en klar oppgave.

Hvor mye data trenger jeg for å finetune en modell?

Minst 5.000-10.000 høyt kvalitets eksempler. Ikke bare tekst - du trenger input/output-par. For eksempel: En juridisk avtale + riktig sammendrag. Uten gode data blir modellen dårligere enn en generell modell. Mange selskaper mislykkes ikke fordi teknologien er vanskelig - men fordi de ikke har nok riktig data.

Hva er katastrofal glemming?

Det er når en modell glemmer generell kunnskap etter å ha blitt finetunet. For eksempel: En modell trent på medisinske rapporter kan ikke lenger legge sammen tall eller forstå en enkel konversasjon. Det skjer fordi modellen erstatter sine generelle vekter med spesifikke. Det er et kjent problem, og det kan unngås ved å bruke mindre aggresiv finetuning eller kombinere med RAG.

Bør jeg bruke RAG eller finetuning?

Start med RAG. Det er raskt, billigere og lettere å oppdatere. Hvis svarene er nøyaktige og konsistente - kan du kanskje holde deg der. Hvis du trenger mer nøyaktighet, strukturert utdata eller merkevarestemme - da går du til finetuning. De fleste suksessfulle løsninger bruker begge: RAG for å holde seg oppdatert, finetuning for å sikre kvalitet.

Hva er de største feilene folk gjør ved finetuning?

De tre største: 1) De har ikke nok eller gode nok data. 2) De finetunerer uten et klart mål - bare fordi de kan. 3) De glemmer å teste modellen på nye, ukjente data. Det fører til at modellen blir for spesialisert og bryter sammen når brukeren sier noe uventet. Det er som å trene en hund bare på en type kake - så den ikke vet hva å gjøre når du gir den en eplekake.

Post Comments (6)

Geir Isaksen

December 19, 2025 AT 06:29

lol sånn herlig bullshit. alle tror de er AI-expert nå fordi de har lest en bloggpost. finetuning? hah. du trenger ikke 10.000 eksempler, du trenger bare å skrive 'gi meg svaret som en jurist' og så lar du GPT-4 gjøre resten. alle disse tallene er bare marketing-søppel fra selskaper som selger GPU-er. jeg har prøvd det, og den generelle modellen var bedre enn den 'finetunede' jeg lagde på en weekend. og ja, jeg skrev 'finetunet' med 'e' fordi jeg ikke bryr meg om orthografi.

Olav Finne

December 19, 2025 AT 23:06

Denne analysen er grundig og velstrukturert, men det er en vesentlig manglende dimensjon: etiske konsekvenser. Når en modell finetunes til å imitere en juridisk rådgiver, skaper det en illusjon av kompetanse. Brukere vil tro at svarene er juridisk bindende, noe de ikke er. Det er en form for misvisende automatisering som kan føre til alvorlige rettslige konsekvenser. Det er ikke bare en teknisk utfordring - det er et juridisk og etisk problem som må reguleres.

Even Ødegård

December 20, 2025 AT 10:03

DETT ER EN FALSKHET. DE GJORER DET FOR Å FÅ PENGERS. DE HAR FÅTT KONTROLL OVER AI OG NÅ SKAL DE GJØRE AT VI MÅ BETALE FOR Å BRUKE DET SOM VAR GRATIS. DET ER EN KONSPIRASJON FRA GOOGLE, META OG MICROSOFT. DE VIL AT VI SKAL TRENE MODELLER SÅ DE KAN SELGE OSS GPU-ER OG KLAGER PÅ AT VI IKKE HAR NOK DATA. DET ER ALLE SAMME MANNEN. DE HAR KJØPT ALLE PROFESSORENE. DET ER IKKE AI - DET ER KONTROLL.

Kathinka Haugsand

December 21, 2025 AT 13:33

Det er så skjønt å se at noen faktisk skjønner at det ikke handler om å ha den største modellen - men om å ha de riktige dataene. Men jeg må si, jeg er litt bekymret for hvordan vi håndterer bias i disse finetunede modellene. Hvis du trener på 10.000 avtaler fra et firma som har en historie med diskriminering - så blir modellen bare en digital versjon av den samme diskrimineringen. Det er ikke bare teknisk, det er moralsk. Og ja, jeg skrev 'moralisk' med 's' - fordi det er viktig. 😊

Kristian Krokslett

December 22, 2025 AT 11:20

En viktig observasjon som ofte går tapt: finetuning med QLoRA er ikke bare en kostnadseffektiv løsning - den er også en forbedring av reproducerbarhet. Når du finetunerer med kontrollerte datasett og dokumenterte hyperparametere, kan du gjenskape resultater på tvers av team og tid. Det er kritisk for regulerte sektorer som helse og finans. I motsetning til RAG, hvor datakilden kan endre seg uten at modellen vet det, gir finetuning en stabil, forutsigbar output. Det er ikke en enten-eller - det er en komplementær tilnærming. Men det krever god datahygiene, og det er det som ofte mangler i praksis.

Gunnar Bye

December 23, 2025 AT 20:35

Ja men høyr du, jeg prøvde det med min gamle laptop og en 7B modell og det fungerte faktisk! 🤯 Jeg trente den på mine kundeforhør og nå svarer den som en kundeservice som har drukket 10 kopper kaffe og ikke sovnet i 3 dager. RAG er greit, men finetuning er som å gi den en hjerne. Ikke bare en google-søk. Og ja, jeg skrev 'hjerne' med 'e' - fordi det er riktig. 😎