Redusere hallucinasjoner med RAG: Hvordan måle effekten på store språkmodeller

November 23, 2025
Comments 7
Teknologi og kunstig intelligens

Har du noen gang fått et svar fra en AI som virket helt riktig, men var fullstendig feil? Det er ikke en feil i deg - det er en hallucinasjon. Store språkmodeller som GPT-4 og GPT-3.5 lager ofte fakta ut av ingenting, og det kan være farlig i områder som helse, rettsvesen eller finans. RAG - Retrieval-Augmented Generation - er nå den mest effektive måten å redusere disse hallucinasjonene på. Og det er ikke bare teori. Det er målt, testet og brukt i produksjon.

Hva er RAG og hvorfor fungerer det?

er ikke en ny språkmodell. Det er en arkitektur. Den legger til et eksternt hukommelsessystem til en vanlig språkmodell. I stedet for å stole bare på det den har lært under trening (som kan være gammelt, ufullstendig eller feilaktig), henter RAG inn relevante dokumenter fra en pålitelig kilde nøyaktig når du spør.

Tenk på det som en lege som ikke bare bruker sin egen utdannelse, men også sjekker opp nyeste medisinske studier før den gir en diagnostikk. RAG gjør det samme med AI. Når du spør om behandlingen for type 2-diabetes, henter den ikke bare fra sin interne kunnskap. Den henter fra PubMed, kliniske retningslinjer eller sykehusdatabaser - og bruker bare det som er bekreftet.

En studie publisert i JMIR Cancer i april 2024 viste at når GPT-4 brukte RAG med spesialiserte kilder for kreftinformasjon, var hallucinasjonsraten 0 %. Når den brukte vanlige Google-søk, var den 6 %. For GPT-3.5 gikk den fra 10 % til 6 %. Det er ikke en liten forbedring. Det er en revolusjon.

Hvordan fungerer RAG teknisk sett?

RAG har to hovedkomponenter: en retriever og en generator.

Retrieveren tar din forespørsel og søker i en vektordatabase med dokumenter - ikke med nøkkelord, men med mening. Den bruker modeller som BERT eller Sentence-BERT for å forstå at «hva er effekten av metformin på nyrefunksjon» og «hvordan påvirker metformin nyrer» er det samme. Den finner de 3-5 mest relevante tekstbitene med rundt 85 % nøyaktighet når den er riktig konfigurert.
Generatoren tar disse bitene sammen med din opprinnelige forespørsel og lager et svar. Den kan ikke lage oppfinnelser uten å ha noe å støtte seg på. Hvis ingen relevant kilde finnes, sier den «jeg vet ikke» - og det er et stort pluss.

For å kjøre dette trenger du: en vektordatabase (som Pinecone eller Qdrant), en tekstembeddingmodell, og tilgang til en LLM-API som OpenAI, Amazon Bedrock eller Google Vertex AI. Det krever ikke en ny modell. Du bruker den du allerede har - bare med et eksternt minne.

Hva sier målingene? Tall fra virkeligheten

Det er ikke nok å si at RAG «ser ut til å hjelpe». Vi måler det. Og tallene er overbevisende.

Sammenligning av hallucinasjonsrater med og uten RAG
Modell	Uten RAG (vanlig søk)	Med RAG (spesialiserte kilder)	Reduksjon
GPT-3.5	10 %	6 %	40 %
GPT-4	6 %	0 %	100 %
Generell AI (baseline)	12 %	0.8 %	93 %

Disse tallene kommer fra virkelige implementeringer i helsevesenet. En datatekniker på et norsk helsestartup rapporterte at RAG med kliniske kilder reduserte hallucinasjoner fra 12 % til 0.8 % for kreftrelaterte spørsmål. AWS-kunder rapporterte 60-75 % redusert hallucinasjoner i kundeservice. Det er ikke tilfeldig. Det er systematisk.

To scener: en feilaktig AI med røde feillinjer og en korrekt AI med bekreftede medisinske dokumenter.

Hvorfor er RAG bedre enn fine-tuning og RLHF?

Andre metoder for å redusere hallucinasjoner eksisterer - men de har store svakheter.

Fine-tuning - du trener modellen på nytt med dine egne data. Det tar 40-100 timer, koster tusenvis av dollar, og når du legger til ny informasjon, må du trene på nytt. RAG bruker ny informasjon umiddelbart - ingen trening nødvendig.
RLHF (Reinforcement Learning with Human Feedback) - mennesker vurderer svar og lærer modellen hva som er «bra». Det hjelper med tonalitet og etikk, men ikke med fakta. En modell kan bli veldig politisk riktig, men fortsatt lie om behandlingsdoser.

RAG er den eneste metoden som kobler AI direkte til virkelige, oppdaterte kilder. Det er som å gi en AI en internettforbindelse til et bibliotek - ikke bare en bok hun har lest for ti år siden.

Hva er begrensningene? RAG er ikke en mirakel

Men det er ikke perfekt. Det er ikke en «silver bullet».

Her er de tre vanligste feilene:

Feil henting: RAG henter et dokument som virker relevant, men er faktisk feil. Det skjer i 15-20 % av tilfellene hvis kilden er dårlig eller ikke riktig kvalitetssikret. Hvis du bruker Wikipedia eller ukjente nettsteder, vil du fortsatt få hallucinasjoner.
Feil sammenslåing: RAG henter tre dokumenter. Et sier at medisinen er trygg. Et annet sier at den kan forårsake leverfeil. Et tredje sier at det ikke er nok bevis. Modellen kan blande dem sammen og lage et svar som er en feilaktig kompromiss - og være 95 % sikker på det.
Feil tillit: Modellen kan si «jeg vet det sikkert» selv når den bare har en usikker kilde. Det er et psykologisk problem: mennesker tror på sikkerhet, ikke på riktighet.

En studie fra Mindee i juni 2024 viste at RAG reduserer hallucinasjoner, men ikke fjerner dem. Spesielt når spørsmålet krever kompleks resonnement - som «hvordan påvirker kombinasjonen av tre medisiner blodtrykket hos eldre med nyresvikt?» - kan RAG mislykkes.

En flytende bibliotek med vitenskapelige kilder som kretser rundt en AI-lotus, i en drømmeteaktig anime-stil.

Hvordan implementere RAG riktig?

Det er ikke nok å sette opp en API. Du må gjøre det riktig.

Kvalitet over kvantitet: Bruk kun pålitelige kilder. Pubmed, kliniske retningslinjer, offisielle dokumenter. Ikke bruk Reddit, blogginnlegg eller uverifiserte nettsteder. En studie viste at RAG med Google-søk hadde 6 % hallucinasjoner - med kliniske kilder: 0 %.
Oppdeling av dokumenter: Ikke legg inn hele PDF-er. Del dem i små, men meningsfylte biter - 200-500 ord. For mye og du får irrelevante resultater. For lite og du mister kontekst.
Metadata: Legg til tagger som «type: behandling», «kilde: FDA», «dato: 2023». Det hjelper retrieveren å velge riktig.
Måling: Bruk RAGAS-metrikker. «Answer correctness» og «answer relevancy» er de viktigste. Sett grenser. Hvis svaret får under 0.7 på correctness, send det til en menneskelig sjekk.
Tid: En full implementasjon tar 3-6 uker for bedrift. Det krever 80-120 timer for konfigurasjon, testing og tuning.

LangChain har god dokumentasjon (4.2/5 fra 147 brukere), men det er ingen garanti. Det er som å bygge et hus med ferdige veggplater - du må fortsatt ha en god arkitekt.

Hvordan ser fremtiden ut?

Utviklingen går raskt.

ReDeEP (2024) - en ny metode som sporer nøyaktig hvor i svaret hallucinasjonen oppstod. Hvis modellen skriver noe som ikke er i de hentede dokumentene, blir det merket.
FACTOID - en ny standard for å måle hallucinasjoner, utviklet av forskere i mars 2024.
Strukturerte data: K2view viser at å kombinere RAG med strukturerte databaser (som SQL) kan redusere resterende hallucinasjoner med ytterligere 15-25 %.
Self-correcting RAG: Forskere tester systemer som sjekker sitt eget svar mot kildene - og hvis det er feil, henter de på nytt. Det er som om AI lærer å sjekke seg selv.

Gartner forutsier at 70 % av alle bedrifts-AI-applikasjoner vil bruke RAG i 2025. FDA har allerede godkjent RAG for pasientfokuserte applikasjoner. Amazon Bedrock, Google Vertex AI og Microsoft Azure AI har alle integrert RAG som en standardfunksjon.

Det er ikke lenger et eksperiment. Det er en standard. Og hvis du bruker AI i helse, rett, finans eller offentlig tjeneste - så må du bruke RAG. Ellers gir du mennesker feil informasjon.

Hvem bør ikke bruke RAG?

RAG er ikke for alt.

Det fungerer dårlig når du trenger kreativitet. Hvis du lager poesi, skriver en reklamekampagne, eller lager en fiktiv historie - da vil RAG begrense deg. Den vil holde deg til kildene. Og det er ikke det du vil.

Hvis du ikke har noen pålitelige kilder - så er RAG ubrukelig. Det er som å gi en sjåfør en GPS uten kart. Den kan ikke finne veien.

Det er også for kostbart for små prosjekter. Hvis du bare lager en chatbot for en liten butikk, kan du klare deg med en enkel regelbasert løsning. RAG er for når feil kan ha alvorlige konsekvenser.

Hva er den største fordelene med RAG?

Den største fordelene med RAG er at den reduserer hallucinasjoner ved å koble språkmodellen til pålitelige, oppdaterte kilder i sanntid. Det gir nøyaktige svar uten å trenge ny trening av modellen. Studier viser at den kan redusere hallucinasjoner fra over 10 % til 0 % når den brukes med riktige kilder.

Kan RAG eliminere alle hallucinasjoner?

Nei. RAG reduserer hallucinasjoner betydelig, men ikke fullstendig. Feil kan oppstå hvis den henter feilaktige dokumenter, sammenslår dem feil, eller uttrykker for stor tillit til usikre kilder. Det krever god kvalitetskontroll av kildene og riktig konfigurasjon.

Hva er forskjellen mellom RAG og fine-tuning?

Fine-tuning endrer selve modellen ved å trene den på nye data - noe som tar tid og ressurser. RAG lar modellen forbli uendret, men gir den tilgang til eksterne kilder når den svarer. RAG er raskere, billigere og kan bruke ny informasjon umiddelbart - men krever gode kilder.

Hvilke kilder bør jeg bruke med RAG?

Bruk kun pålitelige, kvalitetssikrede kilder: vitenskapelige artikler (f.eks. PubMed), offisielle retningslinjer (f.eks. WHO, FDA), dokumenter fra offentlige institusjoner, eller interne dokumenter som er godkjent av eksperter. Unngå uverifiserte nettsteder, blogginnlegg og Reddit.

Er RAG egnet for norske helseinnstillinger?

Ja. RAG er spesielt egnet for helse, fordi det kan bruke norske kliniske retningslinjer, Helsedirektoratets dokumenter og publiserte studier. Studier har vist 0 % hallucinasjoner når RAG bruker klinisk validert informasjon. Det gjør det til den beste tilgjengelige løsningen for pasientfokuserte AI-applikasjoner i Norge.

Hvor mye tid tar det å sette opp RAG?

En full implementasjon for en bedrift tar vanligvis 3-6 uker. Det inkluderer valg av kilder, oppdeling av dokumenter, konfigurasjon av vektordatabase, testing og tuning. Det krever 80-120 timer arbeid, avhengig av kompleksitet og kvalitet på kildene.

Post Comments (7)

Kathinka Haugsand

December 18, 2025 AT 06:27

Det er jo så typisk at folk tror RAG er en mirakel. Hvis du ser på hvem som bygger disse kildene - det er ofte store teknologiselskaper med egen agenda. Hva hvis de har manipulert PubMed-databasene? Jeg har sett dokumenter hvor kliniske studier forsvinner hvis de ikke passer inn i Big Pharma-sammenhengen. RAG kan bare gi deg det du gir den... og hva hvis kildene er forgiftet? 🤔

Kristian Krokslett

December 19, 2025 AT 05:49

Det er en veldig godt strukturert og grundig analyse. Jeg vil bare legge til at RAGAS-metrikken bør utvides med en "context fidelity"-indeks som måler hvor nøyaktig retrieveren kobler forespørselen til riktig dokument. I vårt prosjekt ved NTNU så vi at 18 % av de "korrekte" svarene kom fra dokumenter som var relevant, men ikke faktisk relevante for det spesifikke spørsmålet. Metadata og embedding-kvalitet er alt.

Gunnar Bye

December 20, 2025 AT 10:46

OMG RAG IS A GAME CHANGER!! 🚀 I just tried it with our hospital's internal docs and boom - zero BS answers. Before, our chatbot kept telling people to take aspirin for heart attacks 😅 Now it says "sjekk med legen din" og henter fra Helsedirektoratet. Det er som å gi AI en lærer. Ikke bare en robot som gjetter. 10/10 would recommend. Also, Pinecone is way easier than Qdrant, btw.

Kristine Lou

December 20, 2025 AT 14:30

har du prøvd å bruke rags med norske retningslinjer? jeg prøvde med en pdf fra helsedirektoratet og den skrev noe helt galt om diabetessjekk... tror kanskje dokumentet var for stort? må kanskje dele det i små biter? eller er det bare meg? 😅

espen solheim

December 22, 2025 AT 13:49

Det er viktig å huske at dette ikke er bare teknologi. Det handler om mennesker. Når en eldre pasient får et svar som virker trygt, men er feil - så kan det koste liv. RAG er ikke bare et verktøy. Det er et ansvar. Og det er bra at vi i Norge har gode kilder. Vi kan vise veien her. Ikke bare for oss, men for andre land også. Ta det stille og sikkert. Kvalitet før hastighet.

Olav Engh

December 23, 2025 AT 02:24

Det er veldig spennende! 🤖📚 Men jeg lurte på - hva skjer hvis du kombinerer RAG med et system som sjekker mot flere kilder samtidig? Som en "RAG-tvilling"? En henter fra PubMed, en annen fra Helsedirektoratet, og den tredje fra et norsk universitetsarkiv. Hvis de er enige - så er svaret sikkert. Hvis ikke - så varsler den. Det er som å ha tre eksperter som diskuterer før de svarer. Kanskje det kan redusere de 15-20 % feilhentningene?

Geir Isaksen

December 24, 2025 AT 21:24

0 % hallucinasjoner? Hah. Hvorfor er det ikke publisert i Nature? Fordi det er bullshit. Alle disse "studier" kommer fra samme 3 selskapene som selger RAG-løsningene. Og du tror at en AI kan forstå kliniske retningslinjer? Den forstår ikke en enkelt setning med to subjekter. Det er bare en fancy søkemaskin med en liten tekstgenerator som sier "jeg vet" selv når den ikke vet. Du er ikke på vei mot AI som tenker - du er på vei mot en ny form for propaganda. 🤡