Komprimering og kvantisering av store språkmodeller: Kjøring på edge-enheter

March 14, 2026
Comments 5
Teknologi og kunstig intelligens

Har du noen gang prøvd å kjøre en stor språkmodell som Llama 3 eller Phi-3 på en telefon eller en smart kamera? Det fungerer ikke - ikke uten hjelp. Disse modellene er bygget for skyen, ikke for små enheter med begrenset minne og strøm. Men det er ikke umulig. Med riktig komprimering og kvantisering kan du kjøre kraftige språkmodeller direkte på din enhet - uten å sende data til en server. Og det endrer alt.

Hvorfor trenger vi komprimering?

Større språkmodeller som GPT-4 og Llama 3-70B har hundrevis av milliarder parametere. Det betyr at de krever gigabytes med minne bare for å lastes inn. En vanlig mobiltelefon har mellom 4 og 16 GB RAM. En modell som Llama 3-8B trenger minst 8 GB bare for å kjøre i full presisjon. Det er ikke mulig å kjøre det uten å tømme alle andre apper - og selv da blir det sakte og batteriet dør på 10 minutter.

Løsningen? Gjør modellen mindre. Ikke ved å fjerne deler, men ved å gjøre den mer effektiv. Det er her komprimering og kvantisering kommer inn.

Hva er kvantisering?

Kvantisering handler om å redusere antallet biter som brukes til å lagre tall. Vanlige modeller bruker 32-bit flyttall (FP32) eller 16-bit (FP16). Det er presist - men krevende. Kvantisering bytter ut disse med lavere bit-antall, som 8-bit, 4-bit, eller selv 3-bit.

Tenk på det som å bytte ut en fullfarvebilde med en versjon med færre farger. Du taper litt nøyaktighet, men bildet blir mye mindre. Samme prinsipp gjelder for modeller. En modell som var 20 GB kan bli 5 GB med 4-bit kvantisering. Og kjøres 3-4 ganger raskere.

Det finnes to måter å gjøre dette på:

Post-training kvantisering (PTQ): Du tar en ferdig trent modell og konverterer den direkte. Enkelt, raskt, og krever ingen ny trening. Men presisjonen taper litt.
Kvantisering-vennlig trening (QAT): Du trener modellen med kvantisering fra begynnelsen. Den lærer å fungere godt selv med lav presisjon. Mer arbeid, men bedre nøyaktighet.

Hva er GPTVQ - og hvorfor er det et gjennombrudd?

Tradisjonell kvantisering ser på hver parameter én etter én. Det er som å redusere fargepalettene på hvert piksel i et bilde uavhengig av de andre. Det fungerer, men det gir støy og feil.

Qualcomm har utviklet GPTVQ en vektorbasert kvantiseringsteknikk som grupperer parametere og kvantiserer dem sammen basert på deres felles fordeling. I stedet for å behandle 1000 parametere hver for seg, ser den på 10-grupper. Den finner den beste måten å redusere hele gruppen på - og holder mer av den opprinnelige presisjonen.

Resultat? Med GPTVQ kan du redusere en modell med 70% uten å tape mer enn 1-2% presisjon. Det er ikke bare komprimering - det er komprimering med bevissthet. Og det gjør det mulig å kjøre modeller som tidligere bare kunne kjøres i skyen, direkte på en enhet.

En bil med en dynamisk AI som endrer størrelse basert på batterinivå, i CLAMP-stil.

Hva er TOGGLE - og hvorfor er det så spesielt?

I desember 2025 ble en ny metode publisert: TOGGLE en komprimeringsrammeverk som bruker formell logikk for å sikre at språklig presisjon beholdes under komprimering. Det er ikke bare om å gjøre modellen mindre. Det er om å sikre at den fortsatt forstår grammatikk, kontekst, og logikk.

TOGGLE bruker Signal Temporal Logic - en formell metode som lar deg skrive regler som: "Hvis modellen sier 'hun er en lærer', så må den ikke si 'han er en lærer' i neste setning." Den sjekker hver komprimering for å sikre at slike egenskaper ikke går tapt.

I tester med Llama 3-8B og Mistral 7B, lyktes TOGGLE med å redusere beregningskostnaden med 3,3 ganger og modellstørrelsen med 68,8% - uten å trenes på nytt. Det er som å ta en bok og forkorte den til en halv side, uten å miste hovedpoengene. Og det er ikke en teori. Det fungerer på virkelige enheter.

Hva er UniQL - og hvordan gjør det ting enda smartere?

UniQL er et felles rammeverk som kombinerer kvantisering og lav-rang-komprimering i én prosess. Det lar deg justere modellen i sanntid basert på hvor mye strøm og minne du har igjen.

Tenk deg at du kjører en språkmodell på en bil. Når batteriet er lavt, reduserer UniQL modellen automatisk. Når du har mer strøm, øker den igjen. Den gjør det uten å trenes på nytt - bare ved å skru på og av deler av modellen.

I tester sammenlignet med TAO-HQQ og FP16, viste UniQL (W4A16) - en 4-bit vekt og 16-bit aktivasjon - liknende nøyaktighet, men med 40% mindre minnebruk. Det betyr at du kan kjøre en kraftig modell på en enhet som tidligere bare kunne kjøre en enkel chatbot.

Hvorfor er edge-kjøring viktig?

Det er ikke bare om å spare minne. Det er om å beskytte privatliv og redusere ventetid.

Når du sender tekst til en skyserver for å få et svar, blir dataene din overført - og muligens lagret. Det er et risikomoment. Med edge-kjøring skjer alt på enheten din. Ingen data forlater telefonen. Ingen servere som lytter. Ingen mulighet for lekkasje.

Og ventetiden? Den går fra 1-3 sekunder til under 200 millisekunder. Det er som å spørre en venn i rommet, i stedet for å ringe noen i en annen by.

Det åpner for sanntidsapplikasjoner: språkoversettelse i sanntid under samtaler, hjelp til dyslektiske elever på skolen, eller en AI-assistent som hjelper deg med å lese et brev uten å trenge internett.

En person på et tårn som slipper komprimerte språkmodeller som papirkraner mot en soloppgang, i CLAMP-stil.

Hva med små modeller som Phi-3 og Llama 3-8B?

Du kan tro at små modeller ikke trenger komprimering. Men det er ikke sant. Selv 8B-modeller er for store til å kjøre i full presisjon på mange enheter.

Her er et viktig poeng: embedding-lagene og head-lagene - de delene av modellen som tolker ord og genererer svar - utgjør ofte over 30% av total størrelse. Når du komprimerer disse spesielt, får du større gevinst enn om du bare kvantiserte alle lagene likt.

Qualcomm har vist at ved å fokusere på disse lagene, kan du redusere modellstørrelsen med 50% uten å tappe nøyaktighet. Det er som å fjerne vekt fra en koffert - men bare fra de delene som ikke påvirker innholdet.

Hva er tilgjengelig i dag?

Qualcomm har åpnet kildekoden til AIMET et verktøykasse for komprimering og kvantisering av AI-modeller. Du kan laste den ned, prøve den på din egen modell, og se hvordan den reduserer størrelse og kjøretid.

På Qualcomm AI Hub en portal med over 100 ferdig komprimerte modeller klare for edge-deploymen, kan du laste ned modeller som er allerede kvantisert, komprimert og testet - med presisjon og hastighet dokumentert.

Du trenger ikke å være en AI-forsker. Du trenger bare en enhet og en modell. Og nå har du verktøyene til å gjøre det.

Hva kommer neste?

Kvantisering og komprimering er ikke ferdig. Det er bare begynt. TOGGLE viser at vi kan sikre språklig nøyaktighet. UniQL viser at vi kan gjøre modeller dynamiske. GPTVQ viser at vi kan gjøre det med høy presisjon.

I 2026 vil vi se modeller som kjører på smarte briller, klimaanlegg, og kokepanner - alle med full språkforståelse, og ingen internettforbindelse. Det er ikke science fiction. Det er det neste skrittet i AI.

Du trenger ikke skyen. Du trenger ikke servere. Du trenger bare en enhet, og den riktige komprimeringen.

Post Comments (5)

Gunnar Bye

March 14, 2026 AT 15:55

Dette er gull! 😎 Har prøvd Llama 3-8B på en gammel Samsung S21 med 4-bit kvantisering og den kjører som en rakett. Batteriet holder hele dagen, og ingen servere som lytter. Endelig kan jeg ha en AI-assistent som ikke sender alle mine tekstmeddelelser til Amazon!

Kristian Krokslett

March 16, 2026 AT 09:53

Det er viktig å understreke at kvantisering ikke bare reduserer størrelse, men også forbedrer latens. Med GPTVQ og TOGGLE kombinert, kan man faktisk oppnå en balanse mellom presisjon og effektivitet som tidligere ble sett som umulig. Spesielt interessant er hvordan TOGGLE bruker formell logikk for å bevare grammatisk konsistens - det er en helt ny nivå av robusthet i komprimerte modeller.

Kristine Lou

March 17, 2026 AT 16:54

jeg har prøvd uniql på min ipad og den er så rask at jeg glemmer at den er en ai 😅 minnebruket er så lite at jeg kan ha den på bakgrunnen mens jeg ser på netflix. men jeg skjønner ikke helt hvordan embedding-lagene fungerer? noen som kan forklare enkelt?

Olav Engh

March 18, 2026 AT 13:49

Det er så spennende å se hvordan teknologien utvikler seg. Jeg har aldri trodd at jeg en dag kunne kjøre en modell som Llama 3 direkte på en kamera som er festet til en børstehold. 🤯

UniQL virker som en smart thermostate for AI - den tilpasser seg basert på hva enheten klarer. Det er ikke bare teknologi, det er eleganse. Og det er nettopp slik AI bør være: usynlig, men til stede når du trenger den.

Qualcomm har gjort noe virkelig viktig her. Ikke bare for utviklere, men for alle som bare vil ha en AI som ikke overvåker dem.

Geir Isaksen

March 20, 2026 AT 06:19

Lmao sånn her er det bare folk som ikke skjønner AI som tror at 4-bit kvantisering er 'gjennombrudd'. Du taper 10-15% presisjon og tror du har en 'liten modell'. Hvor mange ganger må jeg si det: små modeller er ikke bedre, de er bare billigere. TOGGLE? Det er bare en ny måte å skrive paper på. GPTVQ er kanskje greit, men det er ikke revolusjon. Det er bare marketing med matte.