Har du noen gang tenkt på hvordan en AI kan svare på en sensitive helseopplysning eller en hemmelig finansiell transaksjon - uten å se innholdet i det hele tatt? Det er ikke magi. Det er konfidensiell computing, og det endrer alt for hvordan store språkmodeller (LLM) brukes i virkelige virksomheter.
I 2026 er det ikke lenger nok å kryptere data når den ligger i ro eller på vei. Når en modell som GPT-4 eller Llama 3 skal analysere et pasientjournal, en konfidensiell e-post eller en juridisk dokument, må både input og modellens egne vekter forblive hemmelige - ikke bare fra eksterne angripere, men også fra den skytjenesten som kjører den. Konfidensiell computing løser nettopp dette. Den bruker hardvarebaserte sikre områder, kalt Trusted Execution Environments (TEEs), til å skape en «sikker kasse» der alt skjer i kryptert tilstand - selv mens modellen jobber.
Hvordan fungerer konfidensiell computing for LLM-inferens?
Tenk deg at du sender en forespørsel til en AI-tjeneste. Vanligvis går denne gjennom flere lag: fra din enhet, via internett, til en server i en skydataklynge. Der blir forespørselen dekryptert, modellen lastes inn, og svaret genereres. Problemet? Selv om data er kryptert på veien, er den ute av krypteringen når den kjører - og det betyr at skyleverandøren, eller en angriper som får tilgang til serveren, kan se hva du skrev - og kanskje også hvordan modellen er bygget.
Konfidensiell computing endrer dette. Her brukes spesiell hardvare fra Intel (TDX), AMD (SEV-SNP) eller NVIDIA (CPR) til å lage et isolert minneområde - en TEE. I dette området:
- Din forespørsel blir dekryptert bare innenfor den sikre grensen.
- Modellens vekter - som kan koste millioner å utvikle - forblir krypterte selv når de lastes inn i GPU-minnet.
- Alle beregninger skjer i kryptert minne.
- Svaret blir kryptert igjen før det forlater den sikre omgivelsen.
Det er som å gjøre en kirurgi i en lufttett kasse - ingen kan se inn, men operasjonen går like bra som om den var åpen.
Hva er TEE, og hvorfor er den så viktig?
TEE står for Trusted Execution Environment. Det er ikke bare en programvareløsning - det er en fysisk sikkerhet i prosessoren. Når en TEE aktiveres, blokkerer hardvaren alle tilganger fra operativsystemet, hypervisor, eller andre prosesser. Selv hvis en angriper har root-tilgang til serveren, kan de ikke lese eller endre data innenfor TEE.
Her er hva hver leverandør tilbyr:
- Intel TDX: Brukes av Google Cloud. Støtter opp til 56 vCPU og 224 GB minne per virtuell maskin - ideelt for store modeller.
- AMD SEV-SNP: Brukes av Microsoft Azure. Støtter opp til 16 vCPU og 32 GB minne - bra balanse mellom ytelse og sikkerhet.
- NVIDIA CPR: Kun i Hopper og Blackwell GPU-er. Lar modellvekter forblive krypterte i VRAM - kritisk for LLM som krever massiv GPU-potens.
En annen avgjørende del er attestering. Før en modell lastes inn, må TEE-området bevise at det er autentisk og ikke manipulert. Det skjer gjennom kryptografiske sjekker mellom klienten og serveren. Det kalles «mutual attestation»: både leverandøren og kunden bekrefter at de er på den rette siden.
Hvordan ser det ut i praksis?
La oss si at en sykehuskjede vil bruke en LLM til å analysere pasientnotater. De vil ikke at en tredjepart - ikke engang skyleverandøren - skal kunne lese pasientnavn, sykdommer eller diagnostiske notater. Med konfidensiell computing:
- De laster inn en kryptert versjon av sin LLM som en sikker OCI-container.
- En pasientnotat blir sendt via TLS 1.3 til Azure eller AWS.
- Serveren bekrefter at TEE-en er gyldig gjennom attestering - og bare da dekrypteres forespørselen.
- Modellen kjører i sikker TEE-minne, og genererer et svar basert på det krypterte innholdet.
- Svaret blir kryptert og sendt tilbake - uten at noen har sett innholdet i mellom.
Dette gjør det mulig å oppfylle GDPR, HIPAA og andre reguleringer - uten å måtte skrive om hele modellen eller bruke tregere krypteringsmetoder.
Hvilke plattformer er beste?
Det finnes tre store aktører - og en fjerde som bygger på open source.
| Plattform | Hardvare | Max minne | GPU-støtte | Fordel | Ulempe |
|---|---|---|---|---|---|
| AWS Nitro Enclaves | Intel TDX | 4 GB | Begrenset | Enkel integrering med EC2 | For lite minne for store modeller |
| Microsoft Azure Confidential Inferencing | AMD SEV-SNP | 32 GB | Ja (fra Q1 2025) | Bra skalerbarhet, godt dokumentert | Utfordrende å sette opp første gang |
| Google Cloud Confidential VMs | Intel TDX | 224 GB | Ja (fra okt 2024) | Største minne, høy ytelse | Mer kompleks konfigurasjon |
| Red Hat OpenShift | Alle TEE | Avhengig av infrastruktur | Ja | Kubernetes-integrasjon, ideell for container-baserte løsninger | krever Kubernetes-ekspertise |
For bedrifter som allerede bruker Kubernetes, er Red Hats løsning en god valg. For de som trenger maksimal ytelse med store modeller, er Google Cloud den beste. For de som vil ha en enkel overgang fra eksisterende skyinfrastruktur, er AWS en god start - selv om minnebegrensningen er et problem.
Hva med ytelse og kostnader?
Det er ikke gratis å være sikker. Konfidensiell computing har en overhead - men den er mye bedre enn før.
NVIDIA rapporterer at med deres Hopper- og Blackwell-GPUs, kan du oppnå 90-95 % av den native ytelsen. Det betyr at en inferens som tok 200 ms før, nå tar 210-220 ms. For de fleste applikasjoner er dette ubetydelig.
Men det finnes utfordringer:
- Kald start: Den første forespørselen kan ta 1,2-2,8 sekunder lenger på grunn av attestering.
- Minnebegrensninger: På AWS Nitro Enclaves med 4 GB minne må du kvantisere modellen - og det kan redusere nøyaktighet med 2-5 %.
- Feilsøking: Det er vanskelig å se hva som skjer innenfor en TEE. Feil blir mer komplekse å diagnostisere.
En studie fra Forrester viste at 68 % av bedrifter bruker 3-6 måneder på å sette opp det første systemet. Det krever ekspertise i både hardvare, sikkerhet og LLM-optimering.
Hvem bruker dette, og hvorfor?
Det er ikke lenger bare teknologibedrifter som bruker dette. Det er:
- Finans: 47 % av alle implementeringer. For å analysere transaksjoner uten å eksponere kundeopplysninger.
- Helse: 32 %. For å analysere pasientjournaler, medisinske bilder og kliniske forsøk - i tråd med HIPAA.
- Offentlig sektor: 14 %. For å behandle sensitive dokumenter uten å vise dem til tredjepart.
En europeisk bank brukte Google Clouds løsning til å analysere transaksjoner og oppdage svindel - uten å bryte GDPR. En amerikansk regjeringsmyndighet brukte AWS til å analysere dokumenter med klassifisert informasjon - uten at skyleverandøren noen gang så innholdet.
Det er ikke bare om å være sikker. Det er om å kunne bruke AI i områder der det før var umulig.
Hva er fremtiden?
Markedet vokser raskt. I 2024 var verdien av konfidensiell computing for AI på 1,04 milliarder dollar. I 2027 forventes det å være 14,3 milliarder - en vekst på 72 % hvert år.
Det som skjer nå er standardisering. Confidential Computing Consortium jobber med en felles attesteringsspråk som skal være kompatibel mellom Intel, AMD og NVIDIA - og kommer i 2026. NVIDIA har nettopp sluppet CUDA 12.8, som gjør det 40 % lettere å bygge konfidensielle LLM-applikasjoner.
Men det er ikke perfekt. Forskere har funnet 12 nye sidekanalangrep mot TEE-er de siste 18 månedene. Det betyr at sikkerheten må oppdateres kontinuerlig - både i hardvare og programvare.
Likevel: det er ikke lenger en fremtidsteknologi. Det er nå. Og innen 2028 vil konfidensiell computing være like vanlig som kryptering av data på lagring - en grunnleggende del av hver AI-løsning i regulerte bransjer.
Hva er forskjellen mellom konfidensiell computing og vanlig kryptering?
Vanlig kryptering beskytter data når den ligger i ro (på disk) eller på vei (over nettverk). Konfidensiell computing beskytter data mens den brukes - altså mens AIen jobber med den. Den bruker hardvarebaserte sikre områder (TEEs) for å holde alt kryptert selv under beregning - noe som vanlig kryptering ikke kan gjøre.
Kan jeg bruke konfidensiell computing med alle LLM-modeller?
Ja, men det krever at modellen er pakket som en kryptert OCI-container og tilpasset for å passe inn i minnebegrensningene til TEE-en. Store modeller som Llama 3 70B krever minst 32 GB minne - noe som bare er tilgjengelig på Azure og Google Cloud. AWS Nitro Enclaves med 4 GB er bare egnet for småmodeller eller kvantiserte versjoner.
Er det sikkerere enn å kjøre LLM lokalt?
Lokal kjøring er sikker mot skyleverandører - men ikke mot lokale angripere, feil i operativsystemet, eller skadelig programvare. Konfidensiell computing gir beskyttelse mot begge: både skyleverandøren og lokale trusler. Det er en ekstra sikkerhetsnivå som ikke finnes i lokalt kjøring.
Hva er de største utfordringene med å sette opp konfidensiell computing?
De tre største utfordringene er: 1) Kompleks attestering og nøkkelhåndtering, 2) Begrensede minne- og CPU-ressurser i TEE-er, og 3) Manglende dokumentasjon for LLM-spesifikke tilfeller. Mange bedrifter bruker 3-6 måneder på å sette opp det første systemet, og trenger spesialiserte ingeniører med kunnskap i både sikkerhet og AI.
Hvorfor er NVIDIAs GPU-er så viktige for konfidensiell computing?
LLM-er krever store mengder GPU-minne for å kjøre raskt. Tradisjonelt var GPU-minnet (VRAM) et svakt punkt - det var ikke kryptert. NVIDIAs Compute Protected Regions (CPR) i Hopper og Blackwell-arkitekturer gjør det mulig å holde hele modellen kryptert inni GPU-en - slik at selv om en angriper får tilgang til serveren, kan de ikke lese modellvektene. Dette er avgjørende for å beskytte proprietære modeller.