Å trene en stor språkmodell er ikke bare et spørsmål om smart kode, men i stor grad et spørsmål om rå kraft. Hvis du prøver å kjøre en modell med milliarder av parametere på en vanlig prosessor, vil det ta år, ikke dager. For å løse dette trenger vi spesialisert maskinvare som kan håndtere enorme mengder data parallelt. Det er her GPU er grafikkprosessorer som er omgjort til kraftige verktøy for parallellberegning og TPU er spesialiserte kretser designet av Google utelukkende for tensor-operasjoner kommer inn i bildet. Valget mellom disse handler ikke bare om hastighet, men om kostnad, skalering og hvor mye tid du vil bruke på teknisk oppsett.
Hva er egentlig forskjellen på GPU og TPU?
Mange tenker på en GPU som noe man bare bruker til gaming, men i AI-verdenen er de arbeidshestene. En moderne GPU, som NVIDIA H100, bruker et økosystem kalt CUDA for å dele opp tunge regneoppgaver i tusenvis av små biter som løses samtidig. Det gjør dem utrolig fleksible. Du kan bruke dem til alt fra bildebehandling til dype nevrale nettverk.
TPU-er er annerledes. De er det vi kaller ASIC-er (Application-Specific Integrated Circuits), som betyr at de er bygget for én ting: matrise-multiplikasjon. Siden nesten alt i generativ AI handler om nettopp dette, er TPU-er ekstremt effektive. Mens en GPU er som en schweizerkniv, er en TPU som en industrimaskin for én spesifikk oppgave. Google bruker sine egne TPU-er for å trene Gemini, noe som viser at teknologien fungerer på det aller høyeste nivået.
| Egenskap | NVIDIA H100 GPU | Google TPU v5p |
|---|---|---|
| Minnekapasitet | 80 GB HBM | Opptil 760 GB (8-chip config) |
| Ytelse (Tokens/sek per chip) | ~3 800 | ~3 450 |
| Effektiv utnyttelse (MFU) | ~52 % | ~58 % |
| Pris per time (est.) | $12 - $15 | $8 - $11 |
Distributed Training: Hvordan skalere til tusenvis av chips?
Når en modell blir for stor for ett enkelt kort, må vi bruke distribuert trening. Dette betyr at vi sprer modellen og dataene over mange enheter. Men her oppstår et stort problem: flaskehalser i nettverket. Hvis chipene bruker mer tid på å "snakke sammen" enn på å regne, kaster du bort penger.
For GPU-klustere er NCCL (NVIDIA Collective Communications Library) standarden. Den koordinerer hvordan data flyttes mellom kortene. Det fungerer bra, men man er ofte avhengig av ekstern nettverksinfrastruktur som kan bli overbelastet.
TPU-er løser dette annerledes gjennom TPU Pods. Disse er koblet sammen via en Optical Circuit Switch (OCS), som i praksis betyr at forbindelsen mellom chipene er bygget inn i selve arkitekturen. Dette gir en nesten lineær skalering. Det betyr at hvis du dobler antall chips, får du nesten nøyaktig dobbelt så mye kraft. I tillegg gjør GSPMD-kompilatoren at utviklere kan skrive kode for én chip, mens systemet automatisk fordeler arbeidet over hele pod-en.
Økonomien bak valget: Hva lønner seg?
Hvis du ser kun på rå hastighet, er GPU-ene fra NVIDIA ofte litt raskere per enkeltchip. Men når vi snakker om store prosjekter, er det pris-per-ytelse som teller. Data viser at TPU v5p kan gi 15-25 % bedre verdi for pengene enn H100. Enda mer ekstremt er den nyere TPU v6e, som rapporteres å levere opptil fire ganger bedre pris-ytelse for spesifikke trenings- og inferensoppgaver.
En interessant detalj her er Model FLOPs Utilization (MFU). Dette målet forteller oss hvor mye av den teoretiske makskapasiteten som faktisk brukes. TPU-er har ofte en høyere MFU (rundt 58 %) enn GPU-er (rundt 52 %). Hvorfor? Fordi TPU-ens deterministiske utførelse minimerer tiden chipene bruker på å vente på data. For et selskap som Anthropic kan dette bety at den totale eierkostnaden (TCO) blir over 50 % lavere sammenlignet med NVIDIA-oppsett.
Når bør du velge hva?
Det finnes ikke ett riktig svar, men det finnes riktige verktøy for riktig jobb. Du bør velge GPU-er hvis du er i en eksperimentell fase. Siden nesten alle AI-biblioteker fungerer sømløst med CUDA og PyTorch, er det mye raskere å prototype her. Hvis du trenger å bytte mellom ulike skyleverandører (AWS, Azure, GCP), er GPU-er det eneste valget som gir deg full portabilitet.
På den andre siden er TPU-er det ultimate valget for produksjonsskalering. Hvis du har en stabil modellarkitektur, bruker JAX eller TensorFlow, og skal trene en modell med trillioner av parametere, vil TPU-økosystemet spare deg for enorme summer. Men husk at TPU-er kun er tilgjengelige via Google Cloud, noe som betyr at du låser deg til én leverandør.
Hybridstrategien: Det beste fra to verdener
De mest avanserte AI-miljøene bruker ikke bare én type maskinvare. De kjører en hybridmodell. En vanlig strategi er å bruke TPU Pods til den tunge forhåndstreningen (pre-training), hvor kostnadene er høyest og skalering er kritisk. Når modellen er ferdig trent, flytter de den over til GPU-klustere for inferens (utføring), fordi GPU-er ofte er mer fleksible når man skal servere millioner av brukere på tvers av ulike regioner.
En annen tilnærming er å beholde en liten GPU-park for forskning og utvikling. Her kan ingeniørene teste nye ideer og feilsøke kode raskt uten å måtte vente på XLA-kompilering (som TPU-er krever). Når en ny arkitektur er validert, flyttes den over til TPU-ene for fullskala produksjon.
Er TPU-er alltid billigere enn GPU-er?
Ikke nødvendigvis for små prosjekter. For små modeller eller enkel finjustering kan GPU-er være mer kostnadseffektive på grunn av tilgjengelighet og enklere oppsett. Men for storskala trening av fundamentale modeller er TPU-er betydelig billigere per utført beregning.
Kan jeg bruke PyTorch på TPU?
Ja, det kan du, men det krever ofte bruk av XLA (Accelerated Linear Algebra) for å fungere effektivt. Det er ikke like "plug-and-play" som på en GPU, men støtten har blitt mye bedre de siste årene.
Hvorfor er NVIDIA fortsatt dominerende hvis TPU-er er så effektive?
Det handler om økosystemet. CUDA er industristandarden, og nesten all AI-programvare er skrevet for å fungere med NVIDIA-kort. I tillegg kan du kjøpe GPU-er fysisk til eget datasenter, mens TPU-er kun kan leies via Google Cloud.
Hva betyr MFU i sammenheng med AI-trening?
MFU står for Model FLOPs Utilization. Det måler hvor stor prosentandel av maskinvarens teoretiske makskapasitet som faktisk brukes til å regne på modellen. Høyere MFU betyr mindre svinn og mer effektiv bruk av strøm og penger.
Hvilken maskinvare er best for inferens?
For mange er GPU-er (som L40 eller A10) foretrukket for inferens på grunn av lav ventetid og bred støtte. Men Google TPU v6e er spesifikt designet for å være ekstremt kostnadseffektiv for inferens i stor skala.