Et dypdykk i de kritiske kompromissene mellom causal og bidireksjonell oppmerksomhet i moderne transformer-modeller. Vi utforsker hvordan valg av oppmerksomhetsmekanisme påvirker ytelse, hastighet og bruksområder.
Causal masking er den tekniske grunnsteinen som gjør at språkmodeller som GPT-4 og Llama 3 kan skrive sammenhengende tekst uten å "se" fremtidige ord. Den forhindrer informasjonslekkasje og er avgjørende for autoregressiv generering.