Residual Connections og Layer Normalization i Store Språkmodeller: Grunnleggende for stabil trening