Kvantisering og distillasjon: Slik reduserer du kostnadene for store språkmodeller