Kostnadseffektivitet og ytelsestuning for å kjøre åpne LLM-er i produksjon