Reinforcement Learning from Prompts: Iterativ forbedring for kvalitet i store språkmodeller