Promptmønster for kode: Unit tester og refaktorering med LLM

May 19, 2026
Comments 7
Teknologi og kunstig intelligens

Har du noen gang spurt en AI om å skrive en funksjon, bare for å få tilbake kode som ser bra ut, men krasjer så snart du kjører testene? Det er frustrerende. Vi vet at Store språkmodeller (LLM-er) er AI-verktøy som genererer tekst og kode basert på mønstre de har lært fra store datamengder som GPT-4o-mini, Llama 3.3 og Qwen2.5 kan gjøre underverker. Men uten strukturerte retningslinjer for hvordan vi spør dem - altså Prompt engineering er praksisen med å designe presise instruksjoner til AI-modeller for å oppnå ønsket output - ender vi ofte med kodestykker som mangler feilhåndtering eller ikke oppfyller spesifikke krav.

Problemet er ikke at modellene er dumme. Problemet er at vi er uklar. Forskning viser at profesjonelle utviklere bruker svært ulike strategier når de jobber med kodegenerering, feilsøking og omtale. Mange faller inn i en iterativ, samtalemessig sløyfe der man må «snakke» seg frem til riktig svar. Dette tar tid, øker token-bruken og kan føre til at modellen begynner å «hallusinere» - det vil si den oppdiker fakta eller logikk som ikke eksisterer. Heldigvis finnes det nå konkrete mønstre og retningslinjer som hjelper oss på vei.

Hvorfor generisk prompting svikter i kodeproduksjon

Når du ber en LLM om å «skriv en funksjon som sorterer en liste», får du ofte en enkel implementasjon. Men hva skjer hvis listen inneholder null-verdier? Eller hvis den skal være stabil? Uten kontekst antar modellen det mest sannsynlige, ikke nødvendigvis det korrekte for ditt tilfelle. Studien bak de ti nye retningslinjene for promptforbedring viste at mange av disse problemene løses ved å spesifisere inndata/utdata (I/O), definere pre-kondisjoner og post-kondisjoner, og gi konkrete eksempler.

Tenk deg at du jobber med et Python-prosjekt. Du ber modellen om å skrive en parser for JSON-data. En generisk prompt gir deg kanskje `json.loads()`. Men hvis dataen din kommer fra en ukjent kilde, trenger du validering. Her kommer Pydantic er et bibliotek for datavalidering og settings-administrasjon i Python inn i bildet. Hvis du nevner Pydantic i prompten din, sammen med en streng definisjon av felttyper, endrer modellen sin adferd drastisk. Den skriver ikke bare kode; den skriver *sikrere* kode.

Dette illustrerer poenget med de syv identifiserte promptmønstrene fra DevGPT-datasettet. Mønstrene som kalles «Context and Instruction» og «Recipe» viste seg å være spesielt effektive. De reduserer antall runder mellom utvikler og AI, noe som sparer tid og minsker risikoen for at du mister fokus undervegs.

Mønster 1: Kontekst og instruksjon (The Recipe)

Dette mønsteret handler om å gi AI-en en klar rolle og en detaljert oppskrift. I stedet for å si «hjelp meg med dette», sier du: «Du er en senior-backend-utvikler. Skriv en REST-endepunkt i Node.js er en server-side JavaScript-runtime bygd på Chromes V8-motor som håndterer brukeropprettelse. Bruk Express.js. Valider e-postadressen med regex. Hash passordet med bcrypt. Returner status 201 på suksess og 400 på feil.»

Ved å inkludere teknologistakken (Node.js, Express, bcrypt) og de nøyaktige HTTP-statuskodene, fjerner du tvilen. Modellen vet nøyaktig hvilke biblioteker den skal importere og hvilken logikk den skal følge. Dette er langt mer effektivt enn å la modellen gjette hva du foretrekker.

Rolle: Definer hvem AI-en skal være (f.eks. sikkerhetsekspert, frontend-arkitekt).
Kontekst: Hva er prosjektets mål? Hvilke begrensninger har du?
Instruksjon: Hva skal koden gjøre steg for steg?
Format: Hvordan skal outputen se ut? (Kodestykke, filstruktur, kommentarer?)

Mønster 2: Test-driven prompting for enhetstester

En av de største utfordringene med AI-generert kode er tillit. Kan du stole på at den fungerer? Her kommer konseptet med «test-driven prompting» inn. I stedet for å be om kode først, ber du om testene først. Når du har testene, kan du be modellen om å skrive koden som passer testene. Dette tvinger modellen til å tenke på grensetilfeller før den skriver implementeringen.

Forskning publisert i 2025 viste at denne metoden øker sjansen for at koden består benchmark-tester betydelig. La oss ta et eksempel med Jest er et populært testrammeverk for JavaScript. Du kan starte med følgende prompt:

«Skriver jeg en funksjon som beregner rabattbasert på kundens status. Først, skriv tre Jest-testtilfeller: 1. Normal kunde får 10 % rabatt. 2. Premium-kunde får 20 % rabatt. 3. Ukjent status kaster en TypeError. Når testene er klare, skriv implementasjonen av funksjonen som passer disse testene.»

Ved å spesifisere input (kundestatus) og forventet output (rabattprosent eller feilmelding), definerer du pre-kondisjoner og post-kondisjoner tydelig. Dette reduserer ambivalens. Modellen vet at den må håndtere «ukjent status» eksplicit, noe den kanskje hadde hoppet over i en mer generell forespørsel.

Utvikler og AI-spiritt samarbeider med strukturelle kodeblokker i en lys, ordnet verden

Mønster 3: Refaktorering med presise mål

Refaktorering er kunstverket å endre strukturen til kode uten å endre dens ytre oppførsel. Dette er vanskelig for mennesker, og enda vanskliger for AI hvis ikke veiledningen er presis. Mange utviklere ber om «rennere kode», men hva betyr det? For en modell kan «rennere» bety kortere, mens for deg kan det bety mer lesbar eller mer modulær.

Her bør du bruke mønsteret «Problem-solving prompts». Gi eksisterende kode og beskriv spesifikt hva som er problemet. Er det for hardtkoplet? Mangler det dokumentasjon? Bruker det for mye hukommelse?

Eksempel på en svak prompt: «Forkjør denne koden.» Eksempel på en sterk prompt: «Denne Python-funksjonen har O(n^2)-kompleksitet pga. den nestede løkken. Refaktor den til å bruke en dictionary-lookup for å redusere kompleksiteten til O(n). Behold funksjonens signatur og docstring. Bruk typehints.»

Ved å nevne Big O-notasjon er en matematisk notasjon som beskriver algoritmers asymptotiske oppførsel og spesifisere løsningen (dictionary-lookup), guider du modellen mot en konkret teknisk løsning. Du unngår også at den endrer API-et til funksjonen, noe som kunne knust resten av applikasjonen din.

Sikkerhet og robuste prompt-strategier

Sikker kode er ikke en luksus; det er et krav. Når du bruker LLM-er til kodegenerering, må sikkerhet integreres i selve prompt-designet. Studier har vist at systematiske tilnærminger til sikker kodegenerering krever at du eksplisitt ber om sikkerhetsprinsipper. Du kan ikke bare håpe at modellen husker SQL-injeksjonsvern.

Inkluder alltid instruksjoner om: • Input-validering (bruk biblioteker som Zod for TypeScript eller Pydantic for Python). • Parameteriserte spørringer for databaseinteraksjoner. • Unngå eval() eller eksekvering av ukjent kode. • Logging av sensitive data (passord, nøkler) skal aldri skje.

Dette kalles «Secure Code Generation Prompting». Ved å sette rammer for hva som er akseptabelt, reduserer du risikoen for sårbarheter. Tenk på det som en sikkerhetsnett for din AI-assistent.

Utvikler refactorer kodeknute til sikker, effektiv struktur med beskyttelsesskjold

Sammenligning av prompt-mønstre

Effektivitet av ulike prompt-mønstre for kodegenerering
Mønster	Beste bruk	Fordeler	Ulemper
Kontekst & Instruksjon	Nye funksjoner, komplekse oppgaver	Høy presisjon, færre iterasjoner	Krever tid å skrive god prompt
Test-driven	Enhetstester, kritisk logikk	Sikrer dekkning, klar definisjon av krav	Må skrive tester først (mentalt arbeid)
Problem-løsning	Feilsøking, refaktorering	God for brainstorming, læringsformål	Kan gi upresise svar uten nok detaljer
Generell Generering	Enkle snippets, boilerplate	Raskt, lav terskel	Lav kvalitet, høy risiko for feil

Unngå vanlige feller

Det finnes flere fellereuter du bør unngå for å spare tid og irritasjon. Først og fremst: unngå Chain-of-Thought (CoT) prompting i produktionsmiljøer dersom du ikke trenger det. CoT, der du ber modellen «tenke trinn for trinn», kan gi bedre resultater for svært komplekse problemer, men det øker token-bruken, kostnadene og inferens-latensen betydelig. For de fleste daglige coding-oppgaver er en velkonstruert enkelt-prompt bedre.

For det andre, vær varsom med «hallusinasjoner». Modeller kan oppfinne biblioteker som ikke eksisterer eller metoder som ikke finnes i versjonen du bruker. Alltid verifiser imports og metodetilkallinger mot offisiell dokumentasjon. Hvis du bruker TypeScript er et superset av JavaScript som legger til statisk typografi, sørg for at prompten din spesifiserer versjonen, da nyere versjoner har forskjellige standarder for streng-typografi.

Og sist, men ikke minst: kopier aldri AI-kode direkte inn i produksjonssystemet uten review. AI er en assistent, ikke en arkitekt. Den mangler forståelse for hele systemets arkitektur, forretningslogikk og langtidssikkerhet. Din rolle er å curate, validere og integrere.

Neste steg for utviklere

Hvordan starter du? Begynn med å identifisere én del av koden din som er repetitiv eller kjedelig. Prøv «Kontekst og Instruksjon»-mønsteret. Definer rollen, konteksten og det eksakte formatet. Se om du kan redusere tiden det tar å skrive denne delen med 50 %. Deretter, prøv «Test-driven prompting» for en kritisk funksjon. Skriv testene først, la AI skrive implementasjonen. Sammenlign kvaliteten.

Over tid vil du utvikle en «prompt-bibliotek» for ditt team. Lag maler for vanlige oppgaver: «Skriv en API-endepunkt», «Generer en database-migrasjon», «Opprett en React-komponent med PropTypes». Disse malene vil bli mer presise etter hvert som du lærer hva som fungerer best for dine spesifikke behov og teknologistakk.

Husk at prompt engineering er en ferdighet som utvikler seg. Jo mer du praktiserer, jo bedre blir du på å kommunisere med maskinen. Og når kommunikasjonen blir klar, blir koden ren, testbar og trygg.

Hva er forskjellen på generisk prompting og test-driven prompting?

Generisk prompting ber om kode direkte (f.eks. «skriv en funksjon»), mens test-driven prompting ber om testtilfeller først. Dette tvinger AI-en til å definere grenser og forventninger tydelig før implementeringen skrives, noe som øker nøyaktigheten og dekningen.

Er Chain-of-Thought (CoT) prompting anbefalt for kodegenerering?

Ikke for de fleste daglige oppgaver. CoT øker token-bruken og latensen betydelig. For simple til moderate coding-oppgaver er en veldefinert enkelt-prompt mer effektiv og økonomisk. CoT kan være nyttig for svært komplekse algoritmiske problemer.

Hvordan sikrer jeg at AI-generert kode er sikker?

Inkluder sikkerhetskrav direkte i prompten. Be om input-validering (f.eks. med Pydantic eller Zod), parameteriserte database-spørringer, og eksplisitt forbud mot funksjoner som eval(). Verifiser alltid koden manuelt eller med automatiske sikkerhetsscannere før deployement.

Kan LLM-er erstatte menneskelige utviklere?

Nei. LLM-er er verktøy som øker produktiviteten, men de mangler forståelse for forretningskontekst, systemarkitektur og langtidssikkerhet. Menneskelig oversight, review og arkitektonisk beslutningstaking er fortsatt avgjørende for kvaliteten i programvare.

Hvilke programmeringsspråk fungerer best med disse mønstrene?

Disse mønstrene fungerer godt for alle store språk, inkludert Python, JavaScript/TypeScript, Java, C# og Go. Nøyaktigheten avhenger mindre av språket og mer av hvor tydelig prompten er definert med hensyn til biblioteker, versjoner og spesifikke krav.

Post Comments (7)

Geir Isaksen

May 20, 2026 AT 06:17

Denne artikkelen er helt latterlig. Folk her tror at de trenger en PhD i prompt engineering for å få AI til å skrive kode som faktisk virker. Jeg har brukt LLM-er i tre år nå og jeg har aldri brukt noen av disse "mønsterene". Det er bare buzzword bingo for folk som ikke kan kode ordentlig.

Hayden Kjelleren

May 21, 2026 AT 03:42

Jeg føler meg litt overveldet av all denne informasjonen. Er det virkelig så viktig? Jeg prøver bare å få ting til å fungere uten å tenke for mye på prosessen.

Torolf Bjoerklund

May 21, 2026 AT 10:32

Typisk. En annen "ekspert" kommer med løsninger på problemer som egentlig ikke eksisterer for de fleste. Vi lever i en illusjon der vi tror at mer struktur gir bedre resultater, men sannheten er at kaos ofte fører til kreativitet. Hvorfor skal vi begrense oss til disse rigide mønstrene når vi kunne la maskinen være fri? :)

Christoffer Sundby

May 22, 2026 AT 12:23

Jeg mener at dette er et veldig nyttig innlegg. Mange utviklere sliter med å forstå hvordan de kan få mest mulig ut av AI-verktøyene sine. Test-driven prompting er spesielt smart fordi det tvinger deg til å tenke gjennom kravene først. Det sparer tid på sikt selv om det krever litt mer innsats opprinnelig.

Kristian Risteski

May 23, 2026 AT 05:18

Hei alle sammen! Jeg synes dette er en interessant diskusjon. Jeg har jobbet litt med Pydantic og må si at det hjelper mye med validering. Men jeg lurer på om det er verdt bryet å bruke så mange ord i prompten? Kanskje det finnes en midtvei?

Silje Løkstad

May 24, 2026 AT 17:21

Dette er jo helt grunnleggende stuff for seriøse ingeniører. Hvis du ikke bruker kontekstuelle prompts med tydelige I/O-definisjoner og typehints, så fortjener du ikke å kalle deg utvikler. Jeg ser for mye kode fra folk som bare kopierer og limer uten å forstå Big O-notasjon eller sikkerhetsprinsipper. Det er skummelt. :)

Elin Lim

May 26, 2026 AT 16:21

Kode er et speil for sjelen din. Hvis koden din er rotete så er tankene dine også rotete. Bruk disse mønstrene eller ikke. Det spiller ingen rolle for meg.