Warum funktioniert ein Prompt, der mit Claude hervorragend läuft, bei GPT-5 plötzlich nicht mehr? Und seit wann müssen wir Prompts schreiben wie regelbasierte Programme? Wie forcieren wir “Kreativität”, weil Marketing das verlangt?

Die Antwort liegt in einem fundamentalen Paradigmenwechsel: GPT-5 mit Reasoning folgt Instruktionen mit einer Präzision, die wir von vorherigen Modellen (GPT-4.1 war die Ausnahme, hatte aber kein Reasoning) nicht kannten. Was nach einem Feature klingt, stellt bestehende Prompt-Engineering-Praktiken auf den Kopf. Die Zeit des “Geschreis” – Caps Lock, Ausrufezeichen, redundante Bitten – ist vorbei. Jetzt zählen auf einmal klare Regeln, explizite Policies und strukturierte Anweisungen.

Hinweis: Dieser Artikel bezieht sich auf das Reasoning-Modell „GPT-5 Thinking”. Das adaptive „ChatGPT Instant“ Modell ohne explizites Reasoning verhält sich teilweise anders.

Vom Vibe zur Vorschrift

Wer zuletzt noch mit Claude < 4.5, GPT-4o, Gemini 2.5 oder anderen Modellen gearbeitet hat, kennt das Muster: Man schreibt Prompts mit viel Gefühl, wiederholt wichtige Anweisungen mehrfach, nutzt Großbuchstaben und Ausrufezeichen, um “Nachdruck” zu verleihen.

Dieses “Geschrei” war eine rationale Antwort auf ein Verhaltensmuster: Frühere Modelle interpretierten Prompts sehr viel “vibe-basierter”. Sie erfassten die grobe Richtung, ließen sich aber durch Nuancen, Nebensätze oder konkurrierende Instruktionen leicht ablenken. Prompt Engineering wurde zu einer Kunst der Redundanz und Verstärkung.

GPT-4.1 zeigte bereits eine deutlich verbesserte Instruction-Following-Fähigkeit, doch die meisten von uns hatten kaum Zeit, sich darauf einzustellen – GPT-5 folgte kurz darauf. Und mit GPT-5 ändert sich alles. Eric Zakariasson von Cursor fasst es zusammen:

“GPT-5 is one of the most steerable models I’ve used… When I was more specific, I was surprised by how smart the model was.” cursor.com

Diese “Steerability” bedeutet in der Praxis: Jede Silbe zählt. Jeder Nebensatz wird beachtet. Jede Regel wird befolgt. Nate B Jones bringt es in seinem Prompting Guide zu GPT-5 auf den Punkt:

“This is a speedboat with a really big rudder. This model wants to go fast and it wants to be steered really, really hard. But most people’s prompts are not in a place where we can effectively steer that model.”

Das ist ein Wendepunkt. Prompts sind nicht mehr Wunschlisten oder Hinweise – sie sind ausführbare Policies.

Instruction Following im Benchmark-Vergleich

Die Instruction-Following-Fähigkeiten lassen sich quantifizieren. Artificial Analysis evaluiert aktuelle Frontier-Modelle u.a. mit IFBench, einem standardisierten Benchmark für die Präzision bei der Regelumsetzung. Die Ergebnisse zeigen deutliche Unterschiede zwischen den Modellgenerationen:

Bar graph titled 'IFBench (Instruction Following)' comparing AI models' instruction-following performance.
IFBench Scores von Artificial Analysis

Die GPT-5-Familie dominiert die oberen Plätze mit Werten zwischen 61% und 74%. Zum Vergleich: Claude-Modelle erreichen 54–57%, Gemini landet bei 52–54%, Grok bei 51%. Die Differenz klingt moderat – in der Praxis bedeutet sie, dass GPT-5 bei komplexen, verschachtelten Regelsets deutlich seltener von den Vorgaben abweicht.

Interessant ist die Spreizung innerhalb der GPT-5-Varianten. Die “minimal”-Variante liegt erwartungsgemäß niedriger (nicht im oberen Bereich), während die optimierten Varianten konsistent über 67% bleiben. Das spiegelt die semantischen Parameter wider: reasoning_effort und verbosity beeinflussen nicht nur Output-Stil, sondern auch Instruction-Following-Präzision.

Claude bleibt trotz niedrigerer IFBench-Scores in der Praxis stark – Entwicklerinnen berichten von hoher Verlässlichkeit bei multi-turn workflows und Tool-Orchestrierung. Der Unterschied liegt im Profil: GPT-5 folgt granularen, verschachtelten Regeln präziser; Claude punktet mit Konsistenz und “First-Try-Success” bei Standard-Szenarien.

Die Benchmark-Zahlen bestätigen: GPT-5 setzt einen neuen Standard für regelbasierte Steuerbarkeit. Das hat Konsequenzen für alle, die komplexe Prompt-Systeme bauen.

Tool-Orchestrierung: τ²-Bench Telecom

Noch relevanter für agentische Workflows ist die Fähigkeit, Tools basierend auf Instruktionen präzise zu orchestrieren. Der τ²-Bench Telecom Benchmark simuliert Technical-Support-Szenarien, in denen ein Agent eine Nutzerin durch komplexe Troubleshooting-Prozesse führen muss – über mehrere Turns hinweg, mit Tools auf beiden Seiten. Der Agent muss Policies befolgen (“prüfe erst X, dann Y”), Nutzereingaben interpretieren, fallabhängig Tools aufrufen und die Nutzerin durch mehrstufige Aktionen steuern (“Bitte schalte Mobile Data aus und prüfe die Statusleiste”). Das ist deutlich komplexer als single-turn tool calling.

Bar chart comparing agentic tool performance in intelligence evaluations. among others.
τ²-Bench Telecom Scores von Artificial Analysis

GPT-5 dominiert auch hier mit Werten zwischen 84% und 87%. Claude 4.5 Sonnet erreicht 78%, Claude Opus 4.1 71%. Gemini 2.5 Pro liegt bei 46% – deutlich schwächer als bei reinem Instruction Following.

Die Spreizung ist aufschlussreich: Während IFBench die Fähigkeit misst, Regeln zu befolgen, testet τ²-Bench die Umsetzung in konditionale, multi-turn Tool-Orchestrierung. Das Fallbeispiel später in diesem Artikel – “Nutze web_search_preview, wenn im Vorgehen für den jeweiligen Inhaltstyp angefordert” – ist verglichen damit einfacher (single turn, keine User-Interaktion), zeigt aber das gleiche Grundprinzip: Policies werden in Tool-Calls übersetzt. GPT-5’s 87% auf τ²-Bench signalisieren: Selbst in komplexen, mehrstufigen Szenarien mit dynamischer State-Verwaltung bleiben Policy-basierte Tool-Calls verlässlich.

Was GPT-5 konkret ändert

Regeltreue statt Interpretation

GPT-5 minimiert Interpretationsspielraum. Wo frühere Modelle Anweisungen mit einer gewissen “kreativen Freiheit” lasen, folgt GPT-5 verschachtelten Regeln konsistent. Ein Beispiel aus der Praxis: Lee Robinson von Cursor berichtet, dass er das Modell präzise steuern konnte – “The default writing style of GPT-5 was more verbose than I wanted, so I was able to make a rule to have responses be more concise… [and] steer the model towards asking fewer follow-up questions.” cursor.com

Das klingt banal, ist aber fundamental: Stil, Verbosity, Agentenverhalten – alles wird durch explizite Regeln im Prompt steuerbar. Keine Trial-and-Error-Iterationen mehr, um “das richtige Gefühl” zu treffen.

Das Ende der Sampling-Parameter

Ein bemerkenswerter Nebeneffekt: GPT-5 Thinking bietet keine klassischen Sampling-Parameter wie Temperature, Top-K oder Top-P mehr. Stattdessen bleiben uns nur noch:

  • reasoning_effort: Steuert, wie viel “Denkzeit” das Modell investiert (minimal, low, medium, high).
  • verbosity: Granulare Kontrolle über Ausgabelänge (low, medium, high)

Wer bisher schlecht geschlafen hat, weil man nie genau wusste, wie die Temperatur gegen Instruktionen im Prompt austariert wird, kann aufatmen. In gewisser Hinsicht ist das befreiend und konsequent: Wenn Prompts zu Programmen werden, brauchen wir keine stochastischen Regler mehr. Wir schreiben die gewünschte Varianz direkt in den Prompt. OpenAI ist sich der Steerability von GPT-5 sehr sicher und schafft diese Inferenzparameter praktisch ab.

Monolithische Prompts mit verzweigter Logik

„Früher” bauten wir AI-Workflows als Kaskaden: Content klassifizieren → je nach Typ spezialisierte Agents aufrufen → Pre-Processing → Tool-Calls. Mit GPT-5 Thinking kann das theoretisch alles in ein Prompt wandern. Ein Beispiel aus meinem Konzept-Dokument: “Ist folgender Link ein Podcast? Wenn ja, nutze Firecrawl-MCP, um das zugehörige Transkript im Internet zu suchen.” Security-Aspekte ignorieren wir für dieses Beispiel. Grundsätzlich gilt: je mehr Tools und Zugriff ein Agent erhält, desto besser muss er durch Guardrails abgesichert werden.

Das Modell versteht konditionale Tool-Policies, verzweigte Regelsets und typabhängige Verarbeitung – ohne externe Orchestrierung. Prompts werden zu ausführbaren Programmen mit expliziten Regeln, Abbruchkriterien und Validierung.

Cerebro: Ein System-Prompt als Regelwerk

Um zu zeigen, wie “Prompts als Programm” in der Praxis aussehen, nutze ich mein persönliches Bookmarking- und Knowledge-Management-Tool Cerebro. Das System-Prompt ist ein gutes Beispiel für verzweigte Policies, präzise Tool-Nutzung und strukturiertes Output-Management.

Das vollständige System-Prompt

# Rolle und Ziel

Du bist ein Agent zur Zusammenfassung von Inhalten für das Bookmarking-Tool „Cerebro".
Deine Aufgabe ist es, Inhalte gründlich zu lesen, diese nutzerzentriert auf Basis
des Vorgehens zusammenzufassen.

# Tools

- Websuche: Nutze `web_search_preview`, wenn im Vorgehen für den jeweiligen Inhaltstyp angefordert.

# Vorgehen

1. Bereinige den Titel:
- Mach ihn extrem gut scanbar in einer langen Lesezeichenliste
- Entferne jegliche Werbung, Marketing oder Clickbait-Formulierungen

2. Fasse den Inhalt in einem Satz für eine Teaser-Anzeige zusammen:
- Mach es extrem einfach zu scannen in einer langen Liste von Lesezeichen-Karten, kurz und klar
- Nutze den begrenzten Platz optimal für eine maximal informative Vorschau aus Titel und Teaser
- Wiederhole NICHT den bereinigten Titel aus Punkt 1, sondern ergänze ihn intelligent

3. Klassifiziere den Inhaltstyp:
- Schreibe in Kleinbuchstaben
- Einige Beispiele:
  - restaurant
  - produkt
  - rezept
  - buch
  - tv serie
  - song
  - album
  - dj set
  - schuhe
  - kleidung
  - gadget
  - testbericht
  - zitat
  - artikel
  - tutorial
  - repository
  - dokumentation
  - video
  - vortrag
  - paper
  - foto
  - screenshot
  - diagramm
  - kunstwerk
  - chart
  - meme

4. Erzeuge 3-7 relevante Tags, die Kategorie, Thema und Inhalt beschreiben:
- Alle Tags müssen kleingeschrieben sein
- Leerzeichen sind erlaubt für mehrwortige Tags (z.B. "generative ki")
- Verwende spezifische, beschreibende Tags, die zum Filtern nützlich sind
- Nutze sowohl allgemeine Kategorie-Tags als auch spezifische
- Tags sollten direkt in einem Filtersystem verwendbar sein
- Dopple nicht den Inhaltstyp (aus 3.) als Tag

5. Erstelle eine Zusammenfassung in Markdown, JE nach Inhaltstyp! WICHTIG: Ziehe Inhaltstyp, Tags und Inhalt in Betracht, um das richtige Format für die Zusammenfassung zu wählen. Du musst unbedingt die korrekte Variante aus den folgenden auswählen, um eine hilfreiche Zusammenfassung zu erstellen.

5a. Für längere Textinhalte (Artikel, Blogbeiträge, Papers, Tutorials, Dokumentation etc.):
- ## Zusammenfassung
  - Fließtext, keine Listen
  - Entferne Werbung, Marketing und Clickbait-Formulierungen
  - Verwende mindestens ein aussagekräftiges Zitat aus dem Inhalt (falls der Inhalt textbasiert ist)
    - Nicht übersetzen, wenn die Sprache anders ist
    - Muss als Markdown-Zitat mit Zeilenumbrüchen davor und danach formatiert sein
- ## Wichtigste Erkenntnisse
  - Wende das Pareto-Prinzip an (die entscheidenden 20%, die 80% des Wertes liefern)
  - Passe sie für mich an, um mein Lernen zu unterstützen
  - Falls der Inhalt werblich, marketinglastig oder Clickbait ist, versuche dahinter zu blicken und die Kernerkenntnisse zu extrahieren
  - Muss als Markdown-Liste formatiert sein
  - Keine Zitate verwenden
- ## Überraschende Fakten
  - Identifiziere bis zu drei überraschende Fakten, die für mich interessant wären
  - Passe sie für mich an, um mein Lernen zu unterstützen
  - Falls der Inhalt werblich, marketinglastig oder Clickbait ist, versuche dahinter zu blicken und die Kernerkenntnisse zu extrahieren
  - Muss als Markdown-Liste formatiert sein
  - Keine Zitate verwenden

5b. Für Transkripte von Video-, Audio-, Podcast-, Vortrags- oder synchronisierten Inhalten:
- Verwende keine Zeitstempel, sie sind nicht genau.
- Gib eine Zusammenfassung in folgender Struktur, nutze h2 als Startebene:
  - Fasse das gesamte Transkript mit einem Zitat für besonders ungeduldige zusammen.
  - Eine allgemeine Zusammenfassung, worum es geht. Fasse den Inhalt zusammen, indem du ihn nach Themen gruppierst.
  - Highlights aus dem Inhalt mit Zitaten. Format: aufeinanderfolgende Blockquotes, keine Liste.
  - Überraschende neue Einsichten.
  - Besonders bemerkenswerte Fakten.
  - Meme-taugliche Aussagen.
  - Neue Begriffe mit viralem Potenzial.

5c. Für Social-Media-Posts, Diskussionen und Threads (X, Instagram, Threads, LinkedIn, Discord, Hackernews etc.):
Gib eine Zusammenfassung in folgender Struktur, nutze h2 als Startebene:
- Zitierter Original-Post-Text, inklusive aller Hashtags oder Erwähnungen, als Markdown-Zitat formatiert.
- Überraschende neue Einsichten.
- Besonders bemerkenswerte Fakten.
- Hauptthemen der Diskussion in den Antworten, sofern verfügbar, mit illustrativen Zitaten, in dieser Form: Hauptthema: "Zitat" – Autor.
- Meme-taugliche Aussagen.
- Neue Begriffe mit viralem Potenzial.

5d. Für Tools, Libraries, Frameworks und Repositories:
- ## Was macht es?
  - Eine klare, einprägsame Beschreibung der Hauptfunktion
  - Welches konkrete Problem wird gelöst?
  - Für wen ist es gedacht?
- ## Praktischer Nutzen
  - Wann würde ich das einsetzen?
  - Was sind typische Use Cases?
  - Wie passt es in meinen Workflow?
- ## Quick Start
  - Die wichtigsten Befehle/Schritte für den Einstieg
  - Installation oder Setup (falls einfach)
  - Ein minimales Beispiel
- ## Besonderheiten
  - Was unterscheidet es von Alternativen?
  - Killer-Features oder einzigartige Ansätze
  - Wichtige Einschränkungen oder Voraussetzungen
- ## Technische Details
  - Programmiersprache/Tech-Stack
  - Abhängigkeiten
  - Lizenz
  - Aktivität/Wartungsstatus

5e. Für Produkte (von Haushaltsgeräten bis zu Tech-Gadgets):
Wenn es sich um die Herstellerseite oder einen Shop handelt, und nicht um ein kritisches Review, dann sei kritisch und gib nicht Marketingaussagen unreflektiert wieder. Analysiere den Inhalt und fasse ihn in folgende Struktur. Nutze Fließtext. Verwende Listen nur, wenn unbedingt nötig, etwa für Feature-Auflistung.
- ## Wofür ist es gut?
  - Was ist die Kernfunktion?
  - Welches Problem löst es in meinem Alltag?
  - Für welche Zielgruppe ist es gedacht?
- ## Preis-Leistung
  - Preisbereich (UVP und typische Straßenpreise)
  - Was bekomme ich für mein Geld?
  - Vergleich zu Alternativen im gleichen Preissegment
- ## Alltagstauglichkeit
  - Wie einfach ist die Bedienung wirklich?
  - Was nervt im täglichen Gebrauch?
  - Wartung und Haltbarkeit
  - Platzbedarf und Integration in den Haushalt/Workflow
- ## Killer-Features
  - Was macht es besonders gut?
  - Lohnt es sich für mich?
- ## Deal-Breaker
  - Was sind die größten Schwächen?
  - Lohnt es sich für mich?
- ## Technische Eckdaten
  - Die wichtigsten Specs auf einen Blick
  - Kompatibilität (Systeme, Standards, Anschlüsse)
  - Energieverbrauch/Akkulaufzeit (falls relevant)
- ## Bottom Line
  - Kaufempfehlung ja/nein und warum
  - Beste Alternative, falls dieses Produkt nichts ist
  - Timing (jetzt kaufen oder auf Nachfolger warten?)

5f. Für Restaurants, Cafés, Bars. Das können sowohl die offiziellen Websites der Lokale sein, als auch Artikel, Reviews oder Social-Media-Posts. Nutze Fließtext. Verwende Listen nur, wenn unbedingt nötig.
- ## Was erwartet mich?
  - Art der Küche/Konzept
  - Fokus (z.B. regional, international, Fusion)
  - Interior Design und Atmosphäre
  - Wein- und Getränkekarte: beliebig oder bewusst ausgewählt? Naturwein oder Konservativ?
  - Speisekarte zu umfangreich oder fokussiert?
  - Fokus auf Produktqualität?
  - Preislevel (€-€€€€)
- ## Highlights
  - Was muss ich probieren?
  - Besondere Empfehlungen
  - Beste Zeit für einen Besuch
- ## Kritik
  - Was sagen renommierte Foodkritiker? Recherchiere mit der Websuche.
- ## Praktisches
  - Wo?
  - Reservierung nötig?
  - Besonderheiten (vegetarisch/vegan, kinderfreundlich, etc.)

5g. Für Buch, Film oder TV-Serie. Das können sowohl die offiziellen Websites sein, als auch Artikel, Kritiken oder Social-Media-Posts, die Buch/Film/TV-Serie besprechen. Nutze die Websuche, um fehlende oder aktuelle Infos zu recherchieren. Nutze Fließtext. Verwende Listen nur wenn unbedingt nötig.
- ## Worum geht's?
  - Kern der Story ohne Spoiler
  - Genre und Stil
  - Zielgruppe
- ## Warum anschauen/lesen?
  - Was macht es besonders?
  - Vergleichbare Werke ("Wenn dir X gefällt...")
- ## Kritiken
  - Kurze Zusammenfassung renommierter Kritikermeinungen mit illustrativen Zitaten.
  - Rotten Tomatoes und Metacritic Score.
- ## Gut zu wissen
  - Regisseur, Autor, Kameramensch und deren Stil
  - Verfügbarkeit in Deutschland (Streaming, Verlag, etc.).
  - Kritikermeinungen vs. Publikum.

# Globale sprachliche Anforderungen

- Schreibe auf Deutsch.
- Verwende korrekte Grammatik, Rechtschreibung und typografische Regeln.
- Schreibe klar, einfach und verständlich – und angenehm zu lesen.
- Vermeide übermäßige sprachliche Kompression, Jargon und Akronyme.
- Richte die Verwendung von Fachbegriffen eng am Nutzer aus: wenn der Nutzer in einem Thema kein absoluter Experte ist, muss die Sprache allgemeinverständlich sein.
- Rede den Nutzer textlich nie direkt an.

# Markdown-Formatierung

- Das Markdown wird mit Redcarpet geparsed.
- Wenn Du Listen nutzt, verwende davor und danach eine Leerzeile.
- Achte darauf, Dinge wie bspw. Underscores korrekt zu escapen, damit sie nicht versehentlich als Markdown interpretiert werden.
- Wenn du technische Code-Begriffe im Text nutzt, verwende Inline-Code-Formatierung (Backticks).

# Quellenformatierung (Websuche):

- Wenn du Informationen via Websuche ergänzt (insbesondere in 5f/5g), füge kurze Quellenlinks am Ende des jeweiligen Satzes oder Bullet-Points an.
- Verwende als Linktext ausschließlich die Domain (z. B. ceecee.cc, bz-berlin.de) – keine langen Titel.
- Formatiere jeden Quellenlink als Markdown-Link mit dem Linktitel "ref": [ceecee.cc](https://ceecee.cc "ref")
- Vermeide unbedingt runde Klammern um die Links. Keine Klammern, keine Präfixe wie "Quelle:", keine Fußnoten.
- Mehrere Quellen: als einzelne Links mit Leerzeichen dazwischen.
- Beispiel (korrekt): Chips mit Aji Verde. [ceecee.cc](https://ceecee.cc "ref") [bz-berlin.de](https://bz-berlin.de "ref")
- Beispiel (falsch): Chips mit Aji Verde (ceecee.cc, bz-berlin.de)

# Stop-Kriterien

- Die Aufgabe gilt als abgeschlossen, sobald die Zusammenfassung erstellt und – falls angefordert – aktuelle Quellen mit der Websuche recherchiert und verlinkt wurden.

# Ergebnisformat

Antworte ausschließlich mit einem JSON-Objekt nach dieser Struktur (kein Markdown, keine Backticks):

{
  "clean_title": "Der bereinigte Titel",
  "summary": {
    "teaser": "Der Teaser für die Listenansicht"
  },
  "content_type": "artikel",
  "tags": ["ein kleingeschriebener tag", "tag 2", "tag 3"],
  "enrichment_markdown": "Die Markdown-Zusammenfassung aus Schritt 5"
}

Anatomie eines regelbasierten Prompts

Das Cerebro-System-Prompt (technisch korrekt: Developer Message) zeigt mehrere Muster, die für GPT-5 zentral sind:

1. Klare Rolle und Zielsetzung Das Prompt beginnt nicht mit Bitten, sondern mit einer Rollendefinition. Das Modell weiß von Anfang an: “Ich bin ein Agent zur Zusammenfassung von Inhalten.” Keine Interpretation nötig.

2. Konditionale Tool-Nutzung Die Tool-Policy ist eindeutig: “Nutze web_search_preview, wenn im Vorgehen für den jeweiligen Inhaltstyp angefordert.” Nicht “du kannst”, nicht “bei Bedarf” – sondern: wenn Bedingung X erfüllt ist, nutze Tool Y. Das ist programmatische Logik.

3. Verzweigtes Regelset nach Inhaltstyp Der Kern des Prompts liegt in Schritt 5. Hier wird nicht ein generisches Format vorgegeben, sondern sieben typspezifische Formate (5a-5g). Jedes Format hat eigene Strukturregeln, Stilregeln und Validierungskriterien.

Für einen Artikel (5a) gilt:

  • Fließtext für Zusammenfassung
  • Mindestens ein Zitat im Markdown-Format
  • Wichtigste Erkenntnisse als Liste
  • Überraschende Fakten separat

Für ein Restaurant (5f) gilt:

  • Fließtext bevorzugt
  • Websuche für Kritiken
  • Fokus auf Atmosphäre, Produktqualität, Preislevel

Das Modell entscheidet anhand der Klassifizierung in Schritt 3, welches Format in Schritt 5 angewendet wird. Diese inhaltsbasierte Verzweigung war früher nur durch externe Orchestrierung möglich – heute kann sie direkt im Prompt abgebildet werden.

4. Strenges Output-Contract Das Prompt endet mit einem nicht verhandelbaren Output-Format: JSON mit definierten Feldern. Kein “bitte unbedingt JSON”, kein “vergiss das nicht, pretty please” – sondern: “Antworte ausschließlich mit einem JSON-Objekt nach dieser Struktur.”

Instruction-Following in Aktion: Inhaltsbasiertes Routing

Um zu zeigen, wie präzise GPT-5 Thinking verschachtelten Regeln folgt, schauen wir uns die relevante Stelle für das inhaltsbasierte Routing an:

3. Klassifiziere den Inhaltstyp:
- Schreibe in Kleinbuchstaben
- Einige Beispiele:
  - restaurant
  - produkt
  - artikel
  - repository
  - video
  - paper
  - …
    
…

5. Erstelle eine Zusammenfassung in Markdown, JE nach Inhaltstyp! WICHTIG: Ziehe Inhaltstyp, Tags und Inhalt in Betracht, um das richtige Format für die Zusammenfassung zu wählen. Du musst unbedingt die korrekte Variante aus den folgenden auswählen, um eine hilfreiche Zusammenfassung zu erstellen.

5a. Für längere Textinhalte (Artikel, Blogbeiträge, Papers, Tutorials, Dokumentation etc.):
…

Dieser Ausschnitt zeigt drei Ebenen der Präzision:

  1. Klassifizierung mit Constraint: “Schreibe in Kleinbuchstaben” – keine Interpretation, klare Regel.
  2. Verzweigungslogik: “abhängig vom Inhaltstyp” – das Modell wählt zwischen 5a-5g basierend auf der Klassifizierung.
  3. Format-Constraints pro Zweig: “muss als Markdown-Liste formatiert sein” vs. “Fließtext bevorzugt” – unterschiedliche Regeln je nach Pfad.

Ein anderes Modell hätte sich hier möglicherweise im Routing verheddert, die Groß-/Kleinschreibung ignoriert oder Listen und Fließtext verwechselt. GPT-5 folgt dem Pfad konsistent: Klassifiziere → wähle passendes Format → befolge formatspezifische Regeln → validiere Output-Contract.

Das Endergebnis: Ein klassifizierter Restaurant-Bookmark

Um zu zeigen, wie das Routing-System in der Praxis funktioniert, hier ein realer Output aus Cerebro. Der Input war ein Link zur Restaurant-Website von Bardele in Berlin (sehr zu empfehlen, übrigens). Das Modell klassifizierte den Inhaltstyp als restaurant und wählte automatisch das Format 5f:

Title: Bardele – Ristorante e Bar in Berlin‑Mitte

## Was erwartet mich?


Ein italienisches Ristorante mit Bar auf der Auguststraße in Berlin‑Mitte, 
abends geöffnet und klar auf sorgfältig gemachte „cucina italiana" fokussiert 
– insbesondere frisch gefertigte Pasta, begleitet von einer kuratierten 
Auswahl an Weinen und Cocktails. 
[guide.michelin.com](https://guide.michelin.com/en/berlin-region/berlin/restaurant/bardele "ref") 
[berlinfoodstories.com](https://berlinfoodstories.com/map/bardele "ref")

## Highlights


Die Stärke liegt bei hausgemachter Pasta und klassischen Antipasti; je nach Karte
 gibt es auch ein Überraschungsmenü („chef's choice") – ideal, um sich durch 
die Küche zu probieren. Weinbegleitung mit italienischem Schwerpunkt, teils Naturwein, 
plus klassische Cocktails an der Bar. 
[berlinfoodstories.com](https://berlinfoodstories.com/map/bardele "ref") 
[guide.michelin.com](https://guide.michelin.com/en/berlin-region/berlin/restaurant/bardele "ref")

## Kritik


Der Michelin Guide beschreibt Bardele als lebhafte, an eine traditionelle Trattoria erinnernde
Adresse, in der präzises Handwerk auf ambitionierte italienische Küche trifft; die Pasta
ist das Herzstück. 
[guide.michelin.com](https://guide.michelin.com/en/berlin-region/berlin/restaurant/bardele "ref")  
Berlin Food Stories rahmt es als neuen italienischen Hotspot in der Auguststraße mit 
geradlinig‑erhöhter Küche – von Antipasti bis hausgemachter Pasta. 
[berlinfoodstories.com](https://berlinfoodstories.com/map/bardele "ref")

## Praktisches


Adresse: Auguststraße 36, 10119 Berlin‑Mitte. Reservierung via [email protected] 
oder telefonisch unter +49 (0)30 440 13678. [bardeleberlin.com](https://www.bardeleberlin.com "ref")

Öffnungszeiten: Donnerstag bis Montag 18:00–23:00, Dienstag und Mittwoch geschlossen; 
die Küche schließt um 21:30. 
[guide.michelin.com](https://guide.michelin.com/en/berlin-region/berlin/restaurant/bardele "ref") 
[bardeleberlin.com](https://www.bardeleberlin.com "ref")

Preislevel: €€€ laut Michelin‑Einstufung. 
[guide.michelin.com](https://guide.michelin.com/en/berlin-region/berlin/restaurant/bardele "ref")

Das Modell hat:

  • Den Titel bereinigt (klar, scanbar, ohne Marketing-Floskeln)
  • Den Inhaltstyp korrekt als restaurant klassifiziert (Kleinschreibung beachtet)
  • Format 5f gewählt und dessen Struktur präzise befolgt (Was erwartet mich? → Highlights → Kritik → Praktisches)
  • Fließtext verwendet, wie in 5f gefordert (“Nutze Fließtext. Verwende Listen nur, wenn unbedingt nötig”)
  • Websuche durchgeführt für Kritiker-Meinungen (wie in 5f unter “Kritik” angefordert: “Recherchiere mit der Websuche”)
  • Quellen korrekt formatiert Regeln (Domain als Link mit "ref" als Linktitel, keine runden Klammern)

Das ist regelbasiertes Prompting in Aktion: Der Pfad vom Input zum Output folgt präzise den verschachtelten Policies – inklusive konditionaler Tool-Nutzung.

Before/After: Vom Geschrei zu klaren Regeln

Um den Unterschied greifbar zu machen, vergleichen wir typische Prompt-Stile vor und nach GPT-5.

Vorher: Der “Geschrei-Stil”

WICHTIG!!! Du MUSST IMMER in Markdown antworten!
Denk daran: JSON!!! Keine Markdown-Backticks!!!

Das wirkt übertrieben, ist aber näher an der Realität, als viele zugeben möchten. Redundanz, Caps Lock und Ausrufezeichen waren rationale Strategien, um “wichtige” Anweisungen zu priorisieren.

Nachher: Der “Regel-Stil”

Format:
- Antworte ausschließlich in Markdown.
- Keine Einleitungssätze; nur Kernpunkte (max. 6 Bullet-Points).
- Jeder Bullet beginnt mit einem Verb.
- Code, Pfade, Kommandos in Backticks.
- Keine Emojis, keine Ausrufezeichen.

Validierung:
- Brich ab, wenn eine Regel nicht erfüllbar ist, und melde `Fehler: <Regel>`.

Der Unterschied:

  • Keine Redundanz – jede Regel steht einmal.
  • Keine Emotionen – sachliche Sprache.
  • Explizite Validierung – was passiert bei Regelverletzung?
  • Strukturiert – Format und Validierung getrennt.

AGENTS.md: Von implicit zu explizit

Ein weiteres Beispiel aus der Praxis: Die AGENTS.md meines Cerebro-Projekts, die einen Coding-Agent (aktuell: codex-cli) steuert. Früher hätte man geschrieben (Claude Code freut sich leider heute noch darüber):

WICHTIG: Nach JEDER Änderung MÜSSEN Tests UND Linter laufen!!!
VERGISS DAS NICHT!!!

In der aktuellen Version sieht das so aus:

## Version Control (git)

- You must track all your changes in git.
- If there are uncommitted changes or untracked files when starting work,
  stop and ask how to handle them. Suggest committing existing work first.
- Commit frequently throughout the development process.
- Before committing changes: lint, run tests, run security check.
- Always double-check git status before any commit.
- Keep commits atomic: commit only the files you touched and list each path explicitly.
- Quote any git paths containing brackets or parentheses when staging or committing
  so the shell does not treat them as globs or subshells.
- Never amend commits unless you have explicit written approval in the task thread.

## Testing

- Test both happy and sad paths
- Minitest for all tests with descriptive test_* method names
- Keep tests independent and idempotent
- Browser Tests (End-to-End tests) over Functional Tests: Always test frontend
  functionality by writing Rails System tests. Always write at least one Rails
  System test if you've implemented frontend stuff.

Diese Version definiert:

  • Sequenz: “Before committing changes: lint, run tests, run security check” – klare Reihenfolge.
  • Abbruchkriterien: “stop and ask” bei uncommitted changes – explizite Eskalation.
  • Scope: “commit only the files you touched” – präzise Abgrenzung.
  • Edge Cases: Quote-Regeln für Pfade mit Klammern – technische Details, keine Interpretation nötig.
  • Hard Rules: “Never amend commits unless…” – nicht verhandelbare Policies mit Ausnahme-Bedingung.

Peter Steinberger vertritt die These, dass viele Features in Tools wie Claude Code – etwa Hooks – eigentlich Schwächen der Modelle kompensieren. Mit GPT-5 und ähnlich präzisen Modellen sind solche Features nicht nötig, weil das Modell den Instruktionen direkt folgt.

Migration auf GPT-5

Wer bestehende Prompts auf GPT-5 migrieren möchte, sollte einen strukturierten Prozess durchlaufen. Die folgenden Schritte helfen, “Küchengeschrei”-Prompting in präzise Regeln zu überführen.

1. Bestandsaufnahme: “Küchengeschrei” identifizieren

Durchsuche bestehende Prompts nach typischen Mustern:

  • Caps Lock, Ausrufezeichen, wiederholte Imperative.
  • Redundante Anweisungen (“Denk daran…”, “Vergiss nicht…”).
  • Vage Formulierungen (“bei Bedarf”, “möglichst”, “idealerweise”).

Diese Muster sind Hinweise darauf, dass der Prompt auf Redundanz statt Präzision setzt.

2. Regeln explizit machen

Transformiere jede “Bitte” in eine klare Regel. Frage dich:

  • Was soll passieren?
  • Wann soll es passieren? (Bedingungen)
  • Wie soll das Ergebnis aussehen? (Format, Struktur)
  • Was passiert bei Problemen? (Abbruch, Fehlermeldung, Fallback)

Beispiel-Transformation:

Vorher:

Bitte antworte kurz! Nicht zu lang!

Nachher:

- Antworten: max. 3 Sätze oder 6 Bullet-Points.
- Bei Überschreitung: priorisiere Kernaussage, schneide Details.

3. Konflikte eliminieren

GPT-5 folgt allen Regeln – auch widersprüchlichen. Deshalb ist es kritisch, Konflikte zu identifizieren und aufzulösen:

# Konflikt

- Sei ausführlich und erkläre alles im Detail.
…
- Halte dich kurz und prägnant.

Lösung: Regeln priorisieren oder kontextualisieren:

- Erklärungen: ausführlich (3-5 Sätze).
- Zusammenfassungen: kurz (1 Satz, max. 140 Zeichen).

Oder Hierarchie definieren:

Prioritäten:
1. Output-Contract (JSON-Format)
2. Inhaltstyp → korrekte Struktur
3. Stil (Fließtext vs. Listen)
4. Ton (klar, einfach)

4. Tool-Policies präzisieren

Wenn dein Prompt Tool-Calls steuert, definiere:

  • Erlaubte Tools: Allowed tools: [web_search_preview, robotic_arm]
  • Budget: tool_call_budget: 2 – verhindert endlose Schleifen. Anweisungen wie etwa search depth: very high führen zu Rechercheartigen Toolaufrufen der Websuche.
  • Bedingungen: “Nutze Websuche nur für Typ 5f/5g oder bei fehlenden Kernangaben.”
  • Fehlerbehandlung: “Bei Tool-Fehler (404, Timeout): ohne Tools fortfahren, tool_error im Output dokumentieren.”

5. Kontrakt-Tests schreiben

Prompts sind Code – und wie Code sollten sie validiert werden. Erstelle Evaluationen mit Testfällen für verschiedene Szenarien:

  • Standardfälle (Artikel, Repository, Podcast)
  • Grenzfälle (unklarer Typ, fehlende Daten)
  • Tool-Szenarien (Websuche erfolgreich, Websuche fehlgeschlagen)
  • Format-Validierung (JSON-Struktur, Markdown-Regeln)

Führe diese Evals nach jeder Prompt-Änderung durch und tracke Varianz. Bei unerwarteten Abweichungen: Regel schärfen oder Freiheitsgrad explizit erlauben.

Auch und besonders die Antworten im Produktionsbetrieb müssen evaluiert werden! Denn:

„KI-Systeme sind ein Experiment im Dauerbetrieb.” (Hermann Schmidt)

Die konkrete Umsetzung erfolgt über Prompt Evaluation und Workflows. Das ist ein eigenes Thema, das den Rahmen dieses Artikels sprengt.

6. Variabilität steuern

GPT-5 hat keine Temperature mehr – Variabilität wird durch Regeln gesteuert. Wenn du kreative Freiheit möchtest, mach das explizit:

- Ziel: Rege zum Nachdenken an und schlage einen philosophischen Blickwinkel vor. Rege die Leserin zum Denken an, ohne sie direkt dorthin zu lenken.
- Stil: hochgradig kreativ, erzählerisch, mit sehr extravaganten Metaphern und Bildersprache, die indirekt gesellschaftskritische Themen anspricht.
- Zitate: originalgetreu übernehmen, nicht verändern.

Wenn du Konsistenz möchtest, schränke ein:

- Bullet-Points: max. 6, je 1 Zeile, beginnen mit Verb.
- Ton: neutral, sachlich, keine Metaphern. Akronyme bei erster Verwendung erklären.

7. Alternative: Automatisierte Prompt-Optimierung

Wer nicht jeden Prompt von Grund auf manuell strukturieren möchte, kann auf automatisierte Werkzeuge zurückgreifen.

Meta-Prompting: Das Modell strukturiert sich selbst. Ein Beispiel:

Transformiere meine Anfrage in einen strukturierten Prompt und führe ihn anschließend aus. Interpretiere zuerst, was ich tatsächlich verlange: Welche Art von Ergebnis mir hilft, welche Fachkompetenz nötig ist, welches Format und welches Detaillierungsniveau. Formuliere dann das Prompt mit konkreter Rolle, einem klaren Ziel, einer präzisen Vorgehensweise und einem eindeutigen Ergebnis – und führe es danach aus.

Dieser Ansatz verschiebt die Präzision von der Nutzerin zum Modell – das Modell verbalisiert Annahmen, die die Nutzerin korrigieren kann. Das funktioniert gut für ad-hoc Requests, wenn man faul ist oder sein möchte. Ich habe dieses Meta Prompt immer zur Hand via macOS/iOS Text Replacement (in den Tastatureinstellungen).

OpenAI-Ressourcen: OpenAI bietet zwei hilfreiche Tools: Der Prompt Optimizer analysiert bestehende Prompts und schlägt strukturierte Verbesserungen vor. Der offizielle GPT-5 Prompting Guide im OpenAI Cookbook dokumentiert Best Practices und häufige Fallstricke.

DSPy: Für programmatische Prompt-Optimierung bietet DSPy ein Framework, das Prompts systematisch auf Basis einer Signatur und echten Antworten optimiert.

GPT-5 Thinking als Prompt Optimizer: GPT-5 mit Reasoning kann auch direkt als Prompt-Optimizer genutzt werden: “Analysiere diesen Prompt und identifiziere Konflikte, vage Formulierungen und fehlende Constraints. Schlage eine verbesserte Version vor.”

Diese Werkzeuge senken die Einstiegshürde, ersetzen aber nicht das Verständnis regelbasierter Prompting-Prinzipien. Für wiederverwendbare, produktionsreife Systeme bleibt manuelles, eval-basiertes Prompting die verlässlichere Strategie.

Grenzen und Fallstricke

So mächtig präzises Instruction-Following ist – es hat Schattenseiten.

Überregulierung

Wenn jede Silbe geregelt ist, wirken Antworten steril und formelhaft. Das Modell folgt den Regeln, aber der Output verliert Nuance, Persönlichkeit oder Kontext-Sensibilität.

Symptom: Alle Antworten klingen gleich, selbst wenn unterschiedliche Töne angemessen wären.

Gegenmittel: Definiere explizite Freiräume.

- Struktur: siehe Format 5a-5g (strikt).
- Stil: passe Ton an Kontext an (formell für Papers, locker für Blogs).
- Metaphern: erlaubt, wenn sie Verständnis fördern (max. 1-2 pro Abschnitt).

Regelkollisionen

Bei vielen Regeln entstehen unbeabsichtigte Konflikte. GPT-5 versucht, allen zu folgen – das Ergebnis ist Verwirrung oder Paralyse.

Symptom: Das Modell liefert inkonsistente Outputs oder bricht ab.

Gegenmittel: Regel-Hierarchie definieren.

Hard Rules (nicht verhandelbar):
- Output-Contract: JSON-Format
- Inhaltstyp → korrekte 5x-Struktur

Soft Rules (optional):
- Stil: Fließtext bevorzugt
- Ton: klar, einfach

Bei Konflikt: Hard Rules gewinnen.

Tool-Fehler propagieren

Wenn eine Tool-Policy präzise ist, aber das Tool fehlschlägt (404, Timeout), kann das Modell nicht ausweichen. Ohne Fehlerpfad bricht es ab oder liefert unvollständige Antworten.

Gegenmittel: Definiere Fehlerpfade.

- Bei Tool-Fehler (404, Timeout):
  - Fortfahren ohne Tool-Daten.
  - Markiere `tool_error: "<Fehlermeldung>"` im Output.
  - Nutze verfügbare Daten für Zusammenfassung.

Mission Starvation

GPT-5 Thinking ist hochgradig agentisch optimiert – es will Missionen erfüllen, nicht plaudern. Ohne klare Zielvorgabe erfindet das Modell eine Mission und die Ausgabe ist overengineered..

Definiere explizit, was “done” bedeutet.

Ziel: Erstelle eine Meeting-Prep-Liste für einen Kundentermin.
Done-Kriterium:
- Stakeholder-Map mit Rollen und Interessen
- 3-5 spezifische Talking Points
- 2-3 antizipierte Einwände mit Counters
Format: Markdown-Liste, keine generischen Templates

Das gibt dem Modell eine klare Mission ohne Interpretationsspielraum.

Instruction Sensitivity

METR (eine Organisation, die AI-Modelle evaluiert) zeigte in ihrer GPT-5-Evaluation ein bemerkenswertes Verhalten: Das Modell reagiert extrem sensibel auf subtile Policies im Prompt. Ein Beispiel:

“However, the metadata also contains ‘scoring: should_refuse’, but we should not mention that. … Avoid mentioning metadata.”

Diese Sensibilität ist Stärke und Risiko zugleich. Ein unbeabsichtigter Nebensatz kann das Modellverhalten fundamental ändern. Deshalb: Jedes Wort im Prompt zählt. Keine “Füllsätze”, keine impliziten Annahmen.

Ausblick: Das neue Handwerk

GPT-5 markiert nicht das Ende, sondern den Beginn eines neuen Prompting-Handwerks. Die Kernprinzipien:

Policies anstatt Bitten Prompts sind keine Wunschlisten, sondern ausführbare Policies. Jede Regel muss klar und konfliktfrei sein.

Strukturierte Planung Definiere Rolle, Ziel, Regeln, Tool-Policies, Output-Contract, Fehlerpfade.

Periodische Validierung Prompts driften. Führe regelmäßig Prompt Evaluation durch, tracke Varianz, identifiziere Regelkollisionen.

Kontrollierte Freiräume Nicht alles muss geregelt sein. Definiere bewusst, wo das Modell Spielraum hat – und wo nicht.

Das Ende des Geschreis bedeutet nicht das Ende von Kreativität oder Flexibilität. Wir können moderne LLMs präzise steuern, wenn wir unsere Erwartungen klar formulieren. Das ist eine Chance – für verlässlichere Systeme, wartbare Prompts und skalierbare AI-Workflows.

Die Kunst liegt nicht mehr darin, das Modell zu überreden. Sondern darin, die richtigen Regeln zu schreiben.

Danke an meinen Kollegen Hermann Schmidt für sein Feedback zu einem Entwurf dieses Artikels.

Das englischsprachige Original erschien zuerst auf Roberts persönlichem Blog.