RAG und Fine-Tuning

This blog post is also available in English

TL;DR

LLMs liefern keine verlässlichen Antworten in Wissensabfragen und halluzinieren Informationen.
RAG liefert zur Laufzeit Wiki-Seiten samt Quellen und reduziert Halluzinationen, eliminiert sie aber nicht.
Eine Fehlerquelle kann in der Kontextnutzung liegen, nicht im Retrieval.
Produktions-Logs und User-Feedback werden zu Fine-Tuning-Beispielen mit Kontext und Zitaten.
Direct-Preference-Optimization Fine-Tuning lernt Quellen-Priorisierung; als Loop wird ein RAG-System stabiler.

Kurzüberblick: RAG und Fine-Tuning

RAG versorgt ein LLM zur Laufzeit mit externem Wissen – zum Beispiel Wiki-Seiten, Handbüchern oder Produktdokumentationen. Das System sucht relevante Dokumente und übergibt sie als Kontext. Das reduziert Halluzinationen und macht Antworten nachvollziehbar, weil Quellen angegeben und nachgeschlagen werden können.

Fine-Tuning formt das Verhalten eines Modells anhand von Beispielen. Es vermittelt dabei nicht zwingend neues Wissen, kann aber das Modell darin schulen, domänenspezifische Sprache zu verwenden, Antworten in einem gewünschten Format auszugeben und Anweisungen zuverlässiger zu befolgen – etwa bei der Datenextraktion oder Dokumentenklassifikation.

Allein optimieren beide Ansätze für unterschiedliche Zielbilder. Gemeinsam addieren sich ihre Effekte, vorausgesetzt der Use-Case und die verfügbaren Daten stimmen.

In diesem Artikel setzen wir Fine-Tuning mit Supervised Fine-Tuning gleich. „Supervised” bedeutet: Das Modell erhält beim Training zu jedem Prompt eine oder mehrere erwartete Antworten.

Der Use Case: Wissensabfragen bei einer Versicherung

Eine Versicherung nutzt ein LLM, damit Mitarbeitende einfacher auf das interne Wiki zugreifen können. Typische Fragen sind: Welche Regelung gilt für Tarif X? Wo finde ich Informationen zur Schadenklasse Y? Fasse die wichtigsten Punkte aus Richtlinie Z zusammen.

Technisch läuft das folgendermaßen: Das Wiki wird indexiert und in einer Datenquelle abgelegt. Die Datenquelle kann dabei beliebig sein, zum Beispiel eine Vektordatenbank, ein MCP-Server oder eine relationale Datenbank. Eine RAG-Pipeline sucht zu jeder Anfrage passende Seiten und übergibt diese als Kontext an das LLM, das daraus Antworten oder Zusammenfassungen erzeugt.

Das Problem

Formal funktioniert das System. Die richtigen Seiten liegen im Kontext. In der Praxis zeigt sich aber: Das LLM übersieht relevante Dokumente, überbewertet irrelevante Textstellen, und Antworten bleiben lückenhaft oder greifen falsche Passagen auf.

Der Fehler liegt hier nicht im Retrieval, sondern in der Kontextnutzung bei der Generierung. Das bedeutet: Das Modell bekommt die richtigen Dokumente geliefert, weiß aber nicht zuverlässig, welches davon für die konkrete Frage entscheidend ist. Es fehlt nicht an Informationen – es fehlt an der Fähigkeit, diese im Kontext zu priorisieren, zu gewichten und korrekt zu zitieren.

Von RAG-Ausgaben zu Fine-Tuning-Daten

Im Produktivbetrieb enthält jede beantwortete Anfrage bereits alle Bausteine für Fine-Tuning. Für jede Anfrage protokolliert das System das Prompt, die geladenen Dokumente mit ihrer Quellenreferenz, die finale Modellantwort und optionales Nutzer-Feedback – ob akzeptiert, abgelehnt, korrigiert oder als Freitext.

Diese Elemente werden zu Fine-Tuning-Beispielen aufbereitet, die dem Modell beibringen, wie Kontext zu nutzen ist – nicht was die richtige Tatsache ist.

Der Schlüssel: Feedback aus der Produktion

Die Versicherung sammelt systematisch Rückmeldungen. Nutzende bewerten Antworten als hilfreich oder nicht hilfreich, markieren falsche oder unvollständige Ergebnisse und geben Freitextfeedback, um Antworten zu verbessern. So entsteht ein Datensatz aus Prompts, Kontextdokumenten sowie bevorzugten und abgelehnten Antworten.

Dieser Feedback-Loop ist zentral, um das System auf lange Sicht zu stabilisieren. Entscheidend ist hier, dass Nutzende aktiv dazu angeleitet werden müssen Feedback zu geben. Klare Hinweise über die Relevanz von Feedback, Möglichkeiten, ohne großen Mehraufwand direkt im System Feedback zu geben und strukturelle Vorgaben für das Feedback sorgen dafür, dass der Feedback-Loop tatsächlichen Mehrwert liefern kann.

Sollte nicht klar sein, warum und in welcher Form Feedback helfen kann, oder der Aufwand dafür zu groß sein, werden Nutzende schnell demotiviert und der Feedback-Loop könnte zusammenbrechen.

Der Fine-Tuning-Datensatz (aus der Praxis)

Geeigneter Fine-Tuning-Datensatz: Das Prompt, mehrere geladene Dokumente und eine erwartete Antwort – mit expliziter Angabe, welches Dokument tatsächlich verwendet wurde.

Entscheidend ist: In diesem Datenpunkt liegen mehrere Dokumente im Kontext, aber nur eines wird in der Antwort referenziert. Das Modell lernt dabei, korrekt auszuwählen, zu priorisieren und zu zitieren – nicht die Dokumentation auswendig zu lernen, sondern Kontextunterscheidung unter RAG-Bedingungen. Damit adressiert das Fine-Tuning direkt den beobachteten Fehler: Relevante Dokumente werden gefunden, aber bei der Generierung falsch genutzt.

Fine-Tuning mit Direct Preference Optimization

Statt klassischem Supervised Fine-Tuning nutzt die Versicherung Direct Preference Optimization (DPO). DPO ist eine Variante des Fine-Tunings, bei der das Modell nicht nur lernt, was eine gute Antwort ist, sondern gleichzeitig, was eine schlechte Antwort auszeichnet. Zu jedem Prompt erhält das Modell beim Training eine bevorzugte und mehrere abgelehnte Antworten. Dadurch werden nicht nur gute Antworten hervorgehoben, sondern schlechte auch messbar seltener.

Das hat für diesen Use-Case einen entscheidenden Vorteil: Der Fokus liegt auf Entscheidungen, nicht auf Fakten. Das Modell lernt, welche Dokumente bei welchen Prompts relevant sind, wie stark es sie gewichten soll und wann es Informationen ignorieren muss. Es lernt nicht das Wiki auswendig – es lernt, den gelieferten Kontext richtig zu nutzen.

Warum RAG und Fine-Tuning harmonieren können

RAG und Fine-Tuning lösen unterschiedliche Probleme: RAG liefert den Kontext und nachvollziehbare Quellenangaben, weil es direkt auf aktuelle und von uns bereitgestellte Daten zugreift. Fine-Tuning mit DPO steuert, wie das Modell mit diesem Kontext umgeht, und stabilisiert das Verhalten auf Grundlage realer Nutzungspräferenzen. Zusammen ergänzen sie sich, indem das bereitgestellte Unternehmenswissen zuverlässiger für Antworten verwendet wird.

Fazit

Wer LLMs dauerhaft in einem ähnlichen Use-Case einsetzen will, sollte zum Einen RAG und Fine-Tuning nicht als konkurrierende Alternativen ansehen, sondern wissen, dass sie auch kombiniert werden können. Außerdem sollte man Fine-Tuning nicht exklusiv als einmaligen Trainingslauf betrachten. Es ist ein kontinuierlicher Prozess, eng gekoppelt an die reale Nutzung. Der Fine-Tuning-Datensatz muss regelmäßig aktualisiert werden, der Human-Feedback-Loop aufrechterhalten bleiben. Nur so wird das System auf lange Sicht zuverlässiger und trifft auch bei neuen Dokumenten bessere Entscheidungen.