Dieser Blogpost ist Teil einer Reihe.
- Teil 1: Wertschöpfung in Zeiten agentischer KI-Systeme
- Teil 2: Das Versprechen der Agenten
- Teil 3: Agenten - Kreise - Firmen (dieser Blogpost)
Wir erinnern uns an das Versprechen der Agenten. Sie sollen in der Lage sein, mit unvorhergesehenen Daten Aufgaben zu erledigen, die nicht bis ins Detail vorgeplant sind. Das Reasoning der LLMs soll das alles möglich machen. Wir kamen zu dem Schluss, dass wir nichts geschenkt bekommen, sondern uns an eine nicht-deterministische, probabilistische Welt des Machine Learning gewöhnen müssen, an die unsere konventionellen Prozesse nicht angepasst sind. Unser erstes Beispiel für diesen Paradigmenwechsel war das Testen.
Es soll sich also was ändern, aber wohin? Wie im ersten Blogpost über die Wertschöpfung in Zeiten agentischer KI-Systeme formen wir uns zunächst ein Zielbild, das Lösungswege offenhält.
Das Lernende System
Bevor wir Paradigmen aus dem Machine Learning verallgemeinern und auf Prozesse in Unternehmen übertragen, müssen wir eine Frage klären:
Was ist das Lernende System? Was sind die Variablen?
Im Machine Learning ist das Lernende System z.B. das neuronale Netz und die Variablen sind die Gewichte im Netz.
Agentische KI-Systeme sollen zukünftig in der Lage sein, selbständig zu lernen aus ihrer Umgebung. Das beherrscht aber heute noch niemand. Die KI-Hersteller arbeiten noch am notwendigen Tooling, um solche Systeme überhaupt aufzubauen.
Das lernende System, mit dem wir uns beschäftigen, enthält humans-in-the-loop. Wir erinnern uns an die Hypothese “Hybride Wertschöpfung”. Hier kann beliebig viel KI-Unterstützung verwendet werden, aber am Ende lernen vor allem die Menschen. Die Variablen liegen in der Umgebung, in der das agentische System arbeitet. Menschen verfeinern diese Umgebung kontinuierlich. Dazu gehören
- LLMs
- Prompts
- Tools, die den LLMs zur Verfügung stehen
- APIs zu umliegenden Systemen (via MCP zum Beispiel)
- Definition der Aufgaben für Agenten
- Automatische Messung
- Manuelle Beobachtung
Wir befassen uns hier ausdrücklich nicht mit dem Training bzw. Finetuning von Modellen. Uns geht es darum, die Rolle der Menschen in dem neuen Paradigma zu finden.
Finetuning kann an Bedeutung gewinnen, wenn die Eintrittshürde gesenkt werden kann. Das Startup Lamini unter der Führung von Sharon Zhou bietet zum Beispiel eine Enterprise-Plattform an, bei der Finetuning mit proprietären Daten das Kern-Feature ist.
Neue Rollen für Menschen
Menschen werden mindestens in den nächsten fünf Jahren auf jeden Fall noch die Rolle einnehmen, die Umgebung für agentische KI-Systeme aufzubauen und zu pflegen.
In dem Artikel Age of the Agent Orchestrator postuliert der Autor, dass die Orchestrierung und Beobachtung von Agenten in naher Zukunft eine fundamentale Kompetenz sein wird:
Knowing how to break down a task, set a reward, audit a run is going to be a baseline skill.
Der Kreislauf
Den vorgeschlagenen Kreislauf stellt der Autor so dar:
Gehen wir die Bestandteile durch.
Task: Die Fähigkeit, eine Aufgabe in Teile zu zerlegen und agentischen Systemen zu überlassen, ist Kern der hybriden Wertschöpfung. Die Arbeitsteilung zwischen Mensch und Maschine wird hier definiert.
Feedback: Im Machine Learning (speziell Reinforcement Learning) ist die Reward Function das Feedback-Mittel, um die Qualität einer Ausgabe quantitativ zu messen und in das Netz zurück zu führen. Verallgemeinert ist ein Reward die Beurteilung der Ausgabe eines Agenten, um dessen Arbeit zu lenken. Irgendwie muss schließlich festgestellt werden, ob die Aufgabe zufriedenstellend erledigt ist oder ob sich ein Mensch darum kümmern muss.
Das Design dieses Rewards ist eine zentrale Aufgabe und fällt Menschen zu. Menschen müssen auch den Reward selber bestimmen, wenn eine maschinelle Berechnung nicht möglich ist.
Review: Schließlich ist die Beobachtung (Auditierung) der Agenten unabdingbar, um die Schleife zu schließen und den Erfolg zu messen.
Der Autor weist außerdem auf die Bedeutung der Kultur des Ausprobierens hin in Kontrast zu starren Strategien. “Culture eats strategy”. Menschen sollen sich wohlfühlen damit, Arbeiten der KI zu überlassen, das Ergebnis zu messen und zu iterieren. Ansonsten würde ein großer Hebel verschenkt.
Unvorhergesehene Aufgaben mit unvorhergesehenen Daten, die wir in Teil 2 thematisiert haben, lassen eben keinen Platz für unflexible Strategien.
In dem Artikel wird außerdem noch die Bedeutung der effizienten Verwendung von Rechenleistung (Compute) für Agents als Schlüsselkompetenz hervorgehoben.
Neue Quellen für Feedback
Agentische KI-Systeme befinden sich in einer kontinuierlichen Beobachtungsschleife. Die Ausgaben der Systeme sind ein unverzichtbarer Bestandteil und notwendig für die Stabilisierung und Weiterentwicklung.
“Feedbackschleifen gab’s doch vorher auch schon”, höre ich Sie denken. Das ist natürlich richtig. Wir kennen zum Beispiel Feedback aus technischen Logs und Feedback von Usern. Neu ist jetzt, dass die Ausgabedaten die Quelle sind. Wenn wir uns neue dialogartige Interaktionsformen mit agentischen Systemen vorstellen, steckt das User-Feedback hier nämlich mit drin. Unsere User folgen keinem definierten Ablauf, weil in agentischen Systemen kein fester Plan existiert. Sie reagieren auf die Aktionen der Agenten und das wollen wir mitbekommen.
Wir beobachten Abläufe nicht mehr nur konventionell, indem wir an bestimmten Codestellen ein Protokoll schreiben im Sinne von “bin hier vorbeigekommen”. Wir beobachten zusätzlich die “Unterhaltung”. Das gilt auch im erweiterten Sinn für Interaktionen von Agenten untereinander[1].
Sehen Sie da noch einen Unterschied zu dem neuen Testparadigma aus Teil 2? Ich nicht. Es ist die gleiche Beobachtungsschleife.
Agentische KI-Systeme sind ähnlicher zu Dauer-Experimenten mit enger Überwachung als zu konventionellen Systemen.
Und wie geht das jetzt konkret? Das ist heute noch nicht umfassend zu beantworten, weil das Tooling erst gebaut wird[2]. Ich bin aber überzeugt, dass wir so an die Sache von Anfang an herangehen müssen.
The New Theory of The Firm
Bevor wir zum Abschluss auf das Interview mit Satya Nadella (CEO von Microsoft) eingehen: Merken Sie schon, woher der Wind weht und welche Wirkung das neue Paradigma auf alle Abläufe haben wird, die wir heute gewöhnt sind?
Wenn Nadella seine Vision der agentischen Systeme in wenigen Sätzen beschreibt(ab Minute 10:05), hören wir genau hin.
Zwei Begriffe aus dem Machine Learning brauchen wir noch dazu:
Ein Sample ist ein Datensatz, der ein Ereignis oder eine Interaktion erfasst. Zum Beispiel könnte hier das User-Prompt, die Antwort eines Agenten, die Reaktion des Users und andere beobachtete Dinge enthalten sein. Aus dem Sample wird der Reward (siehe oben) berechnet.
Ein Signal ist ein feingranulares Datum, eine ganz spezifische Messung. Signale können für den Reward verwendet werden.
Nadella wird gefragt, wie Modell-Finetuning mit proprietären Daten in MS Copilot einen Vorsprung gegenüber generischen Lösungen mit Copilot schaffen könnte. Nadellas Antwort geht über das Feintuning hinaus und lässt sich auf die hier vorgestellten Konzepte anwenden.
Sinngemäß übersetzt und gekürzt:
Wie sieht die Firma der Zukunft aus, was macht den Vorsprung (edge) einer Firma aus? Das ist die eigentliche Frage. Was mich begeistert, ist die Möglichkeit, das Wissen und die Daten zu nehmen und damit im Wesentlichen das Copilot-System zu tunen.
Anmerkung: Wir übertragen diese Idee auf das oben beschriebene Lernende System und seine Variablen. LLM Finetuning ist eine ganz eigene Disziplin.
Der dauerhafte Vorsprung (sustainable advantage) ist die Fähigkeit, ein Sample zu erzeugen, die Reasoning-Modelle mit den Daten zu verwenden, um dann mit dem Reward das Finetuning zu leiten.
Anmerkung: Nadella verwendet hier Sample in einem großen Rahmen im Sinne der Beobachtung der Reaktion des Marktes auf das agentische System.
Die Modelle werden immer besser. Letztlich sind sie eine Commodity, die man in die Firma bringt. Dann verwendet man die eigenen Daten und die Wissensarbeit, um sie zu tunen und ein Signal zu empfangen. Das kann ein Daumen hoch vom Kunden sein oder ein Daumen hoch vom Markt. Das verwendet man für den Reward und geht zurück zum Anfang. Und das ist, denke ich, eine Art neue Theorie der Firma (New Theory of the Firm) und man muss wirklich diese Schleife perfektionieren.
Sharon Zhou bringt es wunderbar auf den Punkt (übersetzt):
Die Leute haben Das Modell gelobt, aber haben inzwischen verstanden, dass es um mehr geht als nur das Modell. Es ist der Kreislauf, welcher Das Modell mit Den Daten und Der Evaluation kombiniert (alles findet auf Dem Compute statt) – und keiner der Schritte kann in Isolation ablaufen.
Fazit
Wir sind einen großen Bogen abgelaufen, angefangen von Hypothesen für eine Welt mit agentischen KI-Systemen, über das Versprechen der Agenten, hin zum neuen Paradigma der Nichtdeterministischen Welt, das unsere Prozesse verändern wird.
Wie geht es jetzt weiter? Die bevorstehende Aufgabe wird sein, Prozesse daraufhin zu untersuchen, wo agentische Systeme wirksam sein könnten und wie die Schleife (der Kreislauf) dort installiert werden kann. Mit allen Konsequenzen auf Rollen und Organisation. Wie man das macht, möchten wir herausfinden.
-
Für einen Agenten ist es prinzipiell egal, ob sein Kontext von einem Menschen oder einem anderen Agenten stammt. ↩
-
Tools wie z.B. Langfuse oder Galileo können schon heute einzelne LLM–Applikationen vermessen. Netze aus agentischen Systemen sind eine Stufe komplexer. Invariant Labs befasst sich damit. ↩