Die persönliche KI ist schon da

TL;DR

Persönliche KI-Agenten sind bereits nutzbar – die Technologie ist da, die eigentliche Herausforderung liegt in Integration und Sicherheit.
Echter Mehrwert entsteht durch agentische „Skills“, die Domänenwissen, Verhalten und Gedächtnis vereinen, nicht durch Chatbots.
Lokaler Betrieb ermöglicht Datenhoheit, Unabhängigkeit von Anbietern und langfristige Wiederverwendbarkeit von Wissen.
Stark integrierte Agenten sind grundsätzlich angreifbar: Prompt Injection und die „Lethal Trifecta“ sind ungelöste Kernprobleme.
Konsequenz für die Praxis: Der Fokus verschiebt sich von Prompting zu Architektur, Guardrails und verantwortungsvollem Systemdesign.

Dieser Artikel wurde mithilfe KI-gestützter Übersetzung aus dem englischen Original übertragen.

Wenn du die Diskussionen rund um KI-Agenten oder auch die Berichterstattung in den Mainstream-Medien verfolgt hast, ist dir vielleicht aufgefallen, dass ein bestimmtes Projekt in letzter Zeit eine ausgewachsene Identitätskrise durchlebt hat. Peter Steinbergers Projekt wechselte innerhalb weniger Wochen von Clawdbot zu Moltbot und schließlich zu OpenClaw – ermöglicht durch die Markenschutzanwälte von Anthropic und ein paar opportunistische Crypto-Scammer, die sich die alten Handles in den zehn Sekunden zwischen „alten Namen freigeben“ und „neuen Namen sichern“ geschnappt haben.

Das Projekt hat diese Phase nicht nur überstanden – es wurde zum am schnellsten wachsenden Open-Source-Projekt in der Geschichte von GitHub. Der 16-Millionen-Dollar-Meme-Coin hingegen nicht. Der Agent Harness heißt inzwischen OpenClaw, und mit Moltbook gibt es sogar eine soziale Plattform, auf der OpenClaw-Agenten miteinander kommunizieren können. Ja, wirklich.

Aber dieser Beitrag handelt weder vom Drama noch davon, warum du OpenClaw jetzt sofort auf deinem Rechner installieren solltest. Ich will dir hier nichts verkaufen.

Das hier ist eine persönliche Einschätzung. Ich betreibe OpenClaw seit drei Wochen auf einem Raspberry Pi bei mir zu Hause und nutze es als echten persönlichen Assistenten für meine Familie. Was ich dabei gelernt habe, hat meine Sicht auf KI-Fähigkeiten, KI-Integration und KI-Sicherheit deutlich geschärft.

Die Kurzfassung: Frontier-Modelle haben inzwischen kein Fähigkeitsproblem mehr. Was sie haben, sind ein Integrationsproblem, ein Problem beim Datenzugriff und vor allem ein Sicherheitsproblem, das bislang niemand gelöst hat.

Wir verfügen heute über persönliche Assistenten, deren Möglichkeiten im Wesentlichen nur noch davon abhängen, welche Daten und Werkzeuge wir ihnen zur Verfügung stellen. Je mehr wir freigeben, desto mehr können sie für uns tun. Und desto mehr Risiken gehen wir ein. Wenn man darüber nachdenkt, ist das eigentlich nichts Neues. Wir haben schon immer anderen Zugang zu unserem Leben gewährt, damit sie mit uns arbeiten können – Sekretär:innen, Nannys, persönliche Köch:innen. Der Unterschied liegt lediglich darin, ob wir Menschen vertrauen oder neuartigen Maschinen, die sich oft wie die Geister von Menschen verhalten.

Zumindest war das meine Realität in den vergangenen drei Wochen.

Wenn dich das neugierig macht, lies weiter. Wenn es dir Angst einjagt: gut so. Das sollte es.

Warum das ohnehin passieren wird

So sehe ich es: Persönliche KI-Agenten werden zur Normalität werden. Jedes große KI-Labor – Anthropic, OpenAI, Google – arbeitet daran, die KI aus dem reinen Chatfenster zu befreien. OpenClaw gibt einen Vorgeschmack auf diese nahe Zukunft und zeigt, dass die notwendigen Fähigkeiten im Grunde schon seit einiger Zeit vorhanden sind. Es wird sich durchsetzen, nicht weil es sicher wäre – das ist es nicht –, sondern weil das Nutzenversprechen zu überzeugend ist, um es zu ignorieren.

Ein persönlicher Agent, der sein eigenes Gedächtnis und seine Fähigkeiten flexibel erweitern kann, der sich mit der Zeit in deine fachliche Domäne einarbeitet und in deinem Namen handelt, ohne dass du bei jeder Interaktion erneut Kontext in ein Chatfenster kopieren musst – das ist kein Produktivitäts-Hack. Das ist eine grundlegend andere Art, mit Computern zu arbeiten.

Das wird passieren, ob es uns gefällt oder nicht. Die eigentliche Frage lautet nicht: „Sollten Menschen persönliche KI-Agenten einsetzen?“ Die Frage lautet: „Wie tun wir das verantwortungsvoll?“ Genau deshalb mache ich dieses Experiment mit mir selbst, um Antworten darauf zu finden.

Mein Setup

OpenClaw läuft bei mir auf einem Raspberry Pi 5 im Wohnzimmer. Ganz bewusst getrennt von meinen Arbeitsrechnern – kein Zugriff auf Daten meines Arbeitgebers, keine gemeinsam genutzten Dateisysteme. Lollo (so heißt der Agent) kommuniziert mit mir über WhatsApp. Dafür habe ich eine separate Nummer per eSIM eingerichtet; ich wollte meine privaten Nachrichten nicht damit vermischen. Auch meine Familie kann Lollo nutzen.

Die Kernarchitektur ist überschaubar: ein Gateway, das Sessions und Hintergrundjobs verwaltet, eine Sammlung von Skills (dazu später mehr) sowie API-Zugriff auf Frontier-Modelle. Die Modelle liefern die Intelligenz. OpenClaw fungiert als Agent-Harness und stellt alles andere bereit: Gedächtnis, Dateisystemzugriff, Tool-Nutzung, proaktive Planung und vor allem die Fähigkeit, Dinge tatsächlich zu erledigen, statt nur darüber zu reden.

Wenn dir Claude Code oder Codex im YOLO-Modus bekannt sind, ist OpenClaw vom Prinzip her nichts grundlegend anderes: ein Agent mit Systemzugriff. Der Unterschied liegt darin, dass es standardmäßig keine Sandbox gibt und dauerhaft Brücken zu externen Kommunikationsdiensten bestehen. In meinem Fall ist das WhatsApp. Der Agent ist immer aktiv und jederzeit erreichbar.

Unter der Haube nutzt OpenClaw Pi -Mario Zechners minimalistischen Coding-Agenten. Pi hat den kürzesten System-Prompt aller Agenten, die ich kenne, und kommt mit nur vier Kern-Tools aus: Read, Write, Edit und Bash. Alles Weitere entsteht über Extensions und Skills. Für alle, die tiefer einsteigen wollen, hat Armin Ronacher einen hervorragenden Deep Dive zur Architektur von Pi geschrieben.

Die Gesamtkosten: etwa 180 € für den Raspberry Pi sowie je nach Nutzung rund 20–30 US-Dollar pro Monat für API-Aufrufe. Alternativ kann man auch mit Rate Limits über ein Claude-Pro- oder ChatGPT-Plus-Abo arbeiten, wenn man fixe Kosten bevorzugt.

Wofür ich OpenClaw tatsächlich nutze

Ein paar Beispiele aus den letzten drei Wochen. Nicht vollständig, sondern exemplarisch.

Ablage von Familiendokumenten. Ich schicke ein PDF oder ein Foto per WhatsApp. Lollo analysiert das Dokument per Vision-Modell: Dokumenttyp, Datum, Absender, Betrag (falls relevant). Fotos werden in PDFs umgewandelt und anschließend per OCR verarbeitet. Die Dateien erhalten einen konsistenten Namen („YYYY-MM-DD [Absender] [Typ] [Details].pdf“) und werden im passenden Ordner abgelegt. Die gesamte Pipeline – Bilderkennung, Formatkonvertierung, OCR, Umbenennung, Ablage – läuft automatisch ab.

Aber die Ablage ist nur die halbe Miete. Spannend wird es beim Wiederfinden.„Welche Versicherungen haben wir für unser Kleinkind?“ „Wie viel haben wir 2025 für Handwerker ausgegeben?“Lollo durchsucht das Archiv, liest die relevanten Dokumente und liefert mir eine Antwort. Die Dokumente liegen nicht nur irgendwo herum – sie sind so zugänglich, dass sie tatsächlich nutzbar sind.

Ablage und Recherche funktionieren im Alltag erstaunlich gut. Als Nächstes steht auf meiner Liste: Experimente mit qmd, der lokalen Suchmaschine von Tobi Lütke, die Keyword-Suche, Vektor-Embeddings und LLM-Reranking kombiniert. Das sollte die Recherche noch einmal deutlich verbessern. Update: qmd ist inzwischen als Memory-Search-Backend in OpenClaw verfügbar.

Persönliche Farbberatung. Ich habe eine professionelle Farbberatung machen lassen. Die Ergebnisse – welche Farben zu meinem Hautton passen und welche ich meiden sollte – stecken in einem eigenen Skill. Schicke ich ein Foto eines Pullovers, den ich mir überlege zu kaufen, und frage „Passt das zu mir?“, gleicht Lollo das mit meinem Profil ab und gibt mir eine klare Antwort. Das Wissen bleibt erhalten. Ich muss meinen Farbtyp nicht jedes Mal neu erklären.

Proaktive Planung. Jeden Morgen um 7:45 Uhr schickt mir Lollo ein Briefing: Termine des Tages, Wetter für die Zeiten, in denen der Hund rausmuss, und alles, was Aufmerksamkeit braucht. Ich habe nicht darum gebeten – es passiert einfach. Am Abend vor der Müllabfuhr bekomme ich eine Erinnerung, welche Tonnen rausgestellt werden müssen. Einmal pro Woche gibt es eine Zusammenfassung der lokalen Nachrichten, gefiltert nach unseren Interessen und angereichert mit einer rheinischen Kommentierung – meine Frau und ich sind Rheinländer, die in Bayern leben und Lollo weiß, dass ein leicht sardoner Unterton dazugehört.

Am Freitagabend kommt ein Wochenrückblick: Welche Ideen ich hatte, an welchen Todos wir gearbeitet haben, worüber wir gesprochen haben und was noch offen ist – nicht nur Aufgaben, sondern auch Gesprächsfäden, die nie zu einem Abschluss gekommen sind. Genau das macht es wertvoll: Ich muss kein Todo-System mit religiöser Konsequenz pflegen. Dinge, die nur beiläufig erwähnt wurden, gehen nicht verloren. Welche CRUD-App könnte so etwas leisten?

Das sind Kleinigkeiten, aber sie summieren sich. Der Agent handelt, ohne dass ich ihn explizit anstoßen muss.

Ideen und Todos. Wenn mir eine Idee kommt, sage ich „Neue Idee zu X“ und sie landet sauber formatiert und synchronisiert in meinem Obsidian-Vault. Für Todos genauso. Das Wissen versickert nicht in einem Chatverlauf, den ich nie wieder hochscrolle, sondern fließt in reale Systeme, wo es hingehört.

Was ich daran liebe: Ich muss mich nicht mit starren UIs herumschlagen, die unterwegs eine Qual sind. Ich kann meine Gedanken einfach per Sprachnachricht loswerden, während ich mit dem Hund spazieren gehe (genau dann entstehen bei mir die Ideen!). Keine Siri, die alles missversteht. Die Idee wird roh erfasst oder das Todo bekommt automatisch den passenden Kontext. Kein App-Hopping, keine winzigen Eingabefelder, kein „Das trage ich später richtig ein“, das dann doch nie passiert.

Der Ideen-Skill nutzt eine einfache Vorlage: einen Arbeitstitel, einen Thesenbereich (anfangs leer oder nur grob skizziert), rohe Ideen als Bullet Points mit Zeitstempel, Cluster, die sich mit der Zeit herausbilden, offene Fragen und Quellen. Murmele ich „Neue Idee zu persönlicher KI“ ins Handy, legt Lollo die passende Datei an oder aktualisiert sie, ergänzt meinen Gedanken im Raw-Bereich mit dem heutigen Datum und synchronisiert alles. Mit der Zeit wächst das Dokument. Wenn genug Material da ist, clustern wir es. Die Struktur ist vorhanden, aber nicht starr, sie entwickelt sich mit dem Denken.

Ideen müssen reifen. Zumindest meine. Eine Idee ist nicht einfach ausgesprochen und erledigt, sie wird über Tage und Wochen geformt. Ich kann sie beim Spazierengehen beiläufig referenzieren, eine Sprachnachricht mit einem neuen Blickwinkel schicken, und Lollo findet das richtige Ideendokument im Vault und erweitert es. Die Idee wächst schrittweise, ohne dass ich mir merken muss, wo sie liegt oder in welchem Format.

Sehverlauf und Geschmack. Lollo hat Zugriff auf meine Trakt.tv-Daten – alles, was ich gesehen habe, wann und wie ich es bewertet habe. Daraus entsteht mit der Zeit ein Vorliebenprofil. Empfehlungen werden besser, weil sie auf realem Verhalten basieren, nicht auf einer künstlichen „Cold-Start“-Konversation.

Der Vorteil: Ich muss nicht darauf warten, dass ChatGPT oder Claude irgendwann eine Trakt-Partnerschaft ankündigen, die vielleicht nie kommt. Wenn ein Dienst eine API oder eine Website hat, die ich scrapen kann, kann ich ihn anbinden. Meine Daten, meine Integrationen.

Ganz allgemein: Lässt man den persönlichen Agenten auf die eigene Trakt-Historie, Spotify-Playlists oder Musiksammlungen schauen, entsteht ein Vorliebenprofil, das einem selbst gehört. Es lebt im eigenen System, unter eigener Kontrolle und ist gut genug, um wirklich interessante Dinge damit zu tun.

Essensplanung und kulinarische Beratung. Vergiss smarte Kühlschränke. Ich sage Lollo unterwegs per Sprache, was sich gerade in unserer Vorratskammer und im Kühlschrank befindet – nicht alles, sondern Zutaten, die einen typischen Kochzyklus von einer Woche überleben. Auf Basis dessen schlägt es Gerichte vor, die zu unseren Vorlieben passen. Der Agent kennt unsere Prioritäten: zuerst Zutaten und Mise-en-place-Schritte, dazu Profi-Küchentipps im Geiste von Kenji López-Alt. Leite ich eine Bestellbestätigung vom Supermarkt weiter oder fotografiere einen Kassenbon, wird das Inventar aktualisiert. Keine deterministischen Systeme, die verlangen, dass man alles manuell in Tabellen einträgt. Raus aus meinem Kopf, der Agent kümmert sich darum. Das Vorratsinventar lebt innerhalb des Skills selbst, nicht im globalen Gedächtnis des Agenten – domänenspezifisches Wissen bleibt bei der Domäne. Für uns funktioniert das extrem gut.

Kontaktmanagement. Nach Meetings oder unterwegs kann ich schnell die Personen diktieren, die ich gerade kennengelernt habe – ergänzt durch Fotos von Visitenkarten, LinkedIn-Profile oder was auch immer ich gerade zur Hand habe. Aus diesem Chaos erstellt Lollo saubere neue Kontakte oder aktualisiert bestehende. Es ist genau der Kontaktmanagement-Workflow, den ich immer haben wollte, aber nie hatte.

Was ich gelernt habe

Nach drei Wochen sind ein paar Dinge ziemlich klar geworden.

Skills sind das eigentliche Killer-Feature. Die Architektur von OpenClaw erlaubt es, dass der Agent seine eigenen Fähigkeiten in Zusammenarbeit mit mir entwickelt. Der Farbberatungs-Skill, der Dokumentenablage-Skill, der Essensplanungs-Skill, all das wurde nicht aus irgendeinem Marketplace heruntergeladen. Diese Skills sind iterativ entstanden, im Dialog, entlang dessen, was ich tatsächlich gebraucht habe. Und sie werden kontinuierlich besser. Sie werden automatisch in Git versioniert. Wenn etwas nicht so funktioniert, wie ich es mir vorstelle, sage ich es Lollo – und der Skill wird angepasst.

Das ist grundlegend anders als der Ansatz „Datei hochladen, um dein GPT zu customizen“. Skills enthalten Domänenwissen, Verhalten und wenn man möchte sogar eigenes Gedächtnis. Sie sind nicht bloß Kontext, sondern echte Fähigkeiten. Und sie existieren getrennt vom allgemeinen Gedächtnis des Agenten. Dadurch kann ich sie weiterentwickeln, ohne das Kernsystem zu „verschmutzen“. Gleichzeitig sind sie portabel, denn Agent-Skills sind inzwischen ein offener Standard.

Deine Daten bleiben deine Daten. Die Memory-Dateien (und die Skills) liegen als Markdown auf meinem Raspberry Pi. Die Chat-Logs sind JSON-Dateien, ebenfalls auf meinem Pi. Ich kann sie sichern, in Git versionieren, per grep durchsuchen oder einfach löschen. Wenn ich morgen das Modell wechseln möchte – von Claude zu GPT zu Gemini – nehme ich meine Daten einfach mit. Versuch mal, die komplette Konversationshistorie aus einem ChatGPT-Business-Account zu exportieren. Dann weißt du, warum das wichtig ist.

Man lernt unglaublich viel – und zwar schnell. Ich habe in drei Wochen täglicher Nutzung mehr über KI-Agenten gelernt als in einem Jahr Lesen und Kundenprojekten. Sobald man selbst wirklich von dem System abhängt, stößt man sehr schnell an die Kanten: Was funktioniert, was bricht, was ist unsicher. Und vor allem: welche völlig neuen Arbeitsweisen sich plötzlich eröffnen. Es gibt keinen Ersatz für gelebte Erfahrung.

Warum das gefährlich ist

Jetzt kommt der Teil, den ich nicht überspringen kann.

Das Prompt-Injection-Problem ist nicht gelöst. Nicht einmal ansatzweise. Seit Googles CaMeL-Paper - das eine Systemschicht vorschlägt, die Kontrollfluss von Datenfluss trennt – gab es kaum weitere Forschung, die auf Design-Ebene wirklich überzeugend zeigt, wie man Prompt Injection grundsätzlich in den Griff bekommt. Wenn du einen persönlichen KI-Agenten betreibst, der Zugriff auf deine Daten hat, musst du verstehen, was Simon Willison die Lethal Trifecta nennt:

Zugriff auf private Daten (deine Dateien, E-Mails, Kalender)
Kontakt mit nicht vertrauenswürdigem Inhalt (Websites, eingehende Nachrichten, Dokumente von anderen)
Fähigkeit, externe Aktionen auszuführen (Nachrichten versenden, API-Calls machen, Dateien schreiben)

Darin steckt eine Ironie. Wie der Security-Researcher Jamieson O’Reilly anmerkt:

„In den letzten 20 Jahren hat die Infosec-Branche zahlreiche Verteidigungsbarrieren aufgebaut – Sandboxes, Prozessisolation, Permission-Modelle, Firewalls. KI-Agenten hebeln all diese Verteidigungen aus. Sie brauchen Zugriff auf Dateien, Credentials, Kommandoausführung und externe Services.“

Das Nutzenversprechen eines wirklich hilfreichen persönlichen Agenten bedeutet, dass wir Löcher in praktisch jede Grenze schlagen müssen, die wir über Jahrzehnte hinweg mühsam aufgebaut haben.

Wenn ein Agent alle drei Komponenten hat, ein nützlicher persönlicher Agent hat sie meist, kann ein Angreifer Input so präparieren, dass dein Agent Dinge tut, die du nie autorisiert hast. Er kann deine privaten Daten lesen und exfiltrieren. Er kann in deinem Namen E-Mails verschicken. Das Modell kann nicht zuverlässig unterscheiden, was deine Anweisung ist und was bösartige Anweisung ist, die irgendwo in den Inhalten steckt, die es verarbeitet.

Das ist nicht nur Theorie. Security-Teams haben solche Angriffe gegen praktisch jedes große KI-Produkt demonstriert. Die Architektur ist grundsätzlich verwundbar.

Was ich dagegen tue

Der Pi ist von meinen Arbeitsmaschinen isoliert. Kein Zugriff auf Arbeitgeberdaten.
OpenClaw bindet nur an localhost. Der einzige Zugang von außen läuft über Tailscale, inklusive eigener Authentifizierung.
Der Agent läuft in einer Sandbox. Das begrenzt den Blast Radius: kein Zugriff auf andere Prozesse auf dem Host, keine Privilege Escalation, kein Zugriff auf Credentials, die nicht explizit gemountet sind (SSH-Keys, andere API-Tokens), keine laterale Bewegung in andere Systeme. Aber: Die wichtigen Daten müssen trotzdem als Volume gemountet werden – sonst käme der Agent nicht an meine Notizen. Wenn er kompromittiert wird, kann er nicht über das hinaus „wachsen“, was gemountet ist. Nur ist das Gemountete eben genau das, was zählt. Simon Willison hat dazu eine kurze Anleitung, wie man OpenClaw in Docker sandboxed betreibt.
Ich experimentiere mit Subagenten, deren Tool-Zugriff pro Skill auf das Minimum reduziert ist. Besonders riskante Skills – die, bei denen die Trifecta voll greift – laufen in eingeschränkten Subagent-Prozessen. Der Hauptagent bleibt aber grundsätzlich angreifbar. Das ist Defense in Depth, keine Lösung. *OpenClaw unterstützt außerdem Multi-Agent-Setups mit unterschiedlichen Sicherheitsprofilen. Man könnte einen dedizierten Agenten betreiben, bei dem eine „Spitze“ der Trifecta komplett entfernt ist – etwa kein ausgehender Netzwerkverkehr (per Firewall-Regeln) oder verpflichtende Exec-Freigaben. Der Trade-off: Dieser Agent bräuchte seine eigene WhatsApp-Konversation; ein einzelner Agent, der alles abdeckt, ist deutlich „flüssiger“. Für das Familiendokumentenarchiv überlege ich, in diese Richtung zu gehen.
Ich installiere keine Skills aus ClawdHub (oder von irgendwo sonst). Skills lassen sich leicht selbst bauen: Ich bespreche mit Lollo, was ich brauche, er schlägt einen Ansatz vor, wir iterieren, und der Skill entsteht. Warum etwas installieren, das für jemand anderen gebaut wurde, wenn der ganze Punkt doch ist, dass das System auf mich zugeschnitten ist? Ein Agent kann die Doku ebenso schreiben wie die Skripte und Tools, die ein Skill braucht.
Ich verbinde meinen Agenten natürlich nicht mit Moltbook. Moltbook ist ein Social Network, in dem OpenClaw-Agenten miteinander sprechen können – ein faszinierendes Experiment, aber zugleich ein direkter Kanal, über den nicht vertrauenswürdige Inhalte mit hoher Wahrscheinlichkeit bei deinem Agenten landen.

Ich habe auch E-Mail-Integration ausprobiert. Das Muster ist vorhersehbar: Je mehr Zugriff du gibst, desto mächtiger wird das System. In dem Experiment hat Lollo meine E-Mails durchsucht, Antworten formuliert, die nach mir klangen, Zusammenhänge erklärt, die ich übersehen hatte, Nachrichten mit meinen Ideen und Todos verknüpft – und in meinem Namen geantwortet. Das war extrem nützlich: ein Blick darauf, was möglich ist. Und es war extrem gefährlich.

Ich habe dann eine Egress-Firewall aktiviert und den Agenten in einen „Approve-only“-Modus versetzt, in dem jede Aktion meine explizite Bestätigung braucht. Aber die Angriffsfläche ist schlicht zu groß. Eine einzige bösartige E-Mail mit eingebetteten Instruktionen reicht. Das ist russisches Roulette. Seit diesem abgeriegelten Experiment habe ich die E-Mail-Integration nicht wieder aktiviert.

Es gibt Ansätze, um das Trifecta-Risiko für Use Cases wie E-Mail deutlich zu reduzieren oder sogar zu eliminieren. Das herauszuarbeiten wird eine der prägenden Herausforderungen für Softwarearchitekt:innen in den kommenden Jahren sein.

Ich managiere Risiko – ich eliminiere es nicht. Ich habe Entscheidungen getroffen, was ich bereit bin zu exponieren und was nicht. Wenn du einen persönlichen Agenten betreiben willst, musst du diese Entscheidungen ebenfalls treffen – und verstehen, welche Trade-offs du dabei eingehst.

In der Praxis ist das schwierig. Der ganze Sinn eines persönlichen Agenten ist ja, dass er tief integriert ist. Aber „schwierig“ heißt nicht „ignorieren“. Es heißt: sorgfältig nachdenken.

Also: Solltest du das tun?

Wenn du Erfahrung im Linux-Systembetrieb hast – idealerweise mit einem Softwareentwicklungs-Background –, die sicherheitstechnischen Implikationen verstehst und lernen willst, wie KI-Agenten in der Praxis tatsächlich funktionieren: ja. Du wirst in ein paar Wochen mehr lernen als in einem Jahr reiner Lektüre.

Wenn du hingegen ein ausgereiftes Produkt suchst, das „einfach funktioniert“ und von Haus aus sicher ist: noch nicht. Das hier ist Frontier-Terrain. Es gibt durchaus Guardrails, und Sicherheit wird von Anfang an mitgedacht – entgegen dem Bild, das in der öffentlichen Diskussion oft gezeichnet wird. Aber man muss die Lethal Trifecta in- und auswendig verstehen, und die Default-Einstellungen bringen nur wenig Schutz mit. Wenn du tiefer einsteigen willst, lohnt sich ein Blick in die Security-Dokumentation und die System-Prompt-Guardrails.

Für mich geht das Experiment weiter. Der Nutzen ist enorm – und ich habe hier nur einen kleinen Ausschnitt meiner Use Cases gezeigt. Die Risiken sind real. Und irgendwo dazwischen liegt eine Zukunft, in der persönliche KI-Agenten ganz normal sind – nicht weil wir die schwierigen Probleme gelöst hätten, sondern weil wir gelernt haben, mit ihnen umzugehen.

Für alle, die in diesem Bereich bauen

Mein Fazit für alle, die an solchen Systemen arbeiten: Die wichtigste Aufgabe für Agent Engineers und Softwarearchitekt:innen wird nicht Prompt Engineering sein. Es wird darum gehen, Agenten-Umgebungen und Guardrails zu entwerfen, die maximale Fähigkeiten und Autonomie ermöglichen – und dabei Verantwortung und Sicherheit wahren. Die Modellfähigkeiten sind inzwischen gut genug. Die Integrationsmuster zeichnen sich ab – und es ist unsere Aufgabe, sie aktiv zu gestalten, statt sie nur anzuwenden. Dabei geht es nicht nur um Sicherheit. Es geht um die Zukunft dessen, was Softwarearchitektur überhaupt bedeutet.

Über Jahre hinweg bestand unsere Disziplin vor allem darin, bekannte Muster auf neue Probleme anzuwenden. Diese Phase geht zu Ende. Innovation ist jetzt der Ausgangspunkt. Die Muster, die wir brauchen, existieren noch nicht – wir müssen sie erst entwickeln. Wenn du darauf gewartet hast, die Erlaubnis zu bekommen, etwas wirklich Neues zu tun: Das ist sie. Es wird eine spannende Zeit.

Über konkrete Use Cases und ihre agentischen Architekturen werde ich in zukünftigen Beiträgen noch ausführlicher schreiben.

Danke an meine Freunde Roman Stranghöner und André Deuerling für ihr Feedback zu einer früheren Version dieses Beitrags.

Blog-Post