Shownotes & Links
- Qwen verliert TechLead und Entwickler
- VP Research post training von OpenAI zu Anthropic
- ChatGPT 5.4 5. März 2026
- Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
- Agentic Software Engineering Training
🎥 Hinweis: Diese Podcast-Folge ist auch als Video auf YouTube verfügbar.
Transkript
Dieses Transkript wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Maßgeblich ist immer das im Mitschnitt gesprochene Wort.
Fabian Walther: Ja, dann begrüße ich alle ganz herzlich zu unserer ersten Runde von unserem AI News Talk, ein neues Format, das wir mal ausprobieren, um uns mit der etwas erhöhten Geschwindigkeit zu beschäftigen, die dieser ganze Bereich mit sich bringt. Und bevor ich einsteige, begrüße ich den Ole. Hallo Ole.
Ole Wendland: Hallo Fabian.
Fabian Walther: Schön, dass du dabei bist und dich bereit erklärt hast, mit mir ein bisschen den Redebedarf zu stillen. Genau, wir fangen mit einer kurzen Vorstellung an, damit ihr wisst, wer hier sitzt. Ole war ja auch schon etwas häufiger hier im Kanal, ich auch ein paar Mal, aber wir fangen noch mal an. Vielleicht magst du kurz sagen, warum wir über das Thema quatschen und was dich gerade beschäftigt.
Ole Wendland: Genau, in dieser Kombination hat man uns, glaube ich, noch nie im INNOQ Podcast gesehen. Wir sind aber beide im Bereich AI unterwegs und es war uns auch einfach ein Anliegen, ein bisschen Orientierung über diese Flut von News zu geben, weil ich glaube, das ist etwas, womit alle gerade Probleme haben, in dieser Menge einen Überblick zu bewahren.
Fabian Walther: Genau, du hast es schon richtig erfasst, wir beschäftigen uns beide damit, sowohl in der Anwendung als auch in der Analyse, was es denn bedeutet. Ich mache häufig auch Beratung in Teams, wie man Teams aufbaut, wie Teams vernünftig zusammenarbeiten, und natürlich hat das einen riesigen Impact. Alle fragen gerade, was bedeutet das jetzt für unsere Arbeit? Deswegen wollen wir einfach am Ball bleiben und den Austausch hier ein bisschen vorantreiben. Wir wollen einfach immer so ein paar Themen, die in den letzten Wochen aktuell waren, ansprechen, gucken, was wir davon halten, bei neuen Geschichten, die rausgekommen sind, ob wir sie schon ausprobiert haben, welche Erfahrungen wir mitgenommen haben, und dann gucken, ob wir dann manchmal vielleicht auch so ein bisschen in die Metadiskussion abdriften. Wir werden sehen, wohin uns das führt. Für heute haben wir so ein bisschen einfach neuere Modelle, die wir ausprobiert haben, mit denen wir arbeiten, mitgebracht: Was Anthropic Neues gemacht hat mit Opus 4.6, das war spannend, dann natürlich jetzt die GPT-Modelle, was haben wir in letzter Zeit da mitgenommen, gerade was jetzt 5.3 Codex angeht und eben jetzt gerade ganz frisch auch 5.4. Und dann, ja, momentan geht es ja auch so ein bisschen los, was das Personalkarussell angeht, da sind auch noch so ein paar spannende Dinge passiert, da gucken wir vielleicht auch noch mal drauf, was das für Auswirkungen haben könnte. Und zu guter Letzt haben wir noch ein Paper, was, glaube ich, tatsächlich sogar von der ETH Zürich ist, hast du gesagt, also aus deiner Nähe, vielleicht kann man das noch ein bisschen ansprechen, das fand ich sehr spannend. Da geht es um die Agents.md. Gut, fangen wir mit den Themen an. Du hattest was mitgebracht, was Anthropic angeht, und da geht es um Umsatz und Geld.
Ole Wendland: Genau, es sind eigentlich zwei Themen. Wie ich dazu kam, dass ich mich damit beschäftige, war zum einen, wir haben ein paar Ausfälle Anfang der Woche und Ende letzter Woche gesehen, die tatsächlich sehr nervig waren, weil man Claude Code einfach für, ich glaube, Donnerstag, Freitag letzter Woche kaum nutzen konnte und es auch viele Kollegen schon bei der Arbeit gestört hat. Auf der anderen Seite hat Anthropic neue Umsatzzahlen veröffentlicht für den März 2026 und da waren sie schon bei 10 Milliarden Umsatz. Das muss man sich verdeutlichen: Sie haben seit 2022 eigentlich mindestens jedes Jahr eine Verzehnfachung ihres Umsatzes erreicht, also von 10 Millionen auf 100 Millionen, auf eine Milliarde, auf jetzt fast 20 Milliarden. Das Witzige ist, Mitte letzten Jahres hatten sie eigentlich 30 Milliarden Umsatz für Ende 2026 angepeilt und werden das Ziel, okay, das Ziel ist schon wieder aktualisiert worden, jetzt auf 100 Milliarden. Bescheidene Schritte, aber sie haben eigentlich schon das Jahresziel fast Ende März erreicht. Auf der anderen Seite muss man halt sagen, oder die Frage stellen, ob sie vielleicht etwas zu schnell wachsen. Es gab vor drei, vier Wochen einen größeren Podcast mit Cash und Darius Amade, dem CEO von Anthropic, und da war halt auch thematisiert worden, dass Anthropic die AI-Firma ist, die am geringsten in Rechenzentren investiert hat. Darum sehen wir da vielleicht langsam ein Ende des Wachstums beziehungsweise, dass sie in Probleme laufen, ihre Inferenz zu bedienen.
Fabian Walther: Okay, weil sie einfach nicht genug bestellt haben, meinst du, und jetzt einfach nicht mehr so schnell skalieren können, weil sie einfach keine Hardware mehr bekommen, oder?
Ole Wendland: Genau, ich glaube, sie sind selber ein bisschen, also, sie streiten das natürlich ab, aber sie sind selber ein bisschen von der Geschwindigkeit der Skalierung überrascht und waren eher auf der vorsichtigen Seite, was die Bestellung angeht. Sie betreiben ja keine eigenen Rechenzentren, sondern mieten das bei den Hyperscalern, also Microsoft, Amazon, aber auch die brauchen halt Zeit, solche Rechenzentren zu bauen, vorzuhalten, zu entwickeln, und da waren sie wohl tatsächlich etwas zu vorsichtig, so wie es gerade aussieht.
Fabian Walther: Okay, ja, da bin ich auch wirklich gespannt. Bisher hatte ich tatsächlich mit der Stabilität bei Claude Code keine Probleme jetzt persönlich, deswegen finde ich es ganz spannend, dass du es erwähnst. Vielleicht habe ich dann immer genau diese Slots nicht erwischt oder wir waren dann halt immer unterwegs, wenn gerade nicht Nordamerika unterwegs war. Das kann natürlich auch sein. Ja, interessant. Gerade bei diesen riesigen Investitionssummen fragt man sich ja immer, ist es jetzt alles nur Luft, Investorenkohle, was sie denn da jetzt quasi in diese Umsatzzahlen reinschreiben? Ich weiß nicht, wie du das siehst, also, ich habe eher das Gefühl, dass gerade bei Anthropic viele Kunden haben, die das wirklich produktiv einsetzen. Was sie dann damit produzieren, ist natürlich noch mal ein anderes Thema, aber sie produzieren etwas und sehen einen Wert darin, deswegen hätte ich da tatsächlich bei diesen Umsatzzahlen jetzt auch gar nicht so viel Bedenken, dass das irgendwie alles nur Luft ist, oder wie würdest du das sehen?
Ole Wendland: Ja, ich denke, da muss man zum einen die Umsatzzahlen von den Investitionszahlen trennen. Bei den Investitionszahlen habe ich deutlich größere Zweifel, wobei ich im Moment auch noch gar nicht so den Trend zur Blase sehe, muss ich sagen. Was ja häufig so eine Blase ausmacht, ist, dass die Infrastruktur nicht genutzt wird, ist klassische Dark Fiber, was man während der Dotcom-Blase aufgebaut hat, oder diese Eisenbahnlinien in der Eisenbahnblase Anfang des 20. Jahrhunderts in Amerika. Zurzeit werden diese Rechenzentren alle komplett bis zum letzten Bit genutzt und alles läuft heiß und 24/7. Ich kann mir natürlich vorstellen, dass durch große Fortschritte im Chipdesign oder durch eine ganz neue Architektur es passieren kann, dass Dinge auf einmal deutlich einfacher und preiswerter werden und deshalb die ganze Kalkulation nicht so aufgeht. Auf der anderen Seite bin ich mir relativ sicher, Anthropic, sage ich, Nvidia ist definitiv überbewertet, das ist so ein bisschen wie das Cisco damals zur Dotcom-Blase, da der Aktienkurs, der wird nicht so weit weiter steigen, das ist wirklich unrealistisch.
Fabian Walther: Ja, das ist noch mal wichtig, das voneinander zu trennen: die Investitionen und tatsächlich die Umsätze, die sie wirklich generieren. Bei den Investitionen wäre ich auch sehr vorsichtig, was da immer verkündet wird. Okay, ja, wo wir gerade bei Anthropic sind und bei Innovationen, wir hatten gesagt, es gab so in den letzten Wochen auch ein bisschen Modellaktualisierung. Also, ich erinnere mich da an das Opus 4.6, was mich noch mal so ein bisschen überrascht hat, als ich mich gerade auf ein Training vorbereitete, was wir ja zu dem Thema auch geben, und ich dann quasi am Tag vorher noch mal alles durchgegangen bin und dann plötzlich sah, oh, jetzt kommt hier plötzlich schon wieder ein Modell-Switcher in Claude Code, schon wieder ein neues Modell, und dann kam Opus 4.6 und ich musste erstmal die Pressemitteilung suchen, was das jetzt eigentlich schon wieder bedeutet. Und habe dann damit aber auch gleich ziemlich viel ausprobiert, auch gerade eben, weil da jetzt ja auch dieses längere, also da noch sogar das größere Context Window mit drin ist, und ich hatte dann wirklich das Gefühl, es sind ja immer alles erstmal nur Gefühle, bevor man keine Daten hat, aber das Gefühl, dass tatsächlich viele Dinge damit noch mal, dass es noch mal ein Schritt nach vorne ist zu dem Opus 4.5. Hast du da schon längere Erfahrung jetzt mit machen können, also den Vergleich so ein bisschen angestrengt zwischen 4.5 und 4.6?
Ole Wendland: Also, meine Erfahrungen sind zumindest, es ist ja ein neues Feature, damit auch zu Agent Teams gekommen. Damit habe ich schon mal ein bisschen rumgespielt im Bereich der Legacy-Modernisierung und was mir auffällt ist, dass Agents über längere Zeiträume jetzt autonom laufen können. Ich denke, das ist zumindest das, was mir direkt aufgefallen ist von 4.5 zu 4.6, dass der Zeitraum von autonom laufenden Agents sich deutlich verbessert hat. Hängt bestimmt auch mit dem größeren Context Window zusammen, dass sie weniger autokompaktieren müssen und dass das die neuen Laufzeiten ermöglicht. Wie war das denn beim Training? Hast du Auswirkungen gesehen? Waren die Aufgaben jetzt auf einmal zu leicht? Müssen wir uns neue Aufgaben fürs Training überlegen?
Fabian Walther: Na ja, es war ja schon so, dass wir eine Vibe-Coding-Übung haben, die eigentlich zeigen soll, dass Vibe-Coding nicht so eine gute Idee ist, und die funktionierte ja mit 4.5.3 dann schon eigentlich sehr gut, wo man eigentlich immer darauf hinaus wollte, dass das nicht so gut funktioniert, aber mit 4.6 hat das natürlich mindestens genauso gut funktioniert und diese Übung konnte dann auch tatsächlich fast von jedem Teilnehmer, glaube ich, erfolgreich abgeschlossen werden, wenn man das als Erfolg sieht. Aber das fand ich wirklich schon bemerkenswert. Also, für mich war das jetzt einfach eine Evolution, keine Revolution. Aber das, was du mit den langlaufenden Agents sagst, das ist ja sowieso etwas, was sich gerade so ein bisschen abzeichnet, dass es immer mehr darum geht, auch die Qualität von Modellen danach zu bewerten, wie lange kann ein Agent mit diesem Modell arbeiten, ohne sich irgendwo in der Ecke zu manövrieren? Und ich finde, das ist tatsächlich auch ein ziemlich guter Benchmark, um das zu bewerten. Aber das fand ich tatsächlich interessant, aber ja, in dem Umfeld kann man sich noch so gut vorbereiten, man wird immer überrascht, auch noch einen Tag vor oder während einer Veranstaltung, dass dann da die Versionszahlen sich ändern. Bin ich mal gespannt, wann denn dann mal vielleicht wieder ein größerer Schritt, was diese Opus-Familie angeht, kommt, und nicht nur ein Punkt-Update, sondern sich da wirklich wieder signifikant etwas verändert.
Ole Wendland: Ich muss persönlich sagen, dass meine Begeisterung für neue Versionen, von neuen Major Versionen von Sprachmodellen gar nicht mehr so groß ist. Ich habe das Gefühl, für die meisten Fälle sind sie good enough und die größeren Sprünge sehen wir mittlerweile im Tooling und in der Anwendbarkeit. Ich könnte, glaube ich, auch mit einem Opus 45 sehr gut arbeiten. Ich weiß gar nicht, wie viel der längeren Agent-Zyklen durch ein verbessertes Cloud Code und verbesserte Agent Harness oder eine Agent Loop gekommen ist und wie viel durch das neue Modell tatsächlich gekommen ist.
Fabian Walther: Stimmt, das verschwimmt so ein bisschen, ne?
Ole Wendland: Ja.
Fabian Walther: Das meinte ich gerade, das ist eher so ein bisschen Evolution, nicht mehr so Revolution, ne? Beziehungsweise sind sie einfach auch good enough, ne?
Ole Wendland: Ich glaube schon, dass sie in Rand- und Spitzenbereichen besser geworden sind, aber sie sind mittlerweile in eine Größe gewachsen, die mich in meinem Alltag nur noch wenig berührt, um ehrlich zu sein.
Fabian Walther: Gut, das ist dann vielleicht auch so ein bisschen unsere Blase jetzt, ne? Wir haben quasi jetzt unsere Anwendungsfälle gerade so ein bisschen gefunden, auf die wir uns halt spezialisieren, und da haben wir jetzt quasi so ein bisschen den Sweet Spot entdeckt und haben jetzt quasi so ein Level erreicht, wo wir unsere Anwendungsfälle damit abbilden können, ne? Jetzt geht’s dann wahrscheinlich eher wieder darum, was ist denn überhaupt außerhalb unserer Softwareentwicklungs-Bubble noch möglich, ne? Das ist natürlich jetzt so ein bisschen unsere Filterblase. Aber da würde ich dir zustimmen, das ist tatsächlich eher schrittweise, und das Tooling ist das Interessante, was sich gerade tut, ne? Und ich meine, das ist ja auch so eine Sache, die man häufiger sieht, dass, wenn in der Basistechnologie noch kleinere Schritte sind, man natürlich über Optimierung noch extrem viel rausholen kann, ne? Also, wenn die Hardware nicht schneller wird, haben sich im Gaming auch immer die Engines verbessert, und man hat dann immer mehr aus der bestehenden Hardware rausgeholt, und vermutlich ist es hier auch immer so ein abwechselnder Zyklus, ne?
Ole Wendland: Ich glaube, da hast du völlig recht. Man sieht auch, dass Anthropic sein Geschäftsmodell jetzt ändert oder andere Geschäftsbereiche ins Visier nimmt. Wir hatten jetzt im Februar, glaube ich, war es auch der Release von Claude für Excel und Claude für PowerPoint, oder war es vielleicht schon Januar? Auf jeden Fall nimmt der Geschäfts- und Backoffice-Bereich eine viel höhere Priorität ein, nachdem sie de facto wahrscheinlich der Marktführer im Bereich Coding jetzt schon sind.
Fabian Walther: Klar, da wollen sie sich jetzt auch diversifizieren, ne? Dass sie da jetzt einfach diese Branche schon relativ gut im Griff haben, versuchen sie natürlich jetzt schnell, wahrscheinlich in andere Bereiche reinzuwachsen. Da bin ich wirklich gespannt, wie der Erfolg ist, ne? Weil ich glaube, es ist nicht umsonst so: Wir hatten vorhin im Vorgespräch kurz über Benchmarks geredet und dann auch den Punkt gehabt, dass die meisten relevanten Benchmarks jetzt irgendwie etwas mit Softwareentwicklung zu tun haben und gar nicht mit anderen Dingen, ne? Und da bin ich gespannt, wie misst man denn Erfolg in Office Tasks, oder wie kann man das dann wirklich auch in Benchmarks vergleichbar abbilden, um herauszufinden, wie die Verbesserungen sind, ne? Das finde ich schon interessant, weil Softwareentwicklung relativ einfach ist, ne? Du kannst gucken: Am Ende kompiliert die Software, erfüllt sie ihre Tests, die ich vorher definiert habe, dann war das Modell erfolgreich, ne? Das kannst du natürlich schön in den Benchmark überführen. In den anderen Bereichen bin ich mir da nicht so sicher. Ich weiß nicht, kennst du da schon konkret etwas, was es so an anderen Benchmarks gibt?
Ole Wendland: Es gibt tatsächlich eine Unmenge an Benchmarks. Bekannt gerade am Anfang war dieses Bar Exam aus den USA, also eine Studienzulassungsprüfung, glaube ich. Es ist eine Zulassungsprüfung fürs Jura-Studium, glaube ich.
Fabian Walther: Okay.
Ole Wendland: Das ist aber längst geknackt, das ist schon keine Herausforderung mehr. Relativ bekannt, was in letzter Zeit immer wieder häufiger gefeatured wird: Anthropic hat so ein Vending Machine Business.
Fabian Walther: Davon habe ich gelesen.
Ole Wendland: Diese Vending Machines betreiben lassen, und das ist zurzeit eher noch ein Meme, weil Anthropic auch die ganzen Outtakes davon veröffentlicht, aber das ist einer der sehr komplexen und sehr großen Benchmarks. Aber ich glaube, es gibt in fast jedem Feld, ob es Medizin, Mathematik oder Geschichtswissen ist, mehr als genug Benchmarks. Es ist eher interessant, ob man den Benchmark für seinen Anwendungsfall findet. Wir machen ja auch teilweise AI-Anwendungen, und ich stelle mir immer die Frage, wie benchmarke ich denn jetzt die Entwicklung, wie sehe ich, dass meine Anwendung auf dem richtigen Track ist? Und gerade wenn man Nischenfelder hat, hat man es dann viel schwieriger, einen guten Benchmark zu finden, um zu sehen, ob man sich überhaupt in die richtige Richtung entwickelt.
Fabian Walther: Dann ist es vermutlich einfach meine Filterblase, dass ich mich immer nur mit den Coding-Benchmarks beschäftige. Gut, okay, jetzt haben wir Anthropic gehabt. Ich muss zugeben, ich bin bei den OpenAI-Modellen immer nicht so auf dem Stand. Ich hatte natürlich mitbekommen, was mit GPT Codex 5.3 oder 5.3 Codex passiert war, das ja Anfang Februar rauskam, und dann wurde jetzt gleich 5.4 nachgeschoben. Hast du da schon eine Chance gehabt, einen Vergleich anzustellen? Ich habe tatsächlich nur die Pressemitteilung rezipiert und jetzt nicht genau geguckt, auch aufgrund des Themas, was wir gerade hatten: Man hat so seinen Anwendungsfall gefunden. Ich komme sehr gut mit den Anthropic-Modellen klar, deswegen bin ich da immer nur am Rande beteiligt. Hast du da eine Chance gehabt, schon reinzuschauen?
Ole Wendland: Ich habe ein wenig reingeschaut, aber auch längst nicht so viel Erfahrung wie mit den Anthropic-Modellen. Was mir aufgefallen war, ist, dass die ChatGPT-Modelle – und ich glaube, das ist ein allgemeiner Trend – sich besser an Anweisungen halten, die der User gibt. Mit dem Preis, dass sie sich schneller auch in irgendwelche Ecken verfahren, wo sie nicht so rauskommen. Sie sind nicht so experimentierfreudig, um zu versuchen, sich jetzt aus ihrem Loch wieder eine Leiter rauszubauen, während die Anthropic-Modelle da deutlich experimentierfreudiger sind, mit dem Preis, dass sie weniger an Anweisungen hören. Ich denke aber, das ist einfach ein Trade-off, den man machen muss.
Fabian Walther: Ja.
Ole Wendland: Ich kann mir vorstellen, dass je nach Anwendungsfall und Spezifikationsstand das ein oder andere Modell besser taugt.
Fabian Walther: Ich hatte jetzt auch vom Kollegen das Feedback bekommen, der meinte, dass in dem Fall das Anthropic-Modell sich tatsächlich sehr gut aus Ecken wieder rausmanövrieren kann, weil es dann sogar irgendwann entscheidet: ‘Okay, ich schmeiße alles weg, was ich bis hierher gemacht habe, das funktioniert so nicht, ich muss noch mal neu.’ Und dass so etwas jetzt mittlerweile auch häufiger passiert und sie nicht mehr so stecken bleiben, ne? Genau. Aber vielleicht nur der Vollständigkeit halber: Was OpenAI selber sagt, ist auch, dass sie in 5.4 im Grunde eigentlich ihr 5.3 Codex rückintegriert haben, ne, um sozusagen diesen Split nicht mehr zu haben zwischen ihrem normalen ChatGPT und dem Codex-Modell, sondern dass sie das versucht haben, in eins zu vereinheitlichen. Das ist so ein bisschen das, was sie versprechen, und ansonsten ist es eben auch wieder nur eine kleine Evolutionsstufe, ne? Genau. Und was ich auch interessant fand, dass sie eben jetzt auch die 1 Million Tokens Context mit drin haben. Das fand ich auch spannend.
Ole Wendland: Das war ein allgemeiner Trend.
Fabian Walther: Genau, das war der allgemeine Trend.
Ole Wendland: 1 Million Token Context Window. Google war da schon lange, die waren Vorreiter.
Fabian Walther: Genau. Anthropic und ChatGPT. Ich glaube, technisch haben sie es auch schon vorher gekonnt, es ist eine Frage der Kosten. Genau, ist wahrscheinlich einfach ein Trade-off, ne? Und was sie eben auch sagen, genau das, was du vorhin auch gemutmaßt hast, dass deswegen eben die Laufzeit, dass sie wirklich längere Problemstellungen in einem Durchlauf bearbeiten können, sich mit diesem erhöhten Context-Fenster erhöht, ne? Und das ist so, dass diese Durchlauflänge sich dann eben auch durch den größeren Kontext erweitert. Der Zusammenhang ist auf jeden Fall da, sagen sie zumindest, und die Erfahrung würde das bestätigen. Okay.
Ole Wendland: Sollen wir noch mal ein bisschen übers Personal-Karussell reden? Da hat sich ja auch einiges getan in letzter Zeit.
Fabian Walther: Das wäre auf jeden Fall wichtig, ne? Genau. Womit möchtest du anfangen?
Ole Wendland: Wir können gerne mit Gwen anfangen. Das ist das bekannte chinesische Open-Source-Modell, das quasi Basis von fast allen Open-Source-Lösungen ist. Und da gibt es nicht so gute Nachrichten, weil sie ihren Tech Lead verloren haben. Der – ich werde bestimmt seinen Namen falsch aussprechen – Yu Yangli war eigentlich immer das offizielle Gesicht und der Tech Lead. Er ist gegangen, und kurz darauf haben auch zwei weitere ihrer Hauptforscher erklärt, dass sie die Firma verlassen werden. Über die Gründe wird ein bisschen spekuliert, das ist unklar, aber ich mache mir schon ein bisschen Sorgen, weil es das wichtigste Open-Source-Modell war, und ich hoffe, dass sie jetzt einen anderen Weg finden, weiter Open-Source-Modelle in derselben Qualität zur Verfügung zu stellen. Du hattest aber auch noch etwas über Weggänge von OpenAI gefunden.
Fabian Walther: Ja, genau, das war der, das passt so ein bisschen da rein, ne? Also ich meine, das hängt vermutlich auch mit der ganzen globalen Weltlage zusammen und den Verwerfungen, auch gerade den politischen Verwerfungen, die da passieren. Das war jetzt in dem Fall der Max Schwarzer, der von OpenAI jetzt dann weggegangen ist und aber auch gleich im gleichen Atemzug zu Anthropic gewechselt ist. Also da ist der Austausch relativ rege. Und der war da relativ zentral, zumindest nach eigener Aussage in seinem Tweet, den er dazu verfasst hat, bei OpenAI an diesen wichtigen Innovationsschritten eben auch beteiligt. Also er hat noch was geschrieben, mit O1 damals mit der O1 Preview, die ja schon wirklich signifikant war. Und da hat er also am Post-Training mitgearbeitet. Und ist tatsächlich jetzt aber auch im Grunde ohne Angabe von Gründen zu Anthropic gewechselt und hat einfach nur gesagt, ja, meine ganzen Buddies, die sind auch schon da. Also im Grunde hat er gesagt, alle mit denen ich gerne zusammengearbeitet habe, sind zu Anthropic gewechselt, jetzt bin ich auch mal hinterher. Und das kann ja schon so ein bisschen ein Signal sein, dass es ja gerade immer mehr so diese Boykottaufrufe gibt, gegen OpenAI, einfach weil sie offiziell gesagt haben, wir gehen all-in, was Militär angeht. Und das fanden natürlich viele Anwender nicht gut, die jetzt gesagt haben, okay, nee, das ist für uns, wenn man das wirklich so offen sagt, ein Grund zu wechseln oder zumindest den Protest auszudrücken mit dem Geldbeutel. Und das geht natürlich an beide Seiten, ne? Das geht natürlich auch ans eigene Personal, die da vielleicht ihren moralischen Kompass dann entsprechend kalibrieren, dass sie dann sagen, okay, da möchten wir jetzt nicht mehr mitgehen mit dieser offensiven Aussage. Und da bin ich mal gespannt, ob das eben, ob das jetzt wirklich so ein Strom ist, der dann quasi noch andere mitreißt. Aber ich habe so ein bisschen das Gefühl, es gab da einige Wechsel und hauptsächlich in diese Richtung. Also man sieht wenig Leute, die zu OpenAI gehen, jetzt mal abgesehen von dem prominenten Beispiel mit Peter Steinberger von Open Cloud, der jetzt zuletzt gewechselt ist. Aber ansonsten so von dem Research-Personal sind eigentlich eher Abgänge zu verzeichnen, oder was ist dein Eindruck?
Ole Wendland: Ja, auf jeden Fall, dass OpenAI sich so ein bisschen von ihrer Grundstory verabschiedet haben. Ich meine, sie waren ja früher mal ein Nonprofit-Unternehmen, was nur zum Guten der Welt arbeiten wollte und sich auch nicht unter Druck setzen lassen wollte, bis jetzt im letzten Schritt, dass sie Anthropic bei dem Konflikt mit dem US-Verteidigungsministerium ausgebootet haben. Ich glaube halt auch, dass das sehr viel Ärger innerhalb der eigenen Belegschaft auslöst. Gerade mit der Option, dass die Leute ja, also gerade ihre Top-Forscher überall hin wechseln können, eigentlich sofort eine Stelle kriegen. Genau, den Konflikt hatten wir gar nicht so bis jetzt thematisiert. Kurz zusammengefasst, Anthropic war eigentlich der ausgewählte Supplier des US-Kriegsministeriums, wollte dann aber nicht mehr mitgehen, wenn es darum ging, volle autonomische Waffen und Massenüberwachung mit Anthropic-Modellen zuzulassen. Was dann zu einem Schlagabtausch mit Pete Texas, dem Kriegsminister, Kriegsmonger der USA, zu tun hatte und letztendlich sind sie jetzt, glaube ich, sogar als Supply Chain Risk klassifiziert worden. Ja, das war mein Wissensstand, ja. Was bedeutet, dass eigentlich keine Firmen, die irgendwas mit dem US-Verteidigungsministerium zu tun haben, also auch kein Hyperscaler, kein Microsoft, kein Amazon, irgendwas mit Anthropic zu tun haben kann, was auch wieder lustig ist, weil sie gleichzeitig mit diesem Defense Act, ne, Defense Production Act, bedroht wurden. Wo sie gesagt, also in den USA gibt es den Mechanismus, wenn eine Firma kriegsentscheidende Güter herstellt, dann kann sie dazu verpflichtet werden, was fürs Verteidigungsministerium zu tun. Und das ist natürlich ein Widerspruch in sich, wie kann sie totale Wichtigkeit für das Verteidigungsministerium haben und auf der anderen Seite darf keine andere Firma mit ihnen zusammenarbeiten? Ich glaube, Pete Texas hat sich da so ein bisschen das Rechtsverständnis seines Chefs zu eigen gemacht, aber ich habe nicht das Gefühl, dass er damit durchkommt. Also Gegenklagen laufen da schon und ich hätte jetzt auch noch nicht gesehen, dass große andere Firmen von Anthropic abrücken, obwohl sie es eigentlich müssten. Ich glaube, das hat vor Gericht einfach keinen Bestand.
Fabian Walther: Ja, wirklich interessant wäre es ja halt wirklich nur, wenn die Hyperscaler ihnen keine Ressourcen mehr zur Verfügung stellen dürften, ne? Und das wäre halt einfach so eine starke Disruption, dass das, glaube ich, einfach da würde so viel Wirtschaftskraft, glaube ich, Gegendruck aufbauen, egal aus welcher politischen Richtung, damit würden sie wahrscheinlich nicht durchkommen. Ja, aber vielleicht hilft es in dem Fall Anthropic eben auch, dass sie wirklich wahrscheinlich relativ divers sind, was ihre Kunden angeht und eben nicht so als Contractor von wenigen großen Kunden abhängig sind, ne? Ob das nun quasi bei Anthropic alles so ist, dass sie das wirklich so sehen und dass das wirklich ihre moralischen Werte sind, weiß man natürlich nie, ne? Auf jeden Fall war es ein richtig, richtig guter Marketing-Coup, glaube ich. Also das hat man, also ich habe das nur gesehen, ne? Ich glaube ChatGPT war ja lange im App Store relativ weit oben. Also Apple App Store und Claude war irgendwo, glaube ich, unten in den Hundertern oder sowas unterwegs und dann sind die quasi auch rapide im App Store nach oben geschnellt. Also Marketing-mäßig hat sich das auf jeden Fall gelohnt. Genau, was dahinter steckt, weiß man natürlich immer nicht so genau, ne?
Ole Wendland: Ja, ich bin auch kein, also nur weil der eine falsch ist, ist der andere nicht richtig. Ich bin kein so großer Fan von dem Amade. Das muss man dazu sagen, aber er hat auf jeden Fall die Aufmerksamkeit auf einen ganz wichtigen Punkt gelenkt. Ich glaube, das war ein Thema, was zu wenig Aufmerksamkeit in der Öffentlichkeit bekommen hat und das hat sich jetzt halt rapide geändert. Jetzt wird viel drüber diskutiert und ich bin eigentlich positiv, dass da was Gutes bei rauskommt.
Fabian Walther: Ja, das wäre, glaube ich, auch so mein Eindruck, ne? Also dass sich das so ein bisschen ausnivelliert. Okay, ja, spannend, was da personalmäßig so abgeht. Genau, wir wollen ja nicht ganz so lang uns immer aus, obwohl wir, glaube ich, ganz viele Themen hätten, uns noch ausfransen zu lassen. Ein Thema wollte ich aber auf jeden Fall noch ansprechen, nämlich das Paper, wo es um die Agents.md geht, beziehungsweise um Repository Level Context Files und ob die denn hilfreich sind für unsere Agenten. Weil nämlich, na ja gut, wir haben es eben gesagt, wir sind beide irgendwie auch als Trainer unterwegs für das Thema und sagen natürlich immer, dass der Kontext, den man in seinem Repository aufbaut, für den Agenten total hilfreich ist und jetzt sagt uns jemand in dem Paper, ist vielleicht gar nicht so hilfreich. Das ist natürlich für uns super relevant. Wie hast du denn das Paper wahrgenommen? Ich habe gehört, du hast da Connections hin zu den Leuten oder zumindest sitzen sie nebenan bei dir.
Ole Wendland: Ich kenne sie über Ecken. Ich habe einen guten Freund, der an der ETH seinen PhD in Machine Learning macht und der kennt auch, also er ist nicht direkt unter dem Professor, aber der Professor ist an der ETH einfach bekannt, weil er in ganz vielen Bereichen große Paper rausgebracht hat in letzter Zeit und einer der ist, der so die meisten Views für die ETH generiert. Das Paper war recht interessant. Sie haben halt untersucht, wie sich an einem Subset des SWE Benchmarks, wie sich Anthropic-Modelle, glaube ich, hauptsächlich damit schlagen. Wenn man ihnen entweder gar kein Context File, also keine Agent MD mitgibt oder Claude MD, wenn man ihnen eine autogenerierte oder eine menschengenerierte mitgibt. Und das Überraschende war eigentlich, dass die autogenerierten Agent oder Claude MDs fast immer zu einer deutlichen Verschlechterung führten, also so ein Bereich von 20%. Auch zu 20% höheren Kosten und dass eigentlich die menschengeschriebenen eine leichte Verbesserung bringen konnten, aber auch nur so im Bereich weniger Prozentpunkte bei trotzdem 20% höheren Kosten und das aus diesem Paper raus, also gut, also Forschungsbetrieb ist es nur ein Paper, wir müssen jetzt abwarten, ob sich das in anderen Papern bestätigt, das wird bestimmt auch noch mal nachvollzogen werden, aber ihr Fazit war eigentlich, dass man im Zweifel von den Agent MDs und Claude MDs vielleicht es besser den Finger lassen sollte. Was mich so ein bisschen an Richard Suttons Bitter Lesson erinnerte, das Paper, was sagte, immer wenn Menschen eigentlich versuchen auf AI-Modelle, also er kam eher aus der Richtung des klassischen Machine Learnings und das ist ein Paper basiert auf den Erfahrungen von AlphaGo, dass sie sagten, immer wenn Menschen versucht haben, AlphaGo anzuleiten oder zu steuern, dass es schlechter wurde, als wenn man das Modell einfach selbstständig machen lässt.
Fabian Walther: Ja, das wäre auch so ein bisschen, also so ein bisschen dachte ich, ja, ist ja eigentlich irgendwie Captain Obvious, wenn ich halt einfach das Modell etwas generieren lasse, und wo ich mich selber nicht mit beschäftige und das halt quasi dann erwarte, dass im nächsten Durchlauf das Modell dann irgendwie besser wird, also wenn ich dann eben diesen Kontext mitgebe, den das Modell vorher generiert hat, warum tue ich denn das dann überhaupt? Dann kann ich das Modell auch einfach eine Iteration länger laufen lassen, da hätte ich halt höchstens noch ein bisschen Zeit gespart, weil es halt nicht jedes Mal passieren muss, und ein bisschen Token gespart, aber gehe dann im Grunde auch das Risiko ein, dass ich dann eben Widersprüche aufbaue, weil eventuell in der Agents.md dann was drin steht, was das Modell, wenn es jetzt selbst in den Code geguckt hätte, leicht anders interpretiert hätte und dann habe ich da Widersprüche und dann führt das genau wie das Paper halt sagt, dann im Grunde zu längeren Zyklen und mehr Tokens, die verbraucht werden, weil wahrscheinlich dann eben auch diese zusätzlichen Informationen wieder zusammengeführt werden müssen und wieder in Kontext gesetzt werden müssen. Deswegen wäre das so auch finde ich schön, dass sie das quasi noch mal jetzt zumindest wissenschaftlich aufgearbeitet haben, was so mein Gefühl war, dass ich dachte, okay, ich schreibe lieber sehr sehr knapp die Sachen, die mir wirklich wichtig sind, da per Hand rein, als mir das einfach stumpf generieren zu lassen und dann es nicht noch mal zu überarbeiten, ne? Oder vielleicht ist der Kompromiss dann auch einfach sich was generieren zu lassen, aber dann wirklich radikal durchzugehen und Sachen wegzustreichen, wo man sich denkt, das ist redundant, so. Aber wahrscheinlich gilt auch da den Kontext, den ich per Hand sehr explizit aufbaue, der ist natürlich mehr wert, als welchen, den ich da nur generiere, ne? Ja, ja, fand ich auch super spannend, was dabei rauskam.
Ole Wendland: Das ist natürlich richtig, eigentlich sollte man das reinschreiben, was er bei der Autogenerierung vergessen hat. Das wäre doch eigentlich der richtige Indikator, was konnte das Modell nicht selber rausfinden, was müsste ich deshalb in meine Claude MD reinschreiben?
Fabian Walther: Genau, das ist es ansonsten.
Ole Wendland: Muss allerdings gestehen, dass ich meine Claude MDs seitdem auch nicht weggeworfen habe.
Fabian Walther: Nein, es muss ja, wie gesagt, auch erst ein Paper geben, das sich damit beschäftigt. Ich bewege mich meistens eher in größeren Legacy Codebases, und das ist ja auch so ein bisschen das: Ich meine, sie sind jetzt quasi schon hergegangen und haben dieses Subset benutzt, haben aber auch noch, so wie ich es verstanden habe, sich auf GitHub Projekte rausgesucht, die relativ nischig sind, die aber auch schon eine Agents.md hinterlegt haben, und haben die verwendet. Aber das waren auch alles relativ kleine Projekte. Ich würde mutmaßen, dass es innerhalb eines so kleinen Projektes vielleicht auch nicht so viel bringt, ein umfangreich generiertes File zu haben. In einer größeren Legacy Codebase, die sie, so habe ich es verstanden, nicht analysiert haben, kann das natürlich schon helfen, wenn ich mit einem Kontext-File-Agent vielleicht gleich in das richtige Subdirectory dirigiere, sodass er sich in einer riesigen Codebase gar nicht verfranzt. Das fände ich noch mal ganz spannend, wenn es da erste Paper gibt. Wenn da von den Hörerinnen und Hörern jemand etwas weiß, was in die Richtung geht, da sind wir auf jeden Fall offen. Schreibt das gerne an unsere E-Mail-Adresse: [email protected]. Schreibt uns gerne dahin, das interessiert mich, weil es natürlich super interessant ist, wie ich dann mit Context Engineering vorgehen kann, um mich auch in Legacy Codebases zurechtzufinden. Das fände ich interessant, wenn da mal etwas in der Richtung kommt. Das würde ich so ein bisschen als Lücke sehen, die sie in dem Paper haben. Das sind relativ kleinere Projekte, glaube ich, die sie da analysiert haben, eben Open Source Libraries, die sie auf GitHub hatten.
Ole Wendland: Ich denke auch, ganz hundertprozentig überzeugt hat mich das Paper nicht, einfach auf Basis der Methodik. Ich hätte mir gewünscht, dass sie sich Legacy-Projekte mehr angucken, größere Codebases und vor allen Dingen auch Greenfield-Projekte. Ich denke, es ist immer noch ein gutes Instrument, um sie bei einem Greenfield-Experiment am Anfang zu steuern, wo er noch gar keine Codebase hat, die er als Vorlage oder als Beispiel nutzen kann.
Fabian Walther: Ja, ich bin gespannt, was da noch bei rauskommt, und vielleicht kann man dann in Zukunft die ETH Zürich noch mehr im Fokus behalten, was da noch kommt. Bisher fand ich das auf jeden Fall schon einen guten Wurf, und wenn sie mit der guten Methodik so weitermachen, das noch ein bisschen verfeinern, wird das, glaube ich, wirklich spannend, was die da noch machen können. Okay, ich glaube, von den Themen, die wir uns überlegt hatten, haben wir alles angesprochen. Hast du noch etwas Wichtiges, was wir vergessen haben, was du gerne noch ansprechen würdest? Was wir nicht auf das nächste Mal verschieben können?
Ole Wendland: Ich denke, wir sollten das auf das nächste Mal verschieben. Wir haben noch ein paar Themen, denke ich, die wir besprechen könnten, aber die können auch noch ein bisschen länger liegen, und wir können ein bisschen weiter beobachten, wie sich das entwickelt. Wir sollten, glaube ich, für dieses Mal Schluss machen. Dann hoffen wir, dass ihr uns spätestens in einem Monat wiederseht zu einer nächsten Runde News Updates.
Fabian Walther: Ja, das hoffe ich auch, hat Spaß gemacht. Danke, dass du mitgemacht hast und dass wir das machen konnten. Und dann danke ich auch allen Hörerinnen und Hörern, die dabei waren. Schön, dass ihr uns eure Zeit geschenkt habt, und dann hoffe ich, dass wir euch bald beim nächsten Mal auch wieder dabei haben. Vielen Dank und bis bald. Macht’s gut. Ciao Ole.
Walther Ole Wendland: Ciao.
Zusammenfassung
Diese Zusammenfassung wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Maßgeblich ist immer das im Mitschnitt gesprochene Wort.
Fabian Walter und Ole Wendland starten ein neues Format im INNOQ Podcast: Regelmäßig besprechen sie die wichtigsten Entwicklungen rund um Künstliche Intelligenz – was ist passiert, was bedeutet es, und was davon ist wirklich relevant?
Anthropic: 10 Milliarden Umsatz, aber die Server werden knapp
Anthropic hat im März 2026 die 10-Milliarden-Umsatzmarke erreicht – eine Verzehnfachung pro Jahr seit 2022. Das ursprüngliche Jahresziel von 30 Milliarden wurde bereits auf 100 Milliarden angehoben. Gleichzeitig häufen sich Ausfälle bei Claude Code, weil Anthropic offenbar zu wenig Rechenkapazität bei den Hyperscalern bestellt hat. Ole sieht trotzdem keine klassische Blase: Die Infrastruktur wird tatsächlich bis zum letzten Bit genutzt. Anders als bei der Dotcom-Blase, wo Glasfaserleitungen ungenutzt blieben, laufen die Rechenzentren rund um die Uhr auf Volllast. Beide sind sich einig: Die Umsätze sind real – Vorsicht ist eher bei den Investitionssummen geboten.
Neue Modelle: Opus 4.6 und GPT 5.4
Anthropics Opus 4.6 und OpenAIs GPT 5.4 bringen größere Context Windows (1 Million Tokens) und längere autonome Agent-Laufzeiten. Fabian sieht eine klare Evolution, keine Revolution. Ole geht noch weiter: Die Modelle seien mittlerweile „good enough" – die eigentlichen Sprünge passieren im Tooling drumherum, nicht mehr in den Modellen selbst. Beide vergleichen das mit der Gaming-Branche: Wenn die Hardware nicht schneller wird, holen die Engines mehr aus der bestehenden Technik raus.
Das Personalkarussell dreht sich
Bei Qwen, dem wichtigsten chinesischen Open-Source-Modell, sind der Tech Lead und zwei weitere Hauptforscher abgewandert. Das könnte Folgen für die Open-Source-KI-Landschaft haben. Bei OpenAI wechselte der Forscher Max Schwarzer zu Anthropic – laut eigener Aussage, weil dort bereits alle ehemaligen Kollegen arbeiten. Im Hintergrund steht die zunehmende Kritik an OpenAIs offener Hinwendung zum Militärgeschäft.
#Anthropic vs. US-Verteidigungsministerium
Anthropic hat sich geweigert, autonome Waffen und Massenüberwachung mit ihren Modellen zu ermöglichen, und wurde daraufhin vom US-Verteidigungsministerium als „Supply Chain Risk" eingestuft. Fabian und Ole bezweifeln, dass das rechtlich Bestand hat – zumal gleichzeitig der Defense Production Act gegen Anthropic ins Spiel gebracht wurde, was ein Widerspruch in sich ist. Für Anthropic war der Konflikt jedenfalls ein enormer Marketing-Erfolg: Claude schoss im App Store nach oben.
ETH-Zürich-Paper: Helfen Agents.md-Dateien wirklich?
Ein Paper der ETH Zürich hat untersucht, ob Kontext-Dateien wie Agents.md oder Claude.md die Arbeit von KI-Agenten verbessern. Das Ergebnis: Automatisch generierte Dateien verschlechterten die Leistung um rund 20 %. Handgeschriebene brachten nur minimale Verbesserungen – bei deutlich höheren Kosten. Beide finden das Ergebnis plausibel, sehen aber Lücken in der Methodik: Untersucht wurden nur kleine Open-Source-Projekte. Bei großen Legacy-Codebases könnte das Bild anders aussehen. Ihr Fazit: Lieber wenig und gezielt per Hand schreiben, als sich blind auf generierte Kontext-Dateien zu verlassen.