Shownotes & Links
- https://www.cnbc.com/2026/05/06/anthropic-spacex-data-center-capacity.html
- https://arcprize.org/blog/arc-agi-3-launch
- Paper: Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
- Paper: Coding Agents Don’t Know When to Act
- https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3–5/
- https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash?hl=de
- https://qwen.ai/blog?id=qwen3.7
Kapitel
- 00:00:32 Anthropic und SpaceX-Deal
- 00:05:55 Karpathy wechselt zu Anthropic
- 00:08:30 Microsofts Copilot-Strategie
- 00:11:43 Cerebras geht an die Börse
- 00:17:52 Agentic Harness im Fokus
- 00:24:21 ARC AGI 3 Rekord
- 00:29:30 Neue Modelle und Google I/O
- 00:34:23 Remote-Control für Cloud Code
🎥 Diese Folge ist auch als Video auf YouTube verfügbar.
Transkript
This transcript was generated automatically and has not been manually reviewed. It may therefore contain errors. The spoken word in the recording is always authoritative.
Fabian Walther: Herzlich willkommen. Ich begrüße euch zur neuen Folge der AI News vom 20. Mai. Mit dabei ist Ole. Hallo Ole, wie geht’s dir?
Ole Wendland: Grüzi wohl. Ja, Folge 5 schon.
Fabian Walther: Ja, es geht voran. Irgendwann spätestens für die zehnte müssen wir uns was Besonderes überlegen. Mal gucken, vielleicht schaffen wir dann wirklich mal Gäste. Oh, jetzt habe ich das angekündigt. Jetzt müssen wir es wahrscheinlich auch machen.
Ole Wendland: Wir werden sehen.
Fabian Walther: Ja, sehr schön. Dann lass uns die fünfte Folge machen. Wir haben eine dick gefüllte Themenliste, da wir ja jetzt schon wieder ein bisschen Abstand hatten zur letzten Folge, da tut sich immer so viel. Wir müssen das auf jeden Fall besprechen. Es sind spannende Dinge passiert. Fangen wir doch an mit dem Follow-up. Was ich sehr lustig fand, ist, dass jetzt Anthropic bei SpaceX Compute eingekauft hat. Das passt ja so ein bisschen zu dem, was wir besprochen oder gemutmaßt hatten mit Mythos, dass sie einfach nicht genug Compute haben. Und da hatten wir das so ein bisschen auseinandergedröselt, was das bedeuten könnte. Und jetzt haben sie offensichtlich relativ schnell von jemandem was gekauft, was Elon nicht selber verwenden konnte, offensichtlich, weil bei ihm nicht so viel Bedarf offenbar ist, wie er gedacht hat.
Ole Wendland: Nicht mehr so viel Bedarf, ne? Sie haben tatsächlich, wie du schon angedeutet hast, das war ja immer so die große Krux mit Anthropic. Sie haben zu wenig Compute und zu wenig Compute eingekauft und man dachte eigentlich immer, sie schaffen es vielleicht noch so 30 bis 50 Megawatt an Compute zu überhöhten Preisen für dieses Jahr einzukaufen und jetzt kommt halt dieser Überraschungsdeal mit Elon um die Ecke. Sie haben ihm das komplette Colossus One abgenommen, 300 Megawatt an Rechenleistung und tatsächlich auch noch zu einem ziemlich kompetitiven Preis. Also, man rechnet auf dem normalen Markt zurzeit, also so Spotpreise für die H100 Stunde so zwischen 3 und 5 $ und sie zahlen tatsächlich nur 2,6 $ pro Stunde. Also, das ist ziemlich erstaunlich und das löst ungefähr 80 % der Anthropic Probleme. Sie haben es auch gleich angekündigt, die Quotas wurden massiv draufgesetzt. Ich glaube, der 5 Stunden Quota wurde verdoppelt, dieses Rate Limiting zu Rush Hour haben sie ganz ausgesetzt. Also, im Prinzip haben sie damit indirekt sogar den Tokenpreis gesenkt, weil sie jetzt auf einmal so viel Compute haben, dass sie da sehr, sehr großzügig mit umgehen können. Genau, was gibt’s noch zu sagen? Also, das sind über 200.000 H100 und H200 und glaube ich auch so ein paar Blackwell GPUs mit dabei. Sie hatten das ursprünglich mal, also der Colossus One ist das ursprüngliche Haupttrainingssystem von SpaceX AI gewesen. Die haben jetzt aber auch den Colossus 2 tatsächlich, der sogar noch mehr Rechenleistung hat und darum eidelte der irgendwie so mit 11 % Auslastung rum. Im Prinzip ist das ein Win-Win, ne?
Fabian Walther: Ja, klar, vor allem, weil jetzt Anthropic wahrscheinlich einfach das musste sich SpaceX nicht darum kümmern, das irgendwie an viele kleine zu vermitteln die Leistung. Wahrscheinlich haben sie es deswegen auch nicht gemacht, weil das zu viel Aufwand ist und wenn jetzt einer auf einen Schlag sagt, wir nehmen alles, ist das natürlich für die, bevor das halt rumsteht, um das Investment wieder reinzukriegen, natürlich völlig nachvollziehbar, ne? Das fand ich, fand ich schon interessant diesen Deal und ja, du hast schon richtig gesagt, die Quotas wurden gleich verändert, das heißt, wer mit so einem verschiedenen Plänen unterwegs ist, wird jetzt seltener als direkte Konsequenz dieses Deals seltener in seine Limits reinlaufen. Das ist natürlich schon auch spannend. Man sieht halt wirklich, wie schnell sich momentan diese, ja, die Bezahlmodelle ändern. Da kommen wir dann nachher auch noch mal drauf bei GitHub und Copilot, ne, wie schnell sich dann doch da in dem Markt was bewegt, je nachdem, wer gerade für was denn bezahlt und wer was für nicht für was nicht bezahlt. Das ist sehr fluide gerade.
Ole Wendland: Ja, zwei Geschmäckle sind so ein bisschen da dran. Einmal die Umweltbilanz von diesem Colossus 1, der wird viel mit Gasturbinen betrieben, die soll auch mit nur so temporären Erlaubnissen, das soll eine ziemliche Umweltsauerei sein, das Ding und das zweite Geschmäckle ist, dass Anthropic Elon Musk bei der Klage gegen OpenAI unterstützt hat. Also, Musk klagt ja gerade gegen Sam Altman, dass er die Idee von OpenAI verkauft hat und tatsächlich ist Anthropic da als Co-Kläger mit aufgetreten, was ja auch so ein bisschen.
Fabian Walther: Okay, das wusste ich gar nicht. Ich hatte nur die News gelesen, dass Elon verloren hat und habe mich dann gefreut.
Ole Wendland: Ja.
Fabian Walther: Ja, ich weiß auch nicht, da trifft’s vermutlich egal auf welcher Seite immer die richtigen. Ich bin mir da auch nicht so richtig sicher.
Ole Wendland: Es gibt nicht so viele nette Leute in dem Bereich, also.
Fabian Walther: Nee, ich glaube, da ist da ist halt wirklich vorbei, ne? Ja, das finde ich schon interessant. Die haben das Ding wirklich relativ dieses Colossus hatte ich auch mal einen Artikel gelesen, relativ schnell aus dem Boden gestampft, ne, und in der hatten dann eben das Stromversorgungsproblem und haben es dann eben mit Gasturbinen gelöst. Das ist natürlich irgendwie auch extrem schwierig, ja, das sehe ich auch. Ja. Ja, das war so ein bisschen das Follow-up zu letztes Mal, da musste ich doch musste ich doch schmunzeln, als ich diese News sah. Wir haben noch mehr Gossip. Personal, das hat auch was mit Anthropic zu tun, mit dem guten Andrej Karpathy oder Karpathy, wie man ihn auch immer ausspricht.
Ole Wendland: Genau, eigentlich ursprünglich auch ein OpenAI Gründer, hat lange bei Tesla die Self-Driving Sparte geleitet.
Fabian Walther: Genau, daher kenne ich den Namen her, ne, dass er bei Tesla da ganz groß war, ne?
Ole Wendland: Eigentlich in letzter Zeit einer meiner Lieblingsblogger, auch also er jetzt eigentlich ursprünglich hat er mal gesagt, dass er genug Geld verdient hat. Scheinbar hat er sich es doch noch mal anders überlegt und will doch noch ein paar 100 Billionen einstreichen. Auf jeden Fall hat er jetzt zu Anthropic gewechselt, wird da bei leitend beim Research und Development mit einsteigen. Ja, was was das sein sein Bildungskontent angeht, weiß ich nicht genau. Ehrlich gesagt, also ich ich ich ich mag beide, ich mag also Anthropic und ich mag Andrew Karpathy. Ich bin mir nicht sicher, ob die Kombination, ob ich die Kombination so mag. Ich hatte heute irgendwie im Forum geschrieben, dass so ein bisschen wie Wein und Whisky. Beides ist gut, aber man muss nicht immer alles mixen. Hätte mich, glaube ich, mehr drüber gefreut, wenn wir noch einen unabhängigen Berichterstatter gehabt hätten, der halt ohne irgendwelche Strings attached dann offen drüber reden kann, wie der Stand von Agentic Coding gerade ist und das ist jetzt zumindest mal in Frage gestellt, ne, weil er jetzt eigene finanzielle Interessen daran hat, weil er wird ja Aktienpakete bekommen und ja, das finde ich leider ein bisschen schade, aber ja, für ihn wird das wahrscheinlich finanziell sehr lohnender Deal sein.
Fabian Walther: Genau, das hat sich für ihn mit Sicherheit gelohnt, klar, ne, aber ich finde, was interessant, was du sagst, ne, so ein bisschen die Frage, wem kann man denn, ne, wem kann man denn abnehmen, gerade die sehr lauten Stimmen, die viel unterwegs sind und dann irgendwas vertreten oder was auch immer, ne, was dann die Motivation jeweils dahinter ist. Und da ist natürlich jetzt eine neutrale Stimme weniger so ein bisschen, ne, das ist schon schon schon ein bisschen schwierig und dann Anthropic casht natürlich dann sozusagen auch seine Publicity ein bisschen mit ein jetzt, ne, wenn sie ihn jetzt übernehmen, dann natürlich seinen guten Ruf dann für ihre Zwecke dann weiter weiter nutzen. Aber gut, das ist das ist mit Open Claw ja auch so gelaufen, ne, das ist die großen Player versuchen natürlich jetzt die die lauten Stimmen und die die schlauen Köpfe bei sich jeweils zu konzentrieren, ne?
Ole Wendland: Ja.
Fabian Walther: Ja, dieses dieses diese Konzentration auf den großen Playern, das hat mich tatsächlich auch noch mal beschäftigt, als ich einen anderen Artikel gelesen habe, nämlich, dass die ganze Microsoft und Copilot Geschichte, wo Microsoft ja wirklich in alle Produkte den den Copilot integriert hat und wirklich überall, wo es Sinn gemacht hat und wo es auch keinen Sinn gemacht hat. Und jetzt kam ja eben die News, dass intern natürlich auch sehr viele Entwickler Cloud Code einsetzen bei Microsoft und sie jetzt eben versuchen, das bisschen einzudämmen. Es wird gemutmaßt, dass aus finanziellen Gründen, damit eben nicht so viel Geld abfließt zur Konkurrenz. Ich hätte so erst so ein bisschen gemutmaßt, dass es auch so ein bisschen Dogfooding ist, ne, dass eben die die die eigenen Produkte eben besser werden. Man erhofft sich, dass die eigenen Produkte besser werden und deswegen versucht man sie natürlich auf die gesamte Organisation auszurollen, damit es da eben auch schnelleres internes Feedback gibt, ne, das wäre so die positive positive Lesart. Und die weitere positive Lesart wäre vermutlich, dass vielleicht auch GitHub Copilot oder, ne, Copilot an sich mittlerweile auch konkurrenzfähig ist. Manche sagen das, ne, dass sie damit eben genauso gut arbeiten können oder ähnlich gut arbeiten können, wie mit einem Cloud Code Produkt jetzt zum Beispiel. Insofern könnte das auch das das Signal da draußen sein, ne? Oder hast du da hast du da Meinungen zu?
Ole Wendland: Ich ich sehe das genauso. Ich vermute eher, dass es auch so ein Eat Your Own Dogfood Move, einfach, weil die Gewinnmarge, also, so viel Gewinnmarge kriegt Anthropic gar nicht durch den Traffic durch Microsoft. Viele Leute sagen, ja, sie machen sogar Minus damit, das glaube ich bei Geschäftskunden nicht, gerade wenn sie den Fast Mode aktiviert haben. Also, man man kann ja so ein Fast Mode sich einkaufen, wo du dann den fünffachen Preis bezahlst und so ungefähr zweifache Geschwindigkeit bekommst. Das verrückterweise machen das wohl viele amerikanische Firmen und verkauft sich sehr gut. Aber wenn wenn Microsoft nicht das bei Anthropic eingekauft hat, dann sehe ich da finanziell gar nicht so die großen Anreize. Was was ich auch spannend finde, ist, dass Microsoft selber ja gerade die Preise extremst erhöht hat. Also, Copilot ist ja teilweise um Faktor 5 bis 10 für manche Modelle teurer geworden. Das verstehe ich nicht ganz, warum sie jetzt den Traffic auf sich umleiten, außer halt mit dem Argument Eat Your Own Dogfood. Sie brauchen sie wollen die Trainingsdaten haben.
Fabian Walther: Ja. Ja, also bei bei bei GitHub an sich hätte ich halt gedacht, dass es ein bisschen damit zusammenhängt, dass ja, durch einfach diesen diesen krass ansteigende Menge an Code auf GitHub und die ganzen Pipelines und Actions, die da laufen, halt einfach da so viel verbrannt wird, dass die versuchen, das so ein bisschen einzudämmen, ne, dass sie einfach, weil da so die die Last auf ihren Systemen dadurch so steigt und dann haben wollen sie sich zumindest bezahlen lassen oder zumindest ein bisschen weniger drauf zahlen vielleicht, weil ja da schon wahrscheinlich auch viel subventioniert wird.
Ole Wendland: Ja.
Fabian Walther: Ja, aber kann man kann man kann man tatsächlich nur mutmaßen, was sie damit bezwecken wollen. Ja, genau, wie kamen wir da jetzt gerade hin? Ach so, Geld.
Ole Wendland: Geld können wir weitermachen, da können wir gleich über. Genau. Cerebras. Cerebras, genau, ist an die Börse gegangen.
Fabian Walther: Chip mit also die mit riesen Chips.
Ole Wendland: Genau. Das sind, habt ihr bestimmt gesehen, die Firmen, die einen ganzen Wafer als einen Chip oder als ein Rechenmodul verkaufen. Teile dieser Chips sind ja häufig kaputt auf so einem Wafer, und sie haben einen kompletten Wafer genommen, haben da 940.000 Cores draufgepackt, also so Mini-Mini-Cores, und haben sich dann ein relativ geschicktes Routing überlegt, sodass 900.000 von diesen Cores eigentlich immer zur Verfügung stehen. Die Idee ist einfach, man kann auf diesem Riesending viel mehr Speicher direkt unterbringen. Da sind irgendwie 44 GB Speicher direkt auf dem Chip drauf. Und durch diese Bandbreite zwischen den Cores, weil die halt nicht groß verkabelt werden müssen, nicht über irgendwelche externen Busse laufen müssen, haben die halt eine brutale Geschwindigkeit. Gerade zur Inference Time sind die also um Faktor 20 schneller als die normalen Systeme. Das ist so ein bisschen die halbe Wahrheit, es gibt auch Kritik. Der Hauptkritikpunkt ist, dass diese 44 GB Extreme High Bandwidth Memory zu klein für die meisten großen Modelle sind. Wenn du irgendwie so ein Deep Seek V4 laufen lassen willst, brauchst du schon, glaube ich, 14 von diesen Chips. Und witzigerweise ist alles, was nicht an so einem riesen Wafer Chip angebunden ist, relativ langsam angebunden, langsamer als eine normale Nvidia GPU. Darum ist das so ein bisschen dieser Trade-off, der so ein bisschen komisch ist, aber der Markt belohnt das neue Chip-Design gerade brutal. Sie wollten mal mit 115 bis 125 pro Aktie starten, haben es dann schon vor ein, zwei Monaten auf 150 erhöht und haben dann jetzt mit 185, also so ungefähr ein Drittel höher, gestartet. Direkt nach dem Release ist der Preis auf 350 gesprungen und jetzt wieder so auf 310 ungefähr abgefallen. Also, extremst 20-fach überzeichnet, und obwohl noch nicht hundertprozentig klar ist, ob sie sich durchsetzen werden, sind viele Firmen hochinteressiert. Hauptsächlich OpenAI hat sich da viele Shares wohl von gesichert. Technisch extrem interessant, weil wenn du so eine riesen Fläche hast, ist es ja natürlich schwer zu kühlen. Da gehen richtig viele Watt drüber. Wie kühlt man das? Wie presst man das an den Kühlkörper dran? Sie mussten wohl sehr, sehr fein und sehr genau viele Löcher für Schrauben tatsächlich auch mit Maschinen bohren lassen, gar nicht, dass es so aus der Wafer-Fabrik fertig rauskommt. Die werden alle nachträglich gebohrt, damit man einen gleichmäßigen Anpressdruck von so einem riesen Wafer gegen die Kühlkörper hinkriegt. Das ist also Engineering-mäßig eine Meisterleistung, würde ich sagen. Das kann man schon sagen. Die Börse denkt, das ist die Zukunft für Inference, schnelle Inference. Darum sind die halt massiv überzeichnet. Ich denke, auf jeden Fall cooles Engineering, cooler Chip. Ob sich es auszahlt, weiß ich jetzt auch nicht. Das werden wir sehen. Zwei Hauptinvestoren sind noch arabische Firmen. Das fällt mir noch so dazu ein. Ja, das ist das, was ich so gehört habe darüber.
Fabian Walther: Ja, ich finde das schon spannend, weil das ist so ein bisschen der Mittelweg, ne? Es gibt so diese General Purpose CPU oder jetzt halt auf General Purpose GPU, wo das Zeug drauf läuft, und dann gibt’s auf der ganz anderen Seite, die hatten wir, glaube ich, letztes oder vorletztes Mal das Thema mit einem Modell, das direkt in einen Chip gegossen wurde, der dann auch nicht mehr veränderbar ist, was dann super schnell war. Das war das Lama, was direkt mal in einen Chip gegossen war. Super schnell, aber natürlich dann überhaupt nicht mehr veränderbar, und die versuchen irgendwie so ein bisschen dazwischen zu sein, sehr, sehr spezialisierte Hardware, wo aber verschiedene Modelle eben drauf können. Vielleicht ist die Wette nicht die schlechteste, aber ich würde auch vermuten, dass die Balance vermutlich eher dahin geht: Es gibt halt wirklich die super effizienten Sachen, wo dann irgendwann wirklich ein Modell in einem Chip ist, super energieeffizient für spezielle Anwendungen, und auf der anderen Seite willst du vermutlich aber ein bisschen mehr Flexibilität. Es sei denn, es wird irgendwann eben so ein Chip noch mal zusätzlich, nicht früher hat sie nur eine CPU, dann hat sie einen speziellen Grafikprozessor, und jetzt hast du irgendwelche Neuralprozessoren, die du noch hinzupackst. Vielleicht wird das auch irgendwann der Standard werden, das kann auch sein. Aber erstmal sehe ich das, glaube ich, die Balance bei denen jetzt könnte ich auch noch nicht sagen, ob sich das durchsetzt. Ich glaube, ein bisschen mehr General Purpose Compute ist vermutlich dann einfach flexibler.
Ole Wendland: Nee, du kannst schon alle möglichen Modelle drauf laufen lassen, aber.
Fabian Walther: Genau, auf den Cerebras, ja.
Ole Wendland: Allein das Engineering, das ist schon verrückt. Ich glaube, dieser eine Chip macht über 20 Kilowatt.
Fabian Walther: An Leistung, auf so einem Chip, das ist schon brutal.
Ole Wendland: Faszinierend ist das auf jeden Fall, da würde ich mitgehen.
Fabian Walther: Ich weiß nicht, ob sich das durchsetzt, da wäre ich halt auch, aber irgendjemand muss es halt ausprobieren und herausfinden, ob es was bringt oder nicht, ja.
Ole Wendland: Ich meine, das ist ja das Schöne an dem AI-Wahnsinn, es findet sich Geld, um alle möglichen verrückten Ideen gerade zu finanzieren, und vielleicht kommt ja was Cooles bei raus, warum nicht?
Fabian Walther: Ja, wir hoffen das. Wir haben ja schon so viel Energie verbraten, dann soll am Ende zumindest irgendwas for the greater good of mankind bei rauskommen. Wir hoffen das. Ich bin ja positiv und optimistisch, was die Zukunft angeht. Ja, so viel vielleicht zu dem Cerebras-Thema. Dann lass uns doch vielleicht mal gucken, wir haben so einige Themen, die sich um das Thema Agentic Harness, Agentic Harness Engineering, sagen jetzt manche, AHE, drehen. Da gab es einige Papers dazu oder Preprints, die rauskamen. Vielleicht versuchen wir mal so ein bisschen das aufzudröseln, was da unsere Sicht gerade auf dieses Feld ist. Möchtest du da mal einsteigen?
Ole Wendland: Ja, genau, vielleicht noch ein bisschen Theorie vorweg. Agentic Harness ist halt alles drumherum, was deinen Agent so ein bisschen einhegen soll, quasi so der Schiedsrichter, der pfeift, wenn der Agent das Spielfeld links oder rechts verlässt und ihn wieder zurück dazu treibt, was er machen soll. In der Softwareentwicklung sind das halt häufig irgendwelche Code Reviews oder Code Analyse Tools, was ich ganz gerne einsetze, ist hier SonarQube, was viele kennen, oder AQUnit, werden die meisten Java-Leute kennen, das kann man dazu benutzen, und es gibt halt gleich eine schnelle Feedbackschleife kurz nach der Compile Site, dass der Agent weiß, das hat er gut gemacht oder das hat er schlecht gemacht. Kann auch allgemeinere Dinge sein, wie irgendwelche Code Styles und so weiter. Genau, das weitet sich jetzt aber gerade aus. Man verwendet Harness mittlerweile für alles Mögliche und für alle Agentic Anwendungsfälle, und das Paper war ganz interessant, weil sie tatsächlich das Modell gleich gelassen, aber nur den Harness modifiziert und dann geschaut haben, wie viel Performance-Gewinne man in den klassischen Benchmarks erreichen kann, wenn man den Harness verbessert und nicht das Modell selber. Das Modell war das gleiche, und ja, es kam halt raus, dass du durchaus 10 bis 15 % in den klassischen Software-Benchmarks rauskriegen kannst, wenn du einen guten Harness hast, und gleichzeitig auch noch 12 % an Tokens dabei. Und wenn man das so im Verhältnis setzt, was wir so an Gewinnen in so Benchmarks zwischen den letzten Model Releases, also vielleicht von Opus 45 zu 47 betrachtet, ist das halt deutlich. Da waren keine Sprünge mehr von 10 % dabei. Darum so ein bisschen gerade die Idee, vielleicht ist Harness doch der Bereich, der 2026 jetzt wichtig wird und wo das meiste Engineering reingesteckt wird.
Fabian Walther: Ja gut, wichtig war er, glaube ich, schon von Anfang an, und ich glaube, jetzt ist es vielleicht so ein bisschen so ein Aufholrennen, weil jetzt die Model-Entwicklung eben nicht mehr so sind. Am Anfang gab es halt extrem große Fortschritte einfach durch die größeren, besseren Modelle, man musste sich eben um den anderen Kram gar nicht so kümmern. Manche haben es dann parallel natürlich trotzdem schon gemacht, haben gesehen, da gibt es auf jeden Fall Verbesserung dadurch, auch sehr starke Verbesserung, und dann gab es natürlich wieder ein besseres Modell, dann gingen Sachen wieder, ohne dass man viel optimieren muss, und vielleicht sehen wir jetzt gerade, war ja auch unser Take aus den letzten Malen, dass viele Modelle einfach good enough sind für das, was wir jetzt machen, und man kann jetzt sozusagen mit den bestehenden Modellen dann aber einfach durch das Optimieren seines Harness da eben noch viel mehr rausholen. Und das sieht man jetzt, glaube ich, auch, und das Schöne, dass es dazu jetzt eben auch Forschung gibt. Die können wir dann auch noch mal verlinken.
Ole Wendland: Ja, genau, die beiden Paper können wir auf jeden Fall unten reinpacken. Ist auch so ein bisschen, ich meine, wir kennen das ja auch selber vom Entwickeln. Die Idee ist halt dann nicht mehr jedes Mal deinem Coding Agent zu erklären, was er besser machen soll, sondern dann packst du das direkt in einen Harness. Spannend fand ich noch, sie haben Wege untersucht, das auch tatsächlich Open Telemetry zu untersuchen und tatsächlich dem Harness oder dem Agent, der diesen Harness schreibt, ein Goal mitzugeben. Zum Beispiel 10 % weniger Tokens zu verbrauchen, und damit wurde dann der Harness optimiert, und man hat das erste Mal so richtige validierbare Ergebnisse mit reingebracht, und das war wohl auch so einer der Game Changer für das richtige Harness Engineering, dass man so Fallible Goals, also wirklich überprüfbare Goals eingezogen hat.
Fabian Walther: Ja, das ist lustig, da kommt alles wieder. Bei der Softwareentwicklung sagen wir ja auch immer, du brauchst halt Metriken, ansonsten kannst du nicht sagen, ob irgendwas besser geworden ist. Du brauchst messbare Metriken und natürlich ist es für die Agenten noch viel besser, wenn die wirklich ein klares Ziel haben und eben nicht irgendwie einen schwammigen Prompt, sondern man sagt halt, der Harnes sagt Exit Code 1 oder 0 und dann hast du es richtig gemacht oder nicht. Dann gibt es eben noch ein entsprechendes Feedback und dann kann man sich da iterativ dem nähern, ansonsten funktioniert es ja, also kann es ja auch nicht deterministisch funktionieren. Wenn du halt deterministische Funktionen in deinen Harnes einbaust, dann wird es natürlich erst effizient und auch überprüfbar. Ja, ich hatte tatsächlich unabhängig von dem, was du jetzt genannt hast, da auch noch ein Paper gefunden, auch von deinen Nachbarn von der ETH Zürich, das war ein Preprint. Der Titel war, ich hoffe, ich finde es noch, Coding Agents don’t know when to act. Das geht so ein bisschen kommt aus der anderen Richtung, aber bestätigt im Grunde das Gleiche, dass nämlich die Modelle eben immer versuchen, eine Lösung zu liefern, auch wenn die vielleicht nicht passt und dadurch, jetzt speziell, was das Coding angeht, dann eben anfangen, Code zu modifizieren, der vielleicht in dem aktuellen Fall gar nicht modifiziert werden sollte. Und man kann dann halt natürlich immer hergehen und dann das Modell korrigieren und sagen, ja, bitte diesen Ordner nicht editieren, diese Dateien möchte ich jetzt gerade im Rahmen der aktuellen Aufgabe nicht bearbeiten, dann kann man das eben im Prompt mitgeben, ist schön, dann wird es auch besser, haben die in dem Paper auch bestätigt. Aber im Grunde kann man da natürlich wieder gleich den Zirkelschluss machen zum Harnes und sagen, dann gebe ich halt entsprechend eine Regel mit dem Agenten im Rahmen dieser aktuellen Aufgabe bearbeitest du bitte nur diese drei Unterverzeichnisse und darfst nur Code da drin editieren, die anderen lässt du bitte in Ruhe und dann passiert es eben auch nicht. Dann muss ich eben nicht meinen Prompt in All Caps schreiben, don’t modify this folder, really don’t modify it, also wie man das halt so früher gemacht hat, sondern wenn man einen Fehler festgestellt beim Agenten, dann soll man halt eine deterministische Regel hinterlegen, die diesen Fehler halt in Zukunft verhindert und dann kann man sich dem Ziel besser annähern.
Ole Wendland: I mean it.
Fabian Walther: Genau, auch das Paper verlinke ich dann auch noch mal.
Ole Wendland: Gut. Genauso anschließend an die Harnes Diskussion gibt es auch Neuigkeiten von der Arc AGI Challenge 3. Codex hat da letzte Woche einen neuen Highscore aufgestellt mit 61 % und das nach nur zwei Monaten. Wer damit nicht vertraut ist, die Arc AGI Challenge ist von François Chollet, einem Ex-Google Mitarbeiter, war eine Zeit lang unabhängig, ist jetzt auch wieder mit irgendeinem Startup am Start. Und sie haben sich halt immer so das Ziel gesetzt, am Anfang ging es halt gegen das Memorization, also gegen das Auswendiglernen und sie versuchen immer Tests zu erstellen, die da extrem robust gegen sind, indem sie halt irgendwelche optischen Prinzipien von Inside und Outside, also von innerhalb von außerhalb und von Schnittmengen darzustellen und dann soll AI da Fragen zu beantworten und Menschen fällt das in der Regel ziemlich leicht, aber AI hatte da immer Schwierigkeiten mit. Das neueste Level 3, also AGI Arc AGI Challenge 3 hat halt so auf Spiele gesetzt. Sie mussten da so einfache Spiele, so Mazes oder Pac-Man-artige Sachen lösen. Es gab überhaupt keine Anleitungen für die AI, es gab überhaupt keine Regeln und so weiter. Sie wurden halt in das Spiel reingeworfen und sie mussten die Regeln selber lernen und am Anfang waren die Ergebnisse auch tatsächlich erschütternd. Ich glaube, Gemini war mit 0,4 % Erfolgsquote die besten und alle anderen waren halt weit unterm halben Prozent und jetzt sind sie 61 % schon, vor allen Dingen nach zwei Monaten, ziemlich erstaunlich. Der Trick daran ist, sie haben die Regeln nicht offiziell eingehalten, weil ein Harnes explizit ausgeschlossen war.
Fabian Walther: Ah, okay, da haben wir es wieder.
Ole Wendland: Okay, genau, und da ist wieder dieser Trick mit dem Harnes. Sie arbeiten mit so einem neuen Goal Mechanismus, den sie sich wohl von Open Claw abgeschaut haben. Claude Code unterstützt den auch, aber die ersten waren Codex, die sie hatten, dass man ihnen ein Ziel geben kann, das zu erreichen ist und er so ein bisschen eine Mischung aus Harnes und Brute Force sich diesem Ziel annähern kann. Und da haben sie es tatsächlich geschafft, auf 61 % zu kommen und das also gedacht war, dass dieser Mensch mag für die nächsten zwei bis fünf Jahre eigentlich ungebrochen ist und ja, jetzt hat es zwei Monate gedauert.
Fabian Walther: Aber Preisgeld bekommen sie nicht, weil Regel missachtet.
Ole Wendland: Genau. Das Preisgeld bekommen sie dann doch nicht. 2 Millionen waren Preisgeld ausgesetzt. Genau, aber ja, aber es zeigt so ein bisschen, wo es gerade hingeht. Ein bisschen Harnes, ein bisschen Brute Force und weiterreichende Ziele. Das ist gerade so the way to go und auch das war ein bisschen, was man ja von Open Claw mitgenommen hat. Der hat sich ja auch teilweise dadurch gebrute forstet, immer wieder Screenshots vor und zurück geschickt und nicht wirklich einen Plan gehabt oder nicht wirklich sich vorher einen Plan zurechtgelegt, sondern immer nur von Situation zu Situation gehandelt und ja, offensichtlich ist das the way to go für Agents, zumindest im Moment.
Fabian Walther: Ja, ist für mich so ein bisschen die Frage, ob jetzt dann die Anbieter dazu übergehen, quasi so wie es das vorher mit diesem Thinking Mode im Grunde auch schon war, wo intern in den Modellen ja, im Grunde so eine Mini Agent Loop, also so habe ich mir das immer vorgestellt, gefahren wurde, die dann aber jetzt verborgen war vor dem Anwender. Und dass sie das jetzt quasi dann versuchen, wahrscheinlich intern sich auch quasi Agent Harnes direkt in ihre Modelle zu bauen, wahrscheinlich Closed Source natürlich, dass man das eben nicht sieht, um dann vielleicht trotzdem weiterhin diese Fortschritte zu erzielen. Also das würde ich jetzt vermuten, dass das so ein bisschen der Weg wird. Aber das ist natürlich nicht im Sinne von der Souveränität, dass man halt weiß noch, wie die Tools funktionieren und sie noch benutzen kann, abseits von den Modellen natürlich, die komplette Blackboxen sind. Aber das war zumindest so ein bisschen das Gefühl von Kontrolle, was man hatte, wenn man seinen Harnes lokal optimieren kann auf seine lokalen Anwendungsfälle und dann das Modell im Grunde so ein bisschen austauschbar betrachtet hat. Ich hoffe, dass es trotzdem in dieser Richtung weitergeht, weil eigentlich so im Sinne der Souveränität ist das eher zu befürworten, dass das Modell an sich eigentlich General Purpose ist oder ja, so ein bisschen was wie Basistechnologie und man dann vielleicht doch wieder Mehrwert schaffen kann durch spezialisierten Harnes, ja. Ja, ich finde die Entwicklung auch richtig interessant.
Ole Wendland: Ich habe da gar nicht so viele Sorgen, wenn ich ehrlich sein muss, ganz einfach, weil die Entwicklerteams und die Projekte zu unterschiedlich sind. Also, es gibt, glaube ich, ganz wenig Regeln, wo du sagen kannst, die ist bei jedem Entwickler immer richtig so.
Fabian Walther: Ja. Nee, genau, das ist auch meine Erfahrung, insofern da Sorgen in der Richtung mache ich mir auch nicht.
Ole Wendland: Ja, genau.
Fabian Walther: Das war jetzt eher so ein bisschen der Blick in die Glaskugel. Ja, wem es aufgefallen ist, wir haben bisher noch gar nicht über neue Modelle geredet, sondern nur über den Harnes drumherum. Es gab aber neue Modelle, allerdings kamen ungefähr die ganzen News dazu heute, deswegen können wir es nur kurz erwähnen und müssen dann selber schauen, aber vielleicht zumindest die Chronistenpflicht erfüllen, dass tatsächlich Gwen 3.7 angekündigt wurde heute, wo sie halt sagen, das ist jetzt Frontier Level Agentic Coding Modell, super, super. Sie vergleichen sich da interessanterweise auf der Seite aber mit Opus 4.6, also ist ja noch ein bisschen hin und her und sind da angeblich auch ein paar, finde ich spannend, aber das ist halt eben auch ein Closed Modell, was man kommerziell eben nur wie die anderen auch beziehen kann. Also da jetzt nicht so viel Open Source Ausprobiererei möglich. Und das zweite war, dass Gemini 3.5 in der Flash Variante jetzt auch rausgefallen ist. Das finde ich noch mal relativ interessant, weil diese Flash Modelle ja immer super schnell sind. Man jetzt ein relativ neues Modell, was sehr mächtig ist, mit tendenziell höherem Token Output, man für so schnelle Agentic Loops vielleicht ganz gut mal austesten kann. Also das werde ich auf jeden Fall mal ausprobieren. Hast du noch Model News?
Ole Wendland: Nicht so viel, aber wo du gerade Gemini 3.5 erwähnt hast, das ist natürlich die Ergebnisse Google IO war jetzt auch heute Nacht.
Fabian Walther: Ja.
Ole Wendland: Ich bin auch noch nicht wirklich tief drin, was alles vorgestellt wurde. Festhalten kann man zumindest mal, es wurde alles mit AI gemacht. Also sie stopfen AI überall rein, wie für wen hattest du es heute gesagt, für Microsoft hattest du es auch schon erwähnt, ne? Google folgt dem Weg auch. Sie haben auch AI Audio Glasses vorgestellt, so ein bisschen folgen dem Trend von Meta. Meta hatte ja auch so AI Glasses. Google macht die rein Audio, also Sonnenbrillen mit Mikrofonen und Lautsprechern und kein Displays, fand ich ziemlich interessant.
Fabian Walther: Ja, nach dem Fail von Google Glass war das, glaube ich, auch zu erwarten, dass sie auf keinen Fall Kameras auf der Nase irgendwie weiter verkaufen wollen, das ist, glaube ich, nicht die Zukunft.
Ole Wendland: Genau, am Ende, also am Ende kam noch mal Dennis Hassabi, also der Chef von Google DeepMind dazu und hat so ein bisschen über die neuen Weltmodelle geredet, an denen sie arbeiten, was ich sehr interessant fand, das ist ja, das ist, wo es wohl hingeht. Der meinte irgendwie sowas, sie sind jetzt bei den ersten Ausläufern von AGI angekommen und sie probieren es tatsächlich dadurch, dass sie so klassische Large Language Models mit ihrem Nano Banana 3 und ihrem Genie kombinieren. Genie ist ein Modell, was dazu gemacht ist, in 3D Umgebungen Computerspielartig zu generieren und dann kann man als Charakter sich da bewegen und sie versuchen halt da verschiedene Aspekte reinzubringen, einmal das Weltwissen des Large Language Models mit dem Wissen von Objekten, von der Bildgenerierung, mit ein bisschen Verständnis dazu, wie Physik funktioniert, wie so Spielwelten funktionieren und die Idee ist, wenn sie alle diese drei Zutaten verschmelzen, wollen sie zumindest so eine Proto AGI erschaffen. Ziel ist, glaube ich, 2028 Proto AGI zu erschaffen, indem man aber die Idee ist gar nicht so doof, ne? Also, was Large Language Models uns da nicht hinbringen, war, glaube ich, relativ klar den meisten mittlerweile. Das ist jetzt ja.
Fabian Walther: Ja, okay. Nee, das ist das ist wahrscheinlich wie immer die Kombination aus verschiedenen Bausteinen, ne? Und
Ole Wendland: Genau.
Fabian Walther: Ich mag es immer nicht, zu viel zu anthropomorphisieren, aber die verschiedenen Gehirnregionen erfüllen unterschiedliche Aufgaben und wirken dann irgendwie zusammen. Man versucht, das jetzt eben dort auch nachzubilden und einfach dieses Mix of Experts, was man in den LLMs ja auch schon drin hat, noch ein bisschen zu erweitern auf eben wirklich komplett unterschiedliche Modellansätze, die man kombiniert. Das ist ja irgendwo naheliegend, oder? Ja, also an die AGI glaube ich noch nicht so richtig, aber ich glaube erst daran, wenn ich sie sehe. Ich bin gespannt, aber ja, klar, dass sie natürlich sagen, wir arbeiten daran und wer da der Erste ist, will natürlich da, ja, oder wer der Erste sein möchte, werden wir dann sehen, oder?
Ole Wendland: Ich bin noch nicht mal sicher, ob AGI so eine gute Idee ist.
Fabian Walther: Nee, das.
Ole Wendland: Leicht kontrollierte Large Language Models sind eigentlich für mich gut genug.
Fabian Walther: Ja, aber leider, wenn etwas für uns gut genug ist, heißt das ja nicht, dass andere aufhören. Das ist ja immer das Problem, deswegen muss man sich wahrscheinlich mit dem möglichen Fallout auseinandersetzen. Ah, wie kommen wir da jetzt wieder raus aus der Dystopie am Ende? Genau, ich habe tatsächlich keine großen Themen mehr. Ich hatte nur noch den Tipp der Woche, weil ich damit ein bisschen Zeit verbracht hatte, den Remote Control Modus von Claude Code auszuprobieren, was es ja schon über externe Apps gab. Ich glaube, ich hatte das mal erwähnt, dieses hieß es Handy, hieß es, glaube ich. Nee, das war das Happy, Happy, nicht Handy, sondern Happy. Happy Coder war das damals, wo man halt Claude Code fernsteuern konnte vom Smartphone. Und das ist ja quasi eingebaut, wenn man da irgendwie Slash Remote Control jetzt eintippt, kann man auf dem Smartphone die Session eben fernsteuern. Ja, da muss man wirklich bloß aufpassen, dass wenn man Mittagspause macht und spazieren geht, nicht dann währenddessen die ganze Zeit noch weiter codet, weil sonst explodiert irgendwann der Kopf. Ich habe das für mich mal ausprobiert, aber es ergibt schon Sinn, dass man Pausen macht und das Gehirn sich mal erholen lässt. Also insofern probiert es gerne aus, aber mit Vorsicht. Hast du noch Tipps am Ende oder war es das für heute?
Ole Wendland: Eigentlich nicht. Persönlich spiele ich gerade mit dem Google mit dem Claude Designer rum, aber darüber können wir nächstes Mal reden, glaube ich. Wir sind eh schon über der Zeit, oder?
Fabian Walther: Das stimmt, das sind wir. Dann lass uns den Claude Designer auf nächstes Mal verschieben. Dann danke ich dir für die Runde. Es hatte sich einiges angesammelt. Dann hoffen wir noch mal, dass wir das nächste Mal es vielleicht in der übernächsten Woche schon schaffen. Wir werden sehen. Das wäre mein Ziel und dann gibt es vielleicht wieder ein bisschen kompaktere News und offensichtlich was vom Claude Designer. Ich bin gespannt.
Ole Wendland: Alles klar.
Fabian Walther: Dann danke dir fürs Mitmachen und danke euch für das Interesse und dann sehen wir uns demnächst wieder bei der nächsten Folge der AI News. Macht’s gut, bis dahin.
Ole Wendland: Ciao ciao.
Summary
This summary was generated automatically and has not been manually reviewed. It may therefore contain errors. The spoken word in the recording is always authoritative.
Anthropic sichert sich massiven Compute-Deal mit SpaceX
Fabian Walther und Ole Wendland diskutieren den überraschenden Deal zwischen Anthropic und SpaceX, bei dem Anthropic die gesamte Rechenleistung von SpaceX’s Colossus One erworben hat. Dieser Kauf von 300 Megawatt Rechenleistung, bestehend aus über 200.000 H100- und H200-GPUs sowie einigen Blackwell-GPUs, löst etwa 80 % der Compute-Probleme von Anthropic. Der Deal ist bemerkenswert, da Anthropic die Rechenleistung zu einem sehr wettbewerbsfähigen Preis von 2,6 $ pro H100-Stunde erworben hat, während die Spotpreise zwischen 3 und 5 $ liegen. Als direkte Folge wurden die Quotas für Anthropic-Nutzer massiv erhöht und das Rate Limiting zu Stoßzeiten ausgesetzt, was indirekt einer Senkung der Tokenpreise gleichkommt.
Personalien und die Frage der Neutralität im KI-Sektor
Die Episode beleuchtet den Wechsel von Andrej Karpathy, einem ehemaligen OpenAI-Gründer und Leiter der Self-Driving-Sparte bei Tesla, zu Anthropic, wo er eine leitende Rolle in Forschung und Entwicklung übernehmen wird. Ole Wendland äußert Bedenken hinsichtlich der Neutralität von Karpathys zukünftigen Äußerungen, da er nun finanzielle Interessen bei Anthropic hat. Fabian Walther ergänzt, dass Anthropic von Karpathys öffentlicher Bekanntheit und seinem guten Ruf profitieren wird, was die Konzentration von Talenten und “lauten Stimmen” bei großen Playern im KI-Bereich widerspiegelt.
Microsofts Copilot-Strategie und die Rolle von Dogfooding
Fabian Walther und Ole Wendland diskutieren Microsofts interne Strategie, die Nutzung von Cloud Code durch eigene Entwickler einzudämmen und stattdessen den Einsatz von GitHub Copilot zu fördern. Während finanzielle Gründe vermutet werden, sehen beide Sprecher dies eher als einen “Eat Your Own Dogfood”-Ansatz. Microsoft möchte interne Trainingsdaten sammeln und die eigenen Produkte verbessern. Dies wird auch durch die jüngsten Preiserhöhungen für Copilot-Modelle untermauert.
Cerebras' Börsengang und die Zukunft spezialisierter KI-Hardware
Cerebras, bekannt für seine riesigen Wafer-Scale-Chips, ist an die Börse gegangen und hat dabei eine beeindruckende Bewertung erzielt. Ole Wendland erklärt, dass diese Chips mit 940.000 Cores und 44 GB direkt integriertem Speicher eine brutale Geschwindigkeit, insbesondere bei der Inferenz, bieten – bis zu 20-mal schneller als herkömmliche Systeme. Trotz einiger Kritikpunkte, wie der begrenzten Speicherkapazität für sehr große Modelle, belohnt der Markt dieses neue Chipdesign massiv. Fabian Walther sieht darin einen Mittelweg zwischen General-Purpose-GPUs und vollständig in Chips gegossenen Modellen.
Agentic Harness Engineering: Der neue Fokus der KI-Optimierung
Ein zentrales Thema der Episode ist das “Agentic Harness Engineering” (AHE), das sich als entscheidender Faktor für die Leistungssteigerung von KI-Agenten herauskristallisiert. Ole Wendland erklärt, dass Harnesses als “Schiedsrichter” fungieren, die Agenten auf Kurs halten und Feedback geben. Ein aktuelles Paper zeigt, dass durch die Verbesserung des Harnesses – ohne das Modell selbst zu ändern – Leistungssteigerungen von 10 bis 15 % in Software-Benchmarks und eine Reduzierung des Token-Verbrauchs um 12 % erzielt werden können. Fabian Walther betont, dass dies eine natürliche Entwicklung ist, da die Fortschritte bei den Modellen selbst abflachen und die Optimierung des Umfelds an Bedeutung gewinnt.
Arc AGI Challenge 3 und die Grenzen von Harnesses
Die Diskussion über Agentic Harness Engineering wird durch die Arc AGI Challenge 3 vertieft, bei der Codex einen neuen Highscore von 61 % erreichte. Die Herausforderung, die von François Chollet ins Leben gerufen wurde, zielt darauf ab, KI-Modelle zu testen, die nicht auf Auswendiglernen basieren, sondern Regeln selbstständig lernen müssen. Ole Wendland erklärt, dass Codex dies durch einen neuen Goal-Mechanismus erreichte, der eine Mischung aus Harness und Brute Force darstellt, obwohl ein expliziter Harness in der Challenge ausgeschlossen war.
Neue Modelle und Googles Vision einer Proto-AGI
Fabian Walther erwähnt die Ankündigung von Gwen 3.7 als “Frontier Level Agentic Coding Modell” und die Veröffentlichung von Gemini 3.5 in der Flash-Variante, die sich besonders für schnelle Agentic Loops eignen könnte. Ole Wendland ergänzt, dass auf der Google I/O alles mit KI durchdrungen war, einschließlich neuer Audio-Brillen. Dennis Hassabi von Google DeepMind sprach über die Entwicklung von “Weltmodellen” und das Ziel, bis 2028 eine Proto-AGI zu erschaffen, indem Large Language Models mit Modellen wie Genie kombiniert werden, die 3D-Umgebungen generieren und physikalisches Verständnis integrieren.