Podcast

AI News #6

DeepSeek macht den Preis kaputt. Anthropic greift nach der Billion. Drei KIs lösen ein 80-Jahre-Rätsel.

DeepSeek V4 Pro senkt den Preis dauerhaft um 75 Prozent. Damit ist das Modell fast 90-mal günstiger als Anthropic – bei rund 80 Prozent der Leistung. Fabian und Ole ordnen ein, was das für den Preiskampf bedeutet. Sie klären, warum Anthropic vor dem Börsengang fast eine Billion wert ist und die Inference-Marge auf 70 Prozent schraubt. Und sie zeigen, wie sich der Hardware-Markt aufspaltet: schnelle Inferenz hier, langlaufende Agentic-Workloads dort. Außerdem: Gleich drei KI-Systeme lösen binnen einer Woche ein 80 Jahre altes Erdős-Problem. Im Tipp der Woche zeigt Fabian, wie sich DeepSeek DSGVO-konform in der EU selbst betreiben lässt.
Listen to other episodes

Shownotes & Links

Transkript

show / hide transcript

This transcript was generated automatically and has not been manually reviewed. It may therefore contain errors. The spoken word in the recording is always authoritative.

Fabian Walther: Herzlich willkommen zur mittlerweile sechsten Folge unserer AI News. Heute ist der 3. Juni. Mitte des Jahres schon fast erreicht. Wir haben wieder ein paar Themen mitgebracht und auch ein bisschen praktische Erfahrung dazu am Ende. Hallo Ole, ich begrüße dich erstmal, dass du wieder dabei bist.

Ole Wendland: Sehr gerne, ja.

Fabian Walther: Ja, lass uns mal gucken, was passiert ist seit dem letzten Mal. Du hast noch ein bisschen Follow-up zu unserer Compute-Diskussion von letztem Mal mit reingeschrieben.

Ole Wendland: Genau, die letzte Episode drehte sich ja viel darum, dass Anthropic von SpaceX dieses Colossus 1 Cluster gemietet hat und damit auf einen Schlag 200 Gigawatt an Rechenleistung bekommen hat. Wir sehen die ersten Ergebnisse davon, also jetzt, wo sie nicht mehr so begrenzt sind, was Rechenleistung angeht. Sie haben Opus 4.8 vor Kurzem veröffentlicht. Ich habe es auch schon praktisch eingesetzt. Ich habe selber nicht die ganz großen Unterschiede zu 4.7 gemerkt, ehrlicherweise. Sie haben auch bei der Veröffentlichung betont, es soll ehrlicher sein. Tatsächlich ist mir da aufgefallen, dass er mir häufiger widerspricht als früher. Opus 4.8 scheint wohl häufiger Widerworte zu geben oder seine Meinung stärker zu vertreten, was ich ganz interessant fand. Ansonsten, was soll man sagen, der Fast Mode, wo du also deutlich mehr dafür bezahlst und dafür mehr Tokens pro Sekunde kriegst, soll günstiger und schneller geworden sein. Wahrscheinlich auch ein Ergebnis davon, dass sie jetzt halt nicht mehr so Compute-beschränkt sind. Das habe ich mich allerdings noch nicht getraut auszuprobieren.

Fabian Walther: Ja, das kann schon sehr schnell ins Geld gehen, ne, weil ich weiß nicht, war das fünfmal so teuer wie normal oder was?

Ole Wendland: Der Fast Mode, ja, der ist fünfmal so teuer. Nee, ich wollte jetzt auf das noch verrücktere eingehen. Man kann jetzt auch Dynamic Workflows aktivieren und dann werden hunderte von Subagents gespawnt. Das ist so ein Feature für extrem große Codebasen, wo Aufgaben extrem zersplittert werden und man erhält in kurzer Zeit mit wirklich hunderten koordinierten Agents, die Probleme lösen können sollen, was dann aber auch entsprechend ins Geld geht.

Fabian Walther: Okay, aber das ist ein Feature von Claude Code, nicht vom Modell, okay. Ja, nee, das kann ich mir schon vorstellen, also diese Subagenten sind ja schon ein ziemlich mächtiges Pattern, was ja, glaube ich, auch Claude Code initial mal entwickelt hat und was die anderen danach gezogen sind. Bisher, wenn ich jetzt Claude Code einsetze, sind es ja meistens relativ wenige Subagenten, die er da verwendet, also einfach Sessions im Grunde, unter Sessions mit einem eigenen Kontext, die dann halt eine Rückmeldung geben. Aber wenn er jetzt wirklich hunderte davon startet, dann kann ich mir schon vorstellen, dass er natürlich dann auch Faktor 100 Tokens unter Umständen, zumindest jetzt zur gleichen Zeit, dann eben durchbrettert. Ja, da wäre ich wahrscheinlich auch vorsichtig, gerade wenn man mit API Pricing unterwegs ist. Bin mir gar nicht sicher, ob das mit den Subscriptions überhaupt funktioniert und ob die Subscription sofort ins Rate Limit läuft dann.

Ole Wendland: Mit Subscription wird es nicht funktionieren. Aber auf Golem habe ich, glaube ich, gelesen, dass eine Firma eine halbe Milliarde an Tokens verbraten hat aus Versehen.

Fabian Walther: Ja, genau, der Artikel ist auch an mir vorbeigescrollt. Man sollte also tunlichst, wenn man da irgendwie für den Betrieb verantwortlich ist, entsprechend diese Limits einstellen, dass man halt ab einem bestimmten Budget zumindest gewarnt wird und dann halt hoffentlich nicht gerade am Wochenende ist, während jemand da die Tokens durchbrennt, sondern am besten irgendwelche harten Limits vorgeben, ab denen dann erstmal dicht gemacht wird. Das kann ich wirklich jedem nur empfehlen.

*Ole Wendland:+ Ansonsten hat Anthropic eine neue Finanzierungsrunde durch. Series A, wahrscheinlich die letzte vorm Börsengang, munkelt man zumindest. Sie haben 65 Milliarden eingesammelt, viel Venture Kapitalgeber, wobei ein Haken dran hängt: Von 65 Milliarden waren wohl 15 Milliarden in Wertgutscheinen für Compute, also das fließt dann später wieder an die Compute-Geber zurück. Aber auch 50 Milliarden ist schon wieder so eine absurde Summe. Genau, sie wollten 30 Milliarden, sie haben jetzt selbst konservativ gerechnet 50 Milliarden eingesammelt. Die Bewertung ist bei fast einer Trillion, 960 Milliarden, damit sind sie jetzt solide vor OpenAI. Genau, finanziell läuft’s scheinbar sehr gut. Ihre Marge für Inference Tokens haben sie irgendwie von 38 auf 70 % steigern können.

Fabian Walther: Ja, 70 % Marge ist schon gut, würde ich mal sagen.

Ole Wendland: Das ist gut, ja.

+Fabian Walther:* Das ist schon gut. Ja, das wäre wahrscheinlich dann, du hast auch die Vermutung geäußert, dass sie sich halt eben auf ihren Börsengang damit vorbereiten, wo sie dann ja möglichst profitabel dastehen wollen, wenn sie dann eben an die Börse gehen. Ist dann die Frage, ob das wirklich jetzt alles darauf hin optimiert ist, was sie gerade tun.

Ole Wendland: Ich glaube nicht alles. Allgemein läuft’s gut für sie und jetzt, wo sie den Compute haben, haben sie eigentlich den Drehschalter, wo sie sagen, wir können jetzt 100 Gigawatt einfach in Inference an unsere Kunden rausgeben und dann sind sie immer im grünen Bereich und profitabel. Ja, ich glaube, solange du den Schalter in der Hand hast und das so frei skalieren kannst, ich bin gespannt, was bei der IPO rauskommt. Ich denke, das werden auch wieder sehr absurde Summen.

Fabian Walther: Ja, ich glaube, sie stehen einfach jetzt so lange komfortabel da, wie sie halt eben zumindest in der allgemeinen Wahrnehmung so die besten Modelle anbieten, die halt alle Firmen im Zweifel haben wollen. Da kommen wir dann später noch mal zu, ob es da nicht vielleicht schon Alternativen gibt, aber gerade ist das eben noch so, zumindest in der allgemeinen Wahrnehmung und deswegen sind sie da, glaube ich, einfach sehr komfortabel vorne weiterhin und können da einfach die Margenschräubchen drehen. Ja, spannend, ja, bin ich mal wirklich gespannt, wie das dann nach dem Börsengang weitergeht, wie sie dann an den Preisen drehen. Also heute habe ich eh das Gefühl, dreht sich ziemlich viel um Preise, um Tokenpreise, um Subscriptionpreise. Da gab’s ziemlich viel Unsicherheit in den letzten Wochen, was da jetzt eigentlich passiert, also werden jetzt irgendwie die ganzen Subscriptions eingestellt und muss man wirklich nur noch per Token die ganze Zeit bezahlen, weil ja eben die Subscriptions ja schon sehr stark subventioniert sind, wenn man sich so die Einzeltokenpreise anguckt, die man so bezahlen muss und was man in so einer Subscription da drin hat. Da hatte Anthropic ja auch die Limits dann durch das Compute, was sie dazu bekommen haben, dann ja auch gleich verdoppelt, also dass man dann eben noch mehr in den Subscriptions bekommen hat. Da bin ich jetzt einfach mal gespannt, ob es da dann weiterhin Preiskampf über Subscriptions gibt, oder ob die Branche an sich versucht, von diesen Subscriptions wegzukommen. Ich kann es mir noch nicht so richtig vorstellen. Ich glaube, es wird immer wieder jemand kommen, der sagt, bei mir gibt’s aber die Flatrate, so, also die Fast Flatrate, weil Limits hängen ja immer dran, aber zumindest die Kosten sind halt gedeckelt, das ist schon sehr attraktiv, glaube ich, für Kunden. Ich glaube, es wird immer jemanden geben, der das anbietet, oder wie ist da dein Gefühl für die Zukunft?

Ole Wendland: Ich sehe das auch so. Ich denke, das Beispiel ist dieser Free-to-Play Markt, nicht wahr? Es gibt ja auch viele Computerspiele, die erstmal free angeboten werden, obwohl sie auch Infrastruktur bezahlen, obwohl diese Leute ja auch Last erzeugen auf den Servern. Aber mit den paar Hardcore Gamern, die dann bereit sind, für Skins und irgendwelche Add-ons unfassbare Summen zu bezahlen, holt man seine Marge wieder rein. Ich glaube, da ist gerade der Geschäftskundenbereich ja ein sehr dankbarer Markt, weil während Privatkunden schnell mal die Subscription wechseln, mache ich auch mal, dass ich, wenn jetzt irgendwie ein neues Bildmodell raus ist, mir was von Google zum Beispiel hole. Und da sind Firmen halt viel konservativer, viel verlässlicher. Ja, ich denke, sie werden die Subscriptions behalten, um die Leute wieder reinzuziehen und das ist halt für die dann Beifang, auch bei den Summen an Tokens, die sie an die Firmen mittlerweile verkaufen, fällt das, glaube ich, bei denen gar nicht größer ins Gewicht.

Fabian Walther: Ja, ich glaube auch, das wird so eine Mischkalkulation bleiben, und gerade jetzt mit diesen Sachen, die wir gesehen haben, diesen Fast Modes und so, wo man dann wirklich noch mal so besondere Angebote schafft, wo dann wirklich auch extreme Margen wahrscheinlich drauf sind, da kann man dann wirklich noch mal ganz viel mit quer subventionieren. Ja, sehe ich auch so. Gut, wir können ja mal weitergehen in dem Reigen der großen Model Provider, obwohl diesmal das zweite jetzt ein kleinerer Provider ist, nämlich Nvidia, die eigentlich mit der Hardware kommen. Die haben auch neue Modelle vorgestellt.

Ole Wendland: Genau, die haben von.

Fabian Walther: Was ist denn da das Interessante?

Ole Wendland: Ich kann da gar nicht so viel zu sagen, die sind nämlich gar nicht so auf die Privatnutzer ausgelegt. Sie haben Cosmos 3 und Nemotron 3 rausgebracht, das sind so Modelle, die speziell eher auf Computing und World Model ausgelegt sind, Physik, Vision Models, können nativ Text, Bild, Videos erzeugen, Aktionen. Darum geht’s speziell in so Computing Richtung, nichts, was für uns jetzt als Coder irgendwie groß interessant ist. Der Plan oder die Strategie dahinter ist natürlich, den Chinesen nicht komplett den Markt an Open-Source-Modellen zu überlassen, sondern auch was anzubieten und Nvidia verdient halt später dann wieder mit der verkauften Hardware, ne?

Fabian Walther: Ja, ich habe auch eher das Gefühl, dass Nvidia, wenn die Modelle rausbringen, dass das eher so ein bisschen Proof of Concept ist oder um ihre Hardware eben zu präsentieren, was die Hardware kann, dass sie da aber dann immer relativ spezialisierte Modelle haben. Ich hatte das vorhin erzählt, dass ich so lokal so Speech-to-Text Modelle benutze und da war halt Nvidia auch immer relativ früh schon dabei, so ganz spezialisierte Modelle zu haben, die aber eine Sache besonders gut können, in dem Fall dann eben Text generieren aus Sprache. Aber die haben häufig dann eher diese spezialisierten Sachen, diese neuen Geschichten hatte ich auch eher im Kontext der dann eher, wo Nvidia ja mal herkam mit den Videospiel Geschichten, da auch da was zu gelesen, eben weil sie versuchen über diese Physik-Weltmodelle, dann eben auch realistische Spielszenarien live zu generieren und so. Kann ich mir vorstellen, dass das so ein bisschen in die Synergien zu dem Gaming Bereich dann zeigen soll, was man halt vielleicht auch in dem Bereich mit KI dann machen kann. Das versuchen sie ja gerade möglichst zu verweben, damit sie dann in alle Richtungen ihre Hardware verkaufen können.

Ole Wendland: Es ist vor allen Dingen auch ein möglicher Weg zur AGI. Google glaubt ja ganz stark daran, dass das Einbinden von Weltmodellen, die Physik, Video und Bild verstehen, der Weg zur AGI sein könnte. Vielleicht folgt Nvidia dem auch. Nvidia hat auch Geschäftszahlen vorgelegt. Im letzten Quartal waren es 81,6 Milliarden US-Dollar. Die Börse war nicht amused, die Aktienkurse sind tatsächlich etwas gefallen, was komplett verrückt ist. Was interessant war oder was an diesem Earnings Call für mich am interessantesten war, ist, dass sie ihren Markt etwas verlagert haben. Zum einen haben sie diesen Markt der Hyperscaler, die großen Clouds, an die bis vor Kurzem locker 70 % ihrer Chips direkt verkauft wurden, mittlerweile auf fast 50 % angewachsen, durch die Neo-Clouds und die großen Industrieunternehmen, die GPUs direkt abnehmen. Das ist ziemlich beeindruckend, dass sie so schnell diversifizieren konnten. Für sie ist das natürlich eine bessere Sache. Klar, du hast einen zuverlässigen Kunden bei den Hyperscalern, auf der anderen Seite, gerade wenn man sich zum Beispiel Google anschaut, die jetzt auf ihre Tensor-Chips setzen, wenn die ihre eigenen Chips entwickeln, dann können die halt auch schnell weg sein. Wenn dann 20 % deines Geschäfts konzentriert war, hast du ein Problem. Die Idee von Nvidia war, diesen Markt jetzt fast 50/50 aufzusplitten, in kleinere private Firmen und in diese Hyperscaler, die bis vor Kurzem noch fast 75 % ausmachten.

Fabian Walther: Ja, das finde ich schon interessant, gerade weil die bei den ganz großen, wie du gerade gesagt hast, Google, die halt alle irgendwie die Kapazität haben, eigene Chips zu entwickeln, das wahrscheinlich auch tun und dann können die natürlich wirklich sehr schnell weg sein. Bei den etwas kleineren Kunden ist die Wahrscheinlichkeit gering, dass die eigene Chips entwickeln. Die werden halt vielleicht höchstens mal einen Anbieter wechseln, aber dann ist es eben auch nicht so dramatisch. Die sind vermutlich dann eben auch relativ zuverlässig, und das ist schon, glaube ich, für Nvidia eine sinnvolle Entwicklung, das zu tun, ja.

Ole Wendland: Und noch etwas fällt mir ein: Sie haben noch die Vera-CPUs vorgestellt, die waren auch ganz interessant. Das sind spezielle AMD-CPUs, die darauf ausgelegt sind, viele Agents parallel in Sandboxes laufen zu lassen. Vera Rubin ist ja ihr neuer, ganzer Rechenzentrums-Stack zwischen GPU und CPU. Ruben ist die GPU-Sparte, Vera ist die CPU-Sparte. Diese Vera-CPUs sind speziell darauf ausgelegt, zehntausende Agents parallel in Sandboxes laufen zu lassen. Das fand ich auch noch einen relativ spannenden Ansatz. Ich glaube, 22.000 war so die Zahl, die genannt wurde.

Fabian Walther: Ja, ich warte wirklich darauf, dass es mehr spezialisierte Hardware gibt. Nvidia versucht das jetzt schon mehr, aber dass wir wirklich jetzt mehr Entwicklung sehen, wo Hardware speziell auf Inferenz optimiert ist und nicht so General Purpose ist, darauf warte ich wirklich. Das könnte, finde ich, noch mal so einen kompletten Dreh der ganzen Branche geben, wenn es dann vielleicht extrem energieeffizient oder halt wirklich lokal oder was auch immer ist, dadurch, dass man eben wirklich spezialisierte Hardware bekommt. Man sieht so ein bisschen diese, also ich habe schon das Gefühl, dass jetzt einfach die unterschiedlichen Hyperscaler eben auch versuchen, ihre eigenen Chips zu machen, aber dass die das halt auch eben vielleicht schon so ein bisschen auf ihre eigenen Modelle optimieren. Dann wird’s dann schon wieder so richtig speziell, dass man dann wirklich die Hardware hat, die dann optimiert ist für die eigenen Modelle. Da bin ich echt mal gespannt, wo das dann hinführt, auch gerade für Nvidia jetzt, die versuchen dann ja eben eher so General Purpose Compute zu machen.

Ole Wendland: Das ist gut, dass du das ansprichst. Das ist auch etwas, was mir in den letzten ein, zwei Wochen aufgefallen ist, und der Markt splittet sich aus meiner Sichtweise so ein bisschen auf. Zum einen haben wir dieses Cerebras, das wir auch letztes Mal vorgestellt haben, die mit so einem riesigen Chip auf ganz schnelle Tokens gesetzt haben. Das ist der Markt, der sich in die eine Richtung entwickelt, also sehr schnelle Antwortzeiten, sehr schnelle Inferenz und dafür spezielle Chips herstellen. Der andere Markt driftet so in den Bereich Agentic ab, wo die Zeiten häufig nicht so entscheidend sind, weil die Modelle im Hintergrund laufen, weil sie irgendwie ständig laufen und du nicht so in Millisekunden-Bereichen Antwortverhalten brauchst. Diese sind eigentlich sehr stark CPU- und Memory-getrieben, wo wichtig ist, wie er sich die Informationen aus den verschichteten Memory-Schichten herholen kann. Ich glaube auch, diese ganze SpaceX-Geschichte mit den Rechenzentren im Weltall macht nur Sinn, wenn man darauf wettet, dass dieses Agentic, langlaufende Prozesse, Sinn ergibt oder dass das ein großer Markt wird, weil dafür könnte man die Satelliten tatsächlich nutzen. Für so niedrige Latenz, direkte Chat-Anwendungen sind die, glaube ich, überhaupt nicht zu gebrauchen.

Fabian Walther: Eher nicht, das ist schon so eine Wette, und das wird, glaube ich, auch, wo wir die Preisdiskussion hatten, noch mal so eine Richtung, in die man gehen kann. Du hast den Fast Mode, du willst sehr schnell, sehr viele Tokens haben. Du kannst aber genauso zum Beispiel Produkte anbieten, wo du sagst, okay, ich will zwar schon irgendwie einen Strom von Tokens haben, aber zum Beispiel die Latenz ist mir nicht so wichtig. Wenn das halt irgendwie Time to First Token eine halbe Minute dauert, ist das vielleicht für irgendeinen Agenten komplett egal, und dafür kannst du dann wieder eigene Preismodelle anbieten. Ich denke mal, da wird sich noch ganz schön viel bewegen, gerade für irgendwelche langlaufenden Agenten ist es ja dann wirklich, wenn du sagst, ich brauche halt morgen ein Ergebnis, dann kann das halt irgendwann passieren. Das haben wir ja bei Cloud Compute auch schon, dass du da eben Ressourcen günstig bekommst, wenn du halt nicht genau weißt, wie lange du sie hast oder wann du sie bekommst. Ja, das wird da wahrscheinlich auch kommen. Ja, wir haben noch ein Preisthema. Oder willst du dazu noch was, hast du dazu noch was?

Ole Wendland: Ich wollte nur sagen, dass gerade bei Dingen, die in der physikalischen Welt verankert sind, wie Produktion oder so, die Millisekunden-Response-Zeit meistens gar nicht ausschlaggebend ist, weil das wird eh auf dem LKW verladen, irgendwo hingeschickt, und dann kann der Business Report halt auch über Nacht rechnen.

+Fabian Walther:* Ja, genau, daran muss man sich, glaube ich, auch gewöhnen, dass natürlich, wenn man vorm Rechner sitzt und warten muss, dass die Tokens reinströmen, dann wird es irgendwie, da willst du natürlich diese schnelle Response haben, aber es gibt genug Anwendungen, wo das eben nicht notwendig ist. Ich habe gestern gerade mit so einem kleinen ESP rumgebastelt, wo es tatsächlich auch mittlerweile Möglichkeiten gibt, Machine Learning Anwendungen auf so einem kleinen ESP laufen zu lassen. Da gibt’s irgendwie TensorFlow Lite, und da kann man dann seinen Wasserzähler mit einer Kamera ablesen lassen und das alles auf so einem kleinen Chip. Das dauert dann halt relativ lange, der macht so ein Foto und erkennt das, aber ist ja egal. Es ist, ob der Wert jetzt ein paar Minuten dauert, bis er gelesen ist, aber er wird gelesen, also es gibt für alles seinen Einsatzzweck. Ja, genau, ich hatte gerade gesagt, wir haben noch mehr Preise, und das war tatsächlich fast mit das spannendste, nämlich dass DeepSeek V4 Pro diese krasse Preissenkung gemacht hat, um was war das, 75 % oder so, dass sie wirklich gesagt haben, ich hatte es nur auch im Kopf gehabt, dass vorher Millionen Output Tokens irgendwas so 4, 5 $ gekostet hat und jetzt sind sie runter irgendwie auf 87 Cent, was natürlich schon eine Ansage ist gegenüber von einem Claude Opus, was irgendwie 22 bis 30 Dollar pro Million Output Token kostet, und zumindest von meinem Gefühl ist jetzt das DeepSeek V4 Pro nicht um diesen Faktor schlechter, was die Ergebnisse angeht, oder hast du damit schon arbeiten können?

Ole Wendland: Ich habe noch nicht viel damit gearbeitet, aber ja, eigentlich war das ja mal so eine begrenzte Rabattaktion, 75 % Rabatt, und jetzt haben sie es einfach zu ihrem neuen Standardpreis ernannt. Wie du schon meintest, irgendwie 35-mal günstiger als OpenAI und sogar fast 90-mal günstiger als Anthropic, das ist schon eine Ansage, und die Modelle sind gut, das sieht man ja auch bei den Benchmarks. Also sie sind jetzt nicht genauso gut, aber sie sind halt 80 % so gut, und wenn du dann halt nur ein 80stel an Preis dafür bezahlst, dann ist das natürlich ein sehr interessanter Trade-off.

Fabian Walther: Ja, und vor allen Dingen die DeepSeek Modelle auch selber zu hosten, da können wir dann, kann ich vielleicht gleich mal was zu sagen, was ich damit ausprobiert habe. Genau, hatten wir dann sonst noch was zu dem DeepSeek V4 Pro? Das war diese Preisänderung, ne? Genau, die war.

Ole Wendland: Man kann noch sagen, sie begründen das damit, dass Huawei-Chips jetzt in großem Volumen verfügbar sind. Das war so ihre offizielle Begründung: Zum einen sind sie sehr viel effizienter im Betrieb geworden, und zum anderen sind Chips von Huawei günstig geworden. Ich glaube, die Strategie dahinter ist halt auch so ein bisschen Lock-in wieder zu betreiben, was die amerikanischen Modelle ja auch machen, und ich fürchte tatsächlich auch, dass das ein Grund ist, warum Nvidia mittlerweile ein bisschen nervös geworden ist und eigene Open-Weights-Modelle rausbringt, weil, gut, wenn du dein DeepSeek V4 hast, was darauf optimiert ist, auf den Huawei-Chips zu laufen und es kostengünstig viel besser ist als die amerikanischen Modelle, dann kann das schon eine interessante Dynamik geben.

Fabian Walther: Ja, genau, das hatten wir ja gerade am Anfang, wenn du irgendwie anfängst, die Modelle auf die Hardware zu optimieren und das aneinander zu bündeln, sodass es eine sehr effiziente Kombination ergibt, hast du natürlich einen mehrfachen Lock-in-Effekt auf das Modell und dann noch auf die Hardware. Dann bist du quasi an die Hersteller gebunden. Ole hat ja eben angeteasert, dass ich mit dem Deepseek V4 rumgespielt habe. Der Auslöser dafür war, dass das Modell eben auch bei anderen Anbietern gehostet bezogen werden kann. Wir haben jetzt intern hier einen Anbieter aus Dublin, Tensorix AI, die damit werben, dass sie das Ganze Zero Knowledge, DSGVO-konform, was auch immer, in der EU hosten und eben so ein Deepseek anbieten. Das war so ein bisschen meine persönliche Challenge, mal rauszufinden, kann man denn damit arbeiten, dass man dann eben sagt, okay, wir versuchen im Sinne der Souveränität ein Modell aus der EU zu benutzen, also in dem Fall kein Modell aus der EU, aber zumindest in der EU gehostet. Das heißt, wenn man als Unternehmen diese Anforderung hat, kann man da eben so etwas beziehen. In diesem Fall haben wir das eben intern dann verfügbar gemacht, noch mit einem Routing Proxy davor, damit man es relativ einfach nutzen kann. Es ist jetzt in unserem Fall das Open WebUI, und dann hatte ich da mal den Pi Agent unter Pi.dev gefunden. Das ist so ein minimaler Agent Harness, den man ganz gut customizen kann. Hast du den schon mal ausprobiert? Kennst du den?

Ole Wendland: Nee, habe ich tatsächlich noch nicht, das steht auch auf meiner To-Do-Liste.

Fabian Walther: Auf der langen To-Do-Liste stand es bei mir nämlich auch lange drauf, weil das tatsächlich das Framework ist, das relativ wenig mitbringt, aber super erweiterbar ist. Es ist für mich aufgetaucht, weil es die Basis für OpenClaw gebildet hat, das OpenClaw darauf aufgesetzt hat auf diesem Harness und den sehr stark angepasst hat. Da habe ich mir dann eben mal ein lokales Setup zusammengestellt mit dem Pi und dann eben an dieses Tensorix AI mit einem Deepseek dahinter und habe so versucht, die Sachen, die ich sonst mit Claude Code mache, damit umzusetzen. Meine Erfahrung jetzt nach zwei Tagen damit ist erstmal, die Sachen, die ich vorher mit Claude gemacht habe, kann ich damit auch machen. Ich bekomme dann eben ähnliche Ergebnisse. Das Ding kann mit mir über Architektur Pingpong spielen, Entscheidungen treffen und kann das dann eben implementieren. Und das jetzt nicht viel langsamer, also es war schon ein bisschen langsamer als jetzt Claude liefert, wie die Tokens da kamen, aber das hängt dann wahrscheinlich auch von dem Provider ab. Aber erstmal hat mich das so ein bisschen beruhigt, dass ich weiß, okay, ich bin jetzt nicht komplett abhängig von einem Anbieter mit einem Modell, das geschlossen ist, und wenn der die API zumacht, bin ich in der Form als Entwickler nicht mehr arbeitsfähig. Sondern man kann durchaus mittlerweile Alternativen aufbauen. Das fand ich ganz spannend. Da werde ich mal ein bisschen dranbleiben, vielleicht kann ich dann zwischendurch immer mal berichten, wenn ich da andere Sachen ausprobiert habe. Was ich heute noch gemacht habe, war eben dann nicht nur das V4 Pro anzubinden, sondern auch das Flash Modell noch, dass man eben dann verschiedene Subagenten benutzen kann und dann eben für bestimmte Sachen das schnellere Flash Modell. Das hat sich auch schon mal sehr gut dargestellt, zumal das eben noch mal nur ein Zehntel des Preises kostet, jetzt bei dem Anbieter zum Beispiel. Man bekommt dann irgendwie die Millionen Output Tokens für 40 Dollar Cent, was natürlich dann schon sehr attraktiv ist für bestimmte Dinge, und da kann man dann darüber auch noch extrem viel optimieren. Ja, das war so ein bisschen der Tipp der Woche. Also, wenn ihr mal verstehen wollt, wie so ein Agent Harness funktioniert, dann schaut euch mal diesen Pi an, der da relativ wenig Zinnober macht und eben auch Open Source ist, kann man sich angucken. Und da kann man dann eben natürlich alle großen Modelle dran anbinden, aber eben auch eigene Provider da einrichten oder auch lokale Modelle. Da kann ich dann vielleicht auch noch mal was zu sagen, wenn ich da ein bisschen mehr Erfahrung mit gesammelt habe. Ja, also Pi.dev verlinke ich euch, schaut euch das mal an, und wenn ihr irgendwelche Compliance-Anforderungen habt, es gibt mittlerweile Provider in der EU, die aktuelle Modelle, also ich habe jetzt das Deepseek V4 ausprobiert und auch noch mal das GLM 5.1, worüber wir auch schon mal gesprochen hatten, das chinesische Modell, hat für mich auch gute Ergebnisse erzielt, auch über diesen Provider aus Irland. Das kann man also mal wirklich sehr gut ausprobieren, wenn man da Sorgen hat, dass man jetzt irgendwie dem Lock-in verfällt und jetzt irgendwie seine Prozesse darauf anpasst. Genau. Das wollte ich hier einmal teilen.

Ole Wendland: Dann lass uns zum Abschluss noch ein bisschen Mathe machen, oder?

Fabian Walther: Ja, das musst du machen. Nein, aber das war schon spannend. Es gab halt diese Forschungsgeschichten, das hat uns ja immer gesagt. Vielleicht kannst du das mal zusammenfassen.

Ole Wendland: Also vorweg, ich bin auch kein Mathe-Spezialist. Schade, dass Melli nicht mehr bei uns ist, die könnte da bestimmt mehr zu erzählen. Shoutout an Melli. Es geht um das, ich weiß gar nicht, ob ich es richtig ausspreche, wahrscheinlich das Erdős-Problem. Das ist ein mathematisches Problem, das seit 80 Jahren ungelöst ist, und es gab ja vorher schon mal so die Ankündigung, dass KI irgendwelche Forschungsprobleme tatsächlich gelöst hat, die noch nicht gelöst waren, die sich dann aber meistens als Hoax herausstellten oder er hat einfach alte Theorien aufgegriffen, die er irgendwo gefunden hatte, alte Paper genommen und kopiert, die aber nicht zur richtigen Lösung führten. Und diesmal sieht es so aus, als ob es tatsächlich einen konstruktiven Forschungsbeitrag gäbe. Also es ist auch von Mathematikern schon bestätigt worden, dass das wirklich die Lösung für das Problem ist. Das Spannende ist, dass in einer Woche das Problem gleich dreimal gelöst wurde. Also angefangen hatte OpenAI am 20. Mai das Problem zu lösen, dann hat DeepMind einen Tag später, also mit so einem AlphaProof Nexus, ihr Mathematik-Lösungsproblem, allein nur einen Tag später das Problem gelöst und gleich 44 andere mit, und Anthropic hat dann am 26. Mai nachgelegt und es auch noch gelöst. Was man so hört, also ich kann das überhaupt nicht beurteilen, was man so hört, sagen die Mathematiker, dass der OpenAI-Beweis wohl der eleganteste von denen ist. Der Google-Beweis ist nett, weil man ihn maschinenüberprüfbar geliefert hat. Die anderen sind halt so normale mathematische Paper, die von Menschen wieder gelesen und überprüft werden müssen. Genau. Was kann man noch dazu sagen? Irgendwie, ich kann mal versuchen, es zu beschreiben. Es ging irgendwie darum, man hat einen zweidimensionalen Raum und man kann N Punkte darauf verteilen, und wie viele von diesen N Punkten haben exakt die identische Instanz? Mathematiker, die mir zuhören, werden mich jetzt wahrscheinlich schlagen, weil ich das Problem völlig misshandelt habe, aber genau, vielleicht was für unsere Kommentarspalte. Erklärt uns doch, was das Erdős-Problem eigentlich war.

Fabian Walther: Genau, korrigiert uns gerne. Ja. Nee, aber das ist ja tatsächlich, es wird ja immer wieder gesagt, man kann damit irgendwie Forschungsergebnisse erzielen. Dann sagen manche immer, ja, es ist ja im Grunde nur eine Rekombination von dem, was schon da ist, was dann irgendwie nur neu aussieht, aber eigentlich werden da ja quasi nur Dinge extrahiert, die irgendwie schon vorher da waren, und es ist nichts originär Neues. Und jetzt zumindest vielleicht für diesen Teilbereich der Mathematik sagen zumindest Mathematiker, die sich damit auskennen, das ist etwas Neues. Das würde ich dann wirklich mal, würde mich interessieren, ob das wirklich sich jetzt auf die Mathematik beschränkt, eben weil die so gut formal beschreibbar ist, vielleicht auch nur. Oder ob das dann eben auch in anderen Disziplinen jetzt mehr wird.

Ole Wendland: Ich denke, in Cyber Security sehen wir es ja auch. Irgendwie scheint 2026 ja das Jahr zu sein, wo es das erste Mal tatsächlich Leistungen gibt, die zumindest mit Menschen mithalten können, würde ich sagen, wo sie halt nicht einfach nur so ‘Race to the Mittelmaß’ sind, sondern wo sie tatsächlich auch mit genügend Geld und Computer vorausgesetzt, wirklich neue Leistungen erbringen können. Also ein bisschen skeptisch kann man schon sein, wenn drei Modelle das innerhalb einer Woche dasselbe Problem knacken. Auf der anderen Seite haben Menschen 80 Jahre lang nicht geschafft, und das lag bestimmt auch nicht daran, dass es nicht häufig genug probiert wurde.

Fabian Walther: Ja, ja, nee, das ist natürlich die Frage, ist es wirklich nur Brute Force, weil jetzt einfach die Modelle da so viel drauf werfen können auf dieses eine Problem? Und dann ist auch immer natürlich mal die Frage, sind das denn Probleme, die uns als Menschheit weiterbringen? Aber dann wird es philosophisch, ob man jedes Problem oder jede Frage lösen muss, ob einen das weiterbringt. Gut, aber da wollen wir heute nicht mehr abdriften. Das war jetzt schon durch meinen kurzen Exkurs, sind wir, glaube ich, ganz gut durchgekommen. Aber gefühlt war es jetzt auch nicht so viel passiert, bis auf diese Preisdiskussion. Da bin ich mal gespannt, was uns in zwei Wochen wieder erwartet. Hast du eine Prediction, was als Nächstes passiert, oder ist alles Zufall?

Ole Wendland: In den nächsten zwei Wochen habe ich tatsächlich keine Prediction. Ich denke, dass OpenAI ein neues Modell rausbringen wird. Von denen haben wir jetzt bestimmt schon sechs Wochen nichts mehr gehört, es ist Zeit für ein neues OpenAI.

Fabian Walther: Sie sind mal wieder dran. Gut, dann werden wir das im Follow-up überprüfen. Dann danke ich dir für die Runde diese Woche.

Ole Wendland: Sehr gerne.

Fabian Walther: Dann freue ich mich, wenn wir uns in zwei Wochen wiedersehen und danke euch für die Aufmerksamkeit und seid auch nächstes Mal hoffentlich wieder dabei. Bis dahin.

Ole Wendland: Ciao, ciao.

Summary

show / hide summary

This summary was generated automatically and has not been manually reviewed. It may therefore contain errors. The spoken word in the recording is always authoritative.

AI News #6 – mit Fabian Walther und Ole Wendland

In dieser Ausgabe dreht sich fast alles um Preise: Wer kann sich Compute leisten, wer macht ihn billig, und was bedeutet das für die Abhängigkeit von einzelnen Anbietern? Dazu kommen neue Hardware aus dem Hause Nvidia, ein bemerkenswerter Forschungserfolg – und ein sehr praktischer Tipp zum souveränen Self-Hosting.

Follow-up: Opus 4.8, Fast Mode und Hunderte Subagents

Nach dem SpaceX-Compute-Deal der letzten Folge zeigen sich erste Folgen der gelösten Rechenknappheit bei Anthropic. Ole hat das neue Opus 4.8 bereits im Einsatz, merkt aber kaum Unterschiede zur Vorversion – außer, dass das Modell ihm spürbar häufiger widerspricht und stärker eine eigene Meinung vertritt. Der Fast Mode (fünffacher Preis für mehr Tokens pro Sekunde) soll günstiger geworden sein. Spannender ist ein neues Claude-Code-Feature: Dynamic Workflows, die für riesige Codebasen Hunderte koordinierter Subagents starten – mächtig, aber teuer. Beide warnen eindringlich, harte Budget-Limits zu setzen: Auf Golem war zu lesen, dass eine Firma versehentlich eine halbe Milliarde Tokens verbrannt hat.

Anthropics Mega-Runde vor dem Börsengang

Anthropic hat eine neue Finanzierungsrunde abgeschlossen – laut Ole vermutlich die letzte vor dem Börsengang. Eingesammelt wurden rund 65 Milliarden Dollar, von denen etwa 15 Milliarden als Compute-Gutscheine wieder zurückfließen; bleiben rund 50 Milliarden. Die Bewertung liegt bei knapp einer Billion (rund 960 Milliarden) – damit zieht Anthropic solide an OpenAI vorbei. Auffällig: Die Marge auf Inference-Tokens konnte von 38 auf 70 Prozent gesteigert werden. Fabian und Ole vermuten gezielte Vorbereitung auf einen möglichst profitablen Börsengang.

Subscriptions oder Pay-per-Token?

Ein Thema zieht sich durch die Folge: Wohin entwickeln sich die Preise? Bleiben die stark subventionierten Abo-Modelle, oder zahlt man künftig pro Token? Ole zieht den Vergleich zum Free-to-Play-Markt bei Games: Wenige zahlungskräftige Kunden finanzieren den Rest. Gerade Geschäftskunden seien verlässlicher als wechselfreudige Privatnutzer. Beide erwarten eine Mischkalkulation – die hohen Margen aus Premium-Angeboten wie dem Fast Mode subventionieren günstigere Tarife quer.

Nvidia: Neue Modelle, Vera CPUs und ein verschobener Markt

Nvidia hat mit Cosmos 3 und Nemotron 3 neue Modelle vorgestellt – World- und Vision-Modelle mit Fokus auf Physik und Computing, für Entwickler eher weniger relevant. Ole sieht die Strategie darin, den Open-Source-Markt nicht allein den chinesischen Anbietern zu überlassen; verdient wird ohnehin an der Hardware. Spannender sind die Geschäftszahlen: 81,6 Milliarden Dollar im letzten Quartal, trotzdem fiel der Kurs. Bemerkenswert ist die Diversifizierung – der Anteil der großen Hyperscaler an Nvidias Chip-Verkäufen sank von rund 75 auf etwa 50 Prozent, zugunsten von Neo-Clouds und Industrie. Dazu kamen die neuen Vera CPUs, ausgelegt darauf, Zehntausende Agents (genannt wurden rund 22.000) parallel in Sandboxes laufen zu lassen.

Zwei Märkte: schnelle Inferenz vs. Agentic

Ole beobachtet, wie sich der Markt aufspaltet: Auf der einen Seite ultraschnelle Inferenz (z. B. Cerebras mit seinem Riesen-Chip), auf der anderen langlaufende Agentic-Workloads, bei denen Latenz kaum zählt, dafür aber CPU und Speicher entscheidend sind. Genau für solche dauerhaften Prozesse, so Ole, ergäben auch SpaceX' Rechenzentren im All Sinn – für latenzkritische Chat-Anwendungen taugen sie nicht. Fabian ergänzt: Daraus entstehen neue Preismodelle, bei denen man günstig rechnet, wenn einem die Antwortzeit egal ist.

DeepSeek V4 Pro sprengt die Preise

Das aus Sicht beider fast spannendste Thema: DeepSeek hat den Preis von V4 Pro dauerhaft um rund 75 Prozent gesenkt – von ehemals vier bis fünf Dollar auf etwa 87 Cent pro Million Output-Tokens. Damit ist das Modell rund 35-mal günstiger als OpenAI und fast 90-mal günstiger als Anthropic, bei laut Benchmarks etwa 80 Prozent der Leistung. Als Begründung nennt DeepSeek die nun in großen Stückzahlen verfügbaren Huawei-Chips und höhere Effizienz. Ole vermutet auch hier eine Lock-in-Strategie – und sieht darin einen Grund für Nvidias Nervosität und die eigenen Open-Weights-Modelle.

Tipp der Woche: Souveränes Self-Hosting mit Pi und EU-Providern

Fabian hat ausprobiert, sich vom einzelnen Anbieter unabhängiger zu machen: Er hat DeepSeek V4 über einen EU-Provider aus Irland (Tensorix AI) bezogen, der DSGVO-konform und „Zero Knowledge" in der EU hostet, und einen schlanken, gut anpassbaren Agent-Harness namens Pi (pi.dev) davorgeschaltet – dieselbe Basis, auf der auch OpenClaw aufsetzt. Sein Fazit nach zwei Tagen: Was er sonst mit Claude Code macht, funktioniert auch hier – etwas langsamer, aber mit vergleichbaren Ergebnissen. Über ein zusätzlich angebundenes Flash-Modell (rund ein Zehntel des Preises, ca. 40 Cent pro Million Output-Tokens) lässt sich weiter optimieren. Für Teams mit Compliance-Anforderungen ein gangbarer Weg aus dem Lock-in.

KI löst das Erdős-Problem – gleich dreimal

Erstmals scheint KI einen echten, von Mathematikern bestätigten Forschungsbeitrag geleistet zu haben: ein seit rund 80 Jahren ungelöstes Erdős-Problem. Bemerkenswert ist, dass es innerhalb einer Woche gleich dreimal gelöst wurde – OpenAI am 20. Mai, DeepMind einen Tag später (und gleich 44 weitere dazu, maschinell überprüfbar), Anthropic am 26. Mai. Unter Mathematikern gilt OpenAIs Beweis als der eleganteste. Fabian und Ole diskutieren, ob das wirklich neue Erkenntnis ist oder bloße Brute-Force-Rekombination – und ob solche Erfolge über die formal gut beschreibbare Mathematik hinaus auf andere Disziplinen übertragbar sind. (Shoutout an die ehemalige Kollegin Melli.)

Ausblick

Eine konkrete Prognose für die nächsten zwei Wochen wagt Ole nicht – außer einer: Es sei mal wieder Zeit für ein neues OpenAI-Modell.

Senior Consultant

Fabian Walther is an architect and developer at INNOQ who likes everything around motivating development teams by making them successful. He thinks, that you need to consider organisational aspects at least to the same degree as technical tools. Working in the JVM ecosystem for over a decade he still feels at home there and he is a strong advocate for continuous delivery. Besides that he is a conference speaker, trainer and and has frequent apperances on the INNOQ podcast and youtube channel.

Senior Consultant

Ole is a Senior Consultant and Software Architect at INNOQ in Switzerland. With his broad experience in software projects, he combines technical expertise with a deep understanding of the challenges faced by modern enterprises. His focus is on translating business requirements into sustainable, future-oriented solutions. As an all-rounder, Ole feels at home across the entire stack and continuously expands his spectrum of competencies. Along with his solid backend and frontend experience, he is deeply involved with Large Language Models (LLMs) and innovative applications of Foundation Models. Ole sees great potential in these technologies to optimize business processes and unlock new value creation opportunities for clients.