Podcast

AI News

3 Bit müssen reichen. Das CLI-Comeback. Anthropics Quellcode auf Abwegen.

In dieser AI News-Ausgabe geht es vor allem um eine knappe Ressource: Speicher. Googles TurboQuant verspricht Abhilfe, hilft aber vor allem den Hyperscalern. Gleichzeitig werden CLIs zum neuen Lieblingstool für AI Agents – und die Sicherheitsfragen, die das aufwirft, kommen dabei zu kurz. Einen Fail der Woche haben Fabian und Ole auch im Gepäck: Anthropic leakt versehentlich den Quellcode von Claude Code.
Weitere Episoden anhören

Shownotes & Links

Transkript

Transkript ausklappen / einklappen

Dieses Transkript wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Massgeblich ist immer das im Mitschnitt gesprochene Wort.

Fabian Walther: So, herzlich willkommen zur zweiten Ausgabe unserer AI News. Mit dabei ist wieder der Ole. Hallo Ole.

Ole Wendland: Hallo Fabian.

Fabian Walther: Ja, wir sind in der Kalenderwoche 14 am 1. April. Wir haben keinen Aprilscherz, sondern wir haben wieder ein paar Themen mitgebracht. Und die werde ich jetzt einmal kurz nur mal anreißen. Es hat alles so ein bisschen was, habe ich das Gefühl, zu tun mit der Speicherknappheit. Google hat TurboQuant vorgestellt, einen Kompressionsalgorithmus. Wir reden über das neue Modell von Nvidia, die auch offenbar daran arbeiten, Speicher zu sparen, zumindest den die Dinge, die gleichzeitig im Speicher sind mit dem Nemotron 3. Dann gibt’s das ACP, das Agent Client Protokoll, was ich noch ganz spannend fand. Wir wollen noch ein bisschen reden über CLIs, die ja scheinbar gerade die Lösung für alle Probleme sind. Und dann haben wir noch ein paar Fails der Woche mitgebracht, da gibt’s auch noch mal ein paar interessante Dinge, was da so im Thema Security und Leaks passiert ist. Genau. Fangen wir an. Mit TurboQuant. Google komprimiert jetzt Dinge, dass wir weniger Speicher brauchen und dann alles ganz günstig wird, oder was meinst du dazu?

Ole Wendland: Ja, genau. Also, Speicher, wie du schon gerade erwähnt hast, ist ja in letzter Zeit ein großes Thema, gerade weil die Speicherproduktionsqualität Kapazitäten nicht so skalieren, wie man sich das eigentlich vorstellt. Also, viele Gamer haben es schon gemerkt, Grafikkarten sind unfassbar teuer geworden. Das liegt einfach daran, dass der ganze High Bandwidth Memory mittlerweile direkt an die Hyperscaler verkauft wird und nicht mehr für die Gamer zur Verfügung steht. Und entsprechend arbeiten verschiedene Stellen daran, das zu optimieren. Und dieses TurboQuant ist jetzt ein neues Research Paper von Google, die auch Attention is all you need und die Transformer Architektur gemacht haben. Und es ging darum, den Kiwi, also den Key Value Cache zu optimieren. Das war es gehört zu ein Teil des Attention Mechanismus. Und genau. Quantisiert den nur diesen Kiwi Cache auf 3 Bit und erreicht damit halt deutlich höhere Performance bei, wie sie sagen, eigentlich keinerlei Qualitätseinbußen. Und die Hoffnung war so ein bisschen, dass das jetzt endlich der Durchbruch für lokale Modelle ist. Also ganz viele Leute hatten ganz große Hoffnung, dass man jetzt auf jedem kleinen Rechner oder auch deiner Smartwatch ein Modell laufen lassen kann. Die ersten Benchmarks zeigen, dass sich das nicht so ganz erfüllt, also um das voll ausnutzen zu können, sollte man schon ja so eine Blackwell GPU bei sich zu Hause stehen haben, die dann auch gleich, ich glaube 100.000 oder 200.000 kostet.

Fabian Walther: Ja, Portokasse.

Ole Wendland: Ja, Portokasse auf jeden Fall, also bei unseren exorbitanten Gehältern überhaupt kein Problem. Das das Problem ist, dass man unterscheiden muss zwischen der sogenannten Prefilling Phase, das heißt, während er am Anfang den Prompt verarbeitet. Da hilft einem dieser Kiwi Cache, es ist ein Cache, darum hilft er einem dabei halt noch nicht, weil er da erstmal aufgefüllt werden muss. Und dann bei der Token Generierungsphase, da kommt er voll zum Tragen und da sind diese Performance Gewinne und die Größenoptimierung schlagen da voll durch. Was bei uns als Heimanwender, die halt ein lokales Modell laufen lassen, meistens ist die Token Generierungsphase nicht das Bottleneck oder war es nicht das Bottleneck so und tatsächlich dadurch, dass man jetzt erstmal das wieder runter quantisieren muss auf 3 Bit, ist tatsächlich auch noch so 20 % Overhead in der Prefilling Phase und ja, leider zeigt, dass die Optimierung hauptsächlich für die großen Hyperscaler und die Rechenzentren interessant sind, bei denen schlägt das wohl voll ein. Bei uns als Standard User leider eher nicht.

Fabian Walther: Ja, das war auch so das, was ich mitgenommen habe, ne, dass ist jetzt viele von den Optimierungen, die wir jetzt gerade sehen, halt, ne, da eigentlich darauf abzielen, im Rechenzentrum parallel mehr Nutzer mit einer GPU bedienen zu können, ne? Und gar nicht jetzt so, ja gut, die haben natürlich kein Interesse daran, dass wir die Modelle lokal laufen lassen, ne? Insofern, da haben wir dann wahrscheinlich eher aus dem aus dem Open Source Modellbereich mehr zu erwarten, was das angeht. Die die großen Modelle, die wollen natürlich, dass wir da weiter von von ihnen abhängig sind, so, ne? Ja. Ja, das ist auch ein bisschen so ein so.

Ole Wendland: Sonst kriegst du ja von Nvidia keine GPUs mehr, wenn du einen Algorithmus pushst, der sie arbeitslos macht.

Fabian Walther: Ja, gut, das da gilt ja immer, ich habe vergessen, wie dieses Prinzip heißt, aber natürlich die die Nutzung steigt mehr an als die Effizienzgewinne, ne? Das heißt, wenn jetzt halt die Modelle in weniger Speicher passen, werden Modelle halt größer, weil die dann mehr können und das wird sich, glaube ich, dann einfach wieder ausnivellieren. Da bin ich ganz fest von überzeugt. Das führt nicht dazu, dass alles jetzt billiger wird, sondern dass einfach wahrscheinlich die, ne, die die Performance dann insofern besser wird, dass wir die die Modelle dann einfach besser benutzen können, aber oder die Modelle besser werden, ne, aber die die es wird nicht darauf hinauslaufen, dass alles ganz günstig wird, da gehe ich jetzt auch nicht von aus, ja. Mir mir fiel nur gerade noch was dazu ein, wo du es gerade sagst mit dem oder wo ich gerade gesagt habe mit den Open Source Modellen, da hatten wir noch ein Follow-up von letzter Woche, wo wir über die über die ganzen über das Personalkarussell bei bei den im Rahmen der Qwen-Modelle gesprochen hatten. Da gab’s nämlich extrem viele neue Releases, die ich mir ja noch nicht angucken konnte, also wenn ihr da draußen euch die schon angeguckt habt, da hatte ich das Gefühl, da wollten die gerade ein bisschen entgegenwirken den Gerüchten, dass jetzt alles den Bach runtergeht. Fiel mir nur noch gerade ein, dass wir da noch so ein bisschen noch ein Follow-up zu letztes Mal hatten, was die Open Source Geschichten angeht, ne? Da könnte es dann vielleicht die Info die Innovation vielleicht insofern herkommen, weil die haben natürlich ein Interesse da drauf, dass möglichst die Verbreitung hoch ist und dass viele Leute das eben auch zu Hause benutzen können, deswegen da erwarte ich mir dann wahrscheinlich mehr Innovation.

Ole Wendland: Auf jeden Fall, ich ich hoffe, ich habe so gleich die Hoffnung dadurch, dass jetzt mit derselben Hardware und dem TurboQuant eigentlich mehr Tokens generieren können, dass wir vielleicht doch gewisse Optimierung sehen oder Preissenkung, nicht vielleicht nicht direkt Preissenkung, aber zumindest, dass die Preise ja stabil bleiben, dass wir so ein bisschen die Befürchtung, dadurch, dass sie jetzt alle so Compute Constraints sind und nicht genügend Rechenleistung haben, dass vielleicht die Preise nicht ganz so sehr ansteigen werden. Allgemein, dass die Preise ansteigen werden, bin ich recht überzeugt von, aber das dem wirkt das vielleicht entgegen.

Fabian Walther: Ja, das ist ja momentan auch extrem viel Bewegung drin, was so die die täglichen, stündlichen und wöchentlichen Limits in den verschiedenen Plänen angeht. Da gab’s ja auch bei bei Claude und Anthropic so ein paar Irritationen, würde ich sagen, wo dann plötzlich die Limits ganz niedrig waren und da wird, glaube ich, im Hintergrund extrem viel geschraubt, ne, wie viel wie viel Limit können wir den Nutzern geben in den verschiedenen Plänen, ne? Da da das ist ja auch komplett intransparent, einfach, weil sie sonst wahrscheinlich ständig ihre Preismodelle ändern müssten. Da kann man sich dann eher erhoffen, dass vielleicht die Limits nicht mehr ganz so restriktiv dann werden, ne, weil einfach dann das wirtschaftlich mehr Sinn ergibt, ne, so. Wenn du halt mehr Nutzer bedienen kannst mit dem mit der gleich mit dem gleichen Compute sozusagen, ne? Zumindest was die älteren Modelle vielleicht angeht, ne? Ja.

Ole Wendland: Auf jeden Fall, man sieht, dass sie überall sparen. Ich meine, OpenAI hat jetzt auch Sora abgeschaltet, ne?

Fabian Walther: Stimmt, ja.

Ole Wendland: Man man sieht, dass die Kapazitäten auf einmal knapp werden und hin und her geschäftet werden. Bei OpenAI war mir das auch letzten Freitag sehr aufgefallen, bei OpenAI, bei Anthropic war es mir letzten Freitag aufgefallen, dass da irgendwie es lief gar nicht. Es war extrem zäh, man hatte ständig Verbindungsabbrüche. Gerüchteweise fällt das mit so Mythos, also dem neuen großen Modell zusammen, dass sie angefangen haben Mythos auszurollen und schon so Security Firmen bereitgestellt haben und deshalb Compute freischaufeln mussten und ihre Standard User da sehr begrenzt haben, aber diese Woche muss ich sagen, läuft’s eigentlich wieder ganz okay.

Fabian Walther: Ja, also das muss ich dann immer zurechtrütteln, ne? Da müssen die, glaube ich, auch wirklich intern intern immer immer wieder balancieren, ne? Genau. Ich hatte gerade noch, wo du gerade OpenAI sagst und Sora, ne, das meine mein Take da war eigentlich eher, dass sie, glaube ich, sich fit machen wollen für den für den Börsengang und die diese Sora Geschichte einfach wahrscheinlich so viel Geld kostet, aber nichts bringt, dass sie das dann einfach abgesägt haben. Das kann man jetzt wahrscheinlich auch sehen, dass jetzt gerade die Firmen, die an die Börse wollen, dann eben dann doch mal Dinge wegschneiden, die einfach wirklich nicht abheben schnell genug, ne? Okay. Dann hatte ich eben gesagt, Nvidia hat auch was gemacht, Nemotron 3 und da hatte ich eben auch nur zugelesen, dass sie versuchen eben von den 120 Milliarden Parametern, die das hat, eben immer nur durch so ein durch so ein Mixture of Experts Geschichte wenige davon gleichzeitig zu aktivieren, ne, damit der Speicher eben, der aktiv genutzt wird, nicht zu hoch ist. Es geht ja wahrscheinlich auch ein bisschen in die Richtung, die wir gerade hatten, ne, dass dass man möglichst mehrere Nutzer parallel bedient und den Speicher niedrig hält, den ein Modell zu jedem gegebenen Zeitpunkt braucht, ne?

Ole Wendland: Ja, ich find’s ich find’s allgemein ein recht spannendes Modell, weil es ist das erste westliche Modell, was fast es klingt komisch es zu sagen, was fast chinesische Offenheit hat. Jetzt müssen wir die schon die Chinesen für ihre Offenheit loben. Naja, auf jeden Fall haben sie ist es ist es noch nicht Open Source, ist noch Open Weights, aber man kennt die Weights, man kennt die Trainingsdaten, man kennt die Rezepte. Sie haben sogar ihre Reinforcement Learning Pipelines dazu offengelegt. Also für für westlich für die westliche Welt ist es schon ein erstaunlich offenes Modell. Und der Fokus, glaube ich, war eher tatsächlich so AI Agents zu enablen. Also die reinen Fähigkeiten, was so Konversation und Chat angeht, sollen relativ begrenzt sein, aber wirklich ein knallharter Fokus, wie supporten wir Agent Networks, wie können sie auf kleinerer Hardware laufen, also wie können wir oder wie können wir N Agents parallel laufen lassen mit geringeren Hardware Anforderungen. Das war auf jeden Fall ein ganz starker Fokus davon.

Fabian Walther: Ja, da bin ich gespannt, was da was da noch passiert, gerade was diese Optimierung angeht, dass dass man den Speicher eben irgendwie niedrig hält, der der gebraucht wird und trotzdem ein großes Modell zu haben, ne? Das ist ja dann immer so ein bisschen das Problem, dass du dann von super schnelle SSDs auch brauchst oder das Zeug dann immer in den Speicher streamst, sonst hast du da halt ein Lag, ne? So, das bin ich gespannt, wie Nvidia das löst, weil die ja nun mit ihren Plattformen zumindest was was so den Heimanwender angeht, immer das Problem haben, dass die die die Karten dann eben den Speicher onboard haben, der aber relativ gering ist, so, ne? Im im Rechenzentrum haben sie natürlich dann andere Möglichkeiten damit extrem schnellen Speicherinterfaces zu arbeiten, dass sie dann da dieses Bottleneck nicht so haben, ne? Da bin ich mal gespannt, wie viel davon dann wirklich auch für Heimanwender ist und wie fern das halt eben auch etwas ist, was dann doch wieder nur im Rechenzentrum greift, ne? Aber du hast es richtig gesagt, es ist halt relativ offen das Modell, deswegen kann man natürlich dann auch da noch von verschiedenen Seiten mal drauf gucken, ne?

Ole Wendland: Und auf jeden Fall ein beeindruckender Einstand in den LLM Markt, dass ich meine Nvidia war jetzt bis jetzt klar, als Supplier der Hardware bekannt, aber dass sie jetzt groß Modelle veröffentlichen, das ist relativ neu, wobei jetzt muss ich mich gerade selber hinterfragen, das Ding heißt Nemotron 3. Eventuell habe ich eins und zwei einfach verpasst. Aber es wäre mir zumindest wundern gewesen.

Fabian Walther: Ja, ich hatte tatsächlich ich habe so ein lokales Tool, wo ich so Speech to Text mache auf dem Mac und da hatte ich auch ein Nvidia Modell, da hatten die auch schon relativ früh, was diese Modelle angeht, lokale, die ganz gut funktioniert haben. Ich weiß es gerade den Namen nicht mehr, aber da habe ich auch eins verwendet und das ging da waren sie auch schon dabei, aber es waren immer diese sehr stark fokussierten Geschichten und sie hatten ja auch ganz früh schon eins, ich erinnere mich an so ein frühes YouTube Video, wo sie so eine so eine Rauschentfernung mal demonstriert haben, wo so ein Typ mit dem Ventilator saß und dann in sein Mikrofon gepustet hat und noch mit dem Hammer auf dem Tisch rumgehauen hat, da waren sie super früh schon dabei, diese lokalen super spezialisierten Modelle zu machen, ne? So, vielleicht knüpfen sie da jetzt wieder ein bisschen an, das wäre natürlich interessant.

Ole Wendland: Klingt so, also scheinbar haben sie jetzt ihre ganzen super speziellen Modelle einfach in ein großes Modell gemerged.

Fabian Walther: Ja, ja.

Ole Wendland: Aber Akzeptanz ist auch gut, oder?

Fabian Walther: Hm? Ach so.

Ole Wendland: Nee, ich wollte noch kurz erwähnen, dass halt Perplexity, Palantir, Palantir ist jetzt vielleicht nicht unbedingt die Sympathieträger und Siemens schon dabei sind, das fleißig zu adaptieren, das Modell.

Fabian Walther: Ja, klar, das bietet sich ja dann an, dass gerade jetzt Firmen, die halt eher interne Geschichten einsetzen wollen, die jetzt nicht die ganze Zeit auf die großen Anbieter gehen wollen, ne? Das die dann sagen, okay, wir kaufen uns von Nvidia so ein paar Racks, stellen in unsere Rechenzentrum, lassen da das Zeug laufen, ne? Dann haben wir das voll unter Kontrolle, zumindest soweit es geht, ja. Ja, ich wollte gerade überleiten zu einem anderen Thema, was ich ganz spannend fand, was du auch noch mitgebracht hast. Ob denn jetzt quasi die die CLIs, die von unseren Agenten die ganze Zeit benutzt werden, jetzt quasi alles übernehmen, MCP machen wir jetzt nicht mehr, wir machen jetzt nur noch CLIs, das scheint gerade so ein bisschen der Trend zu sein, ne?

Ole Wendland: Total. Ich ich habe da auch so, ich bin so zwiegespalten. Auf einmal, ich sehe auf jeden Fall, dass CLI für Agenten super wichtig sind und dass so ich sehe sie vor allen Dingen in dem Markt, wo wir normalerweise jetzt unser Handy rausgeholt hätten und so Home Automatisierung, ne? Bediene deine Lichtschalter oder deine Hanlage oder so weiter. Eigentlich hatte keiner von uns Bock immer das Handy rauszuholen, sich einzuloggen und dann den Lichtschalter übers Handy zu bedienen und da schafft natürlich CLI eine ganz neue Welt, was vorher so Custom Apps waren, immer immer mit CLI und immer irgendwie an deinen Agenten geben. Wenn wir in den großen Kontext gucken, also jetzt z.B. weiß ich nicht, Salesforce oder SAP, da bin ich noch nicht so hundertprozentig von überzeugt, dass CLI alles übernehmen wollen werden, weil hinter der UI ja häufig auch ein gewisser Workflow steht und eine gewisse Führung des Users, welche Schritte nacheinander genutzt werden müssen. Da glaube ich, ist die UI noch nicht tot, aber ansonsten ja, wer als kleiner Hersteller zurzeit keine gute CLI parat hat, die dann auch von einem Agenten genutzt werden kann, glaube, der wird in Zukunft Probleme kriegen.

Fabian Walther: Ja, ich habe da tatsächlich auch drüber nachgedacht, als du das Thema aufgebracht hast. Wir hatten ja heute den den Technology Lunch zum Thema Security und da war dann so was, was ich damit genommen habe, was man bei diesen ganzen CLIs halt komplett ausblendet, weswegen das eben auch so gut funktioniert, ist halt komplett das Thema Identität, ne? Man man geht halt davon davon aus, wenn jemand die CLI hat, die funktioniert, dann kann man halt auf irgendwas zugreifen, weil man es entsprechend authentifiziert über dieses CLI, muss ich über diese ganzen Berechtigungsthemen einfach keine Gedanken machen. Das ist halt super convenient, würde ich mal sagen, aber man blendet halt so einen großen Teil komplett aus, ne? In mit welchen Rechten agiert eigentlich gerade der Agent gerade, sind die eingeschränkt oder nicht, ne? Man agiert halt mit den Rechten, die dieses CLI dann gerade zufälligerweise hat und das ist natürlich macht natürlich öffnet, ne? Tür und Tor allen möglichen Sicherheitsproblemen, deswegen war ich da auch so ein bisschen, habe ich erst auch gedacht, das ist super, ne? Weil alle Agenten können die halt völlig problemlos benutzen, aber komplett halt mit der Identität des Nutzers, der halt zufälligerweise gerade dieses CLI eingeloggt hat, ne? Und dann hast du natürlich hast du natürlich ein Problem. Ich glaube, wenn du gerade sagst Salesforce und SAP, das ist natürlich, die werden, glaube ich, weiterhin auf Dinge wie wie MCP setzen müssen, einfach weil da diese Themen wirklich explizit adressiert sind, ne? Mit welchen Rechten agiert hier gerade ein Agent, mit was kann der gerade, was kann der nicht? Ich kann das feingranular regeln und das muss natürlich in so einem Enterprise Kontext eben sein, ne? Natürlich ist es immer lokal total gut, ne? Das ist wie damals auf der Unix Shell, wenn ich halt irgendwie einfach Sudo mache und ich bin halt Root, dann kann ich halt alles ist super convenient, ich bin nirgendwo eingeschränkt, da kann ich alles erreichen, aber, ne, das hat dann halt eben die Downside, dass ich auch eben alles erreichen kann. Und deswegen war ich da so ein bisschen, war ich da erst so ein bisschen skeptisch auch, was das angeht, aber ja, du hast schon recht, alle machen jetzt CLIs und vielleicht führt es einfach dazu, dass die CLIs besser werden, was du dann auch ein schöner Nebeneffekt ist, ne?

Ole Wendland: Das ist ein guter Punkt, wahrscheinlich muss man die CLIs gruppieren oder nur bestimmten Usern zuordnen. Das bestimmt, ich meine Linux bietet ja durchaus Mechanismen dafür, dass nur bestimmte User oder Usergruppen bestimmte CLI Commands ausführen können. Das ist auf jeden Fall ein Thema, an dem man arbeiten sollte.

Fabian Walther: Ja, da da müssen wir, glaube ich, noch mal im Detail einsteigen. Vielleicht vielleicht nicht heute, aber ich fand’s fand’s auch interessant, dass du es aufgebracht hast, weil da eben wirklich gerade ganz viel Musik drin ist. Vielleicht noch ein letztes Thema, was auch so Integration angeht, das fand ich ganz interessant, ist das, na, wir hatten gerade, ich hatte gerade MCP gesagt, jetzt gab’s dann plötzlich das nächste Three Letter Acronym, nämlich ACP, wo ich erst überhaupt erst nicht verstanden habe, was jetzt jetzt eigentlich wieder los ist. Das wurde so von JetBrains gepusht, die ja mit der IntelliJ Familie oder mit der Idea IDE da ganz präsent sind im Markt der der Entwicklungsumgebung und die ja jetzt quasi versuchen, eben auch die verschiedenen Coding Agents irgendwie in ihre IDE zu integrieren. Und das hat so leidlich funktioniert bisher. Ich habe dann immer doch eher das Terminal benutzt und nicht diese Integration und sie versuchen jetzt eben so einen Push zu machen, dass sie ein standardisiertes Protokoll haben, wie man Agents in verschiedenen Entwicklungsumgebung einbindet. Und das finde ich auf jeden Fall schon mal einen guten Ansatz, zu sagen, wir haben jetzt eine Weile uns das angeguckt, den ganzen Zoo, was da so passiert und versuchen jetzt mal herauszufinden, was sind denn so Standard Dinge aus dieser Richtung, wie eine IDE mit einem Agenten interagiert, ne? Wie kann der Agent sagen, ich ich brauche hier jetzt z.B. eine Permission auf irgendwas und dann kann die IDE das schön anzeigen und der Nutzer kann das dann bestätigen oder nicht. Das fand ich eigentlich einen ganz schönen Ansatz. Es geht so ein bisschen in die andere Richtung von dem, was damals mit diesem mit diesem Language Server Protokoll, ne? Wie kann die IDE mit mit mit mit dem Compiler oder mit einem mit einem Sprachökosystem kommunizieren und jetzt eben mit einem Agenten. Aber diese das fand ich noch mal ganz interessant. Hast du das auch schon mal was von gehört gehabt?

Ole Wendland: Ich habe es noch nicht genutzt, aber ich verstehe die Angst von JetBrains. Wenn ich ehrlich sein soll, also ich habe früher immer JetBrains verwendet, ich nutze es auch weiterhin, aber mittlerweile ist es tatsächlich ein glorifizierter Git Client und Code Review Client. Tatsächlich die Hauptfunktionalität, die der die sie zur Verfügung gestellt haben, dass sie so Indexe auf alle Files haben, dass man schnell durch seinen Code navigieren kann. Das war ja eigentlich ihr Unique Selling Point und ehrlich gesagt, nutze ich es kaum noch. Nutzt du es noch?

Fabian Walther: Ich habe das tatsächlich immer noch als Standard, aber habe dann auch dann eben ein Terminal offen, wo ich dann halt entsprechend dann häufig auch Claude Code laufen lasse. Ist eigentlich ein bisschen schade, weil ja dann auch z.B. jetzt die die die IDEs dann wiederum intern in MCP bereitstellen, wo natürlich ein Agent dann auch sehr schön die das ganze Tooling aus der IDE nutzen kann, ne, und sich dann eben auch anzeigen kann, was gibt’s denn hier für für Probleme gerade im Code und die relativ schnell drauf zugreifen kann. Dann muss das eben nicht noch mal extern laufen und darin ist ja eben JetBrains auch sehr gut z.B. das zu tun. Ja, aber du hast schon recht, die haben wahrscheinlich wirklich einfach Angst, dass ihnen die Felle davon schwimmen, zumal ja ihr eigener Agent mit der Junie da, der anfangs ganz gut mithalten konnte, dann ja irgendwann nicht mehr so gut mithalten konnte. Dann haben sie, glaube ich, auch akzeptiert, dass das jetzt nicht ihr ihr Hauptbetätigungsfeld ist, wo sie jetzt mit den ganzen anderen mithalten können und jetzt versuchen sie eben die anderen so gut wie möglich zu integrieren. Man kann natürlich sagen, okay, das ist jetzt einfach ein Eingeständnis des Scheiterns. Es könnte aber auch einfach sein, dass sie wirklich jetzt verstanden haben, dass sie sich fokussieren müssen auf das, was sie gut können einfach, ne, und das ist halt IDEs bauen. Da muss man halt wirklich nur die Frage stellen, wie lange denn IDEs denn dann vielleicht noch aktuell sind, aber ich glaube noch eine ganze Zeit lang, zumindest meine meine mein Take dazu, gerade, ich muss ja den Code oder ich sollte den Code noch viel besser reviewen als vorher, der eben erstellt wird, dann nicht mehr von mir selbst häufig. Und da könnten sie wahrscheinlich auch noch viel machen, dass man dann da die Unterstützung, was irgendwie Reviews angeht, vielleicht noch mehr nach vorne stellt, ne?

Ole Wendland: Ah, wo jetzt, wo du sagst Junie, da hat JetBrains ja ein verfrühtes Ostergeschenk von Anthropic bekommen. Eigentlich können sie sich jetzt angucken, wie man einen guten Agent baut, oder?

Fabian Walther: Damit wären wir bei den Fails der Woche, ja. Genau, also man kann jetzt, was ja auch schon passiert, ne, da der der Source Code von Claude Code jetzt gelegt wurde von ihnen selbst aus Versehen. Kann man natürlich jetzt hergehen und sagen, bitte reimplementier mir Claude Code in keine Ahnung, Haskell und dann hat man einen Agenten in Haskell, der genauso funktioniert wie Claude Code, weil man einfach, ne, das jetzt z.B. portieren kann. Das hatten wir ja auch schon mal letztens diskutiert, glaube ich, weiß nicht, ob in dieser Runde, dass ja Leute jetzt anfangen Open Source Libraries zu klonen, indem sie sie reimplementieren lassen, ne, und das ist ja genau der Punkt jetzt, ne? Der der Source Code ist jetzt komplett da. Man könnte ihn jetzt quasi noch mal reimplementieren lassen und sagen, ja, ist ja mein eigenes Projekt. Da bin ich wirklich gespannt, wie sie damit umgehen, ja.

Ole Wendland: Ja, es gibt eine gibt schon eine Python Reimplementierung und da also Datenschutzrechtlich haben sie jede Rechte an dem Code verloren. Ich glaube, es ist nicht ganz so schlimm für sie, weil so gerüchteweise implementieren sie ja Claude Code eh alle drei Wochen einmal oder ihr Turnaround Cycle für den Code sind eh drei Wochen. Darum so drei Wochen ist es eh veraltet. Aber ja, es ist ein schon ein erstaunliches Upsi für so eine Firma.

Fabian Walther: Ja, ja, nee, das ist das fand ich auch interessant, ja.

Ole Wendland: Ich habe jetzt aber auch noch nichts Schlimmes aus dem Code gehört. Also, was man wohl sehen kann, ist, dass der Harness doch recht eng an das Modell gebunden ist. Also, wenn man da jetzt ein Open Source Modell drunter packt, wird es wahrscheinlich deutlich schlechter funktionieren. Und ansonsten soll es recht gut geschriebener Code sein. Sie müssen sich also zumindest nicht schämen dafür.

Fabian Walther: Nee, das ist ja dann hoffe ich auch wahrscheinlich das erste, was sie dann befürchtet haben. Obwohl sie können ja immer sagen, den Code haben wir ja nicht selber geschrieben, hat ja das Modell geschrieben, insofern. Was ja wahrscheinlich der Fall ist, aber ja, ich fand da waren noch noch ein paar andere interessante Dinge drin, ne, dass sie mit diesem offensichtlich Codenamen Kairos oder so, dass sie wirklich im Grunde versuchen auch ein Open Claw zu bauen, ein eigenes. Das natürlich jetzt, ja, wird sich wahrscheinlich auch die gesamte Konkurrenz schon gedacht haben, dass sie daran arbeiten. Also da werden sie, glaube ich, jetzt auch nicht so den den Schaden davon tragen. Und ein paar spannende Dinge fand ich tatsächlich wirklich sehr lustig, wo sie halt wirklich diese ein bisschen diese Sentiment Analysis gemacht haben mit Regex tatsächlich einfach, um halt auf irgendwelche Schimpfwörter zu filtern und herauszufinden, ob der Nutzer gerade frustriert ist. Könnte man natürlich auch in das LLM werfen, das LLM fragen, ist der Nutzer gerade frustriert, aber ist natürlich, ne, viel effizienter das mit einem Regex zu machen und funktioniert wahrscheinlich genauso gut. Das fand ich einfach gut, dass sie da halt auch nicht einfach stumpf einfach alles dem LLM geben, sondern sehr sehr viele so Optimierungen drin haben, um da, na ja, wahrscheinlich auch aus Eigeninteresse die Tokens zu sparen, ne, aber das fand ich lustig, dass sie da so ein so ein Regex drin hast mit den ganzen Swear Words, das fand ich das fand ich ein schönes Tidbit, ja. Gut, so viel zu zu dem Claude Code Fail mit dem Source Code Leak. Du hast noch eine zweite Geschichte mitgebracht, wo es um Supply Chain Angriffe geht, was ich auch extrem interessant fand. Ich meine, die sehen wir ja relativ häufig, aber das war noch mal so eine so eine bisschen andere Qualität, ne?

Ole Wendland: Ja, das tatsächlich sein Supply Chain Angriffe auch so New Hotness zu sein. Also, vielleicht ist das der Effekt, wenn man so einmal die News gesehen hat, sieht man sie jetzt dauernd und überall, aber vor zwei, drei große Angriffe in den letzten zwei Wochen, seit unserem zwei Wochen ist ja, dass wir unsere letzte Sendung hatten, oder? Ähm, also, einmal war auf GitHub irgendwas gelegt worden, wo einfach das die Package JSON ein Open Claw bei dir lokal nachinstalliert hat und deine Daten exfiltriert hat, aber die beiden größeren eigentlich sind Trivy und äh na, in der Nachfolge von Trivy das LiteLLM, was also wirklich große Pakete waren, die von wirklich vielen Leuten benutzt wurden und das Erstaunliche daran für mich war eigentlich, dass wie da war nicht die AI, das äh der Schadcode, der injiziert wurde, sondern eigentlich haben sie das gemacht, was man so als Security Scan auch eh selber machen könnte, sondern sie haben sich die Pipelines auf Schwachstellen und Fehler angeschaut und haben es deshalb irgendwie geschafft, Tokens zu exfiltrieren und damit dann äh Schadcode zu injizieren und dieser injizierte Schadcode war auch tatsächlich einfach 200 Zeilen Python Standard Schadcode hätte ich es jetzt fast genannt und wenn es einen getroffen hat, war es wirklich böse, weil das Ding hat alles exfiltriert, also SSH Keys, Kubernetes Secrets, API Keys, Env-Variablen, Crypto Wallets, äh im Prinzip, wenn es dich selber getroffen hat, kannst du ja alle deine Passwörter austauschen, eigentlich fast dein System neu aufsetzen, das war echt heftig.

Fabian Walther: Wenn es einmal offen ist, ist offen, ne? Da hatte ich jetzt in einem anderen Podcast einen schönen Tipp gehört. Es ist nicht von mir, aber ich fand ihn sehr sehr schön. Ich weiß nicht mehr in welchem es war, ich kann keine Credits geben, aber ich höre zu viele Podcasts offensichtlich, dass jemand meinte, du musst ja einfach so eine so eine Bitcoin Bitcoin Wallet auf deinen Rechner machen mit mit 50 $ drin und dann musst du die monitoren und wenn die leer ist, dann weißt du, okay, ich muss meinen Rechner platt machen und alle Credentials löschen. Das ist dann quasi so das das Frühwarnsystem. Das hatte ich hatte ich irgendwie traurig, aber irgendwie auch gar nicht so eine schlechte Idee. Also ein ein ein Grund sich Krypto Sachen zu kaufen, einer der wenigen, ja.

Ole Wendland: Dein Kanarienvogel Krypto.

Fabian Walther: Genau, Krypto Krypto Kanarienvogel, ja. Gut. Ja, ich gucke mal über unsere Themen, aber ich glaube, wir sind jetzt einmal durchgelaufen.

Ole Wendland: Ich glaube, du hast noch einen Tipp für uns, oder?

Fabian Walther: Ach so, ich habe noch einen Tipp, genau, einen Tipp der Woche haben wir jetzt auch noch. Ich mache jetzt immer neue Kategorien auf. Ja, ich verwende tatsächlich lokal das das das Ollama, das bekannte auf dem Mac, um halt lokale Modelle laufen lassen zu können. Mache ich noch nicht so viel, weil nicht so viel Speicher lokal, aber das fand ich jetzt einfach schön, dass sie in der neuen Preview Version jetzt nativer als vorher das das MLX, also das Mac Machine Learning Framework verwenden. Und dann werden eben die Modelle noch mehr mehr nutzen, mehr der nativen Funktionalitäten, die der Mac halt anbietet, ne? Und dadurch ist es einfach jetzt schneller. Also, wenn ihr lokale Modelle auf dem Mac laufen lasst, macht mal die Preview Version von Ollama an und könnt dann eben MLX benutzen und dann ist es einfach schneller im Default. Zumindest versprechen sie das. Ich habe es jetzt gerade erst heute installiert, ich habe es noch nicht genau ausprobiert, aber da vielleicht mal auf die Preview wechseln. Ja.

Ole Wendland: Wahrscheinlich hätten wir uns alle vorher noch einen Mac Mini kaufen sollen, bevor das hier droppt.

Fabian Walther: Ja, der ist natürlich nach wie vor interessant, ne? Da haben natürlich einfach durch den, wir hatten es ja am Anfang mit dem Speicher, ne, dadurch, dass der Mac eben diesen Unified Memory hat. Und davon natürlich auch relativ viel, können natürlich dann eben auch die GPUs auf den gesamten Speicher zugreifen und müssen da nicht immer hin und her zwischen RAM und GPU Speicher hin und her schieben, ne, das was Nvidia die ganze Zeit versucht zu lösen. Hat man da nicht, das hat ist natürlich ein großer Vorteil, ne? Dann und die Macs haben meistens auch noch sehr schnelle SSDs, was dann das das Streaming der der Modelle in den Speicher angeht, ne? Das hat hat dann schon einfach Architektur Vorteile. Ja. Ich bin durch mit den Themen, hast du noch was?

Ole Wendland: Nee, keine neuen Themen. Ein Hinweis noch für die Linux Fans unter uns, die keinen Mac haben wollen, es gibt was ähnliches von AMD. Man könnte sich also auch ein Framework Desktop kaufen, der das ist die Open Source Variante von so einem Mac Mini. Aber ansonsten, ich glaube, wir sind gut durch, wir sind sogar in unserer halben Stunde geblieben.

Fabian Walther: Yes. Genau. Eure Zeit nicht über anstrengen und unsere Zeit auch nicht und dann hoffe ich, dass wir uns bald wiedersehen nach Ostern irgendwann. Schauen wir mal, ob wir es im wann wir es im April schaffen, aber es kommt auf jeden Fall eine neue Folge. Danke auch für das Feedback, was uns erreicht hat und keep it coming, entweder auf YouTube oder an die [email protected] Mailadresse oder sonst wo auf den Social Media Kanälen. Schreibt uns, wenn ihr noch Feedback habt, Hinweise für Themen, wir freuen uns drauf. Dann sage ich danke, danke Ole und bis zum nächsten Mal.

Ole Wendland: Nächsten Mal. Schöne Ostern.

Fabian Walther: Dir auch. Macht’s gut. Ciao.

Ole Wendland: Ciao.

Zusammenfassung

Zusammenfassung ausklappen / einklappen

Diese Zusammenfassung wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Massgeblich ist immer das im Mitschnitt gesprochene Wort.

Mit Fabian Walther und Ole Wendland

In der zweiten Ausgabe der AI News dreht sich vieles um eine knappe Ressource: Speicher. Außerdem geht es um neue Schnittstellen für AI Agents, die Frage, ob IDEs eine Zukunft haben – und um Sicherheitspannen, die aufhorchen lassen.

Googles TurboQuant: Kompression für die Großen

Google hat mit TurboQuant ein neues Verfahren vorgestellt, das den KV-Cache – einen zentralen Baustein des Aufmerksamkeitsmechanismus in Sprachmodellen – auf 3 Bit komprimiert. Das soll deutlich mehr Leistung bei gleichbleibender Qualität bringen. Die Hoffnung vieler: endlich der Durchbruch für lokale Modelle auf normalen Rechnern. Ole erklärt, warum das nicht aufgeht: Die Optimierung greift vor allem bei der Token-Generierung, nicht beim Verarbeiten des Prompts – und genau das ist bei Heimanwendern das Nadelöhr. Dazu kommen 20 % Overhead beim Herunterrechnen. Fazit: TurboQuant hilft vor allem den Rechenzentren, mehr Nutzer gleichzeitig zu bedienen. Fabian ergänzt, dass solche Effizienzgewinne erfahrungsgemäß nicht zu billigeren Preisen führen – sondern dazu, dass die Modelle einfach größer werden.

Nvidia Nemotron 3: Überraschend offen

Nvidia steigt mit dem Nemotron 3 in den LLM-Markt ein – einem 120-Milliarden-Parameter-Modell, das über einen Mixture-of-Experts-Ansatz immer nur einen Teil der Parameter gleichzeitig aktiviert und so den Speicherbedarf niedrig hält. Ole hebt hervor, dass es für ein westliches Modell ungewöhnlich offen ist: Neben den Gewichten sind auch Trainingsdaten, Rezepte und Reinforcement-Learning-Pipelines veröffentlicht. Der Fokus liegt klar auf AI Agents – nicht auf Chat. Perplexity, Palantir und Siemens setzen das Modell bereits ein.

Follow-up: Qwen kontert mit neuen Releases

Kurzes Follow-up zur ersten Ausgabe: Nach den Personalabgängen bei Qwen gab es auffällig viele neue Modell-Releases – offenbar um den Gerüchten entgegenzuwirken, dass beim wichtigsten chinesischen Open-Source-Projekt alles den Bach runtergeht.

Sora eingestellt, Anthropic unter Last

Am Rande: OpenAI hat Sora abgeschaltet – laut Fabian vermutlich, um sich für den Börsengang fit zu machen. Bei Anthropic gab es erneut Kapazitätsengpässe. Gerüchteweise hängt das mit dem Rollout eines neuen Modells namens „Mythos" zusammen, für das Rechenleistung freigeschaufelt werden musste.

CLIs als neue Schnittstelle für AI Agents

Ein wachsender Trend: Statt über aufwändige UIs oder MCP-Integrationen greifen AI Agents zunehmend auf klassische Kommandozeilen-Tools zu. Ole sieht das vor allem dort als sinnvoll, wo bisher eigene Apps nötig waren – etwa in der Home-Automatisierung. Fabian bringt den Haken auf den Punkt: CLIs blenden das Thema Identität und Berechtigungen komplett aus. Ein Agent agiert mit den Rechten des Nutzers, der gerade eingeloggt ist – ohne jede Einschränkung. Für den Enterprise-Bereich – Salesforce, SAP – werden deshalb Protokolle wie MCP weiterhin unverzichtbar sein, weil sie Berechtigungen feingranular regeln können.

JetBrains und das Agent Client Protocol

JetBrains hat mit dem ACP (Agent Client Protocol) einen Standard vorgestellt, der regeln soll, wie Entwicklungsumgebungen mit AI Agents kommunizieren – vergleichbar mit dem Language Server Protocol für Programmiersprachen. Fabian sieht darin einen guten Ansatz. Gleichzeitig stellt sich die Frage, wie lange klassische IDEs noch relevant bleiben. Ole ist ehrlich: Er nutzt JetBrains kaum noch für das, wofür es einmal gedacht war.

Fail der Woche: Claude Code Source-Code-Leak

Anthropic hat versehentlich den kompletten Quellcode von Claude Code veröffentlicht. Es gibt bereits eine Python-Reimplementierung. Aus dem Code lässt sich unter anderem ablesen, dass der Agent-Harness eng an das eigene Modell gebunden ist und dass Anthropic unter dem Codenamen „Kairos" an einer eigenen Plattform arbeitet. Ein Detail am Rande: Anthropic nutzt Regex-basierte Sentiment-Analyse, um frustrierte Nutzer zu erkennen – statt das LLM dafür einzusetzen.

Fail der Woche: Supply-Chain-Angriffe

Mehrere große Pakete – darunter Trivy und LiteLLM – wurden über Schwachstellen in Build-Pipelines kompromittiert. Der injizierte Schadcode exfiltrierte SSH-Keys, Kubernetes-Secrets, API-Keys und Crypto-Wallets. Fabians Tipp aus einem anderen Podcast: Eine Bitcoin-Wallet mit 50 Dollar als Frühwarnsystem auf dem Rechner – wenn sie leer ist, weiß man, dass man kompromittiert wurde.

Tipp der Woche: Ollama mit MLX auf dem Mac

Ollama unterstützt in der neuen Preview-Version nativ Apples MLX-Framework. Lokale Modelle laufen damit schneller auf dem Mac, weil sie die Unified-Memory-Architektur besser ausnutzen. Für Linux-Nutzer empfiehlt Ole den Framework Desktop von AMD als Alternative.

Senior Consultant

Fabian Walther beschäftigt sich bei INNOQ als Architekt und Entwickler besonders gern mit allem was Entwicklungsteams motiviert und (dadurch) erfolgreich macht. Dabei spielen für ihn organisatorische Rahmenbedingungen ebenso eine Rolle wie technische Werkzeuge. Technologisch fühlt er sich besonders im JVM-Umfeld zuhause und ist großer Fan von Continuous Delivery.

Senior Consultant

Ole ist Senior Consultant und Software Architekt bei INNOQ in der Schweiz. Mit seiner breiten Erfahrung in Software-Projekten verbindet er technische Expertise mit einem tiefen Verständnis für die Herausforderungen moderner Unternehmen. Sein Fokus liegt darauf, fachliche Anforderungen in nachhaltige, zukunftsorientierte Lösungen zu übersetzen. Als Allrounder fühlt sich Ole im gesamten Stack zu Hause und erweitert ständig sein Kompetenzspektrum. Neben seiner fundierten Backend- und Frontend-Erfahrung beschäftigt er sich intensiv mit Large Language Models (LLMs) und innovativen Einsatzmöglichkeiten von Foundation Models. Ole sieht in diesen Technologien großes Potenzial, um Geschäftsprozesse zu optimieren und neue Wertschöpfungsmöglichkeiten für Kunden zu erschließen.