Podcast

AI News

Mythos unter Verschluss. US-Chip-Ban als Boomerang. Lokale KI für die Hosentasche.

Anthropic hält sein "Mythos"-Modell zurück: Es soll Zero-Day-Lücken in kritischer Software wie OpenBSD und FFmpeg finden können, ist aber zu rechenintensiv für den Massenmarkt. Fabian Walther und Ole Wendland schauen in dieser Folge außerdem auf GLM 5.1, das chinesische Open-Weights-Modell, das zeigt, wie der US-Chip-Ban chinesische Hersteller zum Aufbau eigener Hardware-Kompetenz zwingt. Googles AI Edge Gallery demonstriert derweil, wie gut lokale Modelle heute schon auf dem Smartphone laufen und was das für den Datenschutz bedeutet. Außerdem: Warum gute Benchmark-Scores wenig über die tatsächliche Leistung von KI-Modellen im Alltag aussagen.
Weitere Episoden anhören

Shownotes & Links

🎥 Diese Folge ist auch als Video auf YouTube verfügbar.

Transkript

Transkript ausklappen / einklappen

Dieses Transkript wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Maßgeblich ist immer das im Mitschnitt gesprochene Wort.

Fabian Walther: Herzlich willkommen wieder. Ich begrüße euch zu einer neuen Folge der AI News. Diesmal in einer etwas anderen Konstellation. Ich sitze Ole direkt gegenüber beziehungsweise neben ihm. Wo sind wir denn gerade?

Ole Wendland: Ja, genau. Wir haben heute ein etwas anderes Format, als ihr es sonst kennt. Wir sind in Stuttgart. Und zwar haben wir darum auch diesen interessanten Puschel. Wir machen ein AI Strategie Event. Die ganze Firma ist zusammengekommen und wir werden zwei Tage damit verbringen, dass wir zusammensitzen, unsere Köpfe zusammenstecken und darüber diskutieren, wie geht es denn weiter mit der Firma? Was ist die richtige Ausrichtung? Wie nutzen wir den AI Trend? Und bis jetzt, wie sind so deine Eindrücke?

Fabian Walther: Ja, ich finde es super interessant, wie wir einfach heiß diskutiert haben. Das ist ja bei uns intern auch so, dass es da nicht, ich würde nicht sagen, verschiedene Lager gibt, sondern es gibt halt immer wieder Situationen, in denen man sich mehr in dem einen Lager und mehr in dem anderen Lager wiederfindet. Jeder streitet auch quasi mit sich selber immer wieder, in welchen Bereichen man denn jetzt begeistert ist von der Technik und in welchen Bereichen man dann doch eher wieder Gefahren sieht. Und das finde ich schon ganz gut, dass wir dann jetzt mal versuchen, daraus etwas zu destillieren, wie wir denn quasi unser Geschäft davon geprägt sehen und was wir denn quasi anbieten können, um halt unser und das, was wir eigentlich tun, nämlich mit Technologie Probleme zu lösen, wie sich das dann jetzt quasi verändert und wie wir weiterhin mit Technologie Probleme lösen können und das halt möglichst vernünftig tun, so dass alle damit zufrieden sind und das Ergebnis weiterhin stimmt. Ja, und da haben wir uns gedacht, wenn wir schon so etwas machen, dann können wir auch direkt vor Ort mal quatschen und das passt ja thematisch zumindest ganz gut.

Ole Wendland: Ich meine, Technologieberatung und Softwarearchitektur ist eh immer unser Steckenpferd oder das, wo wir uns leidenschaftlich mit auseinandersetzen und auch leidenschaftlich streiten.

Fabian Walther: Das gehört dazu, ja.

Ole Wendland: Und darum passt dieser Rahmen sehr gut, jetzt auch eine AI News Folge dazu zu machen.

Fabian Walther: Genau. Dann machen wir das auch. Wir haben so ein paar Sachen, die wir schon jetzt diskutiert haben und jetzt gerne noch mal hier auch noch mal weiter besprechen wollen. Und ja, ich meine, das, was wirklich jetzt durch alle News ging, ist das mysteriöse Mythos, oder die Mythen über Mythos sozusagen.

Ole Wendland: Die Mythen über Mythos. Ja, irgendwie schaffen wir es gefühlt keine Folge ohne Anthropic zu machen. Aber sie sind halt gerade der heiße Platzhirsch und Anthropic hat ein neues mysteriöses Modell released. Tatsächlich haben sie es gar nicht released, sondern bis jetzt haben nur wenige Leute darauf Zugriff. Ich glaube, so 100 Firmen, also meistens die Schwergewichte, Google, Citrix war dabei, Microsoft war dabei und der Grund, warum sie so vorsichtig sind, man sagt ihnen unheimliche Fähigkeiten nach, Zero Day Exceptions zu exploit, ja, zu finden und sie dann auch auszunutzen und tatsächlich seit, ich glaube, ChatGPT 2 ist es das erste Modell, was als zu gefährlich gilt, als dass man es in die Öffentlichkeit geben möchte. Die Idee ist also erstmal, man gibt den Firmen Zeit oder auch vor allen Dingen den Open Source Organisationen ihre Systeme zu härten. Ich glaube, es hat schon über 100 oder über 1000.

Fabian Walther: 100.000, 10.000, was auch immer, ja.

Ole Wendland: Auch in uralten Projekten, also Open BSD war dabei, was ja so als das sicherste Betriebssystem gilt und Grundlage für viele Infrastruktur und guter Projekte sind. FFmpeg, wo quasi die Dekodierung des halben Internets drauf basiert, war dabei. Emacs war dabei, der Editor Vim war dabei. Also eigentlich alles, was Rang und Namen hat, hat irgendwelche schwerwiegenden unerkannten Softwarelücken und darum haben sie gesagt, es ist zu gefährlich und erstmal wird es nur an ein paar Firmen rausgegeben, die sollen sich damit beschäftigen, aber es verlagert das Problem natürlich nur, also jetzt findet man Sicherheitslücken, aber wer fixt sie?

Fabian Walther: Naja, die werden natürlich alle sagen, die KI kann sich ja auch gleich fixen. Ja, ich habe das auch alles gelesen und mein erster Reflex war dann natürlich, die können einfach Marketing. Das hatten wir ja letztes Mal schon so, dass wir schon gesagt haben, okay, sie nutzen einfach dann die Situation, die sich ihnen bieten, wie damals der Zoff mit der US-Regierung, das nutzen sie halt einfach Marketing-mäßig knallhart aus. Und dann war ich auch erstmal sehr vorsichtig, habe gesagt, ja, okay, wie viel davon ist jetzt Marketing, weil klar, auch Opus konnte schon Sicherheitslücken finden, und jetzt gerüchtehalber ist dieses Modell ja einfach noch mal viel größer und kann dann vielleicht einfach noch mehr rausfinden, das kann schon sein, oder mehr finden. Aber ich war da erstmal so ein bisschen skeptisch und habe gedacht, wie viel davon ist jetzt wieder nur Marketing und gerade diese künstliche Verknappung, da war mein erster Reflex zu sagen, wahrscheinlich können sie es einfach nicht anbieten für alle Kunden, weil einfach ihre Infrastruktur zusammenbrechen würde und sie die gar nicht bedienen können. Hat man jetzt ja schon gesehen in der letzten Zeit, dass sie sowieso schon Probleme hatten mit der Verfügbarkeit. Hast du ja letztes Mal auch gemutmaßt, dass es schon daran lag, dass sie im Hintergrund schon ihre Ressourcen eben aufteilen. Und da habe ich halt auch gedacht, okay, vielleicht versuchen sie so nur zu kaschieren, dass eben dieses Modell so unfassbar viel Ressourcen noch mehr frisst. Deswegen war ich da so ein bisschen skeptisch, aber generell ist es natürlich erstmal interessant, was, wenn man denn, also wenn Ressourcen keine Rolle spielen, was dann geht. Also was man dann tun kann. Haben wir denn noch irgendwie mehr Details irgendwie schon rausgefunden über das Modell oder ist da wirklich alles nur Gerüchtelage?

Ole Wendland: Es gibt gut qualifizierte Gerüchte, informierte Quellen, wie es immer so schön heißt. Es soll tatsächlich ein sehr großer Brocken sein, also 10 Trillionen Parameter sagt man, also Größenordnung mehr als sie sonst haben und man sieht es im Preis, also der Preis ist fünfmal höher als das teuerste Opus Modell, also 125 Dollar pro 1 Million Token und das spiegelt genau das wider, was du sagst, also das zu betreiben kostet wohl richtig viel Compute. Compute ist das, was Anthropic eh am knappsten ist. Sie sind ständig dabei zu reschedulen, abzuwägen, wo stecken wir jetzt eigentlich unsere paar Ressourcen rein, die wir haben und wie du schon sagst, es ist natürlich eine geniale Marketingaktion und ich glaube, ich sehe das ganz genauso. Sie hätten auch einfach Probleme, das in Masse jetzt zu publizieren, aber gut, jetzt geben sie es halt an ein paar Security Firmen, die hektisch dabei sind, diese Lücken jetzt zu fixen und ob und in welcher Form es dann an die Masse ausgerollt wird, das bleibt noch mal abzuwarten, wobei man natürlich sagen muss, die Strategie ist auch nicht ganz ungefährlich für Anthropic, weil die Open Source Modelle, also die Entwicklung eines solchen großen Modells kostet ja viel Geld.

Fabian Walther: Ja.

Ole Wendland: Und die Open Source Modelle sind ihnen relativ dicht auf den Fersen, also wenn man jetzt so einen mehrmonatigen Trainingslauf einfach ausfallen lässt oder das Modell nicht veröffentlicht, führt es zum Risiko, dass die Open Source Modelle aufschließen und das führt uns auch recht elegant zum nächsten Thema.

Fabian Walther: Ja, genau, wir haben nämlich da ein bisschen was zu den Open Source Modellen, worüber wir sprechen wollen. Bevor wir da jetzt zu gehen, habe ich gerade noch natürlich die Frage, also wenn jemand von euch da draußen Mythos benutzen kann, unsere E-Mail-Adressen und Socials wisst ihr, wir freuen uns über Erfahrungsberichte, was ihr damit für Erfahrungen vielleicht gesammelt habt. Also, schreibt uns, wir sind gespannt. Aber du hast gerade gesagt, Open Source Modelle holen auf. Hatte ich tatsächlich schon für das letzte Mal auf der Liste, haben wir dann rausfallen lassen, aber das GLM 5.1 von der Firma ZAI aus China, das scheint ja momentan richtig abzugehen und ist tatsächlich auch ein Open Source Modell, ne?

Ole Wendland: Auf jeden Fall. Also, es ist ein großes Modell, also man kann es jetzt nicht lokal auf seinem MacBook betreiben, aber es ist das erste Modell, was auf der LM Arena im Bereich Coding in die Top 3 überhaupt kommt und es liegt hinter Opus 46 Thinking, das ist Platz 1, dann kommt Opus 46 und dann kommt schon das Open Source GLM Modell 51 ist es, glaube ich. Und das kommt halt noch vor ChatGPT und noch vor Google.

Fabian Walther: Ja. Und das ist schon gewaltig.

Ole Wendland: Ja.

Fabian Walther: Und vor allen Dingen das kann ich theoretisch einfach runterladen, kann das auf die Hardware packen, kann es auch intern inhouse laufen lassen, und bin dann quasi auf einem ähnlichen Qualitätslevel. Also da kann ich schon verstehen, dass jetzt irgendwie Anthropic alle Register zieht im Marketing und versucht halt die Relevanz zu wahren, und jetzt auch vielleicht Modelle rauszuhauen, die sie vielleicht ansonsten intern noch mal länger optimiert hätten, damit sie effizienter anbieten können, das jetzt eben nicht tun, sondern sagen, okay, wir müssen einfach zeigen, dass wir besser sind, koste es, was es wolle, ne? Weil ja, das ist natürlich jetzt dieses chinesische Modell. Man kann es benutzen, man kann es runterladen und bei sich laufen lassen. Und was ich noch ganz interessant dabei fand, was ich gelesen habe, ist, dass es eben zum Beispiel auch nicht auf Nvidia Hardware trainiert wurde, sondern eben auf chinesischer Hardware und offensichtlich kann man zumindest, was das Training angeht, ne? Ich habe jetzt nichts darüber gelesen, ob das jetzt viel länger gedauert hat, wie da jetzt genau die Ausstattung war. Die Aussage war nur, es waren halt eben keine Nvidia Chips, auf denen es trainiert wurde. Also offensichtlich kann man da nicht nur hinterherkommen immer wieder, sondern man kann auch aufschließen. Also das ist schon eine spannende Entwicklung.

Ole Wendland: Das stimmt.

Fabian Walther: Ich weiß, hast du noch andere Infos?

Ole Wendland: Ja, das ist so ein bisschen die Schattenseite von dem AI Chipband, die die USA verhängt hat. China kommt an die Hochleistungschips nicht ran von Nvidia. Darum sind sie jetzt dabei, ich glaube, die Chips waren von Huawei.

Fabian Walther: Ich meine auch, ja.

Ole Wendland: Aber sie bauen jetzt halt Kompetenz auf. Diese also es läuft komplett ohne Cuda API. Normalerweise würden die Chinesen auch einfach Geld bezahlen, wenn sie Zugriff drauf hätten, aber sie haben halt keinen Zugriff drauf. Das bringt sie dazu, dass sie es jetzt halt selber entwickeln und damit Know-how aufbauen. Ich weiß nicht, ob das so eine schlaue Strategie ist oder ob wir uns damit nicht langfristig doch in den Fuß schießen. Ich bin eigentlich kein Freund von so einem Chipband. Genau, sie haben es komplett selber entwickelt. Sie haben viel Optimierung betrieben, indem sie die Cuda Schnittstelle gar nicht implementiert haben oder umgehen konnten und es soll sehr effizient gelaufen sein. Das ist aber schon die Geschichte, die wir bei Deepseek gesehen hatten. Und die Chinesen fangen eigentlich durch sehr geschicktes Engineering jetzt an, die Limitationen zu umgehen und ich halte es für gefährlich.

Fabian Walther: Naja, Constraints führen immer dazu, dass man kreative Lösungen findet und halt quasi in dem Rahmen, wo man sich bewegt, versucht mit den Mitteln, die man hat, das gleiche Ergebnis zu erzielen. Das ist halt dann die Optimierung, darauf wird es hinauslaufen. Nee, ist schon richtig spannend. Ich hatte nur noch gelesen, das ist halt auch so ein Mix of Experts Modell, was halt eben auch dazu führt, dass die Inferenz halt eben auch ein bisschen effizienter ist, weil halt eben nicht alle Parameter immer aktiv sind. Ich meine, das machen ja viele mittlerweile, aber da kann man es eben, da weiß man es eben offiziell. Und das finde ich schon echt interessant, dass es wirklich ein konkurrenzfähiges Modell ist, was halt eben aber wirklich Open Source ist. Bzw. eigentlich Open Weights, hatte ich mir auch noch gedacht, das müssen wir vielleicht auch mal kurz noch mal erklären oder noch mal ein bisschen definieren. Was ist jetzt Open Source oder Open Weights? Ich habe es mir immer so ein bisschen hergeleitet, so ein bisschen wie früher die Shareware oder Freeware, so die Games, die ich so runterladen konnte, die konnte ich runterladen, konnte ich spielen, man konnte die auch weitergeben, aber ich konnte halt nicht in den Code gucken und wenn es jetzt irgendwie nicht einen neuen Rechner hatte, dann konnte ich es auch nicht neu kompilieren für eine neue Architektur oder sowas. Und so ein bisschen ist es halt bei den Modellen auch, das ist jetzt ein Open Weights Modell, das heißt, ich kann es runterladen, ich kann es verwenden. Dadurch, dass es jetzt MIT Lizenz hat, was ein bisschen was Neues ist, es ist nicht eingeschränkt, kann ich es auch kommerziell verwenden und weitergeben, aber ich habe halt eben nicht die Trainingsdaten und habe nicht den Trainingsprozess transparent. Das wäre für mich dann wirklich so die strenge Open Source Definition, ich kann das Modell reproduzieren, ich kann es halt selber aus den Trainingsdaten wieder herstellen. Oder wie würdest du es definieren?

Ole Wendland: Ja, wobei ich fairerweise auch sagen muss, ich hätte nicht die Hardware, das zu trainieren. Also diese Trainingsläufe kosten ja hunderte Millionen mittlerweile. Wenige Firmen, vielleicht könnte es SAP noch schaffen, aber allgemein haben, glaube ich, in Europa oder weltweit wenig Firmen die Power und die Rechenzentren zur Verfügung, so ein Modell wirklich zu bauen. Aber in den Lizenzen tut sich ganz viel, also die Chinesen waren eh schon immer führend und das jetzt häufig dann aber noch so mit Einschränkung, ich glaube, Facebook Meta war es, die mit Lama so eine gewisses Limit eingeführt haben, wie viel User man dann damit bedienen konnte und dann war es doch nicht wieder Open Weights und dass es jetzt unter einer MIT Lizenz veröffentlicht wird, finde ich einen richtigen guten Schritt in die richtige Richtung, aber auch die Amerikaner haben aufgeholt in dem Bereich Lizenz, habe ich gehört.

Fabian Walther: Mit Lama, genau. Ja, genau. Gemma 4 haben wir hier noch stehen und da geht’s tatsächlich von Google ein Modell und das ist jetzt plötzlich auch unter der Apache 2 Lizenz, also kommerziell dann eben nutzbar und weitergebbar. Auch spannend, dass scheinbar jetzt da so ein bisschen der Trend sich dahin, dass man eben nicht versucht, so wie im Open Source Bereich, wo es ja eher so ein Backlash gibt, dass jetzt irgendwie immer mehr Lizenzen verwendet werden, dass man zwar den Code reingucken kann, aber es dann zum Beispiel nicht kommerziell hosten darf, so diese Einschränkung kommen. Bei den Modellen geht’s gerade erst in die andere Richtung, dass mehr Offenheit offensichtlich entsteht. Genau, Gemma 4, hast du noch weitere Insights? Also ich habe halt nur später noch einen Tipp dazu, weil das eben auch ein Modell ist, was es in einer großen Bandbreite gibt, in verschiedenen Ausbaustufen.

Ole Wendland: Ja, ja. Ich glaube, das war irgendwie die Idee von Gemma 4, jetzt Edge AI nennt man den Trend, glaube ich, dass man AI tatsächlich in so kleinen Größen portioniert und rausgibt, dass sie halt auf dem Smartphone laufen oder auf dem Rechner als Assistent ständig dabei und ich habe die Modellgrößen jetzt nicht im Kopf. Ich glaube, um 2,5.

Fabian Walther: Geht’s, glaube ich, los, ne? 2,5 Milliarden Parameter geht’s los dann. Genau. Und dann aber hoch, glaube ich, bis 30 oder 40 war das dann, glaube ich, was man dann eben gehostet dann eben nutzen kann, ne? Ja.

Ole Wendland: Erzähl auch ein bisschen über die Edge Gallery. Ich finde das super interessant.

Fabian Walther: Ach so, ja, genau, das hatte ich eigentlich als Tipp der Woche mitgebracht, aber du hast es gerade gesagt, es geht darum, dass man ja auf dem Smartphone auch die Modelle für Spezialaufgaben eben haben will. Apple hat das ja auch schon sogar mit ihrer eigenen Hardware Einheit, wo diese kleinen Modelle eben schon drin laufen für spezialisierte Aufgaben und da hat Google jetzt eben so eine App rausgehauen, die Google AI Edge Gallery. Ich muss es ablesen, weil Google und Namen von Produkten, das ist irgendwie bei denen echt schwierig. Aber im Grunde ist es so eine Test App, die man sich, gibt’s für Android und für iOS und ist dann jeweils auf die Hardware auch optimiert und da kann man sich dann eben jetzt verschiedene Varianten des Gemma Models runterladen. Geht dann so los bei einfach zweieinhalb Gigabyte Download, kann man in der App runterladen und kann dann wirklich lokal ein Modell benutzen, was performant auf dem iPhone bei mir jetzt eben läuft. Und ich hatte so ein bisschen das Gefühl, also Gefühl, ne, also ich habe einfach mal so einfach jetzt normal den Chatbot Interface dann genutzt. Es gibt auch in der App zum Beispiel die Möglichkeit dort wirklich auch Skills zu benutzen, dass dann auch das Modell aus der App heraus zum Beispiel eine Karte aufrufen kann oder so, das kann man da alles ausprobieren. Aber zumindest einfach jetzt so aus einer Konversation mit dem Chatbot Interface raus, hat sich das mindestens so gut angefühlt, wie gehostete Modelle von vor zwei, drei Jahren. Und das jetzt eben in zweieinhalb Gigabyte auf dem Smartphone. Und ich habe dann so ein bisschen Hoffnung plötzlich gehabt, weil jetzt ja auch Apple mit Google zusammenarbeitet, was ihre Siri angeht, dass man das vielleicht so ein bisschen so eine Sneak Peek ist, was vielleicht dann irgendwann auch nativ auf dem iPhone integriert funktionieren wird, mit Siri dann eben, dass Apple dann da endlich mal aufholt, dann eben halt vielleicht mit Hilfe von Google. Aber ich kann mir schon vorstellen, weil in der App konnte man jetzt verschiedene Skills ausprobieren. Wenn dann so eine lokale KI dann eben halt eine Möglichkeit hätte, über lokale Schnittstellen, vielleicht auch gewisse Systemfunktionalitäten dann eben schon auszulesen, Kontext zu bekommen, Location Daten vielleicht, aber eben halt mit einem entsprechenden Berechtigungssystem auch, wie es jetzt eben auch im iPhone zum Beispiel mit diesen Permissions implementiert ist, aber das hast eben alles in deinem lokalen Modell auf dem Rechner, es wird nicht rausgepustet. Also das, was Apple eigentlich immer verspricht, also jetzt durch diese App habe ich so ein bisschen das Gefühl, ich habe eine Ahnung davon, dass das endlich das mal realisiert werden kann. Also dass Apple das realisieren kann, ja.

Ole Wendland: Ja, Datenschutzmäßig ist das natürlich super interessant, dass man die Dinge wirklich lokal betreiben kann. Und wieder mal bin ich überrascht, wie schnell es ging. Also wie du schon sagst, es fühlt sich an wie ein ChatGPT 4 vielleicht, wofür man noch mehrere H100s brauchte, um das vernünftig zu betreiben und jetzt innerhalb von zwei Jahren läuft’s bei mir quasi in der Hosentasche und das ist total beeindruckend, wie schnell sich die Welt auch da weiterentwickelt und ich kann es auch eigentlich nur begrüßen, dass wir mehrere verteilte kleine Modelle haben, die dann good enough für ihre Aufgaben sind, die meine Notizen erfassen oder mein OCR Dokumentenverwaltung machen. Ich will die Daten nicht unbedingt in die USA schicken und wenn es da Wege gibt, das zu verhindern, immer her damit, ne?

Fabian Walther: Ja, ja. Nee, ich meine, ich hoffe, dass wir dann da auch wirklich irgendwann ankommen. Natürlich kannst du dann immer für jedes Problem so ein fettes Frontier Modell heranziehen, das löst das dann auch irgendwie, aber ich glaube dann auch noch so ein bisschen das Gute im Menschen, dass man auch sich irgendwann vielleicht darauf besinnt, vielleicht auch so ein bisschen Ressourcenschonender mit der Geschichte umzugehen, dann eben zu sagen, um jetzt hatte vorhin mit dem Kollegen drüber diskutiert, wenn man jetzt zum Beispiel lokal so Dokumentenmanagement macht und dass ich ganz gerne irgendwas hätte, wo ich dann, wenn ich irgendwie Dokumente scanne, was mir dann einfach nur diese Dinger vernünftig wegsortiert und Dateinamen generiert, so. Ja, kann man jetzt alles schon machen, kannst du einfach dein ChatGPT dran knuppern und dann funktioniert das, aber das ist etwas, das kann ich auch sehr fokussiert wahrscheinlich von so einem kleinen Modell lokal machen lassen, dann muss ich auch nicht die Inhalte all meiner Dokumente irgendwo hochladen. Das kann dann vielleicht mir nicht beim Coding helfen, aber kann einfach wunderbar Dateinamen extrahieren aus einem Dokumenteninhalt, oder es kategorisieren und da hoffe ich, dass es dadurch so ein bisschen hingeht und da kann man so ein bisschen sehen, was vielleicht dann gehen wird, ja.

Ole Wendland: Das ist tatsächlich ein ganz wunderbarer Use Case, weil du willst deine ganzen Dokumente, sei es Steuer, sei es irgendwelche Arztrechnung, das willst du eigentlich nicht unbedingt zu Anthropic oder OpenAI.

Fabian Walther: Und nicht nur eigentlich nicht, das will ich nicht.

Ole Wendland: Das will ich nicht. Und ja, der das Schadenspotenzial ist halt auch begrenzt, wenn der den Namen der Datei, wenn der jetzt minimal falsch ist oder nicht hundertprozentig passend ist. Also mir hilft es, also ich bin auch so ein kleiner Dokumenten Messi.

Fabian Walther: Okay.

Ole Wendland: Und ich finde gut benannte Dokumente, also die einfach aus dem Scanner gut benannt rauskommen, die dann gut abzulegen sind, die vielleicht noch kategorisiert sind, ist für mich ein totaler Game Changer, weil ich das sonst immer von Hand gemacht habe und eigentlich nie Lust darauf hatte und dann hatte sich mein ganzer Dokumentenordner mit 200 Dokumenten angesammelt, wenn es dann irgendwie mal ein regnerischen Tag war oder irgendwas ausfiel, dann hat man sich halt hingesetzt und die von Hand umbenannt in was, wo was einem was sagt und der perfekte Use Case.

Fabian Walther: Ja, genau, dieser Tag, der kommt nämlich bei mir schon nicht so in den letzten zwei Jahren ungefähr und deswegen ist mein Inbox Folder, wo ich immer die Dokumente reinscanne, angewachsen und ich bin jetzt, glaube ich, an dem Punkt, wo ich kurz vor Kapitulation bin, weil ein regnerischer Tag nicht mehr ausreicht. Ich bräuchte vermutlich eine regnerische Woche, ja. Genau, insofern das wäre jetzt, glaube ich, dann mein nächstes Projekt zu gucken, wie ich das irgendwie deployen kann zu Hause bei mir, um dann dieses diesen Anwendungsfall, vielleicht kann ich ja davon dann mal berichten. Ja, ich glaube, das jetzt haben wir so ein bisschen den Tipp der Woche vorweggenommen, den ich hatte. Ich glaube, das waren für mich jetzt die wichtigsten Punkte bisher, oder wolltest du noch was gerne noch machen?

Ole Wendland: Was fällt mir noch ein Punkt können wir vielleicht noch kurz ansprechen, was auch in den letzten zwei Wochen in den News war, dass der Open Claw Benchmark.

Fabian Walther: Ach ja.

Ole Wendland: Das können wir noch einbringen, weil es eine Thematik betrifft. Eigentlich geht es im Prinzip um Reward Hacking, oder es klingt so negativ. Es liegt im Trainingsprozess selbst. Diese Large Language Models sind ja nicht deterministische Modelle und in den Trainingsläufen werden sie auch anhand der bestehenden Benchmarks, sei es SWE für Software Engineering oder OS World für Agentic Tasks, benutzt. Dieser Open Claw Benchmark wurde dafür entwickelt, dass er alltägliche Aufgaben nachstellt, also Reisebuchung oder irgendwelche Formulare ausfüllen und so weiter. Was man sieht: Die Modelle, die eigentlich schon in den Benchmarks sehr gute Scores erreichen, teilweise 75 % bei so einem OS World, sind auf einmal eher bei 6,5 %. Das Beste war, glaube ich, Sonnet, das hat teilweise 30 % der Aufgaben erfüllen können, aber es ist meilenweit davon weg, was eigentlich die Benchmarks versprechen. Ich glaube, da muss man auch ein bisschen realistisch oder nachsichtig sein. Sie werden in den Trainingsphasen danach evaluiert, und darum ist ein gutes Abschneiden in diesen Benchmarks Teil des Trainingsprozesses.

Fabian Walther: Ja, das ist immer das Problem. Ich glaube, das ist auch der Grund, warum wir ständig neue Benchmarks brauchen, weil Benchmarks eine Metrik sind, wie gut ein Modell ist. Natürlich fangen die Hersteller an, mit diesen Metriken ihre Modelle zu optimieren, und dann hast du immer Modelle, die auf die Benchmarks optimiert sind und nicht mehr auf die tatsächlichen Probleme, weil diese Benchmarks immer nur Modelle sind. Deswegen kommen wir da, glaube ich, nicht raus, dass man immer wieder neue Benchmarks etablieren muss, die dann vielleicht auch immer komplexer werden, die immer komplexere Dinge abprüfen und dann immer wieder eine Challenge für die Modelle sind. Also ist, glaube ich, ein ganz natürlicher Prozess, so der, nachdem der Turing Test jetzt gefallen ist, jetzt muss man den neuen Turing Test finden. Und da batteln sich gerade alle. Ja, das ist noch mal ganz cool, da gibt es auch ein entsprechendes Paper zu, das können wir auch noch verlinken. Genau, ich gucke noch mal auf meine Notizen.

Ole Wendland: Ja.

Fabian Walther: Haben wir unsere Event-Sonderfolge.

Ole Wendland: Ich glaube auch, die Restaurants rufen, wir sollten heute nicht überziehen.

Fabian Walther: Nein, auf keinen Fall sollten wir überziehen. Da sind wir lieber schneller wieder da und wieder mit weiteren, hoffentlich aktuellen Geschichten. Gut, dann gehen wir jetzt zum Essen und diskutieren noch ein bisschen weiter und dann danke ich euch, dass ihr dabei wart und hoffe, dass wir uns bald wiedersehen, hoffentlich dann auch demnächst mal wieder vor Ort.

Ole Wendland: Schreibt fleißig in die Kommentare, wenn ihr etwas zu erwähnen habt. Und wir freuen uns, von euch zu hören.

Fabian Walther: Genau. Und wenn ihr Mythos benutzt, ihr findet meine E-Mail.

Ole Wendland: Macht’s gut.

Zusammenfassung

Zusammenfassung ausklappen / einklappen

Diese Zusammenfassung wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Maßgeblich ist immer das im Mitschnitt gesprochene Wort.

Anthropic’s mysteriöses Modell Mythos

Fabian Walther und Ole Wendland diskutieren die Gerüchte um Anthropic’s neues KI-Modell namens Mythos. Dieses Modell, das angeblich über 10 Billionen Parameter verfügt und fünfmal teurer ist als das bisher teuerste Opus-Modell, wird nur einer ausgewählten Gruppe von Unternehmen zur Verfügung gestellt. Die Vorsicht von Anthropic rührt von der angeblichen Fähigkeit des Modells her, Zero-Day-Exploits zu finden und auszunutzen, was es als zu gefährlich für eine breite Veröffentlichung erscheinen lässt. Fabian vermutet, dass dies auch eine geschickte Marketingstrategie sein könnte, um die künstliche Verknappung zu nutzen und gleichzeitig Infrastrukturprobleme zu kaschieren, da der Betrieb des Modells enorme Rechenressourcen erfordert. Ole stimmt zu, dass es sich um eine geniale Marketingaktion handelt, die jedoch das Risiko birgt, dass Open-Source-Modelle aufholen, wenn Anthropic seine Modelle nicht zeitnah veröffentlicht.

Open-Source-Modelle holen auf: GLM 5.1 und Gemma 4

Die Diskussion wendet sich den Fortschritten im Bereich der Open-Source-Modelle zu. Fabian und Ole heben das GLM 5.1-Modell der chinesischen Firma ZAI hervor, das sich in der LM Arena im Bereich Coding in den Top 3 platziert hat – noch vor ChatGPT und Google. Dieses Modell ist Open Source (genauer gesagt Open Weights) und kann lokal betrieben werden, was es zu einer attraktiven Alternative für Unternehmen macht, die Wert auf Datenhoheit legen. Besonders bemerkenswert ist, dass GLM 5.1 nicht auf Nvidia-Hardware trainiert wurde, sondern auf chinesischer Hardware, was die Entwicklung von KI-Chips außerhalb der USA vorantreibt. Ole sieht darin eine Schattenseite des US-Chip-Banns, da China gezwungen ist, eigene Kompetenzen aufzubauen.

Edge AI und lokale KI-Anwendungen

Fabian und Ole sprechen über den Trend der Edge AI und die Möglichkeit, KI-Modelle direkt auf Endgeräten wie Smartphones zu betreiben. Google hat hierzu die Google AI Edge Gallery veröffentlicht, eine Test-App für Android und iOS, die es ermöglicht, verschiedene Varianten des Gemma-Modells lokal herunterzuladen und zu nutzen. Fabian ist beeindruckt von der Performance dieser lokalen Modelle, die sich anfühlen wie gehostete Modelle von vor zwei bis drei Jahren, aber nur 2,5 Gigabyte auf dem Smartphone benötigen. Er sieht darin eine vielversprechende Entwicklung für datenschutzfreundliche Anwendungen, wie beispielsweise ein lokales Dokumentenmanagement, das Dateinamen generiert und Dokumente kategorisiert, ohne sensible Daten in die Cloud senden zu müssen. Ole betont den Vorteil, dass man seine Daten nicht in die USA schicken muss und dass das Schadenspotenzial bei lokalen Anwendungen begrenzt ist.

Die Herausforderung von Benchmarks und Reward Hacking

Zum Abschluss der Episode diskutieren Fabian und Ole die Problematik von Benchmarks und „Reward Hacking”. Der Open Claw Benchmark, der alltägliche Aufgaben wie Reisebuchungen oder Formularausfüllen simuliert, zeigt, dass Modelle, die in traditionellen Benchmarks wie SWE oder OS World sehr gut abschneiden, in realitätsnahen Szenarien oft deutlich schlechter performen. Dies liegt daran, dass die Modelle während des Trainings auf die Optimierung dieser spezifischen Benchmarks hin evaluiert werden. Fabian erklärt, dass dies ein natürlicher Prozess ist, der ständig neue und komplexere Benchmarks erfordert, um die tatsächliche Leistungsfähigkeit der Modelle zu messen.

Senior Consultant

Fabian Walther beschäftigt sich bei INNOQ als Architekt und Entwickler besonders gern mit allem was Entwicklungsteams motiviert und (dadurch) erfolgreich macht. Dabei spielen für ihn organisatorische Rahmenbedingungen ebenso eine Rolle wie technische Werkzeuge. Technologisch fühlt er sich besonders im JVM-Umfeld zuhause und ist großer Fan von Continuous Delivery.

Senior Consultant

Ole ist Senior Consultant und Software Architekt bei INNOQ in der Schweiz. Mit seiner breiten Erfahrung in Software-Projekten verbindet er technische Expertise mit einem tiefen Verständnis für die Herausforderungen moderner Unternehmen. Sein Fokus liegt darauf, fachliche Anforderungen in nachhaltige, zukunftsorientierte Lösungen zu übersetzen. Als Allrounder fühlt sich Ole im gesamten Stack zu Hause und erweitert ständig sein Kompetenzspektrum. Neben seiner fundierten Backend- und Frontend-Erfahrung beschäftigt er sich intensiv mit Large Language Models (LLMs) und innovativen Einsatzmöglichkeiten von Foundation Models. Ole sieht in diesen Technologien großes Potenzial, um Geschäftsprozesse zu optimieren und neue Wertschöpfungsmöglichkeiten für Kunden zu erschließen.