AI News #4. Opus 4.7 und die Token-Frage. GPT 5.5 enttäuscht. Open Source rückt näher.

Weitere Episoden anhören

Shownotes & Links

Transkript

Transkript ausklappen / einklappen

Dieses Transkript wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Maßgeblich ist immer das im Mitschnitt gesprochene Wort.

Fabian Walther: So, das sieht gut aus. Ich denke, wir nehmen auf. Hallo Ole, ich begrüße dich zu unserer neuen Folge.

Ole Wendland: Hallo, heute wieder im gewohnten Setup.

Fabian Walther: Genau, heute wieder aus dem Homeoffice. Wir sind alle wieder heimgekehrt, trotz diverser Reiseschwierigkeiten, die wir da immer haben, aber alle sind wieder im Homeoffice angekommen und wir können wieder gemütlich von hier aus Podcasten. Das ist übrigens ein guter Hinweis: Podcast. Manche hören uns ja im Podcast-Feed. Ich wollte noch mal darauf hinweisen, dass wir aber natürlich auch auf unserem YouTube-Kanal sind und da eben auch mit Video. Also, wer aus irgendwelchen Gründen unsere Gesichter sehen möchte, während wir Dinge erzählen, mag auf YouTube gucken. INNOQ TV ist der Channel da. Das fiel mir nur ein, weil jemand fragte, wie das denn mit dem Podcast ist. Genau, im Podcast-Feed kein Video, auf YouTube Video. Gut, so viel zu den organisatorischen Sachen. Inhalte haben wir natürlich auch mitgebracht. Es gab richtig viele Model Releases, allerdings irgendwie, wir haben gerade so kurz drüber gesprochen, nicht so richtig, was einen vom Hocker haut, sondern viel so Punkt-Updates, sowohl im kommerziellen als auch im Open Source/Open Weights Bereich. Wir gehen gleich mal durch und schauen, was da vielleicht trotzdem Spannendes für uns jetzt drinsteckt. Und ein bisschen Gossip haben wir auch noch. Firmen kaufen andere Firmen und wir wissen nicht so richtig, warum. Damit können wir vielleicht gleich mal einsteigen. Genau, ich hatte das.

Ole Wendland: Der Grund ist einfach: Leute haben genügend Geld gewollt.

Fabian Walther: Ja, wahrscheinlich ist es so, ja. Wir wissen nicht, warum, aber es ist ja da ein wildes Hin und Her aufgekaufe. In dem Fall jetzt SpaceX kauft Cursor. Ich bin mir nicht so sicher, ob jetzt SpaceX quasi schon gemerged ist mit Grok AI, wo ja die ganze AI-Firma von Elon drin aufgegangen ist. Ich vermute mal, dass das wahrscheinlich dann so eine Folge daraus ist, dass jetzt diese ganze AI-Thematik dort in SpaceX vereint ist und dass die jetzt versuchen, ja, eben da sich am Markt noch stärker zu etablieren. Cursor ist ja eigentlich eine IDE, oder eine Agent-Orchestrierungs-IDE. Ich habe sie selber noch nicht benutzt, aber sie scheint ziemlich beliebt zu sein. Und SpaceX übernimmt die jetzt also und aus dem Tweet bin ich auch nicht so richtig schlau geworden. Mein Take dazu oder mein Gedanke dazu war nur, es ist wirklich, glaube ich, gerade zu früh, die ganze Firma auf jetzt ein Tool zu ziehen und zu sagen, Cursor gefällt uns gut, wir schulen jetzt alle in Cursor und passen unsere ganzen Workflows daran an, weil wir eben immer nicht wissen, wenn jetzt jemand jemanden kauft, ob das eben so ein Acquire ist und es eigentlich nur um die Talente geht und das Produkt dann einfach eingestampft wird. Also, ja, da ist so viel im Fluss, weswegen ich persönlich mich ungern auf Tools festlegen möchte, wobei wir natürlich viel Claude Code einsetzen, aber auch immer wieder mit den Alternativen eben schauen, was grundsätzlich geht, oder hast du dich schon ganz klar eingeschossen auf irgendwelche Tools, auf die du gar nicht mehr verzichten könntest?

Ole Wendland: Oh, das ist ja eine gute Frage. Tools, auf die ich gar nicht mehr verzichten wollen würde. Nee, eigentlich glaube ich tatsächlich nicht. Also Claude würde mir schon wehtun, denke ich, wobei das auch übertrieben ist. Also ich sehe da durchaus bei den anderen auch Stärken, also ich könnte auch mit einem, ich glaube tatsächlich, dass die alle mittlerweile gut genug geworden sind und ja, der Hahn ist ein bisschen an das Modell gekoppelt jetzt, aber auch nicht so weit. Also, wenn ich meine Skills und so weiter alles weiter benutzen könnte, dann hätte ich da auch überhaupt kein Problem irgendwie zu wechseln. Ich meine, Cursor war immer schon so eine, ich hätte jetzt fast ‘wilde Sau’ genannt. Die waren ja immer sehr radikal, was das um ihre Redesigns anging und ich hatte jetzt gehört, jetzt wollen sie den Code View komplett abschaffen, was für eine IDE natürlich auch ein mutiger Move ist. Also die Entwickler sollen eigentlich nur noch in Prompts und in Specifications arbeiten und sich gar nicht mehr um den Code kümmern. Schauen wir mal, im Hintergrund habe ich irgendwas davon gehört, dass es primär um Geld und Rechenkapazität ging, dass also SpaceX ihnen versprochen hat, extrem viel Rechenkapazität zur Verfügung zu stellen. Aber ja, Cursor wäre jetzt tatsächlich auch eins der Tools, mit dem auf das ich verzichten könnte.

Fabian Walther: Ja, ich habe gerade nur gedacht, das ist wirklich sehr gewagt, weil für mich die IDE eigentlich eher momentan dazu dient, Code zu reviewen. Das heißt, da will ich den Code besonders gut sehen, nämlich auch der, der eben generiert wurde. Da möchte ich eben relativ schnell durchsteppen können, was die Änderungen sind und ja, insofern ist für mich eigentlich eine IDE momentan eher ein Code-Review-Tool, deswegen finde ich diesen Schritt sehr interessant. Ja, also wir wissen noch nicht genau, was wir davon halten können. Die Botschaft ist wahrscheinlich: Passt auf, an welche Tools ihr euch bindet und versucht eher Konzepte zu verinnerlichen, die übertragbar sind zwischen Tools. Ja, dann haben wir den ganzen Newsreigen, die ganzen Modelle. Womit fangen wir an? Hast du einen Wunsch?

Ole Wendland: Wir fangen immer mit Anthropic an. Ich weiß nicht, ob es gut ist. Bleiben wir dabei, würde ich sagen. Wir haben es tatsächlich auch gerade verpasst. Also, ich glaube, unsere Aufnahme war zu Ende. Wir saßen unten beim Bier und zwei Stunden später kam irgendwie die News auf Twitter. Nee, X heißt es ja jetzt, dass Opus 4.7 raus ist.

Fabian Walther: Genau, das hat mich dann kurz geärgert und da habe ich gedacht, na ja, das bedeutet, die nächste Folge muss halt schneller wiederkommen. Genau, also da kann man nicht immer dranbleiben. Ja. Opus 4.7, also für mich war das als Claude Code Benutzer, ich würde jetzt mal sagen, komplett reibungslos. Also, ich habe tatsächlich keine Unterschiede gemerkt, das ging für mich einfach durch und ich habe dann erst so ein bisschen im Nachgang die ganze Diskussion mitbekommen, dass jetzt die Sache mit den Tokens dort irgendwie komisch ist und dass das Modell jetzt in bestimmten Konstellationen irgendwie dreimal so viel Tokens verbraucht wie vorher, was natürlich dann für die Nutzer, die das über die API-Bepreisung nutzen oder halt auch für das Inklusivvolumen, dass man schneller in die Limits läuft, offensichtlich signifikante Auswirkungen hatte. Bist du da auch reingelaufen und hast du das gemerkt?

Ole Wendland: Ich bin selber noch nicht reingelaufen, ich hatte aber die ganze Diskussion auch verfolgt. Ich weiß nicht genau, ob da nicht was Größeres noch hintersteckt. Also, das Problem ist, da ist ja noch vieles im Unklaren. Sie haben das neue Vokabular noch nicht veröffentlicht. Man weiß also gar nicht, welchen Ziel dieser Token, neue Tokenizer hat oder warum er jetzt so besser sein soll. Also in den Benchmarks hat man es nicht gesehen, dass es so signifikant besser sein soll. Das hat natürlich das Geschmäckle, dass es wirklich darum gehen kann, sie können die Preise nicht erhöhen, sie wollten die Quote nicht zu stark senken. Na gut, dann schrauben wir jetzt am Tokenizer. Auf der anderen Seite ist der Tokenizer, glaube ich, ein gutes Instrument, wenn es auch um Sicherheit geht. Also, es wäre ja vielleicht mal sinnvoll, Tokens einzuführen, die dann Tool Call Output vom User geschriebenen Prompts unterscheidet, dass das Large Language Model da differenzieren kann, was habe ich jetzt im Internet gelesen und was ist ein User Prompt? Zurzeit werden die ja alles als Tokens gleich behandelt. Ist so ein bisschen meine Hoffnung, dass sich da was in die Richtung tut, aber wie gesagt, zurzeit ist es noch Kaffeesatzleserei, aber ja, es fällt auf, dreimal, nee, 30 % mehr Tokenverbrauch und in den Benchmarks keine signifikante Änderung. Das ist auch ein bisschen komisch.

Fabian Walther: Ja, die interne Kommunikation war oder nicht die interne, sondern die Kommunikation war dann, dass durch diese höhere Tokenanzahl mehr differenziert wird, dass mehr zusammengesetzte Worte dazu führen, dass dann das Instruction Following irgendwie besser funktioniert, ne? Also, dass dann weniger Ambiguität zwischen verschiedenen Wortvarianten herrscht und deswegen das Modell eher den Anweisungen folgt. Das war die offizielle Kommunikation, die dann zumindest auch mit rausgefallen ist noch mal im Nachgang. Ja, ich habe jetzt tatsächlich da bei in der Nutzung nichts in der Richtung gemerkt, hatte aber vorher jetzt auch keine Schwierigkeiten, insofern konnte ich jetzt da, habe ich da jetzt keine, außer die Benchmarks, die man überall liest, eben auch keine weitere Meinung zu. Für mich hat es jetzt keine Verschlechterung ergeben. Ich muss aber auch sagen, ich bin jetzt auch nicht jemand, der 37 Agents parallel laufen lässt und ständig in die Limits reinläuft. Also, ich mache das noch sehr gezielt, deswegen waren die Limits für mich jetzt kein Problem. Ja, also, was ich was ich noch gelernt habe, ist, dass es eben bei Anthropic in der API dann diese Tokenizer API gibt, wo man eben Prompts hinschicken kann und dann eben zurückkommt Informationen, wie in wie viele Tokens da der Prompt jetzt zerlegt werden würde, dass man eher bestimmte Prompts testen kann oder bestimmte Inputs testen kann und dann schauen kann, wie viel wie viel Tokens würde das denn verbrauchen und diesen Endpunkt kann man eben einfach so benutzen, um bestimmte Sachen zu testen. Das fand ich noch ganz ganz spannend, was das angeht. Ja, müssen wir mal gucken, ob dann mit Mythos da was ganz anderes passiert oder ob wir jetzt bei diesen Punkt-Updates bleiben, was diese Opus Linie angeht, ne?

Ole Wendland: Ja, für mich war es kein großer. Was noch interessant war, sie hatten noch Claude Design damit veröffentlicht. Ihr eigenes AI Design System und haben damit auch gleich Figma auf eine Talfahrt der Aktienkurse geschickt und witzigerweise einer vom Seaboard, ich weiß nicht genau, einer von den Anthropic Managern war auch bei Figma mit im Board und es in dem Zuge musste ist er oder wurde zurückgetreten.

Fabian Walther: Ja, das würde mich dann, da würde mich dann auch mal dann der Gossip im Nachgang interessieren, was denn da Henne und was Ei war, ob sie dann gesagt haben, 'ne, wenn ihr jetzt wirklich in direkteste Konkurrenz zu uns tretet, dann ist das hier vorbei, das Verhältnis, ne? Oder oder was da im Hintergrund war. Das können wir natürlich auch nur mutmaßen. Ja, aber das ist natürlich jetzt eine klare Konkurrenz, ne? Diese Modelle fressen halt bestimmte Geschäftsmodelle komplett auf, ne? Also, das ist mir mir immer besonders in Erinnerung noch bei diesem ganzen OCR Thema, ne, wenn man früher spezielle Geschichten Machine Learning Systeme hatte, die irgendwie, ne, ich kenne, wir kennen es jetzt von der Belegerkennung. Da gab es halt spezielle Anbieter und jetzt macht das halt eben so ein Modell halt eben auch noch nebenbei mit und man braucht keinen, ja, keinen speziellen Produktanbieter mehr dafür und das frisst natürlich komplette Branchen auf, ne? Und auch da sieht man jetzt diesen diesen Konflikt, ja. Ja, interessant, da bin ich bin ich auch mal gespannt, was dann mit solchen Firmen halt eben passiert, zumal Figma ja auch selber dann eben wahrscheinlich eigene AI Produkte einbaut. Da muss man dann gucken, ob die das dann nicht, ne, weil sie mehr von Design verstehen als jetzt so ein General Purpose Modell Anbieter, die dann nicht vielleicht doch am Ende als Sieger hervorgehen. Wir werden es sehen.

Ole Wendland: So, machen wir weiter, ne? Wir haben noch ein paar Releases.

Fabian Walther: Wir haben noch ein paar Releases, bevor wir uns hier verquatschen. Es gab noch einige, also, wenn wir bei Anthropic sind, müssen wir wahrscheinlich einfach mit OpenAI weitermachen, ne? Da kam GPT 5.5 raus und da warst du nicht so begeistert, ne?

Ole Wendland: Ja, ja, doch. Punkt, kann man eigentlich stehen lassen. Was ganz spannend war, ich habe mich ja eh schon gefragt, wie sie diese zwei Monats- bis anderthalb Monats-Release-Zyklen überhaupt hinbekommen, weil in meinem Kopf dauerten diese Pre-Trainings und Post-Trainings länger. In dem Zusammenhang kam raus, dass seit 4.5 der erste vollständige neue Trainingslauf war und alles, was nach 4.5 bis 5.5 kam, waren halt Trainingsmeilensteine, die sie einfach danach released hatten. Das war in meinem Kopf noch mal so das Aha-Erlebnis, so funktioniert das also mittlerweile. Obwohl es der erste große Neubau ist und obwohl sie eigentlich die Preise erhöht haben – sie sind jetzt wieder das teuerste Modell, glaube ich, wenn wir mal Mythos rausnehmen – kosten sie jetzt 30 Dollar pro 1 Million Output Tokens. Sie haben eigentlich keine radikalen Fortschritte gemacht. Die Halluzinationsrate soll jenseits von Gut und Böse sein, berichten die Leute. Teilweise 80 % Halluzinationen bei speziellen Halluzinationsbenchmarks, wo so missverständliche Fragen gestellt werden. Wo Opus, glaube ich, bei 37 % ist, da ist 80 % schon kritisch. Sie haben auch den neuen Anthropic Move gezogen, dass es also ein 5. Cyber gibt, was zu gefährlich ist, dass man es releasen kann und man ist jetzt auch nur an eine begrenzte Anzahl an Firmen released. Und ich denke so, hm, na ja, okay. Es ist teuer, es ist nicht signifikant besser. Es ist sogar, glaube ich, wenn ich das in der LLM Arena richtig gesehen habe, im Coding Benchmark liegt es sogar hinter 5.4. Das ist dann schon ein bisschen schlecht, wenn man die Preise erhöht hat.

Fabian Walther: Ja, ich habe nur gedacht, okay, die Modelle, wo man die ganzen Security Guards nicht einbaut beziehungsweise ausbaut, werden dann quasi jetzt über so einen Gatekeeping-Mechanismus doch an spezielle Leute rausgegeben, wo man eigentlich weniger Aufwand treiben muss, weil man diese ganzen Security-Sachen da nicht einbaut und dann verkauft man das als Feature. Das ist irgendwie auch ja. Man verkauft eine Waffe ohne Sicherung und sagt, das ist jetzt ein Feature. Das fand ich irgendwie auch ja, irgendwie schwierig, aber es wirkt für mich halt auch, als ob sie auf diesen Marketingzug einfach mit aufspringen und denken, ja, wir haben auch sowas, was noch mächtiger ist, aber was wir halt nur speziellen Gruppen zur Verfügung stellen. Na ja, finde ich auch, finde ich auch kritisch. Es hätte mich jetzt fast eigentlich zur Überleitung gebracht zu den Open Source Modellen, wo man dann eben zumindest mehr Dinge bewerten kann mit den Teilen, was da eigentlich passiert oder hast du noch was zu GPT 5.5?

Ole Wendland: Simon Willison hat, glaube ich, geschrieben, dass es das Beste ist, was GPT 4.5 passieren konnte, das ist jetzt halb so teuer und immer noch ausreichend gut genug.

Fabian Walther: Okay. Ja, ja, ja, ist ich bin auch mal gespannt. Ich habe das Gefühl, dass man nicht mehr gerade sagen kann, wer so klar der Marktführer ist, sondern es ist wirklich alles extrem auf Kante und keiner kann so einen Sprung nach vorne irgendwie machen und alle versuchen sich jetzt entweder so wie Anthropic mit Mythos mutmaßlich über einfach pure Rechenpower irgendwie noch nach vorne zu arbeiten, wo es scheinbar so ein bisschen so ein ja, irgendwas, was dann wieder einen klaren Vorteil verschafft, fehlt. Ich vermisse so ein bisschen diesen Gemini-Moment, wo Google halt wirklich mit so einem Sprung aufgeholt hat und dann sogar gleich vorne war. Das fand ich interessant. Sowas haben wir schon jetzt länger nicht mehr gesehen. Da vielleicht sind wir einfach verwöhnt. Und vielleicht kommt ja die Innovation tatsächlich aus dem Open Source Bereich. Da habe ich tatsächlich noch auf der Liste mir verschiedene Dinge anzugucken, die ich auch lokal ausprobieren möchte. Noch fehlt mir da ein bisschen RAM für mit 32 GB RAM, was ich gerade lokal habe, bekomme ich nicht so weit. Da komme ich vielleicht höchstens mit dem Qwen-Modell noch hin. Aber ja, hast du noch mehr Informationen? Wir haben hier auf der Liste auch DeepSeek V4 stehen, wir haben Kimi stehen. Die beiden habe ich mir noch gar nicht angeschaut.

Ole Wendland: Ja, also, ich habe mir DeepSeek V4 noch nicht live angeschaut. DeepSeek hat in meinem Herzen immer so einen kleinen besonderen Spot, weil das damals der erste AI Podcast DeepSeek V3 war, womit ich eigentlich angefangen habe. DeepSeek ist ein chinesisches Modell und ich glaube letztes Jahr im Januar haben sie, nee, im Dezember, vorletztes Jahr schon im Dezember haben sie die letzte V3 veröffentlicht und es war halt ein großer Erfolg oder zumindest ein Publikumserfolg, weil sie halt für ein Zehntel der Kosten nah an die Leistung der State-of-the-Art-Modelle rankamen und es auch das erste Mal war, dass ein Open Source Modell so dicht an die State-of-the-Art-Modelle rankommt. Sie sagen selber von sich, dass sie mit V4 jetzt so drei bis sechs Monate hinter den State-of-the-Art-Modellen hinterher sind, wo ich sagen muss, ich würde mit dem Opus 4.5 auch schon klarkommen. Also, ich habe es tatsächlich auch noch nicht live ausprobiert. Die Preise sind natürlich extremst kompetitiv, also, die wollen 3,50 Dollar für 1 Million Output Tokens im großen Modell. Sie haben auch 1 Million Token Context Window. Und ja, genau, sie haben wieder sehr viel Optimierung in den Attention-Mechanismus gesteckt, das hatten sie ja bei V3 schon gemacht. Sie sind da halt auch tatsächlich, sie sind keine Copycats mehr. Sie sind bei der Forschung und bei der Effizienz ziemlich weit vorne und teilweise vielleicht den Amerikanern auch schon überlegen. Da gab es ein Interview mit dem Chef von Nvidia Jensen Huang. Jensen Jensen Huang?

Fabian Walther: Jensen war es, glaube ich, ja.

Ole Wendland: Jensen Huang, ja, genau. Der halt auch gesagt hat, man sollte sich da keine Illusionen machen, die Chinesen sind gut, solche Systeme mittlerweile herzustellen. Genau, ich hatte mal spaßeshalber mich mal umgeschaut, was müsste man denn einkaufen, wenn man das große Modell selber betreiben möchte. Es kam so auf eine Octa H200 raus. Die kann man sich tatsächlich für Preise zwischen 30 und 35 Dollar die Stunde online mieten, also als Virtual, also als Cloud GPU und ich denke, wir kommen da in interessante Bereiche, also für Firmen, für die halt Souveränität sehr wichtig ist, die können sich jetzt halt dafür eine dieser H100s mieten, das Modell selber laufen lassen, das läuft dann abgeschottet, und man soll mit dem Setup so ungefähr 10 bis 15 Leute parallel betreiben können und dann bist du halt bei Preisen zwischen 2 und 3 Dollar pro Person pro Stunde, das wäre ein interessantes Angebot.

Fabian Walther: Ja, das wäre, glaube ich, für uns intern auch mal einen Testcase, den wir aufsetzen sollten. Vielleicht können wir dann da mal berichten, wenn wir jetzt, ich bin mir nicht sicher, inwiefern man über Open Router schon an die V4 DeepSeek rankommt, da habe ich jetzt noch nicht geschaut. Dass man die schon einfach über die API nutzen kann, das wäre für mich jetzt auch so der nächste Schritt, dass man da

Ole Wendland: Mhm.

Fabian Walther: einfach mal was gegenwirft und ein bisschen Erfahrung mit sammelt. Natürlich dann, wie du gerade sagst, wenn man das selbst betreiben kann, dann schauen, wie viel, wie viel Arbeitsplätze sozusagen parallel kann ich damit eigentlich bespielen, dann könnte man da wahrscheinlich wirklich ein relativ gutes Preisschild auch mal dran kleben, was es denn bedeutet, wenn man das selber betreibt, ja. Ja, auf jeden Fall spannend. Dann hatte ich jetzt nach Deepseek hattest du noch Kimi genannt. Das ist etwas, wo ich noch gar nicht reingeschaut habe, da schwärmen ja auch viele Kollegen von, die das benutzen und sagen, sie kommen damit völlig zurecht. Ist halt eben auch günstiger als die Opus-Modelle signifikant und für Coding zum Beispiel kommen da viele ganz gut klar mit.

Ole Wendland: Glaube auch, also Kimi ist der Champion, wenn es so um General Purpose geht. Qwen ist eher spezialisiert Coding-mäßig. Also Kimi gibt’s in verschiedensten Größen. Das große Modell hat auch eine Trillion Parameter. Das betreibt man nicht ebenso lokal, aber genau in den Benchmarks sind sie auch ziemlich weit oben mit hinter den ganzen Top-Modellen von Anthropic und Google und ChatGPT. Genau, ich habe es selber auch noch nicht in der Hand gehabt. Ich sehe es nur ständig in den Benchmarks auftauchen. Theoretisch auch zu Hause betreibbar, also nicht zu Hause, mit genügend GPUs betreibbar, selbst betreibbar. Viel mehr kann ich dir aber auch gar nicht drüber erzählen.

Fabian Walther: Ja. Ja, ich habe tatsächlich das Gefühl, was wir letztes Mal ja auch schon so angedacht hatten, dass gerade wirklich viele Open Source Releases kommen, die jetzt in die Gegend stoßen, dass sie jetzt zumindest für die Use Cases, die uns so beschäftigen, was Softwareentwicklung angeht, einfach ‘good enough’ werden. Und jetzt bin ich mal gespannt, inwiefern die kommerziellen Modelle dann versuchen, eben ihre Kosten, die sie halt eben aufrufen, noch zu rechtfertigen, inwiefern sich das dann angleicht oder dann die Kosten sich eigentlich nur noch damit messen lassen, was ich denn betreiben müsste, wie wir es gerade beschrieben haben, also, was ich an Betriebskosten hätte, um ein Open Source Modell zu betreiben. Sie müssen ja irgendeinen Mehrwert liefern, um über die reinen Betriebskosten hinaus eben zu rechtfertigen, dass man eben das geschlossene System benutzt. Also, ich finde, da muss der Abstand muss groß sein, um zu rechtfertigen, dass man sich an so einen kommerziellen Anbieter bindet, wenn es Open Source eben ‘good enough’ ist, das finde ich interessant, wie das dann gerechtfertigt wird, auf die Dauer.

Ole Wendland: Ich habe auf Golem gelesen, ich glaube, heute war es sogar auch schon, dass immer mehr Firmen anfangen, ihre AI-Kosten zu hinterfragen. Teilweise matchen die Token-Kosten die Gehaltskosten der gesamten Entwicklerschaft, und das wird dann natürlich schon heftig, gerade auch mit so einem Hintergrund, wie diesem etwas ‘shady’ Tokenizer, der jetzt wieder rausgebracht wurde. Die amerikanischen Firmen haben eigentlich nicht mehr diesen Vorsprung, um solche Preise zu rechtfertigen. Jetzt ist natürlich Versorgungssicherheit auch ein Punkt und so weiter. Das wird für viele Firmen interessant sein, aber ich denke mal, spätestens Herbst, Ende des Jahres, werden wir sehen, dass die ersten Firmen anfangen, entweder über AI-Router, Open Router oder so, zumindest für die einfachen Sachen Open-Source-Modelle beizumixen, gerade wenn die halt nur ein Viertel bis ein Zehntel der Kosten haben.

Fabian Walther: Exakt, ja. Bisher war es wirklich so, wir versuchen irgendwie alles mit einem Anbieter zu erschlagen, und ich denke, diese Diversifizierung wird jetzt einfach reinschlagen, dass man mehr ein Gefühl dafür entwickelt, welche Use Cases ich mit welchem Modell erschlagen kann. Dann werden wir das genau so sehen, dass man anfängt, auch unternehmensseitig zu differenzieren. Ja, würde ich genauso interpretieren. Das ist ja auch so, ich meine, momentan mache ich es meistens nicht mehr, aber jetzt in Claude Code habe ich ja auch schon häufig zwischen den Modellen gewechselt, dass ich halt, wenn ich ein Planning mache, dann eben Opus verwende und für Implementierung halt auf das Sonnet umgeschaltet habe. Gut, was Claude Code ja auch automatisch machen kann über die Agents, die drin sind, kann man ja das Modell auch festlegen. Aber vorher habe ich es halt manuell gemacht, aber das geht ja schon so ein bisschen in diese Richtung. Genau, du hattest eben noch kurz Qwen erwähnt, das fand ich auch nur wieder lustig, weil ich beim Simon Willison, der ja seinen wunderbaren Pelikan Benchmark hat, den ich ja tatsächlich ziemlich gut finde, also der ja immer, Simon Willison ist eigentlich der kommt aus so einem Data Analytics Bereich, eigentlich hat er im Open Source Bereich ziemlich viel gemacht, so Python Libraries Datasette, da kenne ich ihn noch, das war so ein Tool, wo man relativ einfach so Datenbanken im Browser bearbeiten kann, sehr schönes Tool, der macht extrem viel und der hat diesen Pelikan Benchmark, dass er halt immer versucht, mit jedem Modell das Bild eines Pelikans, der Fahrrad fährt, generieren zu lassen, aber eben als SVG, also als Vektorgrafik, beschriebene Vektorgrafik aus Vektor Primitiven oder aus primitiven Formen. Und da hat er ja gesagt, dass das Qwen-Modell, das 36 Modell halt für die geringe Größe, also er hat so eine quantisierte Variante mit irgendwie 17 GB benutzt und da fiel tatsächlich ein gutes SVG Pelikan Bild raus, wo sonst schon viele sehr viel größere Modelle gescheitert sind, fand ich nur ein lustiges Tidbit. Also, es ist offensichtlich nicht die schiere Modellgröße nur, die dazu führt, dass man bestimmte Ergebnisse erzielen kann. Kann natürlich auch sein, dass wir mittlerweile schon so weit sind, dass die Modell-Anbieter jetzt auch schon auf seinen Benchmark optimieren, das kann natürlich auch sein. Das weiß ich jetzt nicht, aber es ist so ein Nischending eigentlich, aber gut, er hat schon eine relativ große Reichweite.

Ole Wendland: Ich würde sagen, auch Simon Willison ist fast schon ein Goldstandard. Ich kenne eigentlich kaum jemanden, der nicht zumindest gelegentlich mal seinen Podcast, seinen Blog sich anschaut und ihm zuhört. Hätte ich noch nicht gehört, ist aber ein interessanter Gedanke. Ich würde wahrscheinlich definitiv auf Pelikan optimieren.

Fabian Walther: Ja, es ist halt irgendwie ein super einfacher Benchmark und jeder, der halt jetzt Entwickler ist und weiß, wie so intern SVG Grafiken aufgebaut sind, wenn man die beihand schreiben will und so, dann muss man schon ganz schön abstrahieren. Das ist nicht ‘mach mal ein paar Pixel irgendwie bunt’, sondern überlager irgendwelche geometrischen Formen, damit sich ein Bild ergibt, das ist schon, muss man schon über mehrere Abstraktionsebenen gehen gedanklich als Mensch und für so ein Modell vermutlich auch nicht einfach, ja. Lustig, also Qwen 36 wird das erste, was ich auf jeden Fall lokal jetzt testen werde, wenn ich mehr RAM habe und dann kann ich da vielleicht mal berichten. Haben wir die Open Source Modelle alle durch, die wir erwähnen wollten, oder haben wir noch was?

Ole Wendland: Ich glaube, wir haben sie durch.

Fabian Walther: Okay.

Ole Wendland: Gut, GLM 5, das ist immer noch ganz weit oben.

Fabian Walther: Okay. Ja, die sind noch nicht überholt worden, das ist mir auch aufgefallen. Ja, nee, aber dann haben wir, glaube ich, erstmal den Exkurs zu den Modellen. Und dann würde ich zum Tipp der Woche kommen, wenn du nicht noch irgendein Thema aufmachen willst.

Ole Wendland: Nein, mach mal.

Fabian Walther: Dann ja, der Tipp der Woche ist tatsächlich angelehnt an diese ganze Opus 47 Token Geschichte. Da habe ich tatsächlich dann mal RTK installiert, also gibt’s einen in Rust geschriebener im Grunde ein Proxy für CLI Tools, den man in verschiedene Agent Harnesses integrieren kann und was der halt tut, ist die Ausgaben von CLI Tools, also einfach einen LS oder einen Grab oder was auch immer zu komprimieren, ohne dass Sinn verloren geht, aber dass es eben nicht schön formatiert ist für Menschen, um das zu lesen, sondern wenn man z.B. mehrfach die gleiche Datei irgendwie aufgelistet hat beim LS, dann würde er einfach sagen, ‘fünfmal die Datei’ oder so. Und das führt dazu, dass gerade, wenn so ein Agent irgendwie anfängt, Dinge mit CLI Tools zu machen, dann ist es extrem viel Token sparsamer und da kann man dann schon gute Ergebnisse erzielen, also ich habe das bei mir mittlerweile standardmäßig an. Und das führt dazu, dass ich jetzt irgendwie nicht in Limits reingelaufen bin mit 47. Vielleicht kann das damit zusammenhängen, aber könnt ihr euch mal anschauen. Ist auf GitHub zu finden. RTK-AI ist da die Organisation, aber das finde ich einen spannenden Ansatz. Es gibt da ja noch so ein paar weitere Kandidaten, die versuchen irgendwie die Token Anzahl zu reduzieren. Was bei uns noch so rumflog intern war das Caveman, das fand ich auch ganz lustig, das habe ich nicht ausprobiert, aber das ist ja eher so ein Prompt Ding, hast du das ausprobiert?

Ole Wendland: Ich habe es mal angeworfen. Ja, es spart Tokens, aber ehrlicherweise muss ich sagen, ich bin mir nicht sicher, also gerade bei englischen Prompts musste ich schon nachdenken, was er meinte und vielleicht liegt’s daran, dass ich nicht so fließend in Caveman bin. Ich fand es schon störend ehrlicherweise und dann habe ich mir gesagt, ‘ach, scheiß drauf’. Das RTK habe ich tatsächlich auch schon benutzt, bin auch sehr zufrieden damit. Wichtig, das RTK-AI, sonst landet ihr nämlich beim Rust Type System, da bin ich das erste Mal falsch abgebogen und dachte, ‘hä, das hat doch gar nichts mit AI zu tun’. Aber ja, das kann man auf jeden Fall mal ausprobieren. Es soll nicht für alle Tools gleich gut komprimieren, das hatte ich noch gelesen.

Fabian Walther: Nee, nee, die geben da verschiedene Raten an, so im Schnitt, was wie weniger Tokens dann dabei rauskommen. Genau, das kann man sich aber auf jeden Fall mal anschauen, das hilft auf jeden Fall. Ja, wer das Caveman noch nicht gehört hat, da ging es einfach nur darum, dass das Modell entsprechend gepromptet wird, wirklich mit sehr sehr kurzen, knappen Sätzen zu antworten, dass man eben klingt wie ein oder das Modell klingt wie ein Höhlenmensch. Ich habe erst gedacht, das ist Satire, man ist sich manchmal nicht so richtig sicher, ob die neuen Projekte jetzt Satire sind oder wirklich ernst gemeint. Leute benutzen das auch offensichtlich normalerweise ohne es als Witz zu verstehen. Ja, aber fand ich auch noch mal interessant, das geht alles so in die Richtung, jetzt auf weniger Tokens zu optimieren, das ist ja generell eine gute Idee, gerade wenn man auch mit lokalen Modellen arbeiten will. Ich packe euch auch noch einen Blogpost rein in die Shownotes, den ich ganz interessant fand, wo jemand wirklich noch mal, während er im Flugzeug saß, versucht hat, was mit lokalen Modellen möglich ist, das fand ich noch mal ganz interessant so als Erfahrungsbericht, kommt noch in die Links. Jo. Ich glaube, damit sind wir wieder durch durch die aktuellen Sachen, die uns beschäftigt haben. Und dann bin ich mal gespannt, ob es demnächst wieder größere Sprünge gibt.

Ole Wendland: Alles klar, bis zum nächsten Mal. Vielleicht für die Kommentarsektion, also, ich benutze ja auch RTK. Ich weiß nicht, wie es bei dir ist. Ich konnte keine Verschlechterung der Antworten irgendwie feststellen. Vielleicht könnte uns ja jemand mal schreiben, wenn er tatsächlich erlebt hat, dass es bei ihm was schlechter gemacht hat, weil ansonsten wäre es ja eigentlich eine immer Empfehlung, ne, so.

Fabian Walther: Danke. Ja, also bisher, ich persönlich keine negativen Erfahrungen, aber schreibt uns gerne in die Kommentare rein, was ihr da mitgenommen habt, ob das bei euch negativen Effekt hatte. Mir hat es auch eigentlich nur geholfen, ich habe da nichts Negatives festgestellt. Ist natürlich wieder wie immer eine Indirektion in deinem Toolset, ne, musst du wieder gucken, wenn jetzt jemand natürlich irgendeine Lücke in RTK einschleust, dann ist das natürlich wieder ein sehr, sehr, sehr interessantes Angriffsziel, ne? Also, wenn man wieder ein neues Tool einführt, hat man wieder einen neuen Angriffsvektor. Das vielleicht noch so als Gedanke dazu. Gut, dann danke ich dir, dass du wieder dabei warst und dann sehen wir uns hoffentlich bald wieder mit neuen News. Bis dahin wünsche ich ein schönes Wochenende. Mal gucken, ob ihr das noch vom Wochenende bekommt. Ich hoffe aber vor dem langen Wochenende.

Ole Wendland: Ciao, ciao.

Fabian Walther: Mach es gut, tschüss.

Zusammenfassung

Zusammenfassung ausklappen / einklappen

Diese Zusammenfassung wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Maßgeblich ist immer das im Mitschnitt gesprochene Wort.

AI News #4 Mit Fabian Walther und Ole Wendland

Viele Modell-Releases, aber kein Durchbruch. Fabian bringt es auf den Punkt: Gerade kann niemand klar sagen, wer Marktführer ist – alle sind auf Kante, und einen „Gemini-Moment", bei dem jemand mit einem Sprung nach vorne das Feld aufmischt, gibt es schon lange nicht mehr. Stattdessen wächst der Kostendruck, und Open-Source-Modelle werden für immer mehr Anwendungsfälle gut genug.

SpaceX übernimmt Cursor

SpaceX hat die beliebte Coding-IDE Cursor übernommen. Fabian vermutet, dass die Übernahme mit der Bündelung von Elon Musks KI-Aktivitäten (Grok AI) unter dem SpaceX-Dach zusammenhängt. Gerüchteweise ging es vor allem um Rechenkapazität – SpaceX soll Cursor Zugang zu erheblichem Compute versprochen haben. Beide warnen davor, sich gerade zu stark an einzelne Tools zu binden – zu viel ist im Fluss. Cursor plant offenbar, den Code View komplett abzuschaffen, sodass Entwickler nur noch über Prompts und Spezifikationen arbeiten. Fabian sieht das kritisch: Für ihn ist die IDE aktuell vor allem ein Code-Review-Tool.

Opus 4.7: Mehr Tokens, aber wofür?

Anthropic hat Opus 4.7 veröffentlicht. Fabian merkte als Claude-Code-Nutzer keinen Unterschied – bis die Diskussion um den neuen Tokenizer aufkam: Rund 30 % mehr Token-Verbrauch bei keiner messbaren Verbesserung in den Benchmarks. Anthropic begründet das mit besserem Instruction Following durch feinere Wort-Differenzierung. Ole spekuliert, ob der neue Tokenizer auch Sicherheitsvorteile bringen könnte – etwa um Tool-Output von User-Prompts unterscheidbar zu machen. Für Nutzer, die über die API abrechnen oder regelmäßig in Limits laufen, ist der Mehrverbrauch jedenfalls spürbar.

Claude Design setzt Figma unter Druck

Nebenbei hat Anthropic mit Claude Design ein eigenes KI-Designsystem vorgestellt – und Figma damit direkt unter Druck gesetzt. Der Aktienkurs ging nach unten, ein Anthropic-Manager im Figma-Board musste seinen Platz räumen. Fabian sieht darin ein Beispiel für ein größeres Muster: General-Purpose-Modelle fressen zunehmend spezialisierte Geschäftsmodelle auf – ähnlich wie schon bei OCR und Belegerkennung.

GPT 5.5: Teuer und enttäuschend

OpenAI hat GPT 5.5 veröffentlicht – mit 30 Dollar pro 1 Million Output-Tokens das teuerste Modell am Markt. Ole ist nicht beeindruckt: Die Halluzinationsrate liegt bei spezialisierten Benchmarks bei rund 80 % (Opus: 37 %), und im Coding-Benchmark liegt es sogar hinter dem Vorgänger GPT 5.4. Interessant: GPT 5.5 ist seit 4.5 der erste komplett neue Trainingslauf – alles dazwischen waren nur Trainingsmeilensteine. Außerdem gibt es eine eingeschränkte „5 Cyber"-Variante, die nur ausgewählten Firmen zur Verfügung steht – angeblich, weil sie zu mächtig für eine breite Veröffentlichung sei. Fabian sieht darin eher einen Marketingzug. Simon Willisons Fazit: Das Beste, was GPT 4.5 passieren konnte – jetzt halb so teuer und immer noch gut genug.

Open Source holt auf: DeepSeek V4 und Kimi

DeepSeek V4 kommt mit 3,50 Dollar pro 1 Million Output-Tokens zu einem Bruchteil der kommerziellen Preise und liegt laut eigener Aussage nur noch drei bis sechs Monate hinter den State-of-the-Art-Modellen. Nvidias CEO Jensen Huang hatte kürzlich gewarnt, man solle sich keine Illusionen über die Fähigkeiten der chinesischen KI-Forschung machen. Ole rechnet vor: Auf einer gemieteten Octa-H200 ließe sich das Modell für 10–15 parallele Nutzer betreiben, bei 2–3 Dollar pro Person und Stunde. Auch Kimi, ein chinesisches General-Purpose-Modell mit einer Billion Parametern, taucht in den Benchmarks zunehmend oben auf.

Kostendruck: Firmen hinterfragen ihre AI-Ausgaben

Ein Thema, das sich durch die gesamte Folge zieht: Laut einem Bericht auf Golem matchen die Token-Kosten in manchen Firmen bereits die Gehaltskosten der gesamten Entwicklerschaft. Beide erwarten, dass Firmen spätestens Ende des Jahres beginnen werden, über AI-Router für einfachere Aufgaben Open-Source-Modelle beizumischen. Die kommerziellen Anbieter müssen zunehmend rechtfertigen, warum ihre Preise über den reinen Betriebskosten eines selbst gehosteten Open-Source-Modells liegen.

Qwen 36: Klein, aber fein

Am Rande: Simon Willisons Pelikan-Benchmark (ein SVG-Bild eines Fahrrad fahrenden Pelikans generieren lassen) wurde von der kleinen, quantisierten Qwen-36-Variante überraschend gut gelöst – besser als viele deutlich größere Modelle.

Tipp der Woche: RTK-AI

Fabian empfiehlt RTK (von RTK-AI auf GitHub): Ein in Rust geschriebener Proxy, der CLI-Ausgaben für AI Agents komprimiert, ohne Sinn zu verlieren. Das spart erheblich Tokens, besonders relevant seit dem höheren Token-Verbrauch von Opus 4.7. Beide nutzen es inzwischen standardmäßig und berichten von keiner Verschlechterung der Ergebnisse. Außerdem kurz erwähnt: Caveman, ein Prompt-Ansatz, der das Modell in Höhlenmensch-Sprache antworten lässt – spart Tokens, ist aber gewöhnungsbedürftig.