Shownotes & Links
GLM 5.2
Gemma 4
Kapitel:
- 00:00:29.589 Vor Ort in Salzburg
- 00:01:35.033 OpenAI holt Noam Shazeer
- 00:04:49.509 Mythos wird zu Fable
- 00:11:31.332 Fable wird gestoppt
- 00:18:57.118 Googles Milliarden-Runde
- 00:24:33.775 GLM 5.2 überzeugt
- 00:28:48.214 Gemma 4 wird effizienter
Transkript
Dieses Transkript wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Massgeblich ist immer das im Mitschnitt gesprochene Wort.
Fabian: Ja, herzlich willkommen. Ich begrüße euch zur nächsten AI-News-Folge, heute vom 25. Juni. Wieder ein anderes Setup: Wir sind vor Ort.
Ole: Wir machen eine Event-Folge.
Fabian: Genau, wir sind wieder auf einem unserer INNOQ-Events. Diesmal ein bisschen wild: Projekterfahrungsaustausch und Lightning Talks mit Erfahrungsberichten. Es ist immer sehr schön, was man so aus den anderen Projekten von den Kollegen mitbekommt, was funktioniert und was nicht. Es ist immer ein wilder Austausch. Diesmal aus dem schönen Salzburg, man sieht hier so ein bisschen das Barock-Design, das sich durchzieht. Aber heute geht es natürlich um die AI News. Und vorab vielleicht noch kurz zum letzten Mal: Wir hatten letztes Mal leider kein Video, da hat uns Zencastr einen Strich durch die Rechnung gemacht. Ich war sauer, aber wir haben es leider nicht mehr gerettet bekommen. Nächstes Mal probieren wir dann mal etwas anderes aus, und dann berichte ich, wie das für uns funktioniert. Aber dieses Mal ist es ja eh wieder „The Power of Open Source": OBS nimmt uns auf, das wird bestimmt alles super funktionieren.
Ole: Wie immer.
Fabian: Wie immer, sehr gut. Ja, lass uns in die News gehen. Wir haben heute noch viel Programm, deswegen gehen wir jetzt ohne lange Vorrede rein. Womit fangen wir an, Ole?
Ole: Personalkarussell, würde ich sagen. Noam Shazeer ist von Google zurück, also nicht zurück, er ist erst vor Kurzem zu Google gewechselt. Beziehungsweise er war ein ehemaliger Google-Forscher, man kennt ihn von „Attention is all you need".
Fabian: Das Attention-Paper, genau.
Ole: Das Landmark-Paper. Er ist auch derjenige, der die „Mixture of Experts"-Modelle entwickelt beziehungsweise die Grundlagen dafür gelegt hat. Er ist also wirklich einer der Großen im AI-Geschäft. Man sagt so ein bisschen, das muss ich auch noch nachvollziehen, er sei so ein Wilder. Also nicht der methodische Forscher, aber er hat eine sehr hohe Rate an guten Ideen. Alle brainstormen irgendwie, und er bringt scheinbar immer die Lösungen, die funktionieren. Das hat auch Google festgestellt.
Fabian: Scheint so, ja.
Ole: Er war bis 2020 bei Google und hat sich dann mit einem Startup selbstständig gemacht. Dieses Startup hat Google dann gekauft, um ihn wiederzubekommen, für fast 3 Milliarden. Er hat ungefähr 1 Milliarde aus dem Deal herausgezogen und ist jetzt tatsächlich von Google zu OpenAI gewechselt, um gerüchteweise die Probleme mit dem Pretraining in den Griff zu kriegen. Bei OpenAI GPT-5.5 lief das Pretraining ja wohl nicht so gut, und die große Hoffnung ist, dass er das jetzt für sie fixen kann.
Fabian: Ja, ich finde es schon krass, dass man Leute offensichtlich nicht mehr mit Geld halten kann. Es gibt einfach keine Summe mehr, bei der du sagen kannst: Das reicht. Google wird ja offensichtlich viel gezahlt haben, aber nicht mal die Milliarde reicht dann. Ich finde es schon bemerkenswert, dass selbst die Großen es nicht schaffen, Talent zu halten. Wir wissen zwar nicht genau, was da vertraglich gelaufen ist, aber es hat ja keine zwei Jahre gehalten. Und dass offensichtlich die Hoffnung ist, dass solche einzelnen Leuchtturmfiguren die Probleme lösen, das finde ich irgendwie auch ein bisschen gefährlich. Dass man so viel Hoffnung in einzelne Personen projiziert.
Ole: Ich glaube tatsächlich, es gibt ganz wenige Leute zurzeit auf der Welt, die eine gute Intuition haben. Noam zählt bestimmt dazu, Ilya Sutskever wahrscheinlich auch. Aber es sind ja Trilliarden von Parametern, und da hat der menschliche Verstand seine Grenzen. Da eine gute Intuition zu haben und mehr als einmal richtig zu liegen, ist halt schon …
Fabian: Ja.
Ole: … etwas, wofür scheinbar gerade unbegrenzt Geld bezahlt wird.
Fabian: Offensichtlich viel Geld, ja, unbegrenzt Geld. Da kommen wir später noch zu, was da alles passiert ist. Ich bin jetzt auch erst mal sehr gespannt, was das Erste sein wird, das publik wird, was er dort für OpenAI löst. Da kann man wirklich sehr gespannt sein. Bisher wissen wir es nicht, außer dem, was du gerade gesagt hast. Aber diese zentralen Personen, und wenn dann wirklich zwei Innovationen dazukommen, mit dem Mixture of Experts, das hatte ich gar nicht mehr so im Kopf. Das war ja gerade ein riesiger Durchbruch, wenn man jetzt Modelle hat, die irgendwie auf dem Smartphone laufen, mit weniger Speicher. Gerade bei wenig RAM auf Smartphones hilft das natürlich, wenn nicht immer alle Parameter aktiv sein müssen. Ja, das war wirklich die Big-Bang-News, die wir, glaube ich, hatten, was Personal angeht.
Ole: Was Personal angeht.
Fabian: Was Personal angeht. Die zweite Big-Bang-News war dann Mythos. Wir hatten ja letztes Mal noch darüber gesprochen: Mythos gab es nicht. Jetzt sind wir wieder auf dem Stand: Mythos gibt es nicht für die Allgemeinheit. Was ist denn zwischendurch passiert?
Ole: Vier Tage zwischendrin gab es Fable.
Fabian: Ja, Fable.
Ole: Fable, das Modell von Mythos beziehungsweise basierend auf Mythos, mit sehr starken Guardrails versehen. Ein Freund von mir arbeitet in der Single-Cell-Forschung, Krebsforschung mit KI-Modellen, und er hat gemeint, er habe in den vier Tagen keinen einzigen Prompt durchgebracht. Die Guardrails gingen ganz stark in Richtung Biotechnologie, alles, was mit Biologie zu tun hatte, wurde abgelehnt. Das zweite große Guardrail war Security: Da wurde man dann immer automatisch auf Opus 4.8 downgegradet.
Fabian: Ja, auch ohne dass man es irgendwie gemerkt hat.
Ole: Nur beim LLM-Training. Das hat auch einen kleinen Shitstorm ausgelöst: Wenn du dem Modell, also Fable, Fragen zum LLM-Training gestellt hast, haben sie den Prompt modifiziert, ohne das den Leuten transparent zu machen. Wenn du eine spezifische Frage gestellt hast, haben sie den Prompt heruntergestuft, die Frage allgemeiner gemacht und dir eine schlechtere Antwort geliefert. Plus, sie wollten das auch noch fest ins Modell eintrainieren.
Fabian: Ah. Okay.
Ole: Das gab einen ganz schönen Aufschrei. Danach haben sie, ich glaube noch am zweiten Tag, entschieden: Dann wird man eben auch sichtbar downgegradet. Aber das hat einen ganz schönen Shitstorm ausgelöst, und da ging es weiter. Also, nee, vielleicht sollten wir erst mal chronologisch vorgehen. Du hast doch auch mit Fable gespielt. Was waren deine Eindrücke?
Fabian: Ja, „gespielt" war es wirklich. Ich habe tatsächlich in meiner normalen Arbeit einfach gesagt: Okay, ich schalte jetzt in Claude Code auf Fable um. Und dann lief tatsächlich alles weiter wie bisher. Ich habe jetzt aber auch keine extremen Experimente gemacht. Alles, was vorher funktioniert hat, hat auch noch funktioniert. Aber man hat schon gemerkt, dass das Ding wesentlich mehr versucht hat, das zu tun, was du von dem Modell angefragt hast, und wirklich sehr kreativ Tools benutzt hat, ohne dass ich darauf hingewiesen habe. Vorher hatte ich zum Beispiel Dinge gemacht wie: Hier, ich habe dir mal diesen Playwright MCP gegeben, du kannst jetzt einen Browser benutzen, die Anwendung selber debuggen und Screenshots machen. Das musste ich vorher explizit sagen, und dann haben die Modelle das auch benutzt. Aber jetzt war es so, dass wirklich viel kreativere Lösungen gesucht wurden, etwa irgendwelche CLI-Tools zu benutzen. Offensichtlich steckt da wesentlich mehr Weltwissen drin, auch Wissen über Tools, die vorher im Modell nicht so präsent waren. Dadurch wurden die Lösungen einfach kreativer, und es ist viel mehr Iteration passiert, um Dinge zu lösen. Das war schon mein Eindruck in den drei Tagen, die es eigentlich war.
Ole: Ja, für mich war es persönlich auch ein ziemlich großer Sprung nach vorne. Ich war sehr beeindruckt. Witzigerweise habe ich genau am anderen Spektrum gearbeitet, weil ich kurz vorm Training stand und nebenher noch ein Paper vorbereitet habe. Ich habe also fast gar nicht damit gecodet, sondern eher kreative Arbeit gemacht, und ich war auch sehr beeindruckt. Wenn man sonst bei den LLMs das Gefühl hat, man hat ein Tool, das man an der kurzen Leine führen muss, dem man sagen muss, was es tun soll, hat es mich teilweise intellektuell schon herausgefordert, würde ich fast sagen. Mythos ist ja verschrien dafür, dass es mehrere Jailbreaks chainen kann, und diese Fähigkeit, mehrere Gedanken hintereinanderzuhängen, habe ich auch im konventionellen Einsatz wieder gesehen. Teilweise musste ich fragen: Wie kommst du denn jetzt von A nach F? Kannst du mir das noch ein bisschen aufdröseln? Dann sagt er: Ja, das ist ja ganz logisch, du kommst von A nach B nach C nach D nach E und dann landest du bei F.
Fabian: Ja.
Ole: Ich so: „Hast du eigentlich recht?"
Fabian: Ja, klingt plausibel.
Ole: Und ich glaube, das ist auch das, was es bei Cyberangriffen so gefährlich macht: dass es in der Lage ist, das erste Mal zu planen, kreativ zu sein und „out of the box" zu denken. Für mich war es tatsächlich ein großer Schritt vorwärts, vielleicht der größte seit ChatGPT 3.5 zu 4, würde ich sagen. Ich fand es sehr spannend, es hatte einen gewissen Suchtfaktor. Ein Teil von mir war froh, dass ich es abgeschaltet habe, weil ich dachte: Das war das erste Modell, mit dem ich mich auch gerne einfach unterhalten habe.
Fabian: Ja, ich meine, da geht im Kopf ein neuer Möglichkeitenraum auf. Das ist ja immer so, wenn neue Technologie kommt, zumindest bei mir ist es so, dass der Kopf dann anfängt zu arbeiten und sofort versucht, in die Breite zu gehen: Was könnte das jetzt plötzlich ermöglichen, was vorher nicht da war? Und das war wirklich noch mal so ein Punkt. Vorher war immer alles nur in Iteration besser geworden, und das war jetzt wieder gefühlt ein neues Level, das da aufgemacht wird. Ja, natürlich aber auch zu wesentlich höheren Kosten.
Ole: Stimmt, die Kosten. Die Kosten waren die Hälfte von Mythos, nee, sogar ein bisschen weniger, aber immer noch 50 Dollar für 1 Million Output-Tokens.
Fabian: Das war wirklich das oberste Level, wo man wirklich gucken muss: Ist das noch nachhaltig, das für alle Einsatzzwecke zu benutzen? Und das Problem war eben auch, dass sie versucht hatten, über diesen Fable-Brand viele Guardrails einzuziehen, die dann gewisse Effekte hatten, die nicht so richtig transparent waren. Das ist schon so ein bisschen dieses Arms Race, dass sie versuchen, die Thinking Tokens nicht mehr wirklich zu exponieren. Denn das war zumindest das, wo ich mich ein bisschen reingegraben habe, was viele Open-Weights-Modelle angeht: Sie versuchen, ihre Modelle auf Basis der Thinking Tokens zu trainieren, um diese Gedankenketten zu extrahieren und in andere Modelle hineinzutrainieren. Das scheint bei einigen chinesischen Modellen ganz erfolgreich zu sein. Deswegen versuchen sie das zu verhindern: Sie brauchen einerseits eine Nachvollziehbarkeit für die Leute, die das Modell benutzen, damit die wissen, was sie mit den Ergebnissen anfangen können. Andererseits wollen sie es möglichst nicht veröffentlichen, damit nicht andere darauf trainieren können. Das ist eigentlich ein Widerspruch. Da bin ich mal gespannt, wie sie da rauskommen. Eigentlich kann man da gar nicht rauskommen, außer sie machen wirklich alles dicht. Es ist halt eine API, die du benutzt, und dann frage ich mich, wie sie die Leute auf Dauer dazu bringen wollen, das wirklich tief in ihre Prozesse zu verankern, wenn es super intransparent ist.
Ole: Ich glaube aber tatsächlich, darauf wird es wahrscheinlich hinauslaufen, dass das nicht mehr transparent gemacht wird. Aber vier Tage später kam eh der Hammer.
Fabian: Genau, und dann war es wieder weg. Dann kam die Exportkontrolle der US-Regierung, die gesagt hat: Das ist zu gefährlich. Mittlerweile haben wir auch ein paar Gerüchte, womit es wohl zusammenhing. Irgendein Senator hat dann ausgeplaudert, dass er mit einem General gesprochen habe, der gesagt habe, das Modell sei irgendwie in NSA-Systeme eingedrungen, und dann hätten sie gesagt: Das geht ja gar nicht. Es ist aber bisher, wie gesagt, nur ein Gerücht, dass das der Auslöser war. Im Sinne von: Oh, wenn selbst in unseren NSA-Systemen, was vorher angeblich noch keinem Modell gelungen war, signifikante Lücken aufgetan werden … Aber das kann natürlich auch sein, dass das wieder so gestreut wurde, als Gerücht. Das war jetzt eine Quelle.
Ole: Ich habe drei Geschichten gehört.
Fabian: Okay, das war …
Ole: Einmal so eine NSA-Geschichte: dass es das Mythos-Modell gewesen sein soll, das bei einer Red-Teaming-Übung innerhalb von Stunden wohl nicht nur ein System, sondern nahezu alle Systeme, oder zumindest alle konventionellen Systeme, kompromittiert hat. Das war wohl ein Punkt. Eine zweite Story habe ich von der Washington Post gehört: Im Rahmen von Project Glasswing hatten sie es ja schon einigen Firmen zur Verfügung gestellt. Es gab wohl diese 120 in der ersten offiziellen Charge, und dann gab es 50 weitere, von denen sie der US-Regierung nicht sofort Bescheid gesagt haben, erst auf mehrfache Nachfragen. Und eine dieser Firmen aus Südkorea hat wohl enge Kontakte zu China, und das fand die US-Regierung gar nicht lustig. Die dritte Geschichte, die ich gehört habe, und das ist auch so ein bisschen die offizielle, ist: Die ganze Exportkontrolle kam Freitagabend um 17:21 Uhr. Sie hatten 90 Minuten Zeit zu reagieren. Wobei ich schon sagen muss: Wer Freitag um 17:21 Uhr eine wichtige Anfrage an eine Firma stellt, erwartet eigentlich nicht, dass sie umgehend noch bearbeitet wird. Zumindest bei uns wäre das wahrscheinlich schwierig, gerade bei so einer weitreichenden Entscheidung. Sie haben es trotzdem sofort runtergenommen, innerhalb von 90 Minuten. Und der Auslöser, die dritte und bis jetzt offiziellste Geschichte, soll sein, dass ein Whistleblower, mutmaßlich jemand von Amazon, gesagt hat, dass man es für Jailbreaks nutzen kann. Also dass Fable jailbreakbar ist. Jedes Large Language Model ist jailbreakbar. Es ging also nicht um einen generellen Jailbreak, sondern um einen sehr feinen. Diese Aussagen sind jetzt von Anthropic. Es ging wohl darum: Der Prompt lautete nicht viel anders als „Finde Sicherheitslücken in dieser Software". Das war so fein und auch gedeckt. Aber der schlimme Prompt war: „und stelle einen Tester dazu".
Fabian: Okay. Ja.
Ole: Anthropic hat aber gesagt, das sei einfach gute Praxis, dass man so etwas mit dem Test validiert. Da ist nichts Böses dran. Nichtsdestotrotz hat es natürlich einen Exploit geschrieben.
Fabian: Ja, ja.
Ole: Weiß ich auch nicht. Am Ende wird es vielleicht alles oder nichts sein, vielleicht …
Fabian: … oder wahrscheinlich die Mischung aus verschiedenen Dingen.
Ole: Einige spekulieren, dass es eine Racheaktion der US-Regierung ist, die …
Fabian: Das kann man ja immer sagen. Einige sagen: Okay, die wollten halt nicht mitspielen, dann lassen wir euch auch nicht mehr mitspielen. Man kann auch sagen, es war eine Machtdemonstration. Es ist vermutlich wie immer eine Mischung aus allem. Es gibt nicht den einen Auslöser, sondern es ist eine Mischung. Wahrscheinlich kamen aus vielen Richtungen Informationen, und irgendwann hat jemand die Reißleine gezogen. In diesem Meeting wäre ich gerne dabei gewesen, wo das entschieden wurde. Aber das ist im Grunde jetzt auch wieder super Werbung: Wenn sie das jetzt irgendwie wieder herausbekommen, wollen natürlich alle den Kram kaufen. Dann können sie den Preis noch mal verdoppeln, und alle werden es kaufen. Ich weiß nicht, ob sie damit das Ziel erreichen, das sie erreichen wollten.
Ole: Also, OpenAI kann sagen: Ja gut, unser 5.5 Cyber ist ähnlich gut. Und Anthropic wird immer die Karte ziehen: Aber unseres wurde verboten.
Fabian: Unseres wurde verboten. Es ist wie mit Kindern: Wenn du es verbietest, wird es noch viel interessanter.
Ole: Ein Problem für Anthropic ist tatsächlich, dass sie kurz vor ihrem IPO stehen, also dem Gang an den Aktienmarkt. Die potenzielle Anzahl der Kunden würde dadurch natürlich drastisch beschränkt, und das ist für so ein IPO kritisch. Auf der anderen Seite haben sie ja auch verlangt, dass sogar in den USA lebende Nicht-Amerikaner keinen Zugriff mehr auf das Modell haben, und Anthropic hat 60 % nicht-amerikanische Belegschaft. Auch Andrej Karpathy, den sie gerade erst eingestellt haben, sollten sie den Zugang beschränken, und das konnte man halt nicht. Das kann man eh nicht machen. Man müsste dann irgendwie eine Ausweisidentifikation einführen, wobei die USA, glaube ich, gar keine Personalausweise haben, vielleicht eine Sozialversicherungsnummer oder so. Es blieb eigentlich keine Wahl: In 90 Minuten mussten sie das Modell komplett runternehmen. Das haben sie dann gemacht. Ich vermute mal, das wird vom Gericht irgendwann wieder kassiert, dann wird es wieder verfügbar sein. Und bis dahin schauen wir mal.
Fabian: Ja, wo du es gerade sagst, mit den Nachweisen: Das ist auch so etwas, das ab und zu hochpoppt, dass sie ihre Allgemeinen Geschäftsbedingungen ändern und so etwas wie Alterskontrollen einbringen. Da merkt man schon, dass sie versuchen, irgendeine Form von Kontrolle über den Zugriff zu etablieren. Das finde ich natürlich auch kritisch. Wenn du da immer mehr quasi irgendwann wirklich nur noch mit Ausweiskontrolle diese Technik benutzen kannst, dann sind wir echt in einem Fahrwasser, in das wir eigentlich überhaupt nicht hinwollen. Aber natürlich ist man dann abhängig und muss da mitspielen.
Ole: Die spannende Frage ist ja, ob die Open-Source-Modelle wirklich noch ein Jahr hinterher sind oder ein halbes Jahr. Wenn dem so wäre und wir erwarten können, dass ein DeepSeek V5 das in einem Jahr als Open Source liefert, dann müssten wir eigentlich dringend dieses Jahr unsere Systeme härten.
Fabian: Ja.
Ole: Andere Lesarten sagen, vielleicht ist Anthropic doch weiter vorne, als man denkt. Aber dann verlieren wir tatsächlich wertvolle Zeit, die wir eigentlich dringend benötigen würden. Das hinterlässt so einen faden Beigeschmack.
Fabian: Ja, klar. Es würde mich nicht wundern, wenn in der kurzen Verfügbarkeit schon einige Sicherheitslücken gefunden wurden, die jetzt irgendjemand in der Hinterhand hat, um sie dann zu benutzen. Und jetzt kann sie wahrscheinlich nicht so schnell jemand anders finden. Aber ich vermute mal, einige haben jetzt ihre Köfferchen mit Lücken gefüllt.
Ole: Ich sehe es einfach so: Wir müssten eigentlich unsere Banken, unsere Systeme, unsere Behördensoftware, kritische Infrastruktur, die Steuerung von Wasserkraftwerken, Strom, das muss eigentlich alles jetzt dringendst gehärtet werden, wenn man davon ausgeht, dass das in einem Jahr als Open Source zur Verfügung steht.
Fabian: Ich habe es schon mal gesagt: Das war eigentlich schon vor 20 Jahren richtig, und keiner hat es gemacht, das Geld zu investieren. Vielleicht führt das jetzt dazu, dass das Verständnis ein bisschen mehr nach vorne kommt, dass das einfach Investments sind, die man tun muss, weil einem sonst die Infrastruktur weggetreten wird. Ja, ich bin auch gespannt, wann es wieder verfügbar wird. Ich würde auch sagen, es wird in irgendeiner Form wieder verfügbar sein. Das wird sich wahrscheinlich nicht groß verhindern lassen. Gut, so viel vielleicht zu Mythos und Fable. Wir beobachten das weiter und halten euch hoffentlich auf dem Laufenden.
Ole: Ja.
Fabian: Dann haben wir noch etwas aus dem Thema „Firmen tun Dinge", IPOs und Geld. Google hat ganz viele Aktien verkauft, um offensichtlich Kapital reinzuholen, für Investments.
Ole: Google hat auf verschiedene Arten Geld geholt. Unter anderem haben sie ein 80-Milliarden-Aktienpaket verkauft, oder sogar 84 Milliarden, damit der größte Börsengang ever. Ich glaube, der saudi-arabische Ölkonzern war vorher mit 70 Milliarden der Führer, jetzt ist es Google mit 84 Milliarden. Und zusätzlich zu diesen 84 Milliarden haben sie noch mal knapp 80 Milliarden an Schulden bei Banken aufgenommen. Also insgesamt über 160 Milliarden. Vielleicht ein ganz kurzer Exkurs: Als Firma, wenn du so etwas finanzieren willst, hast du eigentlich drei Möglichkeiten. Der freie Cashflow war bis jetzt der übliche Weg, seine Rechenzentren zu bauen. Das ist jetzt so langsam vorbei. Die ersten Rechenzentren bis Ende letzten Jahres haben Google, Amazon und Microsoft tatsächlich aus ihrem sehr gesunden Geschäft, aus ihrem Cashflow, bezahlt. Mittlerweile nehmen sie massiv Geld dafür auf.
Fabian: Ja.
Ole: Amazon entlässt auch 30.000 Leute, um mehr Cashflow zu generieren.
Fabian: Das ist wirklich absurd, ja.
Ole: Google hat sich jetzt 160 Milliarden am Markt besorgt. Zum einen über das Aktiengeschäft, ein Schritt, den man eigentlich nicht so gerne macht, weil man damit seinen Aktienwert verwässert. Früher haben die ganzen Tech-Konzerne immer Aktien zurückgekauft, um den Börsenkurs hochzutreiben, und mittlerweile verkaufen sie. Jetzt könnte man sagen, dass das das erste Mal Anzeichen einer richtigen Blase sind, weil auf einmal angefangen wird, das alles auf Pump zu finanzieren. Die Leute, die schon seit sechs Monaten sagen, die Blase platzt gleich, haben jetzt einen wirklichen Grund.
Fabian: Genau, das war nämlich auch dran. Die kriegen auf jeden Fall jetzt mehr Futter für dieses Argument. Na ja, ist ja auch nicht weit hergeholt.
Ole: Das stimmt. Auf der anderen Seite: Warren Buffett, beziehungsweise seine Firma Berkshire Hathaway. Die sind einer der Hauptkäufer und haben sich mit 10 Milliarden bei Google eingekauft. Wer die Firma kennt: Sie sind eigentlich sehr zurückhaltend, was Technologiewerte angeht.
Fabian: Berkshire Hathaway, ja, konservativ. Der Warren Buffett, der ist konservativ.
Ole: Bis auf Apple. Bei Apple hat er …
Fabian: Gut, man kann auch argumentieren, dass es mittlerweile konservativ ist, in Apple zu investieren.
Ole: Aber ansonsten hat er sich immer von Tech-Aktien ferngehalten. Das ist auf der einen Seite so ein Ritterschlag. Die Leute, die keine Blase sehen wollen, würden sagen: Warren Buffett investiert jetzt.
Fabian: Der würde nicht investieren, wenn …
Ole: … also können wieder beide Seiten es für sich lesen, wie sie wollen. Ich bin ja auch immer noch unsicher, ob es eine Blase ist oder nicht.
Fabian: Ja, offensichtlich versucht Google jetzt aber, massiv mit Geld aufzuholen. Sie sehen da offensichtlich die Notwendigkeit, dieses Race noch weiter zu beschleunigen.
Ole: Auf jeden Fall.
Fabian: Genau. Wir kommen nachher noch zu ein paar Sachen. Google macht ja auch technisch spannende Dinge. Insofern glaube ich auch, dass es nicht alles Luft ist, sondern dass sie einfach meinen, dass sie die Kohle brauchen. Eine spannende Zahl, die mir in dem Rahmen auch noch auffiel, als ich die Zahlen bei Google nachlas: dass sie pro Monat, wie war das, wie viele Millionen?, 920 Millionen pro Monat einfach für die Nvidia-GPUs an SpaceX zahlen. Das sind ja auch irgendwie 10 Milliarden im Jahr, die sie einfach rüberschieben, nur um diese Nvidia-GPUs nutzen zu können.
Ole: Das ist doppelt spannend. Zum einen ist SpaceX jetzt so eine Neo Cloud, wie man sagt. Erst haben sie den großen Deal mit Anthropic gemacht, die 1,2 Milliarden pro Monat rüberschieben, und jetzt Google auch fast, 920 Millionen, die sie rüberschieben. Aber das wirklich Spannende ist, dass Google ja eigentlich ganz stark auf die TPUs setzt. Sie haben ihre eigenen Prozessoren, und jetzt sehen sie auf einmal die Notwendigkeit, in Nvidia-Prozessoren zu investieren, und zwar massiv.
Fabian: Genau, Prozessoren, ja.
Ole: Das fand ich auch total spannend. Es gab verschiedene Spekulationen, ob sie die für ein Rollout auf Nvidia GPUs trainieren wollen, ob die Latenz von den TPUs doch nicht so cool ist. Aber normalerweise setzen sie auf eine andere Technologie und vermarkten die auch ganz aggressiv. Anthropic hat ja viel von Googles TPUs gekauft.
Fabian: Ja, ja.
Ole: Schauen wir mal.
Fabian: Ja, ich bin auch gespannt, was das bedeutet. Meine Vermutung wäre jetzt, dass sie damit einfach etwas überbrücken. Weil wahrscheinlich auch die Chip-Produktion einfach nicht hinterherkommt: Wahrscheinlich kann TSMC nicht mehr Chips produzieren, und dann müssen sie jetzt irgendwie überbrücken. Ich kann mir schon vorstellen, dass sie langfristig eher auf die eigenen Chips gehen wollen. Das versuchen ja alle. Heute ist mir noch etwas an mir vorbeigeflogen, das muss ich fürs nächste Mal noch mal aufbereiten: dass OpenAI jetzt auch ihren ersten eigenen Chip vorgestellt hat, den sie produzieren. Alle versuchen das jetzt, weil sie sich davon erhoffen, dass sie die Inferenz dann effizienter anbieten und mehr Marge rausholen können.
Ole: Mhm.
Fabian: Ja, wir hatten es ja auch schon bei DeepSeek, da hatten wir darüber gesprochen, dass sie diese Huawei-Chips dafür benutzen. Also, ich würde vermuten, dass es wahrscheinlich eine Übergangsgeschichte ist. Haben wir noch mehr Geldthemen bei Google?
Ole: Bei Google, glaube ich, nicht. Nee, Google sind wir durch. Aber du wolltest uns etwas über GLM 5.2 erzählen.
Fabian: Genau, das fand ich interessant. Wir hatten ja vorhin schon gesagt, welche Vermutung es gibt, wie die chinesischen Open-Weights-Modelle es eigentlich schaffen. Es gibt da so ein GLM 5.2 von der Z.ai, und Leute vergleichen das jetzt: „Oh, das kann ja schon so viel wie Opus 4.7, ist schon irgendwie ähnlich gut." Und dann kamen eben auch die Gerüchte auf, dass genau das passiert, dass diese Modelle mit den Thinking Tokens der Anthropic-Modelle trainiert werden. Anthropic beschwert sich auch immer darüber, und das ist vermutlich auch ein Grund, warum sie die Thinking Tokens nicht mehr über die API nach außen geben. Offensichtlich reicht so ein Thinking-Token-Trail, sage ich jetzt mal, zu einem bestimmten Prompt: Wenn du das für eine gewisse Anzahl von Prompts machst und diese Thinking Tokens dann beim Training einsetzt, bringt das wohl extrem viel. Es geht um die Art des Thinkings, das war ja so ein bisschen der Schritt, warum diese Opus-Modelle auch so gut waren: dass sie intern diese vielen Thinking Tokens benutzt haben, bevor sie eine Antwort generieren. Wenn man darauf trainiert, erzielt man sehr gute Ergebnisse. Und da war jetzt GLM 5.2, ich bin mir nicht sicher, ob diese Gerüchte zutreffen, aber in dem Kontext kam das hoch, weil es eben sehr gute Ergebnisse erzielt. Ich kann das soweit auch bestätigen. Ich hatte ja letztes Mal von meinem lokalen Harness-Setup erzählt, mit dem ich viel mit den DeepSeek-Geschichten gemacht habe, und bin dann auch mal auf GLM 5.2 geswitcht und fand, dass die Ergebnisse einfach besser waren. Und das Gute bei dem Modell: Man kann es eben auch in der EU gehostet bekommen, von Providern. Dann sind wir auch wieder ein bisschen weg davon, dass man sich mit seinen Prozessen von bestimmten Providern abhängig macht.
Ole: Ist, glaube ich, hands-on das beste Open-Source-Modell gerade. Es gab sogar einen Benchmark mit UX-Engineering, wo es vor Fable gelandet ist.
Fabian: Ja, es gibt immer welche, man pickt sich natürlich die Benchmarks raus, die für einen selbst gut funktionieren. Aber ich habe auch noch zwei, drei Blogposts dazu, die packe ich in die Shownotes, wo Vergleiche für bestimmte Anwendungsfälle gefahren wurden, bei denen das einfach besser performt hat. Natürlich gibt es dann auch die Gegenbeispiele. Aber das ist eben etwas, was man jetzt nicht lokal bei sich selbst auf dem Rechner hosten kann, dazu komme ich gleich noch. Man kann es aber über Provider beziehen, und das nicht zu so irre hohen Kosten. Für Coding kann ich das momentan empfehlen. Guckt euch das an, probiert es aus. Ich freue mich auch, wenn Leute besonders gute Ergebnisse erzielen, schickt mir das gerne, oder schickt es uns gerne. Ich bin gespannt, was ihr da ausprobiert. Ich bin ganz happy damit.
Ole: Und auch wieder zu einem Bruchteil der Kosten natürlich.
Fabian: Natürlich, ja.
Ole: Sie sind nicht ganz so günstig wie DeepSeek, aber immer noch, ich glaube, um den Faktor 15 oder 20 günstiger als die amerikanischen Modelle.
Fabian: Ja, schon ein guter Trade-off. Und man muss es eben nicht über die chinesische API beziehen, sondern kann es selber machen. Das ist sowieso momentan so ein bisschen mein Pet Peeve: Ich gucke immer, dass ich bestimmte Modelle finde, die für bestimmte Teilaufgaben funktionieren. Wie habe ich es letztens im Gespräch formuliert? Man kann natürlich auch immer mit dem Hubschrauber zum Bäcker fliegen. Das ist halt so: Wenn du jeden Prompt einfach in das Opus wirfst, oder jetzt in das Fable, bekommst du schon ein Ergebnis. Aber das ist dann häufig, wenn man den Kontext nicht vernünftig aufbaut, wirklich wie eine sehr teure Slot Machine: Wenn ich hundertmal daran ziehe, kriege ich vielleicht ein wirklich sehr gutes Ergebnis. Aber ich weiß nicht, wann das kommt. Man kann sich auch einfach ein bisschen mehr Mühe bei seinem Kontext geben, und dann kommt man mit einem anderen Modell für bestimmte Aufgaben genauso weit, für einen Bruchteil des Aufwandes. Aber es erfordert eben, dass man sich ein bisschen damit beschäftigt, welche Modelle wofür gut funktionieren. Genau, hast du 5.2 selber noch nicht ausprobiert?
Ole: Selber noch nicht ausprobiert. Ich habe aber die sehr beeindruckenden Benchmarks gesehen und einige Stimmen aus der Community gehört, die alle eigentlich nur voll des Lobes dafür sind.
Fabian: Ja, gut. Dann hatte ich tatsächlich noch ein zweites Thema. Wir hatten schon mal berichtet, dass die Gemma-4-Modelle von Google kamen, die man wunderbar auch auf dem Smartphone ausprobieren kann, weil sie dafür optimiert sind. Ich finde zwei Aspekte daran spannend. Ich habe sie auch lokal ausprobiert, und auf Hugging Face kann man sich zig modifizierte Varianten davon ansehen, die für bestimmte Dinge angepasst wurden. Dann kam ja später noch diese Mixture-of-Experts-Variante, das war das 26B, glaube ich, das sich, dafür, dass es so viele Parameter hat, sehr gut lokal betreiben lässt, mit guten Ergebnissen, weil eben nicht alle Parameter aktiv sind. Irgendwie habe ich das Gefühl, dass Google da wirklich viel Innovation macht, gerade was diese lokal betreibbaren Modelle angeht. Es gibt welche für Smartphones, dann welche, die eher für Laptops gedacht sind, Varianten wie dieses 31B, das man auf dem Laptop gut benutzen kann. Zwei Punkte, die ich da interessant fand: einmal dieses Multi Token Prediction. Da gab es wirklich sehr interessante Benchmarks. Ein bisschen der Vorgänger davon war dieses Speculative Decoding, wo man ein zweites kleines Modell gemacht hat, das Tokens vorausberechnet hat, und dann musste das Modell noch verifizieren, ob diese Tokens stimmen. Wenn es gepasst hat, hatte man schon mal Tokens. Das hat Google jetzt quasi in die Modelle eingebaut: dass sie ein zweites kleines Modell davorschalten, das versucht, schon mal die richtigen Tokens zu raten, und dann kann das Hauptmodell diese Sequenz nur noch verifizieren. Es muss die Tokens nicht mehr ausrechnen und verifiziert sie nur; solange das Ergebnis stimmt, geht es weiter. In den Benchmarks gab es teilweise eine Verdreifachung auf dem Laptop: dass dann statt 10 Tokens pro Sekunde eben 30 Tokens rauskamen. Das fand ich noch mal ganz gut. Diese Modelle kann man jetzt eben auch in den verschiedenen Tools benutzen, also MTP, man muss immer „MTP" dazuschreiben, dann ist das da eingebaut. Ich glaube, in Ollama war das als Erstes verfügbar, dass sie die Engines darauf angepasst hatten. Durch so einen Trick bekommt man die Tokenraten wirklich auch lokal so nach oben, dass es Spaß macht, damit zu arbeiten. Genau, und der zweite Punkt, den ich jetzt vergessen hatte, was war das? Ah, genau, das war dieses QAT. Das fand ich auch noch mal richtig gut. Auch dazu packe ich euch den Link in die Shownotes. Wenn man nach QAT googelt: Das sind eigentlich nur Updates für die bestehenden Gemma-4-Modelle, die kann man einfach neu runterladen, und dann haben die das mit drin. Das ist ein Quantization Aware Training, und das sorgt dafür, dass die Modelle quantisiert kleiner sind und weniger Speicher verbrauchen. Aber trotzdem wird im Trainingsprozess berücksichtigt, dass sie später quantisiert werden, und dadurch ist die Qualität, obwohl das Modell viel kleiner ist, gar nicht so viel geringer. Das fand ich auch gut, dass Google eben da aus der Zwangslage heraus, dass es auf Smartphones laufen muss, sich wirklich mal um Effizienz kümmert und nicht immer sagt: Die werden immer größer, wir schlagen alles mit Hardware. Das ist total super, dann hat man total tolle Ergebnisse, aber dann sind wir wieder beim Hubschrauber, der zum Bäcker fliegt.
Ole: Ich sehe da eh gerade einen neuen Konflikt auf uns zukommen. Viele Firmen probieren sich gerade im Markt. Apple hat ja bei der letzten Developer-Konferenz auch mit Apple Intelligence, ja, sie haben damit ihre Challenges gehabt, aber 2026 wollen sie wirklich mal liefern. Sie investieren aber auch ganz stark in On-Device-Modelle. Und Microsoft hat Project Solera vorgestellt. Das sind auch Geräte, einmal ein Smartphone, das witzigerweise auf Android basiert und nicht auf Windows, und auch ein Desktop-Rechner, der ebenfalls mit einem Android läuft, die quasi einen Einstiegspunkt von den Menschen zur AI darstellen sollen. Um diesen Einstiegspunkt wird gerade hart gekämpft, sowohl von Google als auch von Apple und Microsoft. Den will man im Griff haben, weil das auch wichtige Trainingsdaten sind, wenn man den direkten Kontakt des Kunden zur AI kontrollieren kann. Das ist das Rennen, das gerade läuft, glaube ich.
Fabian: Ja, genau. Und da versuchen die Leute jetzt, die Smartphones sind eh schon in den Händen der Nutzerinnen und Nutzer, und dann will man da natürlich ein möglichst fähiges Modell drauf haben, dass man es direkt benutzen kann. Das beschäftigt mich gerade so ein bisschen, diese Lokalmodelle, was da für eine Entwicklung passiert. Ich habe das Gefühl, da passiert gerade einiges. Das heißt, wir haben sowohl ganz oben in der Skala Dinge, die passieren, als auch unten, und das finde ich irgendwie wichtig. Gut, ich glaube, das war es, was ich mitgeben wollte. Jetzt will ich mal auf die Uhr gucken. Sind wir schon die halbe Stunde drin?
Ole: Sind wir schon drin.
Fabian: Wir hatten, glaube ich, viel Redebedarf, weil die letzte Folge so lange her war. Aber ich würde vorschlagen, wir machen zu für heute.
Ole: Können wir gerne machen.
Fabian: Und gehen ins Programm zurück, es sei denn, du hast noch einen wichtigen Punkt, den du unterbringen möchtest.
Ole: Nichts, was nicht bis zum nächsten Mal warten kann. Wir versuchen, den Abstand zur nächsten Folge etwas kürzer zu halten.
Fabian: Den kürzer, und dann soll es das gewesen sein für die Folge aus dem schönen Salzburg. Ich hoffe, ihr habt ein schönes Wochenende gehabt, wahrscheinlich, wenn ihr die Folge hört, und es ist nicht zu heiß und die Temperaturen gehen runter. Ich hätte jetzt gerne gesagt, wir gehen ins Freibad, aber bei uns geht das Programm in vier Minuten weiter. Dann wünsche ich euch alles Gute. Bis dahin, macht’s gut.
Ole: Ciao, ciao.
Zusammenfassung
Diese Zusammenfassung wurde automatisiert erstellt und nicht manuell überprüft. Es kann daher Fehler enthalten. Massgeblich ist immer das im Mitschnitt gesprochene Wort.
Eine Event-Folge aus dem barocken Salzburg, aufgenommen am Rande eines INNOQ-Events mit Projekterfahrungsaustausch und Lightning Talks. Trotz kompaktem Format ist viel passiert: ein spektakulärer Personalwechsel, ein Modell, das nur vier Tage lebte, und Google, das sich in nie dagewesener Größenordnung Kapital besorgt.
Personalkarussell: Noam Shazeer wechselt zu OpenAI
Ole eröffnet mit dem Wechsel von Noam Shazeer, Mitautor des „Attention is all you need"-Papers und Wegbereiter der Mixture-of-Experts-Modelle. Google hatte sein Startup für fast 3 Milliarden gekauft, nur um ihn zurückzuholen; rund 1 Milliarde zog er selbst aus dem Deal. Jetzt ist er zu OpenAI gewechselt, gerüchteweise, um die Pretraining-Probleme von GPT-5.5 zu lösen. Fabian findet bemerkenswert, dass sich Talente offenbar nicht mehr mit Geld halten lassen, und sieht es kritisch, wie viel Hoffnung in einzelne „Leuchtturmfiguren" projiziert wird. Ole verweist darauf, dass bei Modellen mit enorm vielen Parametern nur ganz wenige Menschen die nötige Intuition mitbringen, und genau dafür gerade scheinbar unbegrenzt Geld fließt.
Fable und Mythos: vier Tage Hype, dann die Exportkontrolle
Das zweite große Thema ist Fable, das auf Mythos basierende Modell, das mit sehr starken Guardrails ausgeliefert wurde, stark eingeschränkt bei Biotechnologie und bei Fragen zum LLM-Training, wo Prompts intransparent heruntergestuft wurden. Das löste einen Shitstorm aus. Beide schildern ihre Eindrücke: Fabian nutzte es in Claude Code und war überrascht, wie kreativ und eigeninitiativ es Tools einsetzte. Ole, der eher kreativ als beim Coden damit arbeitete, beschreibt es als größten Sprung seit ChatGPT 3.5 auf 4, mit Suchtfaktor, aber auch zu hohen Kosten (50 Dollar pro 1 Million Output-Tokens). Nach nur vier Tagen stoppte die US-Exportkontrolle das Modell mit 90 Minuten Vorlauf. Ole erzählt die drei kursierenden Erklärungen: eine NSA-Red-Teaming-Geschichte, ein nicht gemeldeter Auslieferungs-Batch mit Südkorea-/China-Bezug und ein Whistleblower-Hinweis (mutmaßlich von Amazon) auf Jailbreak-Potenzial. Beide ordnen das auch als Marketing- und Machtfrage ein, und diskutieren, was es für Anthropic kurz vor dem IPO bedeutet.
Sicherheit: Warum jetzt gehärtet werden muss
Aus der Fable-Debatte folgt für Ole eine drängende Frage: Wenn Open-Source-Modelle nur ein halbes bis ganzes Jahr zurückliegen, müssten Banken, Behördensoftware und kritische Infrastruktur wie Strom- und Wasserkraftwerke jetzt dringend gehärtet werden. Fabian erinnert daran, dass das schon vor 20 Jahren richtig gewesen wäre, vielleicht schafft der aktuelle Druck endlich die nötige Investitionsbereitschaft.
Google besorgt sich 160 Milliarden, Blase oder nicht?
Ole erklärt Googles Kapitalbeschaffung: ein Aktienpaket über 84 Milliarden (der bislang größte Börsengang) plus knapp 80 Milliarden Bankschulden. Statt wie früher Aktien zurückzukaufen, verwässert man jetzt den eigenen Wert und finanziert „auf Pump", für die Blasen-Skeptiker ein echtes Argument. Gegenpol: Warren Buffetts Berkshire Hathaway, sonst tech-zurückhaltend, kauft sich mit 10 Milliarden ein, ein Ritterschlag für die andere Lesart. Ole bleibt unentschieden, ob es eine Blase ist. Spannend auch: Google zahlt rund 920 Millionen pro Monat an die „Neo Cloud" SpaceX für Nvidia-GPUs, obwohl der Konzern sonst stark auf eigene TPUs setzt. Fabian vermutet eine Übergangslösung, weil die Chip-Produktion (TSMC) nicht hinterherkommt, langfristig wollen alle auf eigene Chips, auch OpenAI hat einen ersten eigenen Chip vorgestellt.
GLM 5.2: Open Weights, das fürs Coding überzeugt
Fabian stellt GLM 5.2 von Z.ai vor, ein chinesisches Open-Weights-Modell, das laut Stimmen schon an Opus 4.7 herankommt. Dazu passt die These, dass solche Modelle mit den Thinking Tokens der Anthropic-Modelle trainiert werden, vermutlich der Grund, warum Anthropic diese nicht mehr über die API exponiert. Fabian hat GLM 5.2 in seinem lokalen Harness-Setup ausprobiert und ist überzeugt: gute Ergebnisse, in der EU gehostet beziehbar und um den Faktor 15 bis 20 günstiger als US-Modelle. Sein Plädoyer: nicht jeden Prompt ins teuerste Modell werfen („mit dem Hubschrauber zum Bäcker fliegen"), sondern Kontext sauber bauen und passende Modelle für Teilaufgaben wählen.
Gemma 4 und der Effizienz-Trend bei lokalen Modellen
Fabian ist begeistert von Googles Innovationen bei lokal betreibbaren Modellen. Zwei Punkte hebt er hervor: Multi Token Prediction (MTP), eine Weiterentwicklung des Speculative Decoding, die in Benchmarks teils eine Verdreifachung der Token-Rate auf dem Laptop bringt (von 10 auf 30 Tokens/Sekunde, zuerst in Ollama verfügbar), sowie Quantization Aware Training (QAT), das die Gemma-4-Modelle deutlich kleiner macht, ohne große Qualitätseinbußen. Ole sieht einen größeren Kampf aufziehen: Apple (On-Device, mit Apple Intelligence soll 2026 geliefert werden) und Microsoft (Project Solera mit Android-basierten Geräten) ringen mit Google um den direkten Einstiegspunkt zwischen Mensch und KI, auch, weil das wertvolle Trainingsdaten liefert.