This article is also available in English
Dieser Artikel ist Teil einer Reihe.
- Teil 1: Die Souveränitätslücke: Zwischen Tiananmen und Trump
- Teil 2: Lokal denken, Vorsprung sichern: On-Premise-LLMs als strategischer Hebel (dieser Artikel)
Dieses Szenario wurde im Mai 2025 Realität, als ein US-Bundesrichter OpenAI anordnete, die Löschung von Ausgabedaten aus ChatGPT zu stoppen und das Unternehmen verpflichtete, alle Ausgabelogdaten aufzubewahren.[1] Für Nutzer bedeutet dies, dass jegliche sensible Information, die mit OpenAIs Systemen geteilt wurde, möglicherweise auf unbestimmte Zeit gespeichert bleibt, was potenzielle Risiken für Fachleute in Bereichen wie Recht, Gesundheitswesen oder Finanzen schafft. Die Anordnung betrifft Hunderte Millionen Nutzer weltweit und zeigt, wie schnell externe Abhängigkeiten sich von strategischen Vermögenswerten zu unkontrollierbaren Verbindlichkeiten wandeln können. Dies verdeutlicht, warum KI-Souveränität von einem theoretischen Anliegen zu einem Risiko auf Vorstandsebene geworden ist.
Europas schmales Zeitfenster der Möglichkeiten
Als ChatGPT im November 2022 erschien, tat es mehr als nur Fragen zu beantworten – es brachte künstliche Intelligenz in aller Munde. Die zugrundeliegenden Large Language Models ermöglichen eine vollständig natürlichsprachliche Kommunikation. ChatGPT hat die Softwarebranche erschüttert, trotz seiner Neigung zu «Halluzinationen» – dem Euphemismus der Branche für das Erfinden von Fakten. Von Startup-Pitches bis hin zu Unternehmens-Updates prahlt jetzt jedes neue Produkt mit irgendeiner Form von KI.
US-amerikanische und chinesische LLM-Anbieter dominieren den Markt für KI-Technologie. Dies stellt EU-Unternehmen vor Herausforderungen.[2] Die Qualität der Ausgabe von KI-Modellen hängt von der Quantität und Qualität der als Input eingespeisten Daten ab.
Datenschutzbewusste Unternehmen sehen es ungern, ihre sensiblen Unternehmensdaten oder ihr geistiges Eigentum auf Server außerhalb ihrer Gerichtsbarkeit hochzuladen. EU-Regulierungen wie die DSGVO beschränken zudem die Übertragung personenbezogener Daten.[3]
Das deutsche Unternehmen Aleph Alpha veranschaulicht die Herausforderungen, mit denen europäische LLM-Entwickler konfrontiert sind, wenn sie versuchen, mit Anbietern aus Übersee zu konkurrieren. Das Unternehmen sammelte über 500 Millionen Euro an Finanzierung, schwenkte aber 2024 von der Modellentwicklung zu KI-Beratungsdienstleistungen um.[4] Wie CEO Jonas Andrulis gegenüber Bloomberg erklärte: «Nur ein europäisches LLM zu haben, reicht als Geschäftsmodell nicht aus».
Trotz der Hürden bieten europäische LLM-Anbieter einen Wettbewerbsvorteil, den EU-Organisationen nicht ignorieren können. Das französische Unternehmen Mistral bedient die kontinentale datenschutzbewusste Kundschaft. Ihre Modelle laufen auf der europäischen Infrastruktur des Unternehmens und lindern die Compliance-Herausforderungen beim Versand sensibler Daten ins Ausland. Darüber hinaus enthalten ihre Trainingsdatensätze umfangreiche mehrsprachige europäische Materialien. Das ermöglicht ihnen nicht nur, kulturell besser abgestimmte Ergebnisse zu produzieren, sondern auch die sprachliche Vielfalt Europas besser zu berücksichtigen, einschließlich der Fähigkeit zu übersetzen. Schließlich fallen die Hersteller durch ihren Sitz in Europa unter die EU-Umweltgesetzgebung, was es den Kunden ermöglicht, Nachhaltigkeitsberichte zu erwarten und so informierte Entscheidungen beim Betrieb der energieintensiven Modelle zu treffen.[5]
Der versteckte Preis gehosteter KI
Während die von europäischen Anbietern gehosteten KI-Dienste eine Reihe von Bedenken von Unternehmen adressieren, die sich über die Abhängigkeit von ausländischen Firmen sorgen, bleiben bestimmte Risiken bestehen. Betrachten wir den finanziellen Aspekt. LLM-Anbieter haben mit den Kosten für den Betrieb ihrer Modelle zu kämpfen. Wie The Economist berichtete, verlor OpenAI im Jahr 2024 schätzungsweise 5 Milliarden Dollar, ohne Aussicht auf Rentabilität.[6]
Die Kosten für den Betrieb komplexerer Modelle, wie OpenAIs o3, die umfangreiche Rechenleistung für die Generierung ihrer Antworten einsetzen, verkürzen die wirtschaftliche Lebensfähigkeit. Die Fähigkeit der LLM-Firmen, ihr Wachstum durch kontinuierliche Anwerbung neuer Investoren zu finanzieren, wird zwangsläufig nachlassen und mit ihr ihre Fähigkeit, ihre Dienste mit Verlust anzubieten. Sollten sie beschließen, die Kosten auf ihre Kunden zu verlagern, könnten die bisher erschwinglichen gehosteten KI-Tools zu einem erheblichen Posten in den Cloud-Service-Rechnungen der Kunden werden.
Europäische Unternehmen sind geschätzte Kunden US-amerikanischer digitaler Plattformen. In ihrem Bericht vom April 2025 schätzt Asterès, eine Beratungsfirma, dass EU-Unternehmen jährlich ca. 264 Milliarden Euro für Cloud-Ausgaben bei amerikanischen Anbietern ausgeben.[7] Die Autoren des Berichts schätzen die Summe auf 1,5% des europäischen BIP und vergleichen sie mit der gesamten Energieimportrechnung der EU, die für 2024 auf 376 Milliarden Euro geschätzt wird.[8]
Offene Gewichte, offene Türen
Open-Weights-LLMs, bieten eine überzeugende Alternative. OpenAI und Anthropic halten ihre Modelle als streng gehütete Geheimnisse. Die Gewichte der Modelle – Milliarden von Parametern, die bestimmen, wie neuronale Netze Text verarbeiten und generieren – sind nicht öffentlich. Im Gegensatz dazu können Open-Weights-Modelle heruntergeladen und auf Hardware verwendet werden, die nicht vom Hersteller des Modells kontrolliert wird.
LLM-Anbieter veröffentlichen ihre Open-Weights-Modelle unter verschiedenen Bedingungen. Meta, die Muttergesellschaft von Facebook, beschränkte die Anwendbarkeit der frühen Versionen von LLaMa auf wissenschaftliche oder private Zwecke. Das Technology Innovation Institute der Vereinigten Arabischen Emirate hat Falcon-Modelle unter großzügigen Bedingungen veröffentlicht, die eine nahezu unbegrenzte kommerzielle Nutzung ermöglichen. Mistral hat Open-Weights-Modelle sowohl unter restriktiven, akademisch ausgerichteten als auch unter laissez-faire-Lizenzen veröffentlicht.
Die lokale Bereitstellung von Open-Weights-Modellen ermöglicht es Organisationen, Daten innerhalb ihrer eigenen Infrastruktur zu halten und gleichzeitig die Kontrolle über Modellversionen und -updates zu behalten. Führende Open-Weights-Modelle wie Metas Llama 4 schneiden in vielen Benchmarks konkurrenzfähig ab, obwohl die Bereitstellung zusätzliches technisches Fachwissen und Infrastrukturinvestitionen erfordert.
Organisationen können leistungsstarke gehostete Modelle für Entwicklung und Prompt-Optimierung nutzen und dann diese verfeinerten Workflows auf lokaler Infrastruktur für Produktionsszenarien einsetzen, bei denen Datensouveränität entscheidend ist. Dieser Ansatz balanciert wettbewerbsfähige Leistung mit regulatorischer Compliance und strategischer Kontrolle.
Die Verfügbarkeit der Gewichte der Modelle ermöglicht neue Nutzungsszenarien, die bei gehosteten Alternativen nicht möglich sind. Betrachten Sie drei Aspekte: die Fähigkeit, das Modell auf der Hardware Ihrer Wahl zu hosten; die Anpassungsfähigkeit und Spezialisierung auf bestimmte Geschäftsanforderungen; und die vollständige Kontrolle über den Fluss sensibler Daten, die die Modelle verarbeiten.
KI nach Ihren Bedingungen hosten
Beginnen wir mit der Flexibilität des Hostings. Open-Weights-Modelle sind, anders als beispielsweise Alternativen von OpenAI, sowohl mit Unternehmensservern als auch mit handelsüblichen Laptops kompatibel. Die Hardware-Plattform muss bestimmte Anforderungen erfüllen, z.B. GPU-Chips mit ausreichend Speicher haben. Sobald die Hardware-Anforderungen erfüllt sind, können Firmen ihre Modelle auf den Plattformen ihrer Wahl ausführen, vorbehaltlich der Lizenzen, die die Nutzung der Modelle regeln.
Das ermöglicht eine breite Auswahl an Umgebungen, in denen Unternehmen ihre KI-Tools installieren können. Diese können von Servern, entweder in der Cloud oder in Kellern von Unternehmenszentralen, bis hin zu Entwickler-Workstations und Laptops reichen. Jüngste Hardware-Fortschritte – z.B. Apples ARM-basierte Systeme – und Verbesserungen der Speichereffizienz dank Techniken wie Quantisierung – d.h. Kompression von Gewichten – machen LLMs mit einem breiten Spektrum von Plattformen kompatibel.
Betrachten wir nun den zweiten Aspekt. Open-Weights-Modelle sind für den Prozess des «Fine-Tuning» geeignet, der es ihren Nutzern ermöglicht, sie weiter auf bestimmte Bedürfnisse abzustimmen. Der Tuning-Prozess kann das Modell anpassen, um es mit domänenspezifischem Fachwissen zu erweitern, es an kulturelle Normen oder Unternehmensbezeichnungen anzupassen und geschäftsspezifische Fakten oder Daten einzubetten. Obwohl teurer als das Modifizieren von Prompts, kann Fine-Tuning zur Erstellung von Modellen führen, die auf die Bedürfnisse bestimmter Geschäftsbereiche spezialisiert sind. Darüber hinaus könnten sie Risiken adressieren, die durch Verzerrungen verursacht werden, die von ihren Erstellern in die Modelle eingebettet wurden, wie auf Seite (siehe Robert Glasers Artikel in dieser Ausgabe) diskutiert.
Drittens beseitigt die lokale Ausführung von Open-Weights-LLMs eine ganze Dimension von Risiken, die mit gehosteten KI-Tools verbunden sind. Alle Daten, sei es geistiges Eigentum, personenbezogene Informationen oder Finanzdaten, bleiben während des gesamten Betriebs im Unternehmensnetzwerk und auf der Hardware. Bei LLMs, die auf den Geräten von Softwareentwickler:innen laufen, findet die gesamte Interaktion mit KI-Tools auf dem Gerät statt, und keine Daten verlassen die Workstation. Das stärkt den Fall für lokale LLMs im Lichte der Einschränkungen durch die DSGVO und den ergänzenden EU AI Act.[9] Die Gerichtsanordnung vom Mai 2025, die OpenAI verpflichtet, Nutzerkonversationen aufzubewahren – trotz Datenschutzgesetzen und Löschungsanfragen der Nutzer – veranschaulicht das jurisdiktionale Risiko, das durch lokale Bereitstellung eliminiert wird.
Nutzer in Bereichen mit strengen Compliance-Anforderungen – z.B. DORA oder NIS-2 – könnten die vollständige Isolation lokaler LLMs überzeugend finden. Präzise Kontrolle über Bereitstellung, Updates und Versionierung sowohl der Modelle als auch der ergänzenden Datensätze, die für das Tuning verwendet werden, ermöglicht strengere Überwachungs-, Kontroll- und Prüfungsmöglichkeiten. Das führt zu Compliance, ohne die Fähigkeit zu Innovation und Experiment zu opfern.
Darüber hinaus verändert die Nutzung lokaler LLMs die Kostenstruktur. Anstatt ständiger Gebühren für die Nutzung gehosteter Modelle können Unternehmen, die ihre eigenen KI-Tools einsetzen, dies auf ihrer eigenen, angemessen dimensionierten Hardware tun. Im Falle von Entwickler-Workstations könnten Laptops mit den richtigen Fähigkeiten bereits im Inventar sein. Frühe Anwender werden Zeit haben, internes Know-how in Bezug auf den Betrieb und möglicherweise das Fine-Tuning ihrer LLMs zu entwickeln und so ihr Risiko einer Bindung an Anbieter von gehosteten Lösungen zu reduzieren.
Die wahren Kosten des lokalen Einsatzes
Lokal eingesetzte Modelle bringen einen neuen Satz von Kosten mit sich, die potenzielle Nutzer berücksichtigen müssen. Während dauerhafte Gebühren reduziert werden, summieren sich die Vorabkosten für Hardware im Falle einer internen Bereitstellung, zusammen mit der Notwendigkeit, qualifiziertes Personal für den Betrieb und die Wartung neuer Technologie auszubilden, schnell.
Stand Mai 2025 beginnen Apples Laptops mit ARM-Chips, die leistungsstark genug sind, um lokale Modelle auszuführen, bei etwa 2.000 €. Entsprechende NVIDIA-GPUs, die in Workstations von Softwareentwicklern eingebaut werden können, beginnen bei 1.500 €. Die stündliche Miete einer NVIDIA H100 GPU der Spitzenklasse beträgt 2–7 €, was sich auf ca. 1.400–5.000 € pro Monat bei kontinuierlicher Nutzung summiert. Die hohe Nachfrage hat den Einzelhandelspreis bei 20.000–30.000 € gehalten. Käufer müssen Betriebskosten für Energie und Wartung berücksichtigen.
Anstatt sich für eines der Extreme zu entscheiden, werden Unternehmen davon profitieren, Bereitstellungen zu erkunden, die die Stärken von lokaler Hardware und Mietkapazität kombinieren. Ein gemeinsam genutzter Cluster kleinerer GPUs und Laptops wird wahrscheinlich ausreichend Rechenleistung für typische tägliche Anforderungen bieten. Teure Rechenaufgaben, wie das periodische Fine-Tuning neuer Modelle, werden am besten auf einem leistungsstarken Chip ausgeführt, der von einem inländischen Anbieter gemietet wird. Dies spart Kosten durch die Eliminierung nicht ausgelasteter Ressourcen.
Vor Ort gehostete Modelle erfordern qualifizierte und gefragte Mitarbeiter, um eingesetzte LLMs zu konfigurieren, zu warten und Fehler zu beheben. Darüber hinaus müssen Unternehmen die Kosten für IT-Sicherheit und die Schulung von Mitarbeitern, die mit den Modellen interagieren werden, einbeziehen. Unternehmen, die dieses Risiko absichern wollen, gehen Partnerschaften ein, die es ihnen ermöglichen, auf die Ressourcen von Experten auf diesem Gebiet zuzugreifen. Betrachten Sie BNP Paribas, eine Bank, die eine Vereinbarung mit Mistral eingegangen ist, um bei der Einführung von LLM-Tools in den streng regulierten Finanzbereich zu helfen[10], oder GovTech Campus Deutschland, eine gemeinnützige Organisation, die mit Technologiepartnern zusammenarbeitet, um KI-Plattformen im Bundesland Baden-Württemberg zu bauen.[11]
Ein Drei-Stufen-Plan für digitale Souveränität
Die OpenAI-Aufbewahrungsanordnung vom Mai 2025 zeigt, dass Bedenken zur digitalen Souveränität nicht theoretisch sind – sie stellen unmittelbare Geschäftsrisiken dar, die europäische Unternehmen nicht länger ignorieren können. Vorausschauende Organisationen sollten einen Drei-Stufen-Plan verfolgen. Beginnen Sie mit risikoarmen Pilotprojekten, die unmittelbaren Mehrwert liefern. Bauen Sie Expertise durch breitere Experimente auf. Verwandeln Sie schließlich lokale KI in einen Wettbewerbsvorteil.
Pilotprojekte sollten sich auf bewährte Tools und unkontroverse Probleme konzentrieren. Automatisierte Unterstützung für Meetings beispielsweise erfordert 5.000 € für Hardware und liefert sofortige Produktivitätsgewinne. Tools wie whisper.cpp ermöglichen die Spracherkennung und Transkription der Sitzungen. Ein lokales LLM kann die transkribierten Protokolle verarbeiten und sie in Echtzeit in Zusammenfassungen umwandeln, Aktionspunkte extrahieren und Tagesordnungen für zukünftige Termine entwerfen. Die gesamte Verarbeitung findet in dem Raum statt, in dem das Meeting stattfindet; keine Daten verlassen den physischen Raum.
Erfolg öffnet Türen zu größeren Herausforderungen. Denken Sie an Probleme, bei denen LLMs sich als hervorragend erwiesen haben, wie Dokumentenzusammenfassung und Erkennung semantischer Ähnlichkeit. Betrachten Sie Methoden wie Retrieval-Augmented Generation, die es Ihrem LLM ermöglichen, relevante Informationen aus anderen Quellen zu ziehen, z.B. aus Ihrem Unternehmenswiki, proprietärer technischer Dokumentation oder CRM-System. Nutzen Sie diese Fähigkeiten, um automatisierte Pipelines für die Verarbeitung eingehender Korrespondenz und Dokumentation für Archivierungs- und Suchzwecke zu erstellen. Überlegen Sie, wie ein LLM Antworten auf Ausschreibungen beschleunigen könnte, indem es Ihre bestehende Datenbank von Angeboten nutzt, während sensible Daten im Haus bleiben. Ermutigen Sie Ihre Teams, mit verschiedenen Modellen und Quantisierungsstufen zu experimentieren.
Bewährte Technologie wird zum strategischen Hebel. In dieser Phase sollten Ihre Teams sich sicher genug fühlen, nach Spitzentechnologien zu greifen. Das ermöglicht es Ihrer Organisation, ambitioniertere Herausforderungen anzunehmen und LLMs zu nutzen, um jahrzehntelanges institutionelles Wissen zu erschließen. Ein isoliert betriebenes Due-Diligence-KI-Tool wird Ihnen helfen, die Risiken von Fusionen und Übernahmen oder Vorbereitungen für behördliche Einreichungen zu navigieren, während die Dokumentation in Ihrer sicheren Infrastruktur bleibt. Führen Sie einen Onboarding-Assistenten ein, der neuen Softwareentwicklern hilft, die komplexe Geschichte und Architektur Ihres Unternehmens-Softwareportfolios zu navigieren. Setzen Sie ein lokales LLM ein, das auf DSGVO, DORA, NIS-2 und interne Compliance-Dokumentation abgestimmt ist, um proaktiv regulatorische Anforderungen zu adressieren, ohne sensible Informationen externen Anbietern preiszugeben.
Fazit: Jenseits der Compliance
Handeln Sie entschlossen: Wochen für Pilotprojekte, Monate für Erweiterungen, Quartale für Transformation. Ermutigen Sie frühe Fehler – sie lehren wertvolle Lektionen über Modellleistung und organisatorische Bereitschaft. Erhöhen Sie Ihre Reife- und Stabilitätserwartungen mit dem Fortschreiten der Transformation. Schließen Sie jeden Schritt mit einer Überprüfung der Daten-Governance-Implikationen und ROI-Metriken ab, z.B. eingesparte Zeit bei der Besprechungsverwaltung, manuellen Dokumentenverarbeitung und Einarbeitung neuer Mitarbeiter. In einer Ära, in der Daten den Wettbewerbsvorteil bestimmen, gehen Organisationen, die die lokale KI-Bereitstellung meistern, über die regulatorische Compliance hinaus – sie übernehmen die Kontrolle über ihre digitale Zukunft.
-
Martin Steiger, Gerichtliche Verfügung: OpenAI darf Nutzer–Konversationen mit ChatGPT nicht mehr löschen, 18. Mai 2025 ↩
-
Europe's cloud customers eyeing exit from US hyperscalers, The Register, 17. April 2025. ↩
-
Europäischer Datenschutzausschuss, Internationale Datenübermittlungen, abgerufen im Mai 2025. ↩
-
Mark Bergen, The Rise and Pivot of Germany's One–Time AI Champion, Bloomberg, 5. September 2024. ↩
-
Generaldirektion Energie, Kommission verabschiedet EU–weites Schema zur Bewertung der Nachhaltigkeit von Rechenzentren, 15. März 2024. ↩
-
Will OpenAI ever make real money?, The Economist, 15. Mai 2025. ↩
-
Asterès, La dépendance technologique au cloud–logiciel américain : une estimation des conséquences économiques en Europe, April 2025. ↩
-
Eurostat, „Importe von Energieprodukten in die EU im Jahr 2024 rückläufig, 21. März 2025. ↩
-
Bommasani et al., Foundation Models under the EU AI Act, Stanford Center for Research on Foundation Models, 2024. ↩
-
BNP Paribas and Mistral AI sign a partnership agreement covering all Mistral AI models, 10. Juli 2024. ↩
-
GovTech Campus Deutschland, STACKIT and Aleph Alpha create a platform for AI applications for the German administration, 25. Juli 2024. ↩