This article is also available in English

Die Risiken eines unregulierten Einsatzes von KI-Technologie diskutiert die im April 2021 veröffentlichte „Regulation on a European Approach for Artificial Intelligence“ auch auf EU-Ebene. Der erste Teil dieser aus zwei Teilen bestehenden Artikelserie beschreibt die gesellschaftlichen Herausforderungen, die mit KI einhergehen. Der zweite Teil vertieft die technische Seite des Themas und erscheint in Kürze.

KI-Modelle sind nicht inhärent neutral

Wenn man ehrlich über die Herausforderungen sprechen möchte, denen eine demokratische Gesellschaft gegenübersteht, kann man es sich nicht leisten, die Risiken unregulierter KI-Software zu ignorieren. Machine Learning beziehungsweise Künstliche Intelligenz mag eine technische Methode sein – die Probleme, die sich damit lösen lassen, müssen allerdings nicht technischer Natur sein.

KI ist im Grunde die Anwendung von Algorithmen auf ein bestimmtes Problem. Um dieses zu lösen, werden sie mit Daten trainiert. Algorithmen gehören in den Bereich der Mathematik, die weithin als neutrale Instanz gilt. Lässt sich daraus ableiten, dass die Neutralität der Mathematik auch auf ihre Anwendung zutrifft? Nein, denn KI-Systeme und die ihnen zugrunde liegende Anwendung mathematischer Algorithmen sind nicht inhärent neutral. Es sind Menschen, die KI-Systemen die Daten bereit stellen, aus denen Algorithmen wiederum lernen. Damit sind es also Menschen, die in die Richtung weisen, in die sich KI verselbständigen soll, und der Mensch taugt nun mal nicht als objektiver Wegweiser.

Risiken unregulierter KI-Bias in Gesichtserkennungssystemen

2018 veröffentlichten die ghanaisch-amerikanische Informatikerin Joy Buolamwini und Timnit Gebru, eine ehemalige Ethical-AI-Forscherin bei Google, die Studie „Gender Shades“, in der sie die Gesichtserkennungssysteme von Microsoft, IBM und Megvii analysierten. Sie wies nach, dass die Gesichtserkennung bei der Identifizierung von Menschen dunklerer Hautfarbe weniger akkurat entscheidet als bei Menschen hellerer Hautfarbe. Unterschiede in der Genauigkeit des Algorithmus gab es auch zwischen Männern und Frauen: Alle getesteten Face-Recognition-Systeme funktionierten für Männer besser als für Frauen. IBM führte dabei den Negativrekord an: Das System hatte eine um rund 34 Prozent reduzierte Accuracy für dunkelhäutige Frauen als für hellhäutige Männer. Woraus resultierte der Bias?

Damit Gesichtserkennungssysteme die gewünschte Leistung erbringen, muss die Verteilung der Bilder in den Trainingsdaten der Verteilung der Merkmale von Gesichtern entsprechen, die man in der realen Welt erwarten würde. Nur durch eine hohe Vielfältigkeit und breite Abdeckung der Trainingsdaten kann ein Modell unterschiedliche Ausprägungen von Merkmalen lernen. Enthalten Trainingsdaten dagegen Verzerrungen, die soziale Ungleichheiten in den Trainingsdaten widerspiegeln, gehen diese Verzerrungen in die erstellten Modelle ein.

Vor dem Hintergrund, dass Gesichtserkennung in den USA an Flughäfen zur Überprüfung der Identität der Reisenden oder von der Polizei zur Strafverfolgung eingesetzt wird, entpuppten sich die Ergebnisse der Studie als Initialzündung für eine Bürgerrechtsbewegung, die Maßnahmen forderte, um dem Problem des algorithmischen Bias Rechnung zu tragen. Als Konsequenz aus dieser öffentlichen Empörung beschloss IBM, sein Gesichtserkennungssystem vorerst nicht mehr einzusetzen. Zusätzlich zum Rückzug ihres Systems ging IBM noch einen Schritt weiter und stellte „Diversity in Faces“ vor, einen Datensatz mit einer Million annotierter menschlicher Gesichter.

Die Daten waren unter sorgfältiger Berücksichtigung wissenschaftlicher Gesichtskodierungsschemata generiert worden und zielten darauf ab, zu vielfältigen Datensätzen beizutragen, die schließlich zu einer ausgewogeneren und fairen algorithmischen Entscheidungslogik führen sollten. Es stellte sich jedoch heraus, dass die im Datensatz enthaltenen Fotos ohne Zustimmung der Nutzer von der Foto-Hosting-Seite Flickr übernommen worden waren. In dem Versuch, das Fairness-Problem zu kitten, tat sich das Problem der Privacy auf.

Sprachmodelle gewinnen an Bedeutung

Trainingsdaten spielen auch für Sprachmodelle eine zentrale Rolle. Language Models (LM) sind unüberwachte KI-Systeme, die für die Vorhersage der Wahrscheinlichkeit eines Tokens (Zeichen, Wort oder Zeichenkette) trainiert werden, wenn entweder der vorangehende Kontext oder der umgebende Kontext gegeben ist. Viele Menschen verwenden direkt oder indirekt große LM, auch wenn sie sich dessen vielleicht nicht bewusst sind. Ob Suchmaschinen, Textgenerierung oder Konversationstools – die Bedeutung von LM ist fest etabliert und wird im Alltag weiter an Bedeutung zunehmen. Um den Datenhunger der Sprachmodelle zu stillen, gilt es, große Datenmengen als Trainingsdaten aus dem gesamten Internet zu sammeln.

Das Internet als Datenbezugsquelle birgt das Risiko, „hegemonische Weltansichten von den Trainingsdaten zu absorbieren“, wie ein Paper von der Universität Washington erklärt, und dem Algorithmus von Anfang an eine Sprache beizubringen, die von Bias geprägt ist. Daraus resultieren Modelle, die stereotypische und abwertende Assoziationen bezüglich Geschlecht, Rasse, Ethnie und Behinderungsstatus enthalten. Wenn diese Modelle ausgerollt werden, entweder als Teil eines Klassifizierungssystems oder als Spachgenerator, verstärkt sich dieser Bias in der Anwendung.

Darüber hinaus beginnt mit dem Deployment des Modells ein neuer Kreislauf: Der von LM produzierte Text wird sich mit dem in ihm enthaltenen Bias weiterverbreiten und im Zuge dessen nicht nur Stereotype verstärken, sondern selbst wieder in Trainingsdaten für neue Modelle enthalten sein. Das Risiko eines subtilen Bias oder das einer von Language Models generierten offen beleidigenden Sprache wird für Menschen, gegen die es sich richtet, ein gravierendes Problem. Dazu gehört zum einen der individuelle psychologische Schaden, zum anderen hat das Thema mit der Verstärkung sexistischer, rassistischer und anderer Vorurteile eine gesamtgesellschaftliche Tragweite. Verstärkte Ideologien können im schlimmsten Fall zu Gewalt führen.

Notwendigkeit von Regulierungen und geeigneten Frameworks

Gender Shades und die möglichen Risiken großer Sprachmodelle führen vor Augen, wie schwierig es ist, vor der Bereitstellung der Software zu erkennen, ob und welches schädliche Potenzial einem System innewohnt. Entfaltet sich dieses Potenzial nach Bereitstellung, ist das Auffinden der Fehlerquelle mitunter unmöglich und kann massive Konsequenzen haben. Selbstverständlich gibt es eine Vielzahl weiterer Anwendungsfälle von KI in einem breiten gesellschaftlichen Kontext. Beispielsweise kann KI eingesetzt werden, um Kreditentscheidungen oder den Einstellungsprozess neuer Mitarbeiter zu unterstützen.

Mit der zunehmenden Integration von KI in die Gesellschaft sind Chancenverlust, wirtschaftlicher Schaden und soziale Stigmatisierung die Hauptrisiken einer unethischen Anwendung von KI-Technologie. Es ist klar, dass Algorithmen selbst nicht zur Rechenschaft gezogen werden können – wohl aber Unternehmen, die KI-Software entwickeln. Um zu verhindern, dass deren Umgang mit ethischen Leitlinien lediglich eine Reaktion auf externen Druck wie drohenden Reputationsschäden darstellt, braucht es verbindliche gesetzliche Vorgaben zur Regulierung von KI-Software und eine Neujustierung der Unternehmens-Policy.

Ethical Guidelines: „lauwarm, kurzsichtig und vorsätzlich vage“?

Diese Notwendigkeit hat auch die EU erkannt. Im April 2021 erschien die „Regulation on a European Approach for Artificial Intelligence“ als erster Rechtsrahmen für KI, der die Risiken Künstlicher Intelligenz adressiert. Das Dokument erkennt an, dass der Einsatz biometrischer Identifikationssysteme „besondere Herausforderungen für den Schutz der Grundrechte und -freiheiten" mit sich bringt. Außerdem hält das Dokument fest, dass „technische Ungenauigkeiten zu verzerrten Ergebnissen führen und diskriminierende Wirkungen nach sich ziehen“ (Sektion 70). Dies sei besonders bei Alter, ethnischer Zugehörigkeit, dem Geschlecht oder Behinderungen relevant.

Auch die zentrale Bedeutung der Trainingsdaten für die Leistung des KI-Systems wird hervorgehoben (Sektion 45). Diese sollten „ausreichend relevant, repräsentativ, fehlerfrei und vollständig im Hinblick auf den beabsichtigen Zweck sein“, damit gewährleistet ist, dass Risiken für die Sicherheit und Grundrechte minimiert werden. Da dieser Rechtsrahmen nicht nur für in der EU ansässige Unternehmen und Einzelpersonen gelten soll, sondern auch für jedes Unternehmen, das KI-Leistungen innerhalb der EU anbietet, hätte das Gesetz einen der DSGVO entsprechenden Geltungsbereich und würde weltweit auf die KI-Entwicklung Einfluss nehmen.

Die Auseinandersetzung mit der Regulierung von KI-Software ist für die EU nicht neu. 2019 gab eine von der Europäischen Kommission beauftragte Expertengruppe Ethik-Leitlinien für die Entwicklung von KI-Software heraus. Die „Requirements for Trustworthy AI“ beschreiben die geforderten Hauptmerkmale von KI-Systemen, nach denen Künstliche Intelligenz rechtmäßig, ethisch und robust sein sollte. Aus diesen Eigenschaften wurden sieben präzise Schlüsselanforderungen abgeleitet: menschliches Handeln und Aufsicht (KI sollte den Menschen befähigen, informierte Entscheidungen zu treffen), technische Robustheit und Sicherheit, Datenschutz und Data Governance, Transparenz, Vielfältigkeit, gesellschaftliches und ökologisches Wohlbefinden sowie die Rechenschaftspflicht.

Obwohl diese Leitlinien sicherlich ein Schritt in die richtige Richtung waren, gab es Kritik an ihrem Inhalt, den ein Mitglied der Expertengruppe als „lauwarm, kurzsichtig und vorsätzlich vage“ bezeichnete. Ohne eine praktische Anleitung zur tatsächlichen Umsetzung und Operationalisierung ethischer Prinzipien fehlt eine wichtige Voraussetzung, um die Einhaltung eigener normativen Forderungen durchsetzen zu können. Ob die frisch veröffentlichte Regulierung genau das bewirken kann, bleibt zum Stand der Artikelveröffentlichung noch offen.

Model Governance – eine neue Unternehmenspolitik zur Regulierung von KI-Software

Klar ist es aber, dass das europäische Anziehen regulatorischer Zügel Unternehmen, die KI-Software entwickeln, rechenschaftspflichtig macht. Um dieser Rechenschaftspflicht nachzukommen, brauchen Firmen eine Unternehmens-Policy (Model Governance), die ein klares Framework zum Umgang mit KI-Software festlegt. Als „System, durch das die gesamte Organisation geleitet, kontrolliert und zur Rechenschaft gezogen wird“, macht Model Governance Unternehmen rechenschaftsfähig und mindert die Risiken, die der Einsatz von KI-Software birgt.

Das Prinzip von Model Governance ist nicht neu: Es gibt etliche Bereiche mit einer Tradition überprüfbarer Prozesse und Kontrollmechanismen, die zwar nicht fehlerlos funktionieren, aber ohne die das Erreichen eines Sicherheitsstandards unmöglich wäre. Dazu gehören sicherheitskritische und regulierte Branchen wie die Medizin, aber auch Luft- und Raumfahrt oder das Finanzwesen.

Im Bereich der KI muss Model Governance die Zugriffskontrolle sowie Prüfungs- und Validierungsprozesse definieren – diese Prüfungsprozesse sind wichtig, um zu überprüfen, ob KI-Systeme ethischen Anforderungen entsprechen. Rollen und Verantwortlichkeiten gilt es ebenso festzulegen wie standardisierte Änderungs- und Auditprotokolle, die jede Änderung von Daten, Modell oder Systemen protokollieren. Die Protokollierung schafft nicht nur Transparenz nach außen, sie erleichtert auch die Fehlerbehebung und hilft beim Erfüllen gesetzlicher und regulatorischer Anforderungen.

Dazu gehören auch nachvollziehbare Modellergebnisse: Modelle sind dynamisch. Dennoch muss es möglich sein, jedes Modellergebnis der Modellversion zuzuordnen, die es erzeugt hat – das kann wichtig werden, wenn Nutzer beispielsweise gegen eine bestimmte algorithmische Entscheidung klagen. Die klare Festlegung von Rollen, Verfahren und Protokollen ermöglicht einen konsistenteren Produktionsprozess, der für Unternehmen das betriebliche, regulatorische und rechtliche Risiko vermindert.

Damit ist Model Governance die Basis, auf der zu regulierende Aspekte wie Ethik, Fairness und Bias (übergeneralisierte Annahme über eine bestimmte Personengruppe), Interpretierbarkeit und Erklärbarkeit sowie Robustheit und Sicherheit von KI-Systemen aufbauen. Diese Kernaspekte werden unter dem Begriff Responsible AI zusammengefasst.

Mangel an Best Practices und Neuheit des Feldes

An dieser Stelle ist es wichtig anzumerken, dass Begriffe wie Model Governance oder Responsible AI bisher nicht konsensbasiert definiert sind, weil es sich hier um ein noch neues Feld ohne etablierte Frameworks oder Best Practices handelt. Zwar gibt es Einigkeit darüber, dass KI ethisch sein sollte. Was das aber konkret heißt, was ethische KI ausmacht und welche Anforderungen für ihre Umsetzung notwendig sind, ist noch fragmentiert.

Das Neuheit des Feldes mag erst einmal überraschen: Schließlich hat KI im Bereich von Data Science in den letzten Jahren einen Hype erlebt. Während KI selbst keine neue Wissenschaft ist, sind aber die Anwendungen und ihre Marktdurchdringung noch nicht ausgereift. Es gibt also einen Unterschied zwischen der Entwicklung eines KI-Modells in einem lokalen Python-Programm oder Jupyter-Notebook und dem Deployment dieses Modells in eine Produktivumgebung. Hier liegt ein Problem: Nur etwa 13 Prozent aller Data-Science-Projekte werden erfolgreich in eine Produktivumgebung gebracht.

KI-Systeme als neue und fortlaufende Herausforderung

Worin unterscheidet sich KI-Software von „klassischer“ Software ohne KI? Im Gegensatz zu klassischer Software mit Code als Hauptkomponente setzt sich KI-Software aus den Daten, dem Modell und dem Code zusammen. Diese drei Komponenten bedingen sich gegenseitig: Beispielsweise bewirkt eine Änderung der Daten eine Änderung des Modells (Change-Anything-Change-Everything-Prinzip). Wird ein Modell nach dem Deployment in eine Produktivumgebung mit Daten konfrontiert, die sich stark von den Trainingsdaten unterscheiden, kann sich das Modell ändern.

Potenzielle Risiken von KI-Systemen können also über die Zeit entstehen. Aufgrund der Dynamik der Wechselbeziehung zwischen Daten, Modell und Code ist es unmöglich, diese Risiken vor dem Deployment präventiv zu unterbinden. Aus diesem Grund fordert die „Regulation on a European Approach for Artificial Intelligence“ ein besonderes Augenmerk auf KI-Systeme, die in der Produktivumgebung „weiterlernen“ und beschreibt die Notwendigkeit eines „Post-Market-Monitoring-System“ (Sektion 83). Dieses Monitoring-System sollte als Prüfungs- und Validierungsprozess im Model-Governance-Framework eingebettet sein.

Gibt es einen Konsens für ethische Prinzipien?

Wenn es bisher schon an etablierten Praktiken zur langfristig erfolgreichen Entwicklung von KI-Software gemangelt hat, ist es nicht überraschend, dass diese auch bei der Umsetzung ethischer Richtlinien in KI-Systemen fehlen. Trotz des bislang nur schwach verbindlichen und allgemeingültigen Charakters der Richtlinien sind sie in Abwesenheit universaler Standards eine Orientierungshilfe, die bei der KI-Entwicklung als „Nordstern“ genutzt werden sollte. Gibt es hier einen mehrheitlich festgelegten Kurs?

Eine Studie der ETH Zürich (Eidgenössisch-Technische Hochschule), die in der Fachzeitschrift „Nature Machine Intelligence“ erschienen ist, geht dieser Frage nach und untersucht, ob ethische Prinzipien um wenige zentrale Konzepte konvergieren. Zu diesem Zweck wurden 84 ethische Richtlinien, die entweder private Unternehmen, der öffentlichen Sektor oder akademische Institutionen veröffentlicht hatten, untersucht und auf Ähnlichkeiten hin gescannt. Während kein ethisches Prinzip in allen 84 Publikationen auftauchte, fand die Arbeit Konvergenzen für Transparenz (87 %), Gerechtigkeit und Fairness (81 %), Nicht-Schädlichkeit (71 %), Verantwortung (71 %) und Datenschutz (56 %).

Responsible AI geht alle etwas an

Neben der Notwendigkeit eines rechtlichen und unternehmensinternen Rahmens wird klar: Die Verantwortung ist nicht nur auf Entwickler beschränkt. Domänenwissen war schon immer ein Schlüssel für das Erstellen wertvoller Softwareprodukte. Das gilt besonders auch für KI-Software, für die neben Entwicklern und Domainexperten auch Rechts- und Compliance-Experten benötigt werden. Und schließlich braucht es eine Öffentlichkeit, die sich reflektiert mit dem Einsatz von KI auseinanderzusetzt.

Daher richtet sich dieser Artikel an ein breites Publikum und versucht sich damit an einem Spagat zwischen verschiedenen Lesergruppen: Einerseits war eine nichttechnische, gesellschaftliche Einordung des Themas in diesem Artikel notwendig. Andererseits kommt man nicht ohne technische Grundlagen aus, wenn man verstehen möchte, wie KI-Systeme auf die Einhaltung ethischer Prinzipien geprüft werden und wie standardisierte Prüfprozesse innerhalb von Model Governance aussehen können. Letztlich zeigt aber gerade die Notwendigkeit dieses Spagats auf den engen Zusammenhang zwischen KI auf der einen und der Gesellschaft auf der anderen Seite hin. Im zweiten Teil wird es zur technischen Vertiefung um Definitionen von Fairness und Testtrategien gehen.