This article is also available in English

Der Einsatz von Künstlicher Intelligenz (KI) bringt Verantwortung mit sich. Transparenz, Erklärbarkeit, Fairness sind dabei wesentliche Prinzipien, die ebenso gewährleistet sein müssen wie die hohe Leistungsfähigkeit des KI-Systems. Um diese Anforderungen einzuhalten, liegt es nahe, sich an Bereichen mit einer Tradition überprüfbarer Prozesse zu orientieren. Zwar funktionieren diese Prozesse nicht fehlerlos, aber ohne sie lassen sich Sicherheitsstandards nicht verwirklichen. Am offensichtlichsten ist das in sicherheitskritischen und regulierten Branchen wie der Medizin, aber auch in der Luft- und Raumfahrt oder im Finanzwesen.

Ähnlich wie diese Bereiche Prozesse benötigen, um relevanten Anforderungen nachzukommen, benötigt ein Unternehmen, das KI-Systeme einsetzt, geregelte Abläufe, durch die es Zugriff auf Machine-Learning-Modelle (ML) kontrolliert, Richtlinien sowie gesetzliche Vorgaben umsetzt, die Interaktionen mit den Modellen und deren Ergebnissen verfolgt sowie festhält, auf welcher Grundlage ein Modell erzeugt wurde. Insgesamt werden diese Prozesse als Model Governance bezeichnet. Model-Governance-Prozesse sind von Beginn an in jede Phase des ML-Lebenszyklus zu implementieren (Design, Development und Operations). Zur konkreten technischen Integration von Model Governance in den ML-Lebenszyklus hat die Verfasserin sich andernorts ausführlicher geäußert.

Model Governance: ein Muss im Regel- und Auflagenwald

Model Governance ist nicht optional (siehe Kasten „Checkliste Model Governance“). Zum einen gibt es bereits bestehende Regularien, die Unternehmen in bestimmten Branchen erfüllen müssen. Am Beispiel des Finanzsektors lässt sich die Bedeutung von Model Governance gut illustrieren: Kreditvergabesysteme oder Zinsrisiko- und Preisbildungsmodelle für Derivate sind risikoreich und verlangen ein hohes Maß an Kontrolle und Transparenz. Laut einer Algorithmia-Studie zu den wichtigsten Trends im KI-Einsatz für 2021 ist die Mehrzahl der Unternehmen an die Erfüllung rechtlicher Auflagen gebunden – 67 Prozent der Befragten müssen mehreren Vorschriften entsprechen. Lediglich 8 Prozent gaben an, keinen gesetzlichen Vorgaben zu unterliegen.

Der Umfang der Regularien dürfte künftig weiter zunehmen: so veröffentlichte die EU im April 2021 eine Verordnung als ersten Rechtsrahmen für KI, die bestehende Regularien ergänzen würde. Der Entwurf teilt KI-Systeme in vier unterschiedliche Risikokategorien ein („unzulässig“, „hoch“, „begrenzt“, „minimal“). Die Risikokategorie definiert dabei Art und Umfang der Anforderungen, die an das jeweilige KI-System gestellt werden. KI-Software, die in die hohe Risikokategorie fällt, muss die strengsten Auflagen erfüllen.

Der Einsatz von Machine Learning bringt Verantwortung und Verpflichtungen mit sich. Um diesen Anforderungen nachzukommen, benötigt ein Unternehmen Prozesse, durch die es

  • die Zugriffe auf ML-Modelle kontrolliert
  • Richtlinien/gesetzliche Vorgaben umsetzt
  • die Interaktionen mit den ML-Modellen und deren Ergebnisse verfolgt
  • festhält, auf welcher Grundlage ein Modell erzeugt wurde

Model Governance bezeichnet diese Prozesse in ihrer Gesamtheit

Checkliste:

  • Vollständige Modelldokumentation oder Berichte. Dazu gehört auch das Reporting der Metriken durch geeignete Visualisierungstechniken und Dashboards
  • Versionierung aller Modelle zur Herstellung von Transparenz nach außen (Erklär- und Reproduzierbarkeit)
  • Vollständige Datendokumentation zur Gewährleistung hoher Datenqualität und Einhaltung des Datenschutzes
  • Management von ML-Metadaten
  • Validierung von ML-Modellen (Audits)
  • Laufendes Überwachen und Protokollieren von Modellmetriken

Dazu zählen folgende Aspekte: Robustheit, Sicherheit, Genauigkeit (Accuracy), Dokumentation und Protokollierung sowie angemessene Risikobewertung und Risikominderung. Weitere Anforderungen sind die hohe Qualität der Trainingsdaten, Diskriminierungsfreiheit, Nachvollziehbarkeit, Transparenz, menschliche Überwachung sowie die Erforderlichkeit einer Konformitätsprüfung und der Nachweis der Konformität mit der KI-Verordnung durch eine CE-Kennzeichnung (siehe Kasten „Plan it Legal“). Beispiele für die ML-Systeme dieser Kategorie sind private und öffentliche Dienstleistungen (wie die Bonitätsprüfung) oder Systeme, die in der Schul- oder Berufsausbildung eingesetzt werden, um über den Zugang zu Bildung und den beruflichen Werdegang einer Person zu entscheiden (beispielsweise bei der automatisierten Bewertung von Prüfungen).

Plan it Legal: KI-Verordnung und Konformität

Die Konformität von HRKI mit der KI-Verordnung wird die Voraussetzung für die Vermarktung in der EU werden. Sie lässt sich über eine CE-Kennzeichnung nachweisen. Die EU wird zudem Standards verabschieden, bei deren Einhaltung die Konformität mit der Verordnung anzunehmen ist.

Für die umfassenden Tests, die nach der KI-Verordnung anfallen, sollen die zuständigen Behörden „Sandboxing Schemes“ entwickeln, also Vorgaben für sichere Testumgebungen. Die Konformitätsprüfung für KI beruht auf einer ex-ante-Sicht, hat aber gleichwohl Ähnlichkeiten mit der Datenschutzfolgenabschätzung nach der DSGVO. Mehr Informationen hierzu finden sich im Blogeintrag von Dr. Benhard Freund bei planit.legal: „Das KI-Gesetz der EU – Entwurf und Diskussionsstand“.

Konformität für europäische KI-Auflagen erreichen

Da die Verordnung nicht nur für in der EU ansässige Unternehmen und Einzelpersonen gelten soll, sondern für jedes Unternehmen, das KI-Dienste innerhalb der EU anbietet, hätte das Gesetz einen ähnlichen Anwendungsbereich wie die DSGVO. Die Verordnung muss sowohl vom EU-Parlament gebilligt werden als auch die Gesetzgebungsverfahren der einzelnen Mitgliedsstaaten passieren. Wenn das EU-Parlament die Verordnung billigt und sie die legislativen Prozesse der EU-Staaten passiert, tritt das Gesetz frühestens 2024 in Kraft. Dann müssen Hochrisikosysteme während der Entwicklung eine Konformitätsbewertung für KI-Auflagen durchlaufen, um das KI-System in einer EU-Datenbank registrieren zu lassen. Im letzten Schritt ist eine Konformitätserklärung notwendig, sodass KI-Systeme die notwendige CE-Kennzeichnung erhalten, damit ihre Anbieter sie in den Verkehr bringen können.

Wichtig ist außerdem, dass Regulierung nicht der einzig ausschlaggebende Aspekt für Model-Governance-Prozesse ist. Denn auch Modelle, die in schwächer regulierten Kontexten im Einsatz sind, kommen an Model Governance nicht vorbei. Neben der Erfüllung gesetzlicher Vorgaben müssen Unternehmen wirtschaftliche Einbußen und Reputationsverluste ebenso abwenden wie juristische Schwierigkeiten. ML-Modelle, die einer Marketing-Abteilung Informationen über die Zielgruppe liefern, können im Betrieb an Präzision verlieren und eine falsche Informationsgrundlage für wichtige Folgeentscheidungen bereitstellen. Somit stellen sie ein finanzielles Risiko dar. Model Governance wird also nicht nur zur Erfüllung rechtlicher Vorgaben, sondern auch zur Qualitätssicherung von ML-Systemen und zur Minderung unternehmerischer Risiken benötigt.

Model Governance als Herausforderung

Die sich abzeichnenden EU-Vorgaben, bestehende Regelungen und Unternehmensrisiken machen es notwendig, Model-Governance-Prozesse von Beginn an zu implementieren. Die Bedeutung von Model Governance ergibt sich für viele Unternehmen allerdings oft erst dann, wenn ML-Modelle in die Produktion gehen und in Einklang mit gesetzlichen Regelungen stehen sollen. Dazu kommt, dass der abstrakte Charakter rechtlicher Vorgaben Unternehmen vor die Herausforderung der praktischen Umsetzung stellt: So geben nach der bereits zitierten Algorithmia-Studie 56 Prozent der Befragten die Implementierung von Model Governance als eine der größten Herausforderungen an, um ML-Anwendungen langfristig erfolgreich in Produktion zu bringen. Dazu passen auch die Zahlen der „State of AI in 2021“-Studie mit Blick auf die Risiken Künstlicher Intelligenz: 50 Prozent der befragten Unternehmen geben die Einhaltung gesetzlicher Vorschriften als Risikofaktor an, andere hoben Mängel bei Erklärbarkeit (44 Prozent der Befragten), Reputation (37 Prozent), Gerechtigkeit und Fairness (30 Prozent) als relevante Risikofaktoren hervor.

Audits als standardisierte Prüfprozesse im Model-Governance-Framework

Ein wichtiger Bestandteil von Model Governance sind Audits als Werkzeuge, um zu prüfen, ob KI-Systeme den Unternehmensrichtlinien, Branchenstandards oder Vorschriften entsprechen. Dabei gibt es interne und externe Audits. Die im Artikel „Ethik und Künstliche Intelligenz: ein neuer Umgang mit KI-Systemen“ auf Heise von der Verfasserin besprochene Studie Gender Shades ist ein Beispiel für einen externen Auditprozess: Sie prüfte Gesichtserkennungssysteme großer Anbieter hinsichtlich ihrer Genauigkeit bezüglich des Geschlechtes und der Ethnie und konnte dabei eine abweichende Präzision des Modells je nach Ethnie und Geschlecht feststellen.

Dieser Blick von außen ist aber limitiert, da externe Prüfprozesse nur Zugang zu Modellergebnissen, aber nicht zu den zugrundeliegenden Trainingsdaten oder Modellversionen besitzen. Das sind wertvolle Quellen, die Unternehmen in einem internen Auditprozess einbeziehen müssen. Diese Prozesse sollen eine kritische Reflexion über die potenziellen Auswirkungen eines Systems ermöglichen. Zunächst sind jedoch an dieser Stelle Grundlagen über KI-Systeme zu klären.

Besonderheiten von KI-Systemen

Um KI-Software prüfen zu können, ist es wichtig zu verstehen, wie Machine Learning funktioniert: Maschinelles Lernen besteht aus einer Reihe von Methoden, die Computer verwenden, um Vorhersagen oder Verhaltensweisen auf der Grundlage von Daten zu treffen und zu verbessern. Um diese Vorhersagemodelle aufzubauen, müssen ML-Modelle eine Funktion finden, die zu einer bestimmten Eingabe eine Ausgabe (Label) erzeugt. Dafür benötigt das Modell Trainingsdaten, die zu den Eingabedaten die jeweils passende Ausgabe enthalten. Dieses Lernen trägt die Bezeichnung „überwachtes Lernen“. Im Trainingsprozess sucht das Modell mithilfe mathematischer Optimierungsverfahren eine Funktion, die den unbekannten Zusammenhang zwischen Ein- und Ausgabe so gut wie möglich abbildet.

Ein Beispiel für eine Klassifizierung wäre eine Sentimentanalyse, die untersuchen soll, ob Tweets positive oder negative Stimmungen (Sentiments) enthalten. In diesem Fall wäre ein Input ein einzelner Tweet, und das dazugehörige Label das codierte Sentiment, das für diesen Tweet festgelegt wurde (−1 für ein negatives, 1 für ein positives Sentiment). Im Trainingsprozess lernt der Algorithmus mit diesen annotierten Trainingsdaten, wie Eingabedaten mit dem Label zusammenhängen. Nach dem Training kann der Algorithmus dann neue Tweets selbstständig einer Klasse zuordnen.

Komplexere Komponenten im Machine-Learning-Bereich

Somit lernt ein ML-Modell die Entscheidungslogik im Trainingsprozess, statt die Logik mit einer Abfolge von typischen Wenn-Dann-Regeln explizit im Code zu definieren, wie es in der Softwareentwicklung typisch wäre. Dieser grundlegende Unterschied zwischen traditioneller und KI-Software führt dazu, dass sich Methoden des klassischen Softwaretestens nicht direkt auf KI-Systeme übertragen lassen. Das Testen verkompliziert sich dadurch, dass zusätzlich zum Code die Daten und das Modell selbst hinzukommen, wobei alle drei Komponenten sich gemäß dem Change-Anything/Change-Everything-Prinzip gegenseitig bedingen (hierzu mehr unter „Hidden Technical Debt in Machine Learning Systems“).

Unterscheiden sich beispielsweise die Daten im produktiven System von den Daten, mit denen ein Modell trainiert wurde (Distribution Shifts), kommt es zum Leistungsabfall des Modells (Model Decay). In diesem Fall muss ein Modell schnell mit frischen Trainingsdaten trainiert und re-deployed werden. Erschwerend kommt hinzu, dass das Testen von KI-Software ein noch offenes Forschungsfeld ohne Konsens und ohne Best Practices ist.

Ethische Prinzipien als nicht-funktionale Eigenschaften

Die relevanten Testaspekte von KI-Software lassen sich in funktionale und nicht-funktionale Eigenschaften einteilen. Correctness als funktionale Eigenschaft lässt sich durch Metriken wie Accuracy und Precision/Recall mathematisch direkt erfassen. Sie geben an, wie hoch die Übereinstimmung zwischen den Vorhersagen des trainierten Modells und den tatsächlichen Predictions ist (Gold Standard). Dazu gibt es etablierte Validierungsverfahren wie die Kreuzvalidierung, die durch Isolation der Testdaten über eine Datenstichprobe prüft, wie gut das trainierte Modell die richtigen Modellergebnisse (Labels) für neue Daten vorhersagt.

Nicht-funktionale Eigenschaften entsprechen den ethischen Prinzipien wie Fairness, Datenschutz, Interpretierbarkeit, Robustheit und Sicherheit. Anders als funktionale Eigenschaften können sie nicht auf einen breiten Fundus standardisierter Metriken und Praktiken aus dem Bereich des maschinellen Lernens zurückblicken. Auch hier besteht die Herausforderung darin, dass das Testen nicht-funktionaler Eigenschaften von KI-Software (noch) nicht standardisiert ist. Erschwerend kommen Abwägungen zwischen verschiedenen Eigenschaften hinzu: Fairness verringert die Accuracy und umgekehrt.

Metaphorisch lässt sich KI-Software als Kraftwerk bezeichnen: Ein funktional einwandfreier, reibungsloser Betrieb heißt nicht, dass das Kraftwerk der Umwelt keinen Schaden zufügt. Der störungsfreie Ablauf entspricht den funktionalen, der Schutz der Umwelt den nicht-funktionalen Kriterien. Die Metapher zeigt, dass es für funktionale und nicht-funktionale Eigenschaften verschiedene Prüfprozesse braucht. Für Erstere sind Best Practices aus dem ML-Fundus anwendbar, für Letztere hingegen braucht es noch Forschungsarbeit. Im weiteren Verlauf soll es hier um den Aspekt der Fairness, eine Beschreibung von Konzepten sowie Teststrategien und um die Hervorhebung von Model Governance gehen, die die Transformation ethischer Prinzipien wie Fairness in der praktischen KI-Softwareentwicklung unterstützt.

Wie entsteht „Unfairness“?

Zunächst ist die Frage interessant, wie Ungerechtigkeit (Unfairness) überhaupt entsteht. Die Regel ist dabei einfach: Was die Modelle lernen, manifestiert sich in den Trainingsdaten. Im überwachten Lernen bestehen Trainingsdatensätze aus den Eingabedaten und dazugehörigen Labels. Wenn die Datenlabels Bias enthalten, wird das Modell diese Grundeinstellung übernehmen und von Anfang an lernen. Daher ist es wichtig, die Labels ausreichend zu überprüfen. Bias kann sich aber auch inhärent aus den Daten, nicht nur aus den Labels ergeben: Enthalten die Trainingsdaten an sich bereits Bias, greift der Algorithmus ihn ebenfalls auf. Dieses Problem besteht etwa bei umfangreichen, mit großen Datenmengen aus dem Internet trainierten Sprachmodellen. Es ließ sich nachweisen, dass die Leistungsstärke eines Modells mit der Stärke eines stereotypen Bias korreliert: Mit steigender Präzision nimmt auch der Bias zu.

Auch ein geringer Stichprobenumfang bei Minderheitsgruppen kann zu einer Homogenisierung des Lernprozesses des Modells zugunsten der Mehrheitsgruppen führen, beispielsweise durch mehr Fotos männlicher als weiblicher Gesichter in den Trainingsdaten. Neben den Daten spielen auch im Trainingsprozess verwendete Merkmale (Features) eine Rolle. Kann das Modell nicht ausreichend viele Merkmale nutzen, erschwert das dem Algorithmus, den Zusammenhang zwischen Ein- und Ausgabe zu lernen. Aus diesem Grund reagierte IBM mit Diversity in Faces als Versuch, die Diversität der Fotos in den Trainingsdaten zu erhöhen. Und schließlich können Merkmale „Stellvertreter“ für ausgeschlossene sensible Attribute sein: Auch wenn geschützte Attribute bei der Entscheidungsfindung nicht explizit verwendet werden, können sie implizit beteiligt sein, wenn sie mit den ausgeschlossenen Merkmalen korrelieren.

Fairness in KI-Systemen

Das Ziel der Gewährleistung von Fairness ist der Schutz sensibler Attribute wie Geschlecht, Religionszugehörigkeit oder sexueller Orientierung vor unfairer algorithmischer Entscheidungsfindung. Das Recht auf Diskriminierungsfreiheit ist im EU-Rechtsentwurf für KI-Systeme der hohen Risikokategorie explizit verbrieft.

Während sich die Ungerechtigkeit bei der Gender-Shades-Studie leicht intuitiv erfassen lässt, besteht nun die Herausforderung darin, den abstrakten Begriff der Fairness objektiv, metrikbasiert und möglichst skalierbar zu definieren.

Definitionen für Fairness und Ableitungen von Teststrategien

Welche Audits und welche Metriken bieten sich an, um Fairness zu testen? Die bereits bekannte Konsenslücke klafft auch für die Definition von Fairness auseinander. Erschwerend kommt hinzu, dass die Vielfältigkeit der verschiedenen Ursachen für Fairness zeigt, dass sich Fairness nicht mit einer simplen Metrik oder Teststrategie herstellen lässt – Fairness-Audits müssen Teil der Model-Governance-Prozesse sein, die die Qualitätssicherung der Trainingsdaten und des Modells sicherstellen. Dazu kommt, dass die verschiedenen Anwendungsfälle für KI zu vielfältig sind, als dass es eine gut generalisierende One-Size-Fits-All-Lösung geben könnte. Die Frage, wie Fairness gemessen und nachgewiesen werden kann, lässt sich also nicht nur an einer simplen Metrik festmachen. Dennoch soll es zunächst um konkrete Möglichkeiten gehen, Fairness quantitativ zu erfassen, bevor diese Audits in das Model-Governance-Framework eingebettet werden.

Statistische Ansätze bieten die am leichtesten messbaren Definitionen von Fairness, und sie bilden gleichzeitig die Grundlage für weiterführende Ansätze. Zur Quantifizierung von Fairness lassen sich statistische Metriken nutzen. Von diesen Messgrößen leiten sich Definitionen ab, die sich auf die Ausgabe von Modellen konzentrieren. Fairness lässt sich aufgrund ähnlicher Fehlerquoten der Ausgaben für unterschiedlich sensible demografische Gruppen definieren. Entsprechend ist ein Algorithmus dann fair, wenn Gruppen, die auf der Grundlage sensibler Attribute ausgewählt werden, die gleiche Wahrscheinlichkeit von vorteilhaften Entscheidungsergebnissen haben („Group Fairness“).

Gleichheit der Gesamtgenauigkeit

Zudem lässt sich untersuchen, ob die Genauigkeit des Modells für verschiedene Subgruppen gleich ist (Gleichheit der Gesamtgenauigkeit). Am Beispiel einer Kreditwürdigkeitsprüfung wäre diese Definition von Fairness dann erfüllt, wenn die Wahrscheinlichkeit für Personen männlichen und weiblichen Geschlechts gleich ist, dass Antragsstellende mit einem tatsächlich guten Kreditscore als kreditwürdig eingestuft werden und dass solchen mit einem schlechten Kreditscore die Kreditwürdigkeit abgesprochen wird, ohne Ansehen der Geschlechtszugehörigkeit.

Für das Testen statistischer Ansätze sind bereits erste Lösungen verfügbar: Fairness Indicators von TensorFlow ist eine Bibliothek, die die Berechnung häufig identifizierter Fairness-Metriken mit verbesserter Skalierbarkeit auf großen Datensätzen und Modellen bietet. Darüber hinaus unterstützt Fairness Indicators die Auswertung der Verteilung von Datensätzen und der Modellleistung über verschiedene Benutzergruppen sowie die Berechnung statistisch signifikanter Unterschiede auf der Basis von Konfidenzintervallen.

Statistische Ansätze und Counterfactual Fairness

Zwar sind statistische Ansätze gut messbar, sie können jedoch zu kurz greifen. Fairness lässt sich nicht allein durch ähnliche Fehlklassifizierungsquoten erklären, insbesondere, wenn alle anderen Attribute mit Ausnahme des sensiblen Attributs ignoriert werden. Beispielsweise könnte ein KI-System zur Kreditwürdigkeitsprüfung demselben Anteil männlicher und weiblicher Bewerber eine positive Bewertung zuweisen – statistische Ansätze würden das Modell dann als gerecht beurteilen. Doch wenn die männlichen Bewerber zufällig ausgewählt wurden, während weibliche Bewerber schlicht diejenigen sind, die die meisten Ersparnisse haben, wäre Fairness nicht gegeben.

Similarity-based Measures stellen nicht die Modellergebnisse und Fehlklassifizierungsquoten, sondern den Prozess der Entscheidungsfindung sowie die Verwendung von Merkmalen im Trainingsprozess in den Vordergrund. Daraus lässt sich „Fairness through Unawareness“ als Konzept für Fairness ableiten: Algorithmen können als fair gelten, wenn geschützte Attribute aus den Trainingsdaten ausgeschlossen worden sind. In unserem Beispiel bedeutet dies, dass geschlechtsspezifische Merkmale nicht für das Training des Modells verwendet werden, sodass Entscheidungen nicht auf diesen Merkmalen beruhen können. Doch auch dieser Ansatz hat Einschränkungen: Das Ausschließen geschützter Attribute reicht nicht aus, da andere, ungeschützte Attribute Informationen enthalten können, die mit den ausgeschlossenen geschützten Attributen korrelieren („Counterfactual Fairness“). In diesem Fall wäre das ursprünglich ausgeschlossene Attribut implizit in anderen Attributen enthalten und würde den Entscheidungsprozess indirekt beeinflussen (siehe auch Kasten „Kontrafaktisch testen“).

Kontrafaktisch testen

Causal-Reasoning-Ansätze stützen sich auf Werkzeuge der Kausalinferenz. Die Definition der kontrafaktischen Fairness basiert auf der Intuition, dass eine Entscheidung gegenüber einer Person dann fair ist, wenn sie in der tatsächlichen Welt und in einer kontrafaktischen Welt, in der die Person einer anderen demografischen Gruppe angehört, gleich ist.

Damit ist Counterfactual Fairness dann gegeben, wenn sich eine Prediction nicht ändert, obwohl das geschützte Attribut in das kontrafaktische Gegenteil verkehrt wird. Beispielsweise müsste die Entscheidung für oder gegen die Kreditwürdigkeit einer Person gleich ausfallen, wenn das Attribut von „männlich“ in „weiblich“ verändert wird.

Unfairness mit manipulierten Daten aufdecken

Adversiales Testen ist eine gängige Strategie, die zur Aufdeckung von Schwachstellen einen böswilligen Angriff auf ein System simuliert. Beim adversialen Testen erhält das Modell Eingabedaten, die mit kleinen, absichtlichen Merkmalsmanipulationen versehen sind. Auf diese Weise wird getestet, ob das Modell für speziell zugeschnittene Eingabedaten unerwünschte Vorhersagen trifft. Die Manipulation der Eingabedaten ist domänenspezifisch und kann von Analysen algorithmischer Unfairness inspiriert sein. Die Idee, die Reaktion eines Modells auf Eingabedaten zu testen und auf diese Art von Bias zu quantifizieren, findet sich mittlerweile auch in Frameworks.

So lässt sich mit dem Benchmarking-Datensatz StereoSet prüfen, ob und wie stark die Vorurteile von Sprachmodellen bezüglich Geschlecht, Ethnie, Religion und Profession ausgeprägt sind: Entwicklerinnen und Entwickler können fertig trainierte Sprachmodelle einreichen, um diskriminierende Entscheidungsfindung in Sprachmodellen zu messen und gleichzeitig die Sprachmodellierungsleistung zu berücksichtigen. StereoSet betrachtet die Gesamtleistung des Modells als gut, wenn das Modell in der Lage ist, den Zielkonflikt zwischen Genauigkeit und Fairness abzuschwächen und so ein genaues Verständnis natürlicher Sprache bei gleichzeitiger Minimierung von Verzerrungen zu gewährleisten. Frameworks wie diese können zwar eine gute Leitlinie sein, ersetzen aber nicht das individuelle Testen, das fest in einem Prüfungsprozess eingebettet sein muss.

Warum Audits alleine nicht ausreichen

Die verschiedenen Prüfprozesse sind wichtig – sie allein genügen aber nicht, um Fairness zu gewährleisten. Vielmehr kommen Audits als eine der ersten Möglichkeiten in Betracht, um Probleme zu identifizieren. Sie müssen Teil des Model-Governance-Frameworks sein und sollten es ergänzen. Für sich allein besitzen sie hingegen keine Aussagekraft – nur ein ganzheitlicher Ansatz kann alle Aspekte berücksichtigen, die für Fairness eine Rolle spielen. Neben der Validierung funktionaler und nicht-funktionaler Anforderungen, die die hier beschriebenen Auditprozesse zum Testen von Fairness enthalten kann, ist sauberes Dokumentieren eine weitere wichtige Komponente im Model-Governance-Framework.

Dokumentationen sollten bereits in der ersten Phase des ML-Lebenszyklus, der Entwicklung, begonnen werden (mehr dazu im „Practictioners' Guide to MLOps“). In der Development-Phase geht es um den Aufbau einer robusten und reproduzierbaren Trainingsprozedur, die aus Datenverarbeitungs- und Modellaufbauschritten besteht. Dieser Aufbauprozess ist experimentell und iterativ, wobei wichtige Informationen über Daten (Auswahl und Definition von Features, Aufteilung der Trainings-, Validierungs- und Testdaten, Schema und Statistiken), Modelle (verschiedene getestete Modelle) und Parameter festzuhalten sind (Experimental Tracking).

Nach dem Training: KI-Modelle evaluieren

Nach dem Aufbau der Trainingsprozedur gilt es, entwickelte Modelle hinsichtlich funktionaler und nicht-funktionaler Eigenschaften zu evaluieren (an dieser Stelle sind die beschriebenen Auditstrategien zum Testen von Fairness relevant). Die Ergebnisse der Evaluation und alle Informationen über den Aufbauprozess der Trainingsprozedur fließen in die Dokumentation ein, die zusätzlich eine Erklärung des Use-Case-Kontextes, eine High-Level-Erklärung des Algorithmus, Modellparameter, Anweisungen zur Reproduktion des Modells und Beispiele für das Training der Algorithmen sowie Beispiele für das Treffen von Predictions durch den Algorithmus enthalten sollte.

Die Dokumentation lässt sich durch Toolkits wie Model Cards und Data Sheets praktisch unterstützen. Data Sheets halten fest, welche Mechanismen oder Verfahren für die Datenerhebung verwendet wurden oder ob ethische Überprüfungsverfahren (Audits) stattgefunden haben. Model Cards ergänzen Data Sheets und informieren über die Art der Modellerstellung, die bei der Entwicklung getroffenen Annahmen sowie über Erwartungen bezüglich des Modellverhaltens bei verschiedenen kulturellen, demografischen oder phänotypischen Gruppen.

Unternehmenspolitik als Schlüssel für ethische KI

Vollständige Dokumentation schafft Reproduzierbarkeit und Transparenz nach außen. Nach dem Deployment muss diese Sichtbarkeit (Observability) im produktiven System gegeben sein. Hier spielt zum einen die Versionierung von Modellen und Datensätzen eine wichtige Rolle. Die Versionierung dient der Wahrung des Unveränderlichkeitsgrundsatzes der Modelle, sodass alle Modelle sich ohne Datenverluste und Veränderung reproduzieren lassen. Damit ist auch gewährleistet, dass eine Model Prediction der Modellversion, die sie produziert hat, zugeordnet werden kann.

Zum anderen muss ein Monitoring-System die Leistung des produktiven Modells kontinuierlich überwachen und relevante Metriken in einem Report zusammenfassen sowie visualisieren. Diese Werte aus dem Model-Logging sollten in Metriken aufbereitet und in Dashboards zu Protokollierungs-, Analyse- und Kommunikationszwecken visualisierbar sein. Wird im Monitoring der Leistungsabfall eines Modells (Model Decay) festgestellt, muss das Modell mit neuen Trainingsdaten trainiert und dann re-deployed werden.

Empfehlung: Audits vor jedem neuen Deployment

Vor jedem neuen Deployment sollten erneut Audits stattfinden, um ethische, rechtliche oder geschäftliche Risiken zu kontrollieren. Ethische Prinzipien wie Fairness sind auf jeder Ebene der Softwareentwicklung zu berücksichtigen, unter anderem bereits bei der Datenbeschaffung. Fairness lässt sich nicht mit einer simplen Metrik oder Teststrategie herstellen: Es braucht eine entsprechend ausgerichtete Unternehmenspolitik, die das anerkennt. Ohne Model Governance sind KI-Systeme hinsichtlich der Einhaltung gesetzlicher Vorgaben sowie der Minderung des unternehmerischen Risikos unkalkulierbar.

TAGS