Making sense of our connected world

“Robot judges” without training?
Discussing the implementation of automated decision making systems as savior of overburdened legal decision makers is en vogue. But if employed instead of human decision makers and with rising complexity of legal decision, they face hardly resolvable structural problems and barriers. Dr. Stephan Dreyer and Johannes Schmees explain this by reference to four technical and legal challenges. By that, a differentiated perspective is sought to be established in the emerging discourse with an eye on technical and legal realities.
Die Diskussion über den Einsatz von automatisierten Entscheidungssystemen in Justizsystemen bis hin zu autonomen, menschliche Entscheider ersetzenden Systemen hat begonnen. Die Automatisierung rechtlicher Entscheidungen soll hier vor allem durch Systeme maschinellen Lernens erfolgen, die durch das Trainieren auf größeren Mengen von Dokumenten mit bestehender Spruchpraxis Entscheidungsmuster erkennen und richtige Entscheidungen „lernen“, etwa durch das Auffinden von Mustern oder Korrelationen zwischen Sachverhaltsaspekten und späteren Entscheidungsergebnissen. Das trainierte System soll nach der Lernphase dann auf unbekannte Fälle angewandt werden und anhand der trainierten Muster autonom entscheiden. Dieser Ansatz bringt mit steigender Komplexität rechtlicher Entscheidungen kaum lösbare strukturelle Probleme mit sich und stößt an absolute Machbarkeitsgrenzen.
Erstes Problem: Geringe Trainingsdatenmengen
Für Systeme maschinellen Lernens zwingend notwendig ist die Verfügbarkeit von repräsentativen, validen, die Wirklichkeit abbildenden Trainingsdaten. Dies steuert und begrenzt die mögliche Komplexität des durch maschinelles Lernen entstehenden Modells. Für lernende Systeme, die automatisiert rechtliche Entscheidungen treffen sollen, kommen hierfür auf behördlicher Ebene nur Begründungen zu erlassenen Verwaltungsakten, auf gerichtlicher Ebene nur rechtswirksame Urteile in Betracht. Jedenfalls letztere sind nicht flächendeckend elektronisch und interoperabel verfügbar. Zudem sind aufgrund der in Art. 97 GG verankerten Unabhängigkeit die jeweils entscheidenden Richter dazu befugt, eigene Wertungen zuzulassen und eigene Rechtsprechung zu ändern, was die Vergleichbarkeit der potenziellen Trainingsdaten weiter schmälert. Auch würde jede Rechts- und vor allem höchstrichterliche Rechtsprechungsänderung die nutzbare Trainingsdatenmenge reduzieren. Für ein funktionales lernendes System ist der Korpus der verfügbaren Trainingsdaten zu gering.
Zweites Problem: Maschinelles Lernen bei nicht standardisierten Datensätzen
Selbst bei quantitativ ausreichenden Datensätzen kommt es auch auf deren Qualität an. Lernenden Systemen steht im Weg, dass behördliche und gerichtliche textliche Entscheidungen keiner hinreichend strukturierten Form folgen. Vielmehr sind Sachverhaltsdarstellung, argumentative Entscheidungsherleitung und -begründung für unterschiedliche Semantiken, Argumentationsmethoden und Schwerpunktsetzung durch den (menschlichen) Entscheider offen. Diese Unterschiede zwischen einzelfallbezogenen Entscheidungen sowie die nicht hinreichend formale Strukturierung steht der Mustererkennung durch lernende automatisierte Entscheidungssysteme entgegen. Eine Unterscheidung zwischen entscheidungsrelevanten und unwesentlichen Daten würde so erheblich erschwert.
Drittes Problem: Abwägungen als schwer formalisierbare soziale Praxis
Behörden und Gerichte müssen bei der Entscheidungsfindung regelmäßig im Wege praktischer Konkordanz die betroffenen Rechtsgüter einzelner oder mehrerer Betroffener abwägen. Diese sollen zu relativ optimaler Geltung kommen, und Einzelaspekte gilt es in Bezug zu unterschiedlichen Rechtspositionen in unterschiedlichen Kontexten verschieden zu bewerten. Dabei bestehende Wertungsspielräume wie Beurteilungs- und Ermessensspielräume eröffnen einen Nexus mehrerer „richtiger“ Entscheidungen. Bei rechtlichem Entscheiden als soziale Praxis rückt mit den gewährten Entscheidungsspielräumen die Rationalität des Entscheidungsverfahrens in den Fokus. Wird aber ein System mit begrenzt einsehbarer Entscheidungsherleitung eingesetzt, so wird ausgerechnet dieser Aspekt der Entscheidung dem Kontrollblick entzogen. Die Abhängigkeit rechtlichen Entscheidens von unterschiedlichen sozialen Kontexten, wie schon die klassische Subsumtion eines konkreten Sachverhaltes unter abstrakte, unbestimmte Normen, stellt hohe Anforderungen an die Komplexität der lernenden Systeme und damit an die Größe der Trainingsdatensätze (von denen es zu wenige gibt, s. oben).
Viertes Problem: Verschiebung von Einflusspotenzialen in Richtung der Input-Akteure
Nicht nur zu Programmierern, auch zugunsten derjenigen Akteure, die den datenbasierten Input für die einzusetzenden Algorithmen erstellen oder vorbereiten, verschieben sich die entscheidungsbezogenen Machtpotenziale. Die Erstellung der Ursprungsdatensätze, ihrer Vorauswahl und ihrer Bereinigung beeinflusst das Ergebnis des maschinellen Lernens und spätere automatisierte Entscheidungsprozesse unter Umständen erheblich. Rechtsstaatlich bedenklich ist dies beispielsweise, wenn Polizeibeamte als Teil der Exekutive eine algorithmisch getroffene Entscheidung für die Judikative durch die Datenerstellung oder Datenauswahl faktisch prädeterminieren. Zudem skalieren die Fehlerfolgen- und Missbrauchspotenziale durch den flächendeckenden Einsatz – eine weitere rechtliche Problematik für automatisierte Entscheidungssysteme.
Fazit
Neben den spannenden Diskussionen darüber, welche materiellen Anforderungen an eine „KI“ für rechtliche Entscheidungen zu stellen sind, gilt es zuvor, zu beantworten, ob der Einsatz solcher lernenden Systeme zur verlässlichen Entscheidungsfindung überhaupt geeignet sind. Der Beitrag zeigt, dass der Machbarkeit ganz grundsätzliche faktische, technische und (entscheidungs-)strukturelle Bedenken entgegenstehen. Diese Hürden stehen dem derzeitigen Hype (noch) im Wege, bieten aber die Chance, die Diskussion auf eine unaufgeregt sachbezogene, objektive Ebene zu verlagern.
Dr. Stephan Dreyer is Senior Researcher, Johannes Schmees is Junior Researcher at the Leibniz-Institute for Media Research | Hans-Bredow-Institut. This entry is based on a forthcoming and extensive article which came to being in the context of the interdisciplinary research project “Deciding about, by and together with ADM-Systems.”
This post represents the view of the author and does not necessarily represent the view of the institute itself. For more information about the topics of these articles and associated research projects, please contact info@hiig.de.

You will receive our latest blog articles once a month in a newsletter.
Platform governance
Unwillingly naked: How deepfake pornography intensifies sexualised violence against women
Deepfake pornography uses AI to create fake nude images without consent, primarily targeting women. Learn how it amplifies inequality and what must change.
Artificial intelligence with purpose: Mapping the landscape of public interest AI
How is AI being used for the common good? A new dataset is mapping the landscape of public interest AI by cataloguing impactful projects worldwide.
Who hired this bot? On the ambivalence of using generative AI in recruiting
Generative AI in recruiting promises efficiency, but may also quietly undermine the human connection that HR decisions and candidate fit rely on.