Zwei Hände halten eine Papiergirlande, die aneinandergereihte Menschen darstellt, was Common Voice's partizipativen Ansatz darstellt

07 November 2023| doi: 10.5281/zenodo.13221794

Partizipation mit Wirkung: Einblicke in die Prozesse von Common Voice

Common Voice ist ein Crowdsourcing-Projekt der Mozilla Foundation. Dieses entwickelt einen öffentlich verfügbaren Sprachdatensatz, der durch Stimmaufnahmen von Freiwilligen auf der ganzen Welt geschaffen wird. Seit 2019 können Menschen diesen als Grundlage für den Aufbau von möglichst diskriminierungsarmen Sprachanwendungen verwenden. Denn viele der bisher verwendeten Stimmdatensätze für KI-Systeme – wie zum Beispiel Übersetzungstools oder der Sprachassistent Alexa – bevorzugen die Stimmen weißer, englischsprachiger Männer. Das bedeutet, dass viele dieser Technologien in vielen Sprachen überhaupt nicht funktionieren. In den Sprachen, in denen sie funktionieren, klappt das dann oft nicht bei allen Menschen gleich gut.

Deswegen setzt sich Common Voice mit ihrem inklusiven Datensatz dafür ein, bisher nicht berücksichtigte und zukünftige Nutzer*innengruppen in viele ihrer Entscheidungsprozesse mit einzubeziehen. Dies ist, wie bereits unser Forschungsbericht für das Civic Coding Innovationsnetzwerk (2022) beleuchtete, eine notwendige Anforderung zur Entwicklung gemeinwohlorientierter KI. Doch wie genau ebnet Common Voice den Weg für gerechte und inklusive sprachgesteuerte Anwendungen durch gesellschaftliche Partizipation? Was können andere Projekte davon lernen? Diese und weitere Fragen werden in diesem Blogpost beleuchtet.

Die Bedeutung von Partizipation in der KI-Entwicklung

Henrik Mucha beschreibt mit anderen Forscher*innen im i-com Magazin partizipatives Design in der KI-Entwicklung so: “Partizipatives Design bedeutet anzuerkennen, dass diejenigen, die von einer zukünftigen Technologie betroffen sein werden, ein aktives Mitspracherecht bei ihrer Entwicklung haben sollten.”. Dies ist notwendig, um KI-Anwendungen zu entwickeln, die für die Zielgruppe der Technologie funktionieren und ihr nützen. Das klappt nur dann, wenn diese Personen auch tatsächlich in den Prozess der Entwicklung einbezogen werden.
Nicht nur in gemeinwohlorientierten KI-Projekten, die unsere Forschung besonders beschäftigen, spielt die Idee des partizipativen Designs und der kollaborativen Entscheidungsfindung eine immer größere Rolle. Allerdings ist Partizipation kein Allheilmittel oder eine alleinige Lösung, um Technologien in ihrer Entwicklung stärker auf die Bedürfnisse ihrer Nutzer*innen zuzuschneiden. Im schlimmsten Fall können Partizipationsmaßnahmen ohne klare Wirkung sogar das Vertrauen in Technologien schwächen.

Der Civic Coding Forschungsbericht zeigt, mit Bezug auf die Veröffentlichung von Shirley Ogolla und A. Gupta, dass die “Relevanz partizipativer Ansätze für die KI-Entwicklung […] zunehmend allgemein anerkannt ist und umgesetzt wird”. Dr. Züger und Dr. Asghari machen darauf aufmerksam, dass gleichzeitig die Frage offen bleibt, wie genau Partizipationsformen aussehen sollten und vor allem, wie sie wirksam werden. Der Begriff kann schnell genutzt werden, um sich zu profilieren. Daher ist es wichtig, wachsam gegenüber möglichem “participation-washing” zu sein. Gemeint ist damit, nach Mona Sloane, die Einbeziehung einer Community auf “ausbeuterische und extraktive Weise“. Weiterhin schreibt sie, dass es für ein echtes partizipatives Design notwendig ist, es als situations- und kontextabhängig zu verstehen.

Doch wie funktioniert so eine wirksame Partizipation in der Praxis? Das beschreiben wir folgend am Beispiel von Common Voice und ihrem öffentlich verfügbaren Sprachdatensatz.

Wie Common Voice Partizipation umsetzt

Wie schon oben erwähnt, strebt Common Voice den Aufbau eines möglichst fairen und diskriminierungsfreien Sprachdatensatzes an. Das heißt, dass die Anwendungen, die auf Basis von Common Voice entwickelt werden, möglichst für alle Sprachgemeinschaften und Nutzer*innengruppen gleichermaßen zugänglich und nutzbar sein sollen. Das ist bisher in anderen Anwendungen nicht selbstverständlich. Dem Civic Coding Bericht zufolge werden beispielsweise männlich klassifizierte Stimmen oder ein amerikanischer Akzent besser erkannt als weibliche Stimmen und Akzente einer weniger vertretenen Sprache, wie zum Beispiel Persisch oder Indonesisch. Es ist deshalb wichtig, Sprachgemeinschaften, die sonst häufig unterrepräsentiert sind, in den Aufbau solcher Datensätze miteinzubeziehen.

Das Projekt veranschaulicht gut, wie eine tatsächliche Umsetzung von partizipativen Entscheidungsprozessen realisiert werden kann. Damit bietet es Erkenntnisse, die auch für andere Akteur*innen im Bereich der KI-Entwicklung relevant sind. Für unsere Fallanalyse haben wir Projektmitarbeiter*innen von Common Voice interviewt und zitieren im Folgenden aus diesem Interview, wobei die Zitate von uns aus dem Englischen übersetzt wurden.

Für Common Voice ist es wichtig, bei den Personen, die ihre Daten spenden, ein Bewusstsein für Datensouveränität auszubilden. Also, ihnen klar zu machen, dass sie ein Mitspracherecht bezüglich ihrer Daten haben (Auszug aus dem Interview). So entschied sich beispielsweise die Sprachgemeinschaft der Māori im Zuge der Erwägung einer Zusammenarbeit mit verschiedenen Tech-Akteuren, darunter Common Voice, dazu, ihre Sprachdaten nicht zur Verfügung zu stellen. Common Voice respektiert dies. Die Besonderheit bei der Lizenz, die Common Voice verwendet, ist, dass der Datensatz unter der CC0 Lizenz offen zugänglich ist. Mit dieser Lizenz ist es möglich, dass jeder, der den Datensatz herunterlädt, ihn so verwenden kann, als wäre er frei von Urheberrecht. Also auch zu kommerziellen Zwecken. Die Aufgabe des Urheberrechtes der Datenspender*innen ist jedoch auch kritisch zu betrachten und war ausschlaggebend für die Entscheidung der Māori, ihre Daten nicht zu spenden.

Auf der Homepage von Common Voice ist es leicht möglich, eine Sprachaufnahme seiner Stimme zu spenden, indem man vorgeschriebene Sätze laut ausspricht. Außerdem kann man eingesprochene Sätze validieren, indem man Feedback dazu gibt, ob diese richtig vorgelesen wurden. Aber nicht nur durch eine Sprachspende findet Partizipation statt, sondern auch, wenn es darum geht, konkrete Entscheidungen über Entwicklungsprozesse zu fällen.

Wie Common Voice Projektentscheidungen trifft

Hierfür gibt es eine ganze Reihe an Prozessen und Strukturen:

Der Beirat der Sprachgemeinschaften (Representatives Council) sorgt für die Repräsentation der entsprechenden Sprachgemeinschaften in den Entscheidungsprozessen. Jede Person der Sprachgemeinschaft kann sich selbst nominieren und gewählt werden, um Teil davon zu werden. Man behält den Platz dann für eine bestimmte Zeit (ca. 9 Monate).
In verschiedenen Sprachgemeinschaften wird durch Umfragen immer wieder deren Meinung eingeholt.
Hinzugezogene Expert*innen sind unter anderem Sprachexpert*innen, Programmierer*innen, technische Berater*innen und Politikwissenschaftler*innen. Ihre Einschätzungen fließen über Beratungsauschüsse (sogenannte Steering Committees) mit in die Entwicklung ein. Diese Ausschüsse setzen sich zusammen aus der Leitung der Mozilla Foundation und beratenden sowie finanzierenden Partner*innen von Common Voice. Besonders in Konfliktfällen werden diese Beratungssausschüsse zur Entscheidungsfindung herangezogen (Mozilla Common Voice Governance Doc V1.0).
Ob eine Veränderung am Datensatz vorgenommen wird oder nicht, wird anhand der Priorisierungsmatrix entschieden. Hierbei wird das Kosten-Nutzen Verhältnis in Bezug auf das Gemeinwohl abgewogen. Je nachdem werden Veränderungen oder neue Features eingestuft und dann auf dieser Grundlage umgesetzt oder verworfen.
Zudem soll Transparenz gewährleistet werden, etwa durch ein Community Forum, einen Blog und die Veröffentlichung von Entscheidungen. Durch diese Maßnahmen für Transparenz und Offenheit entsteht insgesamt ein partizipativer und deliberativer Entscheidungsprozess.

Alle diese Strukturen haben sich über die Jahre der Arbeit bewährt und wurden stetig weiterentwickelt.

Nach Angaben der Mozilla Foundation wird der Datensatz inzwischen von großen Technologieunternehmen, die Spracherkennungs- und Sprache-zu-Text-Engines entwickeln, zum Trainieren und Testen verwendet.

Herausforderungen der partizipativen Entscheidungsfindung

Partizipative Entscheidungsprozesse sind oft komplexer als hierarchische Entscheidungen, da mehr Menschen involviert sind, was den Zeitaufwand erhöht. Zudem ist eine angemessene Umsetzung solcher partizipativer Strukturen kostspielig: “So etwas ist teuer. Die Zeit der Menschen ist teuer. Die Infrastruktur ist teuer. Änderungen an der Infrastruktur sind teuer und so weiter. Und ich glaube, Organisationen sind sich manchmal nicht im Klaren darüber, dass dies ein kostspieliges Unterfangen ist und dass es Jahre dauert, es gut zu machen.” (Auszug aus dem Interview mit Common Voice). Der Aufwand, der durch einen Partizipationsprozess entsteht, wird oft unterschätzt und teils unzureichend in die Budgetplanung einbezogen, was für laufende Projekte mit der Ambition, einen partizipativen Prozess zu gestalten, zum Problem werden kann. Ein Punkt, den Common Voice im Interview betont, ist die Herausforderung, mit Machtungleichheit umzugehen. Es bedarf der aktiven Moderation im Prozess, um Gruppen in schwächeren Positionen einen genauso großen Einfluss auf Entscheidungen zu geben wie wichtigen Geldgeber*innen.

Was wir von Common Voice lernen können

Partizipative Entscheidungen und Entwicklungen sind teuer, aufwändig und schwierig. Und jetzt? Ein günstiger und scheinbar einfacher Gegenentwurf zu partizipativen Prozessen besteht darin, Sprachdaten aus dem Internet ohne das Einverständnis der Personen zu scrapen. Das bedeutet, die Stimmen aus den Videos werden ausgelesen und zu einem Datensatz zusammengefasst. Ein Beispiel dafür ist der Datensatz YouTube-8M. Dies führt dazu, dass die darauf basierenden Sprachtechnologien nicht für alle Nutzer*innengruppen gleich gut funktionieren (Brihane 2021). Es wirft auch die Frage auf, wem diese Sprachdatensätze gehören und wer entscheiden darf und soll, welche Daten sie beinhalten und wie die Daten genutzt werden dürfen.
Common Voice als lehrreiches Fallbeispiel zeigt auf, wie die Fragen der Data Governance partizipativ gelöst werden können, jedoch auch, wie sogar komplexe Entscheidungsprozesse über die Weiterentwicklung von Technologien partizipativ gestaltet werden können. Es zeigt, dass partizipative Entscheidungen machbar und erfolgreich sind, wenn Organisationen bereit sind, sich dieser Herausforderung zu stellen.

References

Züger, T., Faßbender, J., Kuper, F., Nenno, S., Katzy-Reinshagen, A., & Kühnlein, I. (2022). Civic Coding: Grundlagen und empirische Einblicke zur Unterstützung gemeinwohlorientierter KI. Civic Coding Initiative.

Züger, T., & Asghari, H. (2022). AI for the public. How public interest theory shifts the discourse on AI. AI & Society. DOI: 10.1007/s00146-022-01480-5

Mucha, H., Correia de Barros, A., Benjamin, J., Benzmüller, C., Bischof, A., Buchmüller, S., de Carvalho, A., Dhungel, A., Draude, C., Fleck, M., Jarke, J., Klein, S., Kortekaas, C., Kurze, A., Linke, D., Maas, F., Marsden, N., Melo, R., Michel, S., Müller-Birn, C., Pröbster, M., Rießenberger, K., Schäfer, M., Sörries, P., Stilke, J., Volkmann, T., Weibert, A., Weinhold, W., Wolf, S., Zorn, I., Heidt, M. & Berger, A. (2022). Collaborative Speculations on Future Themes for Participatory Design in Germany. i-com, 21(2), 283-298. DOI: https://doi.org/10.1515/icom-2021-0030

Sloane, M., Moss, E., Awomolo, O., Forlano & L. (2020) Participation is not a Design Fix for Machine Learning. arXiv: http://arxiv.org/abs/2007.02423

Brihane, A. (2021) Algorithmic injustice: a relational ethics approach. DOI: https://doi.org/10.1016/j.patter.2021.100205

Dieser Beitrag spiegelt die Meinung der Autor*innen und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de