Zum Inhalt springen
Bild einer Windmühle, das für Nachhaltigkeit steht

Sustainable AI – Wie nachhaltig ist Künstliche Intelligenz wirklich?

29 Juni 2022

Dass auch Künstliche Intelligenz ökologisch nachhaltig ist, wird angesichts der spürbaren Ausmaße der Klimakrise immer wichtiger. Doch wie umweltfreundlich sind KI-Modelle, ob Big Tech oder kleinere Anwendungen, wirklich?  In diesem Blogbeitrag beschäftigen wir uns damit, wie nachhaltig kleinere KI-Systeme wirklich sind: Welche offenen Fragen bleiben hier bisher unbeantwortet? Und welche Handlungsempfehlungen lassen sich ableiten?

Nachhaltige KI und KI für Nachhaltigkeit

Seit einiger Zeit liest man von den Potenzialen von Künstlicher Intelligenz (KI) für den Klimaschutz. Rolnick et al (2023) listen verschiedenste Einsatzmöglichkeiten auf. Von der Optimierung CO2-armer Energiequellen bis zur Überwachung von Wäldern. Allerdings gibt es auch Bedenken in die entgegengesetzte Richtung. So wird nicht nur an KI für Nachhaltigkeit geforscht, sondern auch an nachhaltiger KI. Dabei geht es darum, KI selbst nachhaltig zu gestalten. Denn dass es sich bei den eingesetzten Modellen um ziemliche Energiefresser handelt, fällt häufig unter den Tisch. 

The bigger the better

In einer vielbeachteten Studie haben Emma Strubell et al (2019) Experimente mit Sprachmodellen durchgeführt. Sie fanden heraus, dass das Training eines solchen Modells in etwa auf dieselben CO2-Emissionen kommt, wie fünf PKWs in ihrer gesamten Lebensdauer. Ein weiteres, stark rezipiertes Experiment kommt von OpenAI (Fig. 1). Die Forscher*innen haben sich angeschaut, wie KI-Modelle in den letzten Jahren gewachsen sind. Dabei stellten sie fest, dass sich die Modellgröße im Schnitt alle 3,4 Monate verdoppelt.

Fig 1 Die stark zunehmende Größe von KI-Modellen in den vergangenen Jahren. Petaflop/s-days lässt sich hier grob als die Größe eines Modells interpretieren. Und mit der Größe steigt in der Regel auch der Energieverbrauch. Die Autor:innen des Blogposts von OpenAI berechnen die Größe der Modelle auf Grundlage der ursprünglichen Forschungsarbeiten. Wir haben uns die Forschungsarbeiten angeschaut und die Grafik um die institutionelle Zugehörigkeit der Autor:innen ergänzt (Google bzw. Google Brain und Deepmind wurden unter Alphabet zusammengefasst.)

Aus diesen Ergebnissen schlussfolgert die Mehrheit häufig, dass der Trend zu immer größeren Modellen ganz und gar nicht nachhaltig ist. Ohne dem zu widersprechen, lohnt sich allerdings ein genauerer Blick auf die eben genannten Zahlen: Hier fällt auf, dass die meisten Modelle aus Fig 1 Big Tech Unternehmen zugehörig sind. Nun ist es kein Geheimnis, dass die Treiber*innen in der KI-Forschung schon seit Langem nicht mehr die “normalen” Universitäten sind. Das hat vor allem finanzielle Gründe. So geben Strubel et al. (2019) beispielsweise Kosten fürs Cloud Computing von über $100.000 an. 

Nachhaltigkeit auf Huggingface

Leider gibt es zum Energieverbrauch kleinerer KI-Projekte kaum belastbare Zahlen. Die einzige uns bekannte Ausnahme erarbeitete Marcus Voß von Birds on Mars in der Studie “Nachhaltigkeitskriterien für künstliche Intelligenz”. Wir konnten die Ergebnisse reproduzieren und aktualisieren (Fig 2). Für die Analyse nahmen wir die (selbst dokumentierten) Emissionen von Huggingface-Modellen als Datengrundlage. Bei Huggingface handelt es sich um eine Hosting Plattform für KI-Modelle mit niedrigschwelligen Zugang. Damit bietet Huggingface Einblick in die Arbeiten diverser Akteur*innen.

Fig 2 CO2-Emissionen von Huggingface Modellen für verschiedene Aufgaben wie automatische Übersetzung oder Textzusammenfassung. Die Zahlen für die KI-Modelle stammen von sogenannten Model-Cards, die den Modellen beigefügt werden. In letzter Zeit werden zusätzlich zu anderen Metriken, wie der Genauigkeit der Modelle, auch deren CO2-Ausstoß dokumentiert. Die Vergleichsdaten zu den Verkehrsmittel können hier eingesehen werden, die für das Video-Streaming hier und für Huggingface hier bzw. in unserem Github Repo. Wir bedanken uns bei Marcus Voß, der uns beratend unterstützt hat.

Die Analyse der Huggingfacemodelle zeigt, dass die Emissionen beim Training von KI-Modellen nicht zwangsläufig den Rahmen sprengen. Im Vergleich hat 4K Streaming beispielsweise viel stärkere Klimaauswirkungen als das Training der meisten hier gezeigten Modelle. Überspitzt gesagt: Wenn ich heute auf die neueste Folge Bridgerton verzichte, dann kann ich morgen guten Gewissens mein Huggingface Modell trainieren. 

Das hier verwendete Analysemethode klärt zwei essentielle Fragen allerdings nicht: Wer hat die Modelle trainiert (Big Player oder kleinere Projekte)? Und wo wurden dieses Modell trainiert? Denn die Emissionen variieren mit der Energiequelle und die unterscheidet sich nach Lage. Das macht den direkten Vergleich dieser Werte schwer bis unmöglich.

Wie nachhaltig ist Public Interest AI?

Im Rahmen unseres Forschungsprojekts Public Interest AI entwickeln wir verschiedene Machine Learning Prototypen, die dem öffentlichen Interesse dienen sollen. Für diesen Beitrag haben wir gemessen, wie den Stromverbrauch für das Training dieser Modelle gemessen, sprich, wie nachhaltig sie sind.

Der erste Prototyp soll helfen (nicht-) barrierefreie Orte zu kartographieren. Dazu wird object detection verwendet. Das bedeutet, dass das Modell automatisch Dinge wie Stufen, Treppen, Rampen und Treppengeländer erkennt. Hierfür haben wir einen Datensatz selbst zusammengestellt.

Für die Aufgabe haben wir uns für das Modell YOLOv5 entschieden. Bei YOLOv5 handelt es sich um ein sog. State-of-the-Art Deep Neural Network, welches weit verbreitet ist. Zu diesem Zweck verwenden wir Transfer Learning: Wir nutzen ein bereits vortrainiertes Modell und passen es an unsere Daten an.

Fig 3 Objekterkennung, um barrierefreie Ort zu kartographieren. Hierfür haben wir YOLOv5s auf ein kurzes Video angewandt.

Der zweite Prototyp soll Faktenchecker*innen bei ihrer Arbeit gegen Desinformation unterstützen. Bevor eine Behauptung von Faktenchecker*innen überprüft werden kann, muss sie überhaupt gefunden werden. Claim Spotting, das automatische Auffinden von checkenswerten Aussagen, kann diesen Prozess erleichtern. 

Für die Aufgabe haben wir verschiedene Arten von Machine Learning Modellen ausprobiert. Zum einen haben wir klassische Modelle wie Logistische Regression und Support Vector Maschine, zum anderen neuere Architekturen benutzt, nämlich ein Triplet Network und ein Ensemble aus Transformern. Auch hier handelt es sich um Transfer Learning.

Fig 4 Stromverbrauch in Kilowattstunden für das Training verschiedener Machine Learning Modelle auf verschiedenen Datensätzen. Für die Support Vector Maschine, die logistische Regression und das Triplet Network wurden die Hyper Parameter mittels Grid Search optimiert. Für YOLO wurde die bereits implementierte hyperparameter evolution genutzt. Beim Ensemble Modell haben wir die Hyperparameter aus dem ursprünglichen Forschungspapier übernommen. Für die Sprachmodelle wurden vier unterschiedliche Datensätze benutzt: Checkthat (ca. 47000 Sätze), Claimbuster (ca. 24000 Sätze), Germeval (ca. 4200 Sätze) und Debatenet (ca. 3700 Sätze). Für das Computer Vision Modell wurde ein Datensatz mit ca. 6500 Bildern benutzt.

In Fig 4 ist der Stromverbrauch für das Training der genannten Modelle visualisiert. Man kann hier zwei Beobachtungen machen: Zum einen gibt es erhebliche Unterschiede zwischen den Modellen. Das mit Abstand stromintensivste Training hat das Ensemble Modell. Das ist wenig überraschend, weil hier nicht nur ein Modell, sondern 60 trainiert wurden. Zum anderen fällt aber auch auf, dass das Training weiterhin nicht viel mehr Strom verbraucht als eine Stunde 4k Streaming. 

Wo wird am saubersten trainiert?

Wie bereits erwähnt, können die Emissionen bei gleichbleibendem Stromverbrauch je nach Ressource unterschiedlich ausfallen. In Fig 5 sind die Emissionen eines der Ensemble Modelle visualisiert und zeigen, wie sich Emissionen je nach Einsatzort unterscheiden können.

Fig 5 In welchem Land und zu welcher Uhrzeit hätte das Training am meisten CO2 ausgestoßen? CO2-Emissionen für das Training eines Ensembles aus Transformern auf dem Claimbuster Datensatz unterschieden in Tag und Nacht. Die Kohlenstoffintensitäten (gCO2/kWh) entstammen einer Stichprobe vom 3. Juni 2022 von electricitymap.org (Symbolbild).

Auffällig ist, dass sich die Emissionen von Land zu Land um ein Vielfaches unterscheiden können, obwohl der Stromverbrauch immer derselbe ist. Zusätzlich ist zu erkennen, dass es in manchen Ländern einen starken Unterschied macht, ob man am Tag oder am Abend trainiert. Das liegt daran, dass viele erneuerbaren Energien tages- und wetterabhängig sind.

Lehren und offene Forschungsfragen für nachhaltige KI

Welche Schlussfolgerungen ziehen wir aus den Untersuchungsergebnissen zu nachhaltiger Künstlicher Intelligenz? An erster Stelle steht die Erkenntnis, dass kleinere KI-Projekte vergleichsweise wenig Emissionen verursachen. Das heißt nicht, dass hier nichts verbessert werden kann. Aber es heißt eben auch, dass sich die alarmierenden Zahlen von Strubell et al. (2019) nicht für alle KI-Projekte verallgemeinern lassen. Die mangelnde Datenlage hinsichtlich diverser Akteur*innen, Einsatzorte und Energieverbrauch zeigt sich auch in unseren Analysen: Weder die Huggingface-Zahlen noch unsere eigenen Experimente sind wirklich repräsentativ.  Doch es ist Besserung in Sicht: Während des Schreibprozesses stellten wir fest, dass Huggingface wöchentlich etwa zehn neue Modelle mit CO2-Angaben listet, wenn auch nach wie vor ohne Berücksichtigung der geographischen Lage. Hier braucht es einen anspruchsvollen Dokumentationsstandard, um KI zukünftig mit Hilfe von Transparenz und vielschichtigen offenen Daten wirklich nachhaltiger zu gestalten. 

Hinweis: Code und Daten können auf den Github Repositorien der Autoren eingesehen werden: https://github.com/SamiNenno/Sustainable-AI | https://github.com/rurfy/Sustainablity-AI

Referenzen

Ahmed, N., & Wahed, M. (2020). The De-democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. ArXiv:2010.15581 [Cs]. http://arxiv.org/abs/2010.15581

Rohde, F., Wagner, J., Reinhard, P., Petschow, U., Meyer, A., Voß, M., & Mollen, A. (n.d.). Nachhaltigkeitskriterien für künstliche Intelligenz. Schriftenreihe Des IÖW, 220, 21.

Rolnick, D., Donti, P. L., Kaack, L. H., Kochanski, K., Lacoste, A., Sankaran, K., Ross, A. S., Milojevic-Dupont, N., Jaques, N., Waldman-Brown, A., Luccioni, A. S., Maharaj, T., Sherwin, E. D., Mukkavilli, S. K., Kording, K. P., Gomes, C. P., Ng, A. Y., Hassabis, D., Platt, J. C., … Bengio, Y. (2023). Tackling Climate Change with Machine Learning. ACM Computing Surveys, 55(2), 1–96. https://doi.org/10.1145/3485128

Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3645–3650. https://doi.org/10.18653/v1/P19-1355

van Wynsberghe, A. (2021). Sustainable AI: AI for sustainability and the sustainability of AI. AI and Ethics, 1(3), 213–218. https://doi.org/10.1007/s43681-021-00043-6

Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de

Sami Nenno

Wissenschaftlicher Mitarbeiter: AI & Society Lab

Christopher Richter

Studentischer Mitarbeiter: Public Interest AI

Digital & Disziplinlos: HIIG Erklärvideos

HIIG Monthly Digest

Jetzt anmelden und  die neuesten Blogartikel gesammelt per Newsletter erhalten.

Man sieht in Leuchtschrift das Wort "Ethical"

Digitale Ethik

Ob Zivilgesellschaft, Politik oder Wissenschaft – alle scheinen sich einig, dass die Neuen Zwanziger im Zeichen der Digitalisierung stehen werden. Doch wo stehen wir aktuell beim Thema digitale Ethik? Wie schaffen wir eine digitale Transformation unter Einbindung der Gesamtgesellschaft, also auch der Menschen, die entweder nicht die finanziellen Mittel oder aber auch das nötige Know-How besitzen, um von der Digitalisierung zu profitieren?  Und was bedeuten diese umfassenden Änderungen unseres Agierens für die Demokratie? In diesem Dossier wollen wir diese Fragen behandeln und Denkanstöße bieten.

Discover all 12 articles