Unsere vernetzte Welt verstehen
Data sharing: Warum es sinnvoll ist, weshalb es trotzdem keiner tut und wozu es führen könnte
Laut einer Studie von Tenopir et al. (2011) bezeichnen 67 Prozent der befragten Wissenschaftler den fehlenden Zugang zu Forschungsdaten als ein Haupthemmnis für wissenschaftlichen Fortschritt. In der gleichen Studie geben nur 36 Prozent der befragten Wissenschaftler an, dass sie ihre Forschungsdaten anderen Forschern zur Verfügung stellen. Man könnte die beiden Zahlen milchmädchenartig zusammenfassen: Obwohl die meisten Forscher die Bedeutung von Data sharing erkennen, teilen nur wenige ihre Daten.
Warum Data sharing sinnvoll ist
Dabei liegen die Vorteile für offen zugängliche Forschungsdaten auf der Hand. Mittels offener Daten könnten andere Wissenschaftler eine Studie mit vergleichsweise geringem Aufwand reproduzieren und die Ergebnisse überprüfen. Hard scientists lägen sich freudetrunken in den Armen, denn offen verfügbare Forschungsdaten könnten eine quasi ad hoc-Analyse von Reliabilität und Objektivität ermöglichen. Zudem könnten andere Wissenschaftler mit dem gleichen Datenset auf neue Erkenntnisse stoßen. Synergien also wohin man auch blickt – Die Quintessenz ist klar: Teilen macht Wissenschaft effizienter.
Hinzu kommt das gleiche Erklärungsmantra, welches auch in der Open Access Bewegung Anwendung findet: Daten, deren Erhebung aus öffentlichen Mitteln finanziert wurden, müssen auch der Öffentlichkeit zur Verfügung stehen. Wenn ein Wissenschaftler von Steuergeldern finanziert wird, muss er auch seine Daten allen zur Verfügung stellen. Basta.
Warum Wissenschaftler dennoch nicht Daten teilen
Interessanterweise begründen sowohl das Effizienz- als auch das Finanzierungsargument eine individuelle Handlung, nämlich das Teilen von Forschungsdaten, mit einem gesamtgesellschaftlichen Benefit. Dem Forschenden wird gewissermaßen eine generelle Gemeinwohlverpflichtung unterstellt, welche sein Handeln bestimmt. Diese spiegelt aber nicht die Forschungspraxis wieder. In der Praxis erfährt der einzelne Forscher eine ganze Reihe individueller Hemmnisse, wie Studien belegen.
Daten sind noch keine Währung
Haeussler et al. (2011) ahmten in einer spieltheoretischen Studie das klassische Gefangenendilemma für Wissenschaftler nach: Im Experiment solle ein Forscher davon ausgehen, dass er einen Teil eines wissenschaftlichen Problems gelöst habe. Nun müsse er entscheiden, ob er diese Erkenntnis teilt oder nicht. Ein interessantes Ergebnis: Je höher der erwartete Gewinn, desto geringer die Wahrscheinlichkeit, dass er Daten teilt. Übersetzt auf Forschungsdaten bedeutet das: Je höher ein Forscher den Wert seiner Daten einschätzt, desto geringer ist die Wahrscheinlichkeit, dass er sie weitergibt – zumindest bevor er nicht selbst Profit aus den Daten gezogen hat. Es offenbart sich also ein tatsächliches Problem: Der Profit bemisst sich in der Regel an einer Publikation, nicht an deren zu Grunde liegenden Daten. Damit erfahren die Daten erst nach einer narrativen Veredelung ihren wahren Wert. Und dass, obwohl für andere Datenanalysten ein sauberes Datenset vermutlich einen höheren Wert hätte als eine Erzählung. Das Teilen von Daten hängt also von der individuellen Bemessung des eigenen Datenwertes ab; es hat eine sozialökonomische Dimension. Wissenschaftler teilen nicht, weil sie davon kaum was haben (wie Stanley und Stanley schon 1988 feststellten).
Nun könnte man ja argumentieren, dass ein Forscher zumindest nach der eigenen Verwertung, also nach der Publikation, die zu Grunde liegenden Daten öffentlich macht und damit anderen zur Verfügung stellt, schließlich hätte er dann bereits seinen Nutzen gezogen. Aber auch das tritt nicht ein. Tenopir et al. (ibid) verweisen auf den Aufwand, der mit der Datenaufbereitung steht. Dieser bestünde nicht nur aus der Bereinigung des Datensets und dem Verstauen bei einem Repositorium, sondern auch bei der Ausstattung mit Metadaten. Hier offenbart sich ein weiteres Problem.
Fehlende Datenstandards
Es mangelt in den einzelnen Disziplinen an Konventionen, die glasklar formulieren wie Informationen formatiert und welche Metadaten gelistet sein müssen. Dies trägt dazu bei, dass es kaum anwendbaren Softwaretools und Repositorien gibt – ein Problem, dass auch Nelson (2009) aufgreift. Zu viele Daten lagern ihmnach unbenutzt auf CDs und Festplatten. Zwar nützten Disziplinen wie die Physik oder Mathematik schon eifrig Repositorien wie arXiv.org – dies sei allerdings eher die Ausnahme. Warum auch sollte sich ein Wissenschaftler die Mühe machen, seine Daten aufzubereiten und für andere nutzbar zu machen, wenn es in seiner Disziplin keine allgemeinen Standards – also keine Qualitätskriterien, Metadatenstruktur, keinen zentralen Datenbroker gibt? Im schlimmsten Fall wäre das das vergebliche Liebesmüh; eine Sisyphoserviceleistung von der keiner was hat. Es zeigt sich also, dass das Teilen von Daten auch eine infrastrukturelle und Policy Dimension besitzt. Womöglich erfährt das Teilen von Daten erst sein volles Potenzial, wenn sich geeignete Standards durchsetzen (oder durchgesetzt werden?).
Freilich decken diese Argumente noch nicht die Gesamtheit möglicher Hemmnisse des Datenteilens ein. Neben den skizzierten, gibt es beispielsweise noch disziplinäre Eigenheiten, wie etwa Datenschutzbedenken bei sozialwissenschaftlichen Erhebungen (z.B. bei kleinen Samples oder persönlichen Daten). In diesem Fall hat das Teilen von Daten auch eine ethische Dimension. Bei proprietären Daten (z.B. im Zusammenhang mit Drittmittelforschung) stellen sich zudem auch Fragen der Verwertungsrechte. Auch die ceteris paribus Tendenz in meiner Argumentation ist kritikwürdig – schließlich ist ‘der Forscher an sich’ kein rein interessengeleitetes Individuum.
4 Säulen einer Data sharing Kultur
Dennoch glaube ich, dass die Partizipationsbedingungen ein Hauptansatzpunkt für das sind, was man bisweilen ‘Data sharing culture’ nennt. Ich glaube, dass diese nur dann funktionieren, wenn der individuelle Partizipationsaufwand für den Forscher überschaubar gehalten und dessen Ertrag erhöht wird. Wie könnte das funktionieren?
Anreize schaffen: Wenn Wissenschaftler ihre Daten nicht teilen, weil sie sich davon keinen persönlichen Mehrwert erwarten (siehe Haeusslers et. al) beziehungsweise weil ihnen dadurch erst ein möglicher Gewinn entgeht (Stichwort Ideenklau), dann bedarf es einer Gratifikationsstruktur für die Wissenschaftler. Zählen muss nicht mehr (nur) die verschriftlichte Publikation, sondern gleichfalls deren zu Grunde liegenden Daten. Es bedarf Impact metrics für wissenschaftliche Daten (siehe hier).
Datenstandards: Wenn Wissenschaftler ihre Daten nicht teilen, weil es keine disziplinär anerkannte Datenstandards gibt, dann bedarf es eindeutiger Qualitätsstandards und Metadatenstrukturen. Diese müssen klar ersichtlich und möglichst anwendbar sein. (Die Frage ist allerdings, wer diese Standards setzt: Politik? Infrastrukturprovider? Journals?)
Aufwand gering halten: Im Zusammenhang mit den Datenstandards muss der Aufwand für die Datenaufbereitung und -bereitstellung möglichst gering gehalten werden. Der Wissenschaftler soll nicht länger mit der Aufbereitung und dem Verfügenstellen beschäftigt sein, als mit dem Auswerten.
Auffindbarkeit: Das Teilen von Daten ist nicht mit dem Akt des Verfügenstellens beendet. Die ‘offenen’ Daten müssen leicht auffind- (z.B. suchmaschinengestützt) und abrufbar sein. Es bedarf also eines Datenbrokers; einem Mittler und Sortierer wissenschaftlicher Daten. (Die Frage ist: Wer könnte das sein? Forschungsbibliotheken? Suchmaschinen?)
Führt Data Sharing zu Factory Science?
Betrachtet man die obigen Forderungen im Zusammenhang mit Datasharing genauer, so erkennt man auch gewisse Entkopplungstendenzen: Wer sagt denn, dass derjenige, der Daten erhebt auch derjenige sein muss, der sie verwertet? Wenn es genügend Anreize gibt, nur Daten zu erheben und zur Verfügung zu stellen, dann erübrigt sich auch die Kopplung zwischen dem Produzenten und dem Produkt; dann begleitet ein Wissenschaftler nicht mehr seine Arbeit von der Idee bis zur Publikation, sondern nur noch in Abschnitten.
Und dieser Gedanke lässt sich weiterspinnen: Denkbar sind solche Spezialisierungen theoretisch an allen Modulen des Datenkreislaufs: Daten erheben, Daten verwalten und pflegen (z.B. Repositories), Daten auffindbar machen (z.B. Metasuchmaschinen), Daten analysieren und Daten verwerten (Verschriftlichung) – all das sind im Grunde Schritte eines modularisierbaren Prozesses. Factory science kann man es deshalb nennen, weil ähnlich einer industriellen Produktion das Produkt nicht mehr von einem Einzelnen gefertigt wird, sondern von spezialisierten Einheiten. Wissenschaft hätte somit erstaunliche Ähnlichkeiten mit einer Autoproduktion; und bei einem Mercedes ist auf dem Kühler auch nicht genügend Platz für die Namen all derer, die daran mitgeschraubt haben.
Dieser Beitrag ist Teil der wöchentlichen Blogartikel der Doktoranden des Alexander von Humboldt Institutes für Internet und Gesellschaft. Er spiegelt weder notwendigerweise noch ausschließlich die Meinung des Institutes wieder. Für mehr Informationen zu den Inhalten dieser Artikel und den assoziierten Forschungsprojekten kontaktieren sie bitte info@hiig.de.
Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de
Jetzt anmelden und die neuesten Blogartikel einmal im Monat per Newsletter erhalten.
Forschungsthemen im Fokus
Zwischen Zeitersparnis und Zusatzaufwand: Generative KI in der Arbeitswelt
Generative KI am Arbeitsplatz steigert die Produktivität, doch die Erfahrungen sind gemischt. Dieser Beitrag beleuchtet die paradoxen Effekte von Chatbots.
Widerstände gegen Veränderung: Herausforderungen und Chancen in der digitalen Hochschullehre
Widerstände gegen Veränderung an Hochschulen sind unvermeidlich. Doch richtig verstanden, können sie helfen, den digitalen Wandel konstruktiv zu gestalten.
Von der Theorie zur Praxis und zurück: Eine Reise durch Public Interest AI
In diesem Blogbeitrag reflektieren wir unsere anfänglichen Überlegungen zur Public Interest AI anhand der Erfahrungen bei der Entwicklung von Simba.