Begehrter Rohstoff: Daten für Spitzenforschung

Seit Computer und ihre Algorithmen stark genug sind, um in großen Datenmengen wiederkehrende Muster zu erkennen, sind diese Verfahren mithilfe von künstlicher Intelligenz (KI) aus Wissenschaftsfeldern wie der Biomedizin, Quantenphysik, Informatik und Klimaforschung nicht mehr wegzudenken. Weitere Disziplinen erproben sie: von den Sozialwissenschaften über die Psychologie bis zur Kriminologie und Kunstgeschichte.

Blick in Serverraum
Im Zeitalter von Big Data wird der Zugriff auf große Datenmengen auch für die Wissenschaft immer wichtiger (Foto: Sashkin - stock.adobe.com)

Doch Daten sind ein anspruchsvoller Rohstoff: Um die Algorithmen auf ihre späteren Aufgaben zu trainieren, benötigt man Daten in großer Zahl, guter Qualität, passendem Format, möglichst schnell und immer wieder neu, denn sie verbrauchen sich zwar nicht, aber sie veralten. Das alles macht Daten zu einem Nadelöhr der datengetriebenen Forschung. Ihre Verfügbarkeit zu sichern, stellt verschiedene Wissenschaftsbereiche vor ganz unterschiedliche Herausforderungen.

Datenversorgung in Europa sichern – aber wie?

Andreas Hotho ist Professor für Data Science an der Universität Würzburg. Er erforscht, wie mithilfe des maschinellen Lernens große Datenbestände ausgewertet werden und die damit trainierten Algorithmen später in ganz unterschiedlichen Bereichen zum Einsatz kommen: bei der Überwachung von Klimadaten, in Empfehlungssystemen oder für die Analyse sozialer Medien. Hotho braucht für seine Forschung große Mengen Trainingsdaten. "GTP-2" beispielsweise, ein System, das Texte weiter formulieren kann, wenn man ihm einen Anfang vorgibt, habe umgerechnet 20 Mio. reine Textseiten gebraucht, so Hotho, um Muster der Sprachverarbeitung "zu lernen". Ein solches 40 Gigabyte-Paket mit passgenauen Daten für die eigene Forschung zu organisieren, ist schwierig.

Wer die Suchmaschinen kontrolliert, kontrolliert den Zugang zu den Informationen der Welt.

Vieles würde einfacher, wenn kommerzielle Datengiganten, etwa Google oder Facebook, der öffentlichen Forschung Daten zur Verfügung stellen würden. Doch weil Daten der Kern ihrer Geschäftsmodelle sind, haben sie kein Interesse an Kooperationen. "Wenn Facebook eine Studie veröffentlicht, kann das Unternehmen natürlich viel behaupten. Es wäre valider, wenn man das nachrechnen könnte. Aber das geht nicht, weil man an die Daten nicht herankommt", klagt Hotho. Und sorgt sich angesichts der marktbeherrschenden Position von US-Firmen, ob Deutschland nicht völlig abgeschnitten werden könnte von der Datenversorgung: "Um auf das im Internet gesammelte Wissen zugreifen zu können, brauchen wir Suchmaschinen. Wer die Suchmaschinen kontrolliert, kontrolliert den Zugang zu den Informationen der Welt. In Deutschland haben wir keine eigene Suchmaschine. Was wir brauchen, um den Zugang zu Daten zu sichern, ist eine eigene Kopie des Internets. Eine solche Kopie wäre machbar, wird aber nicht gemacht." Für Hotho ein europäisches Projekt, das aber bislang niemand in Angriff nimmt.

Forschungsdatenmanagement – (auch) eine Frage des Geldes

In der Grundlagenforschung stellt die datengetriebene Forschung die Wissenschaftlerinnen und Wissenschaftler vor andere Herausforderungen: Patrick Cramer ist Direktor am Max-Planck-Institut für biophysikalische Chemie in Göttingen und Leiter der Abteilung Molekularbiologie. Mithilfe von Elektronenmikroskopie und Röntgenkristallografie erforscht er die Transkription und Regulation des Erbguts. "Die Originalbilder, die wir in unserer Forschung sammeln, haben einen sehr geringen Kontrast. Kürzlich aber ist es uns gelungen, mit maschinellem Lernen den Kontrast zwischen den eigentlichen Proteinpartikeln und dem verrauschten Hintergrund so zu verstärken, dass man die Partikel leicht erkennen kann." – Ein Qualitätssprung für die Analyse.

Screenshot
Das National Center for Biotechnology Information in Bethesda, Maryland (NCBI) stellt unter anderem einen Zugang zu wichtigen DNA-, RNA- und Protein-Datenbanken zu Verfügung (Abb: "Genome Data Viewer" Screenshot)

In Cramers Forschungscommunity ist es üblich, mit den Veröffentlichungen gleichzeitig auch die Forschungsdaten in Datenbanken zur Verfügung zu stellen. "Es ist aber schade, dass es in unserem Feld keinen Zwang gibt, auch die Rohdaten zugänglich zu machen. So verliert man die Möglichkeit, die Daten noch einmal zu prozessieren, wenn man bessere Algorithmen hat", erklärt Cramer. Rohdaten seien allerdings oft sehr umfangreich, was eine Herausforderung für die Infrastruktur im eigenen Labor darstellen könne. "Und manche wollen ihre Rohdaten auch nicht freigeben, weil sie später damit noch weitere Früchte ernten wollen." 

Dass akuter Handlungsbedarf besteht, um die Forschung mit Daten zu versorgen, ist in der Wissenschaftspolitik angekommen. So fördert das Bundesministerium für Bildung und Forschung aktuell 21 Projekte zum Forschungsdatenmanagement. Zeitgleich entwickeln sich fachspezifische Plattformen und Formate. "Es gibt jetzt weltweit große Anstrengungen, die Datenbanken zu füllen", weiß Patrick Cramer. "Darum wäre es schade, wenn es in Deutschland nun Parallelanstrengungen gäbe." Wichtiger sei es, bestehende Strukturen finanziell zu stärken.

In der Grundlagenforschung, die ihre Daten erst einmal selbst produzieren muss, ist die Verfügbarkeit von Daten vor allem eine Frage des Geldes. In der Medizinforschung, der besonders große Entwicklungschancen durch datengetriebene Verfahren in Aussicht gestellt werden, kommt als weiteres Problem der Datenschutz hinzu. "Patientendaten sind besonders geschützt, und das ist auch gut so. Andererseits muss man sehen, dass die Forschung auch gerade deswegen nicht in der idealen Weise fortschreiten kann", sagt Cramer.

Freiwillige Datenspenden – Gütesiegel oder Treuhänder sichern Standards

Um Datenschutz und Forschungsinteressen besser zu verknüpfen, sind neue Formate im Gespräch. Bei einer "Datenspende" etwa könnte die Patientin oder der Patient beim Arztbesuch festlegen, welche Daten für Forschungszwecke verwendet werden dürfen. Der Deutsche Ethikrat hat ein "Gütesiegel" vorgeschlagen – für nachvollziehbar erzeugte, anonymisierte Daten.

Die größte Herausforderung ist es, die unterschiedlichen datenschutzrechtlichen Vorgaben zu berücksichtigen.

Ein weiteres Modell ist der "Treuhänder". Dana Stahl leitet die Unabhängige Treuhandstelle der Universitätsmedizin Greifswald. Dort sind in den sechs Jahren ihres Bestehens knapp 10 Millionen pseudonymisierte Datensätze gesammelt worden, samt der Einwilligungserklärungen der Studienteilnehmerinnen und -teilnehmer, oft sind es Patientinnen und Patienten. Über eine Transferstelle können Forscherinnen und Forscher Zugang zu diesen Daten beantragen.

Logo
Die unabhängige Treuhandstelle der Universitätsmedizin Greifswald (THS) unterstützt technische Infrastrukturen für die medizinische Forschung.

"Die größte Herausforderung ist es", so Stahl, "die unterschiedlichen datenschutzrechtlichen Vorgaben zu berücksichtigen und in eine Software so zu integrieren, dass diese für den Anwender praktikabel ist und es auch in Zukunft bleibt." Um diesen Anspruch zu erfüllen, seien die Medizininformatikerinnen und -informatiker der Treuhandstelle im Gespräch mit Datenschutzbeauftragten und Ethikkommissionen. "Nach und nach", so Stahl, "etablieren sich gemeinsame Standards mit anderen Datenzentren, insbesondere in der auf Landes- und Bundesebene angelegten Medizininformatik-Initiative." Ziel sei es, etwa Daten zu seltenen Erkrankungen oder die Ergebnisse kardiologischer Studien mit solchen zur Demenzforschung standortübergreifend zusammenzuführen – immer auf Basis der informierten Einwilligung der Betroffenen.

Rechtliche Herausforderungen für "KI Made in Germany" 

Gibt es nun ausreichend Daten für die öffentliche Forschung in Deutschland oder nicht? "Es gibt nicht zu wenig Daten", antwortet Steffen Augsberg, Professor für öffentliches Recht an der Universität Gießen und Mitglied des Deutschen Ethikrats, "aber es gibt technische und rechtliche Schwierigkeiten, sie zusammenzuführen." Das größte Problem sieht auch er in der Vielfalt der Vorschriften. International werde das Problem sogar noch größer: "Die Datenschutzgrundverordnung hat zwar für Europa eine gewisse Vereinheitlichung gebracht. Zugleich ist sie aber ein Startschuss für viele Staaten gewesen, eigene Regelungen zu erlassen." Wer in grenzübergreifenden Projekten arbeitet, muss also unter Umständen noch mehr Vorschriften berücksichtigen. 

Key visual Themenschwerpunkt künstliche Intelligenz
Weitere Artikel zum Theme "Künstliche Intelligenz und die Gesellschaft von morgen" in unserem Themenschwerpunkt (Bildlink)

Es seien Gerichtsprozesse angestrengt worden, so Augsberg, um mit Blick auf die diversen Datenschutzbestimmungen juristische Unsicherheiten zu klären. Selbst die gängige Praxis, Daten als Eigentum zu betrachten, die, wie andere Besitztümer, unter Verschluss gehalten werden können, ist aus Augsbergs Perspektive kritisch zu hinterfragen: "Auch auf diese Herausforderung haben wir noch keine juristisch überzeugende Antwort."  

Mag also sein, dass Datenschutz die KI-gestützte Forschung in Deutschland bremst. Andererseits sieht die Bundesregierung genau darin, in der Orientierung an Grundwerten und dem Schutz der Privatsphäre, ein mögliches Markenzeichen für "KI Made in Germany". – Ob diese Rechnung aufgeht, lässt sich mit keinem Algorithmus vorhersagen.

Portrait of the author Manuela Lenzen
Manuela Lenzen (Foto: privat/Manuela Lenzen)

Über die Autorin

Dr. Manuela Lenzen hat in Philosophie promoviert und schreibt als freie Wissenschaftsjournalistin über Digitalisierung, künstliche Intelligenz und Kognitionsforschung, unter anderem für die FAZ, die NZZ, Psychologie Heute, Bild der Wissenschaft und Gehirn und Geist. Ihr aktuelles Buch "Künstliche Intelligenz – Was sie kann und was uns erwartet" (C.H. Beck, München, 2018) wurde als sachliches Grundlagenwerk vielfach positiv rezensiert.