Peer Review reloaded  

Dominik Liebl sitzt am Nachmittag des 25. Mai 2020 in einem Vortrag, als er den Tweet der BILD-Zeitung mit seinem Namen entdeckt und erkennt: Jetzt zählt jede Minute.

Passiert jedem Wissenschaftler einmal.

Er verlässt den Raum, ordnet seine Gedanken und um 17:04 Uhr setzt der Bonner Statistiker diesen Twitter-Thread in die Welt: "Ich wusste nichts von der Anfrage der BILD und distanziere mich von dieser Art Menschen unter Druck zu setzen auf das schärfste. Wir können uns mehr glücklich schätzen @c_drosten und sein Team im Wissenschaftsstandort Deutschland zu haben. They saved lifes! Mein Open Review Report begutachtet die Statistik. Dort sind Fehler passiert. Dies kann passieren. Passiert jedem Wissenschaftler einmal. Nun muss man die Ergebnisse neu interpretieren."

Die Flüchtigkeitsfehler in Liebls Sätzen zeugen von der Hektik jenes Nachmittags. Kurz vorher hatte die BILD-Zeitung den Artikel "Fragwürdige Methoden: Drosten-Studie über ansteckende Kinder grob falsch" online gestellt und darin auch Liebls Kritik an der Arbeit des Berliner Virologen Christian Drosten aufgenommen.

Der Beitrag wurde ein Medienskandal. Wegen "schwerer Verstöße gegen die journalistische Sorgfaltspflicht" kassierte die Zeitung im September eine Rüge des Presserats. Die Formulierung, die Studie sei "grob falsch", sei im Text nicht gedeckt und: "Weiter erwähnt der Artikel nicht, dass es sich um eine Vor-Veröffentlichung handelte, deren Ergebnisse noch nicht von Fachleuten überprüft waren." 

Im Coronajahr 2020 lernt das nicht-akademische Deutschland, wie Wissenschaft geht. Die Nation erfährt, dass es Preprints gibt, dass diese Vor-Veröffentlichungen nur eingeschränkt gelten, dass ihre Qualität erst geprüft wird, dass das Verfahren dazu Peer Review heißt. Und dass gegenseitige Kritik in der Wissenschaft normal ist. Was die Öffentlichkeit nicht erfährt: das Peer Review-Verfahren steckt in einer tiefen Krise. 

Wie lässt sich der kritische Wissenschaftsdiskurs nach Merton im 21. Jahrhundert organisieren?

Man könnte es sich einfach machen, Robert K. Merton beschwören und weitermachen wie bisher. Der US-amerikanische Soziologe erhob kollegiale Kritik im vergangenen Jahrhundert zur wissenschaftlichen Norm. Ihre Bedeutung ist bis heute unbestritten. Sie soll Qualität in der Forschung sichern und das Vertrauen in die Wissenschaft bewahren. 

Doch wie genau lässt sich der kritische Wissenschaftsdiskurs nach Merton im 21. Jahrhundert organisieren oder: Wie geht Merton 5.0? Das ist die Frage, auf die die Wissenschaft bislang keine einheitliche Antwort hat. Klar ist nur: Das unter dem Schlagwort Peer Review bekannte Standard-Verfahren für die kollegiale Kritik ist in die Jahre gekommen. Es ist nicht gemacht für den wissenschaftlichen Hochschulleistungsbetrieb des 21. Jahrhunderts und erst recht nicht für das Expresstempo der Corona-Forschung. Üblicherweise vergehen Wochen und Monate, bis die handverlesenen Experten im traditionellen Peer Review zu einem Urteil über Publikationen oder Förderanträge kommen.  

In der Kritik steht das Verfahren aber nicht nur wegen seiner Langsamkeit, sondern auch wegen seiner Fehleranfälligkeit, seines Hangs zum Mainstream und seiner Intransparenz. All das lässt Forschende nicht nur skeptisch auf das Verfahren blicken, sie misstrauen ihm sogar. Ein Team um den Berliner Wissenschaftsforscher Stefan Hornbostel stellte das Misstrauen gegenüber dem Verfahren für Deutschland bereits 2016 in einer Umfrage unter rund 5000 Forschenden aus allen Karrierestufen fest. 

Damals hegten 83 Prozent der befragten Professoren Zweifel an der Neutralität ihrer Kollegen. Nach der jetzt im November 2020 veröffentlichten Wissenschaftlerbefragung ist die Skepsis in den vergangenen vier Jahren zwar leicht gesunken, sie plagt allerdings immer noch knapp Dreiviertel der Befragten (74 Prozent). 78 Prozent glauben nach der jüngsten Befragung zudem, bei der Vergabe von DFG-Fördergeldern bekämen renommierte Forschende alle, auch weniger gute, Projekte bewilligt. Und 75 Prozent stimmten der Aussage zu, dass es "immer der gleiche Kreis an Leuten" sei, "der das Geld für seine Forschung bekommt". 

Gutachter sind Gatekeeper der wissenschaftlichen Qualität, und sie bestimmen auch über Karrieren. Der Einfluss bedeutet aber auch Last: Gutachten zu schreiben, kostet Zeit. Die fehlt vor allem Spitzenforschern. Die Suche nach Peers wird deshalb immer mühseliger. Die Sorge um die Qualitätssicherung wächst seit Jahren – und hat längst auch den Wissenschaftsrat ergriffen. Vor drei Jahren analysierte er das Begutachtungswesen, listete Schwächen und gab Ratschläge wie diesen: "Etablierte Begutachtungsverfahren sollten regelmäßig hinterfragt und Alternativen erprobt werden." Konkrete Alternativen nennt der Wissenschaftsrat in seiner Analyse nicht.

Doch es gibt eine, die seit Corona besonders hoch im Kurs steht: Open Peer Review. Der Name ist Programm. Alle können und sollen bei diesem Qualitätscheck Gutachten schreiben. Die Gutachter werden nicht mehr berufen – sie übernehmen die Aufgabe von sich aus. Wie sie das tun, ob sie ihre Kritik an die Autoren mailen, ob sie sie auf die eigene Homepage oder die des Instituts stellen, ob sie ihre Einschätzung über Twitter und andere soziale Medien verbreiten – all das kann jeder für sich entschieden.

Die Zeit ist reif für Open Peer Review.

Es gibt bislang keine festen Regeln, keine einheitlichen Standards und keine Normen zu Open Peer Review. Wenn das klassische Peer Review-Verfahren der Wiener Opernball mit strenger Etikette und geladenen Gästen ist, ist Open Peer Review ein Rave – ungeregelt und offen für alle, die dabei sein wollen.

Viele diskutieren über Open Peer Review, doch eine einheitliche Definition des Begriffs gibt es bislang so wenig wie feste Standards. In einem 2019 veröffentlichten Artikel entwarfen Tony Ross-Hellauer und Edit Görögh ihre Vorstellungen von "Guidelines for Open Peer Review Implementation". Bereits 2017 hatte der Informationswissenschaftler Ross-Hellauer in einer Studie drei wesentliche Elemente und Anwendungen von Open Peer Review herausgearbeitet:  a) die Offenlegung der Identitäten der Gutachter (open identities); b) die Offenlegung der Gutachten (open reports) und c) die Öffnung der Beteiligung am Review-Prozess (open participation). Open Peer Review-Verfahren unterscheiden sich also in der Form und im Ausmaß der Transparenz. Auch Mischformen mit Elementen des herkömmlichen Verfahrens werden erprobt. 

Als Dominik Liebl den Statistik-Fehler im Drosten-Papier entdeckte, machte er sich kurzerhand selbst zum Gutachter, verfasste eine Kritik und schickte sie per Mail an die Autoren. Normalerweise hätte er es dabei belassen. Aber die Corona-Verunsicherung im Land war groß und: "Man musste davon ausgehen, dass das Drosten-Paper Basis für wichtige Politikentscheidungen sein wird." Deshalb tat Liebl etwas, was er noch nie zuvorgetan hatte – er machte seine fachliche Kritik öffentlich. 

Open Peer Review kennt viele Spielarten. Das macht die Lage unübersichtlich – die Kommunikation störanfällig. In Liebls Disziplin, der Statistik, pflegen Forschende die offene kollegiale Kritik im Kollegenkreis via Mail oder auch mündlich. Aber ist das auch in der Virologie so? Liebl wusste das nicht. Genauso wenig wie er ahnte, welch einen Medien-Tsunami seine öffentliche Begutachtung des Drosten-Papiers auslösen würde. 

... die Wissenschaftskultur ist in vielen Disziplinen einfach noch nicht so weit.

Was die BILD aus seiner kollegialen Fachkritik machte, brachte Liebl "natürlich ins Nachdenken", wie er rückblickend zurückhaltend formuliert. Trotzdem: Ein "Rückzug in den Elfenbeinturm" ist für ihn keine Option. Der Austausch mit Kollegen und der Öffentlichkeit müsse gepflegt werden, und Open Peer Review sei das Mittel der Wahl. 

"Die Zeit ist reif für Open Peer Review. Aber die Wissenschaftskultur ist in vielen Disziplinen einfach noch nicht so weit", meint die Kieler Informationswissenschaftlerin Prof. Dr. Isabella Peters, die zu Open Peer Review forscht. Sind Gutachtende im klassischen Peer-Review-Verfahren anonym, treten sie bei Open Peer Review offen auf. Das erfordert Mut, schürt Friktionen und schlimmstenfalls Zwietracht. Denn der Kritisierte von heute kann schon morgen Kritiker sein und als Gutachter über die Berufung oder den Fördermittelantrag desjenigen urteilen, der ihn zuvor kritisierte. Um Karrierenachteile zu vermeiden, müssen sich vor allem jüngere Forschende ihrer Sache schon ziemlich sicher sein. Und etablierte Forschende wiederum müssen souverän genug sein, um Fehler öffentlich einzugestehen und zu verändern.  

Open Peer Review reißt Hierarchien ein, schafft Augenhöhe und ändert die Rolle der Gutachterinnen und Gutachter fundamental. Werden sie im traditionellen Verfahren vor allem als Richter wahrgenommen, bleiben sie bei Open Peer Review Kollegen, die ihr Wissen teilen, um Forschung besser zu machen. Und nicht nur das: Open Peer Review beschleunigt den Diskurs, kann ihn über disziplinäre Grenzen hinweg öffnen und ihn zugleich qualitativ verbessern. 

Dominik Liebl zum Beispiel beschränkte sich in seinem Gutachten nur auf den Statistikteil in Drostens Studie. Er lieferte also etwas ab, was man ein Teilgutachten nennt und was so im klassischen Peer Review-Drehbuch nicht vorgesehen ist. Dort haben Gutachter die gesamte Arbeit zu beurteilen. Doch genau das ist mit zunehmender Spezialisierung in den Disziplinen kaum in der Qualität zu schaffen, die Merton meinte. Open Peer Review erlaubte Liebl also bei seiner Expertise zu bleiben und diese mit Drosten zu teilen. Und Christian Drosten? Reagierte tatsächlich so, wie es nach Merton angezeigt ist: Er besserte nach. Und das nicht nur ein Mal, sondern vier Mal. 

So viele Versionen des Drosten-Papers jedenfalls fand Dr. Claudia Frick. Die Informationswissenschaftlerin am Forschungszentrum Jülich verfolgte – angeregt durch das breite, laute Echo – den Veröffentlichungsweg der Drosten-Studie minutiös. Sie untersuchte an diesem Fallbeispiel den Wissenschaftsdiskurs, den Open Peer Review ermöglicht, und sie entdeckte: "Die begutachtenden Expertinnen und Experten kamen miteinander in einen interdisziplinären Austausch. Das ist etwas, was im anonymisierten Peer Review-Prozess natürlich nicht möglich ist", sagt Frick. 

Fricks Analyse macht aber auch deutlich, woran es bei Open Peer Review hakt. Es gibt keine Standards. So konnte sie sechs Gutachten als tragende Säulen im Diskurs aufspüren und auswerten. Diese im Netz zu finden, war eine Sisyphusarbeit. "Der Diskurs lief ziemlich unorganisiert ab", resümiert Claudia Frick. Und: Keiner weiß, ob es nicht irgendwo noch andere Beiträge gab oder gibt. 

Die erste Fassung seines Papers stellte Drosten nicht einmal auf einen der Server, die es für Preprints gibt. Er lud die Arbeit einfach auf die Charité-Homepage, twitterte darüber und signalisierte damit: Der Diskurs ist eröffnet. 

Große Wissenschaftsjournale wie Nature können Treiber der Entwicklung sein - oder Bremser.

Andere Forschende starten den Open Review-Rave, indem sie ihre Studien auf Preprint-Server laden. Diese Variante hat mindestens zwei Vorteile: Paper auf Preprint-Servern haben eindeutige Zitations- und Publikationsnachweise und signalisieren auch der nicht-akademischen Öffentlichkeit, dass es sich um ein Arbeitspapier handelt, das gutachterlich noch nicht geprüft wurde. Denken lassen sich solche Server natürlich nicht nur als Plattformen für Preprints, sondern auch als Plattformen für die Dokumentation des gesamten Wissenschaftsdiskurses, zu dem die Gutachten genauso gehören wie die neuen Versionen des jeweiligen Papers. 

Wie offen der Wissenschaftsdiskurs tatsächlich werden kann, und welche Prozesse und Standards sich beim Open Peer Review herausbilden, lässt sich noch nicht absehen. Klar aber ist: Große Wissenschaftsjournale wie Nature können Treiber der Entwicklung sein – oder Bremser. Nature hat sich für ersteres entschieden. Seit Februar 2020 müssen Gutachter bei Nature damit rechnen, dass ihre Berichte öffentlich gemacht werden – wenn die Begutachteten dies wünschen.

Wir brauchen gute Gutachten, um gute Wissenschaft veröffentlichen zu können.

Im Juni stieg Nature tiefer in die Thematik ein und veröffentlichte eine Umfrage zur Peer-Review-Kommunikation. Die Auswertung der 108 Antworten ergab, dass sich etwa ein Viertel der Begutachteten unangemessenen Formulierungen ausgesetzt sah. Feedback und Kritik wären weder kollegial noch konstruktiv gewesen. Merton? War da nicht. 

"Manche Gutachten sind gerade einmal drei Zeilen lang", berichtet Isabella Peters aus eigener Erfahrung als Forscherin. "Das ist kein konstruktives Feedback, das bringt niemanden weiter. Wir brauchen gute Gutachten, um gute Wissenschaft veröffentlichen zu können". Nur woran misst sich Qualität von Gutachten? 

Die Frage ist weiter ungeklärt - und bedarf einer Antwort, mahnte schon der Wissenschaftsrat in seiner Analyse zum Begutachtungswesen. Ist sie gefunden, könnte das den Durchbruch von Open Peer Review befördern. Die Reviews würden so nicht nur auf Servern gelistet werden, sie könnten auch auf Publikationslisten der Gutachterinnen und Gutachter auftauchen und in Auswahlprozessen als wissenschaftliche Leistung bewertet werden. Hochwertige Gutachten zu verfassen, wäre dann auch nicht mehr nur eine Frage der Ehre und des Wissenschaftsethos. Es könnte auch Treibstoff für die Karriere sein. 

So weit ist die Wissenschaft allerdings noch nicht. Im Moment hat sie genug damit zu tun, auch nur eine allgemein verbindliche Tonlage in einem Diskurs zu finden, an dem sich eben auch fachfremde Stimmen beteiligen dürfen. "Die Sitten sind verroht", stellte der Biometriker Gerd Antes im Laborjournal fest. Die "ursprüngliche Absicht", Forschungsergebnisse "der solidarischen Kritik zu präsentieren", um diese dann mit Verbesserungen ins klassische Peer Review-Verfahren zu bringen, sei auf den Kopf gestellt worden. Stattdessen stünde jetzt eine "unbegrenzte Anzahl selbsternannter Experten bereit, um mit entsprechendem medialen Echo über diese Arbeiten zu diskutieren". 

Erschienen ist der Beitrag im Juli, also wenige Wochen nach der BILD-Affäre. Antes will seine Mahnung aber nicht als Plädoyer gegen Open Peer Review verstanden wissen. Im Gegenteil: Dem Wegbereiter der evidenzbasierten Medizin in Deutschland geht es darum, Schaden abzuwenden. "Offenheit und Transparenz sind wichtig", sagt Antes und: "Wir brauchen neue Leitlinien, die kollegiale Kritik in Peer Review-Verfahren unter heutigen Bedingungen möglich macht."  

... zum Weiterlesen

Jens Ambrasat und Christophe Heger: Barometer für die Wissenschaft. Ergebnisse der Wissenschaftsbefragung 2019/2020 (Download PDF), Deutsches Zentrum für Hochschul- und Wissenschaftsforschung

Andreas Knie und Dagmar Simon: Wissenschaft und Politik als Haftungsgemeinschaft. Lehren aus der Corona-Krise (Download PDF), in: WZB Mitteilungen Juni 2020

Auf dem Weg zum idealen Wissenschaftsdiskurs: Ein Gespräch mit Ulrich Dirnagl.

Peer Review und randomisiertes Verfahren in der Wissenschaftsförderung/bei der VolkswagenStiftung:

Acht Thesen für ein Loselement in der Forschungsförderung
Hohe Akzeptanz für Projektauswahl per Lotterie: Interview mit Dr. Dagmar Simon und Dr. Martina Röbbecke über das Begleitforschungsprojekt zum teilrandomisierten Verfahren in der Förderinitiative "Experiment!"

Spielecover

Spieltipp

Peer Review – Das Wissenschaftssimulationsspiel der Jungen Akademie entwickelte der Mainzer Wissenschaftsphilosoph Cornelis Menke im Jahr 2015. In spielerischer Weise lernen Studierende und Promovierende dabei das System kollegialer Kritik kennen. Etablierte Forschende zwingt das Spiel zur Selbstreflexion. Geeignet ist Peer Review aber auch für die Menschen, die nicht unmittelbar in der Wissenschaft beschäftigt sind, sich aber dafür interessieren, wie sie arbeitet. Weitere Informationen gibt es über die Website der Jungen Akademie