CoGran: Geokodierte Daten passend machen

Gerade die Kombination von Datensätzen ermöglicht oft spannende neue Einsichten. Wenn es sich bei den Datensätzen um geokodierte Informationen handelt, müssen sie dafür aber dieselbe Bezugsgröße haben. Das Tool CoGran ermöglicht, Geodaten umzurechnen, wenn sie noch nicht in der passenden Auflösung vorliegen.

Wählen die Reichen einer Stadt CDU und die Arbeiter- und Mittelschicht SPD? Um diese Frage zu beantworten, müssen zwei Datensätze kombiniert werden — einer, der die Wahlergebnisse beinhaltet und ein zweiter, der das mittlere Einkommen beschreibt. 

Wer oft mit Geodaten arbeitet, erahnt das Problem: In der Regel haben diese nicht immer dieselbe räumliche Bezugsgröße — Wahlergebnisse liegen nach Wahlbezirken vor, das Einkommen zum Beispiel für jeden Stadtteil. Um den oben genannten Vergleich herzustellen, müssen die Daten für die flächenmäßig größeren Stadtteile auf die flächenmäßig kleineren oder anders zugeschnittenen Wahlbezirke umgerechnet werden.

Und während es vergleichsweise einfach ist, mehrere kleinere Flächen zu einer größeren zusammenzufassen, sie also zu aggregieren, ist der umgekehrte Weg — die Disaggregation — komplexer. 

"Das ist ein Problem, mit dem sich Datenjournalisten schon lange herumärgern und für das wir bislang keine praktikable Lösung finden konnten", sagt Julius Tröger, Leiter des Daten- und Interaktivteams bei der Berliner Morgenpost.

Es gibt verschiedene Modelle, wie sich eine Disaggregation durchführen lässt. Für das Tool CoGran haben Tröger und der Geoinformatiker Jochen Schiewe von der HafenCity Universität Hamburg (HCU) fünf unterschiedlich komplexe Varianten ausgewählt.

"Der Standardfall", erläutert Schiewe, "ist eine Flächengewichtung. Sie haben eine Fläche mit einer bestimmten Einwohnerzahl gegeben und wollen sie auf kleinere Teilflächen disaggregieren. Bei einem Quadrat mit 100 Leuten, das Sie in vier Quadrate unterteilen, hätten Sie dann 25 Leute pro Teilquadrat. Das klappt, wenn die 100 Leute gleichmäßig verteilt sind. 

Aber wenn an einer Stelle ein Hochhaus steht, in dem viele Menschen wohnen, oder dort ein See ist, wo gar keine Menschen leben, dann geht das nicht auf. Deshalb macht es Sinn, zum Beispiel Landnutzungsdaten einzuführen. Dann maskiert man Flächen, wo Wald oder Wasser sind, und berechnet die Flächenanteile neu. Die Frage ist, ob man nur bewohnt und unbewohnt als Klassifikation einführt oder noch weitere mit einbezieht —  und darin unterscheiden sich letztendlich die Verfahren."

Das Wissenschaftlerteam um Schiewe hat für jede Variante die passenden Formeln herausgesucht und optimiert. Ein Programmierer der Berliner Morgenpost hat sie anschließend in Code übersetzt. 

Schiewe: "Die Methoden, die wir verwendet haben, waren schon in der wissenschaftlichen Literatur beschrieben. Aber nicht einheitlich oder eindeutig, wie man es erwarten würde. Spätestens bei der Implementierung haben wir festgestellt, das kann so gar nicht funktionieren, sodass wir bei einigen Veröffentlichungen fast den Verdacht hatten, dass diese Dinge noch nie implementiert und ausgetestet worden sind." 

Mit den eigenen Formeln hat das Team dann künstlich erzeugte Datensätze disaggregiert — auf Zielzonen, deren Endwerte sie schon kannten – und somit die Korrektheit der Programmierung überprüft. Mit mehreren "realen" Datensätzen aus Berlin und Hamburg wurden anschließend die Übertragbarkeit und Laufzeiten getestet. 

"Mit welcher Ungenauigkeit oder Unsicherheit das Ergebnis behaftet ist, wird nicht kommuniziert, weil es letztendlich nicht möglich ist, da wir ja nicht die richtige Lösung kennen", so Schiewe. "Man kann nie die perfekte Empfehlung geben. Das ist das Schwierige oder Herausfordernde an dieser Arbeit. Man kann aufgrund der Verteilung der Daten innerhalb des Datensatzes Empfehlungen geben, die nicht zwingend zum besten Ergebnis führen — aber doch mit einer gewissen Wahrscheinlichkeit zu einem besseren Ergebnis, als wenn man die Daten einfach willkürlich umverteilen würde."

Nutzergruppe muss Vorwissen mitbringen

Es gibt zwar verschiedene wissenschaftliche Arbeiten, die beschreiben, dass das Disaggregieren von Daten dringend erforderlich ist, doch gibt es noch keine öffentlich zugänglichen Tools, die die ganze Bandbreite von Methoden zur Verfügung stellen. Auch in den komplexen Geographischen Informations-Systemen (GIS) – wie dem kommerziellen ArcGIS oder dem frei verfügbaren QGIS – ist nur die einfache Variante der Flächengewichtung implementiert. Vor diesem Hintergrund ist CoGran ein Pilotprojekt.

Derzeit läuft CoGran über die Kommandozeile des eigenen Computers. "Eine grafische Nutzeroberfläche zu gestalten, wäre zu aufwendig geworden", erklärt Julius Tröger. "Uns ist bewusst, dass wir noch kein Tool gemacht haben, was wirklich für jedermann taugt, sondern für Datenjournalisten, die sich auch schon ein bisschen mit der Materie auskennen."

Ursprünglich war das Ziel, dass das Tool eine Empfehlung gibt, welche Disaggregation-Methode für einen bestimmten Datensatz die beste ist — in der derzeitigen Umsetzung muss der Nutzer anhand einer Anleitung selbst entscheiden, welche Methode für seine Zwecke die beste ist. 

Mit Nutzerfeedback das Tool weiter verbessern 

Wie viele Nutzer CoGran bereits verwenden, evaluieren Schiewe und Tröger bislang nicht. "Wir haben bereits positives Feedback bekommen und hoffen, dass wir einen Nutzerkreis aufbauen können, um das Tool gemeinsam weiter zu verbessern", sagt Tröger.

Schiewes Team arbeitet weiter daran, doch noch eine grafische Nutzeroberfläche zu entwickeln: "Wir haben inzwischen einen Prototypen einer menügesteuerten Oberfläche entwickelt, die wir auch in Kürze mit online stellen." Die grafische Oberfläche soll dann in Zukunft auch die sinnvollste Disaggregationsmethode für einen Datensatz empfehlen können.

Wie funktioniert CoGran nun? "Im Prinzip schauen wir uns die Anzahl der Flächen an, um daraus eine Art Disaggregationsgrad zu bestimmen. Wenn im Eingabe-Datensatz 100 Flächen sind und im Ausgabe-Datensatz 102, dann ist das nicht weiter dramatisch, weil die Notwendigkeit zur Disaggregation nur sehr gering ist. Wenn im Ausgabe-Datensatz statt der 102 aber 1000 Flächen vorhanden sind, dann wird man häufiger disaggregieren müssen", sagt Schiewe. "Dann berechnen wir eine Art Standardabweichung: Wie sehr variiert der dargestellte Wert — zum Beispiel die Arbeitslosenquote — in Bezug auf die Flächengröße? Wenn es da zum Beispiel eine sehr große Variation gibt, können wir gewisse Methoden ausschließen und empfehlen diese nicht anzuwenden.&qu

Neues Wissen gewinnen — und weiter ausbauen

 

Das Problem von Daten für eine bestimmte räumliche Bezugsgröße auf eine kleinere zu schließen besteht nicht nur für Flächen. "Wir arbeiten in einem Projekt mit dem Bundesministerium für Verkehr und Infrastruktur zusammen — hier geht es verstärkt um linienhafte Straßen- und Schienendaten. Basierend auf unserer bisherigen Arbeit wollen wir das Tool weiterentwickeln, sodass man es auch auf diesen Fall anwenden kann", so Schiewe.

Nach intensiver Zusammenarbeit am Projekt, haben sich weitere Kooperationen zwischen Berliner Morgenpost und HCU gebildet. "Ich finde, dass Journalisten — und vor allem Datenjournalisten — immer mehr mit Wissenschaftlern zusammenarbeiten müssen. Wir haben schon bei den unterschiedlichsten Fragestellungen die Hilfe von Wissenschaftlern in Anspruch genommen", so Tröger. "Das funktioniert auch eigentlich sehr gut, weil sich Wissenschaftler dann immer freuen, dass sich Datenjournalisten in ihrem Feld schon ein bisschen auskennen und zusammen fachsimpeln kann."

Schiewe glaubt, dass die Symbiose aus Wissenschaft und Datenjournalismus auch der Wissenschaft helfen kann: "Datenjournalismus ist aus Sicht der Kartografie spannend, weil wir damit eine sehr große Anzahl von Nutzern erreichen, was normalerweise bei unseren Veröffentlichungen nicht der Fall. Datenjournalisten produzieren sehr viele Karten mit  besonderen Anforderungen, etwa allgemeine Verständlichkeit und eine sehr kurze Betrachtungszeit. Da lässt sich für die Gestaltung von klassischen und modernen Kartendarstellungen einiges ableiten."

CoGran wurde bereits für ein Projekt bei der Berliner Morgenpost genutzt. Zur Berlin-Wahl im September 2016 konnten die Datenjournalisten gemeinsam mit den Wissenschaftlern der HCU soziodemographische Daten auf Wahlbezirksebene umrechnen und vergleichbar machen – und daraus neue Erkenntnisse gewinnen, etwa wie jene Berliner gewählt haben, die rund um Flüchtlingsheime wohnen oder wen die Besserverdiener wählen. "Für uns war das nur ein Meilenstein in einem größeren Projekt, das wir auf jeden Fall fortführen wollen", sagt Julius Tröger.

Gianna Grün

Projektinformationen CoGran

Hauptantragsteller:

Jochen Schiewe, HafenCity University Hamburg
Julius Tröger, Berliner Morgenpost

Projekt-Website CoGran: https://github.com/berlinermorgenpost/cogran

Publikationen

Wissenschaftliche Publikationen 

Tomio, B., Schiewe, J. & Tröger, J. (2016): Die Kombination von geographischen Daten verschiedener Bezugsräume mittels Flächeninterpolation – Methoden für Datenjournalisten und Datenjournalistinnen. Kartographische Nachrichten, 65 (3) 123-128. 

Schiewe, J. & Schlegel, I. (in preparation, submission in January 2018): Context-depending selection of appropriate methods for areal interpolation purposes. Cartography and Geographic Information Science (CaGIS). 

Wissenschaftliche Präsentationen 

Schiewe, J. (2016): Die Kombination von geographischen Daten verschiedener Bezugsräume mittels Flächeninterpolation – Methoden für Datenjournalisten und Datenjournalistinnen. 64. Deutscher Kartographentag 2016, Potsdam, 15.06.2016. 

Schlegel, I. (2017): Vom Groben ins Detail und zurück oder wie reorganisiere ich raumbezogene Statistiken? Tagung "News – Infographics – Analytics – Maps", Berlin, 19.01.2017. 

Weitere Präsentationen 

Schlegel, I. (2016): Oral presentation during regular meeting of data journalists in Hamburg, 13.10.2016.

Sonstige Materialien 

For general information purposes (e.g., for displaying at conferences or fairs) a project handout has been designed and printed