Um Wissenschaftlern einen besseren Zugriff auf Forschungsdaten zu bieten, baut das Deutsche Zentrum Für Diabetesforschung e.V. (DZD) ein standortübergreifendes Daten- und Knowledge Management auf. Auf Basis der Graphdatenbank Neo4j werden Metadaten aus Grundlagenforschung mit klinischen Studien verknüpft, um neue Muster und Zusammenhänge zu erkennen.
Laut des „Deutschen Gesundheitsberichtes Diabetes 2018“ sind in Deutschland aktuell 6,7 Millionen Menschen an Diabetes mellitus erkrankt – darunter etwa zwei Millionen, die noch nicht diagnostiziert sind. Schlecht oder gar unbehandelt hat Diabetes dramatische Folgen: Die Komplikationsrate für Herzinfarkt, Herzinsuffizienz und Schlaganfall ist ca. zwei- bis dreifach erhöht. Pro Jahr werden als Folge des Diabetes etwa 40.000 Beine, Füße oder Zehen amputiert, rund 2.000 Menschen erblinden.
Um zur Aufklärung der Ursachen und Entwicklung der Krankheit, als auch zur Diabetesprävention beizutragen, untersucht das Deutsche Zentrum für Diabetesforschung die Krankheit aus unterschiedlichen Blickwinkeln. Das DZD fungiert dabei als Forschungsverbund, zu welchem Unikliniken, Forschungsgruppen an Universitäten und wissenschaftlichen Instituten wie Leibnitz- oder Max-Planck-Institute zählen. Dank moderner biomedizinscher Technologien können so Experten aus unterschiedlichen Disziplinen standortübergreifend gemeinsam an wirksamen Präventions- und Therapiemaßnahmen für Diabetes forschen.
Big Data insbesondere in der medizinischen Forschung
Wie viele Institute verfügt das DZD über eine riesige Anzahl an Daten aus der Grundlagenforschung, verschiedenen klinischen Studien, Berichten, Umfragen, Proben und Forschungsprojekten, die deutschlandweit über die verschiedenen Standorte des Forschungsverbundes verteilt sind. Dazu kommen publizierte Daten und Fachliteratur von Forschungsgruppen aus der ganzen Welt. Ein Beispiel dafür sind Langzeitstudien von Diabetes-Patienten, die teilweise seit über 10 Jahren beobachtet werden.
Um den Wissenschaftlern standort-, disziplin-, spezies- und datentypübergreifend Zugriff auf Informationen zu gewähren, entwickelte das DZD ein übergeordnetes Daten- und Knowledge Management. Darin werden alle Daten zusammengeführt und vernetzt, um Muster und Zusammenhänge zu ermitteln und letztendlich neue Kenntnisse über die Krankheit zu gewinnen. Zusätzlich werden Informationen aus verwandten Disziplinen ergänzt. So verknüpfen die Wissenschaftler des DZD beispielsweise molekulare Humandaten aus der Grundlagenforschung mit Tiermodelldaten, um neue Rückschlüsse zu generieren.
Verknüpfung relationaler Datenbanken
Eine übergeordnete Datenbank soll den 400 beteiligten DZD-Wissenschaftlern eine holistische Ansicht der Daten ermöglichen. Auf der Suche nach einer geeigneten technischen Lösung entschied sich der Forschungsverbund aufgrund der hohen Flexibilität für die Graphdatenbank Neo4j. Mit Neo4j können die von Wissenschaftlern generierten Metadaten im Datenmodell in Echtzeit abgefragt, gemanagt und mit anderen Informationen in Kontext gebracht werden. Für einen zentralen Zugriff auf alle Informationen im DZD war zunächst eine einheitliche Datengrundlage nötig. Die Metadaten mussten standardisiert, normalisiert und in ein Graphmodell integriert werden. Nur auf dieser Basis lassen sich Messergebnisse vergleichen und Lücken oder Redundanzen beseitigen.
Mit Hilfe von Neo4j entwickelten die DZD-Bioinformatiker das „DZDconnect“. Die Graphdatenbank Neo4j liegt als Zwischenschicht über den relationalen Datenbanken und verknüpft bestehende Systeme und Datensilos im DZD. Wissenschaftler konnten so schnell auf erste Metadaten der klinischen Studien zugreifen und waren dabei besonders von der Visualisierung durch Neo4j Bloom und der einfachen Suche der Lösung überzeugt. Dank der hohen Skalierbarkeit und Performance von Neo4j sind der Datenintegration so gut wie keine Grenzen gesetzt.
Gemeinsames Forschen in einem Informationskontext
Zukünftig sollen auch Messdaten der Wissenschaftler automatisch ins DZDconnect übermittelt werden. Wie das in der Praxis funktioniert, wird am Beispiel von Blutproben, die für verschiedene Analysezwecke genutzt werden, veranschaulicht: Misst Forschungsgruppe X auf Blutprobe 0001 den Glukoselevel A, wird dieser Wert in der Datenbank gemeinsam mit Angaben zum Lagerort und Zeitpunkt der Messung hinterlegt. Andere Wissenschaftler können auf diese Messwerte für ihre eigene Forschung zurückgreifen und dieselbe Blutprobe zur Messung weiterer Parameter heranziehen. So wird vermieden, dass bereits durchgeführte Messungen wiederholt werden und wertvolles Probematerial verschwendet wird.
Ausblick
Eine wesentliche Rolle sollen künftig auch Machine Learning (ML) und Natural Language Processing (NLP) spielen. Das DZD verfügt über eine große Anzahl an Fachliteratur unter anderem zu Diabetes und Stoffwechselkrankheiten. Mit der Anreicherung der DZD Forschungsdaten durch die Fachliteratur könnten mit Hilfe von NLP Hypothesen generiert werden, die von den Wissenschaftlern evaluiert werden. Durch Machine Learning könnten auch prädiktive Modelle entstehen, die den Verlauf der Diabeteserkrankung mit einer anzunehmenden Wahrscheinlichkeit prognostizieren.
Das DZD zeigt mit seiner Anwendung, dass Graphtechnologie es ermöglicht, medizinische Fragen aus unterschiedlichen Blickwinkeln und indikationsübergreifend zu betrachten. Durch die Vernetzung der Daten könnten zukünftig auch Zusammenhänge zwischen verschiedenen Volkskrankheiten erkennbar sein.