Graphdatenbanken in den Life Sciences

Vernetzte Daten in der Forschung nutzen

Klassische Analyse-Tools stoßen zuweilen an ihre Grenzen, wenn es darum geht, in der Biowissenschaft Verbindungen zwischen Genen und Krankheiten aufzudecken. Im Folgenden wird beschrieben, wie die Unternehmen Novartis und Miroculus Machine Learning, NLP und Graphdatenbanken nutzen, um die Arzneimittelentwicklung voranzutreiben oder schneller Ergebnisse in der Krebsforschung zu erzielen.

© Neo4j / Pixabay

Forschungseinrichtungen und Pharmaunternehmen verfügen über große Mengen von heterogenen und komplexen Daten, die es zu verknüpfen und auszuwerten gilt. Nicht nur die besonders große Menge der Daten, auch die vielen unterschiedlichen Formate, in denen sie vorliegen, stellen ein Problem dar. Oft befinden sich zudem ungenutzte Legacy-Daten über Jahre hinweg in Datensilos.

Um das ganze Potenzial des Datenschatzes auszuschöpfen, brauchen Forscher dynamische und skalierbare technische Unterstützung. So kann das stetig wachsende Wissen interdisziplinär genutzt werden. In den letzten Jahren haben Natural Language Processing (NLP) und Machine Learning (ML) die Welt der Wissenschaft und Forschung elementar verändert. Als Basis für solche innovativen Technologien braucht es ein geeignetes Datenmodell. Hier kommen Graphdatenbanken ins Spiel.

Die Graphdatenbank – von der Tabelle zum intuitiven Forschungsumfeld

Im Gegensatz zur relationalen Datenbank, die Daten wie in einer Tabelle in Zeilen und Spalten speichert, verbindet eine Graphdatenbank einzelne Daten (Knoten) über die Beziehungen zwischen ihnen (Kanten). Beiden lassen sich jeweils qualitative Eigenschaften (Properties) zuordnen.

Anzeige

Daten lassen sich im Graphen also in ihrer ganzen Komplexität und Fülle abbilden. Was entsteht, ist ein intuitives Umfeld, in dem Forscher neue Daten mühelos hinzufügen und Zusammenhänge anschaulich visualisieren können. Der sogenannte „Knowledge Graph“ wächst mit jeder neuen Abfrage und ist unbegrenzt skalierbar. So steht er als Wissenshub für Forscher im Zentrum ihrer Arbeit.

Navigieren im Informationsdreieck

Das Pharmaunternehmen Novartis macht sich genau diese Vorteile von Graphdatenbanken bei der Entwicklung neuer Arzneimittel zu Nutze. Es galt, eine Milliarde historischer Datenpunkte mit neuen Daten zu kombinieren, um so die Forschung im größeren Kontext der laufenden medizinischen Forschung auf der ganzen Welt zu betrachten. Das Forschungsteam definierte zunächst ein Datenmodell mit 15 Knoten-Kategorien und 90 möglichen Datenbeziehungen (Kanten).

Anhand dieses Bauplans wurden Legacy-Daten und Bilddaten integriert. Über Text Mining lassen sich zudem relevante Information aus „PubMed“ extrahieren und in das Graphmodell einfügen. Die Literaturdatenbank Pubmed enthält etwa 25 Millionen Abstracts aus rund 5.600 wissenschaftlichen Zeitschriften. Zu Beginn umfasste der Knowledge Graph von Novartis eine halbe Milliarde Beziehungen – eine Zahl, die sich jedoch schnell verdreifachte.

Im Informations-Dreieck aus Krankheiten, Genen und Wirkstoffen navigiert das Novartis-Team jetzt frei und identifiziert so bedeutend schneller Beziehungen. Eine eigens entwickelte Verarbeitungspipeline sorgt außerdem dafür, dass neueste medizinische Forschungsergebnisse kontinuierlich hinzugefügt werden. Die Darstellung des biologischen Gesamtwissens von Novartis im Graphen in einer ganzheitlichen Übersicht bietet Forschungsteams sozusagen die volle „Bewegungsfreiheit“.

Graph-Algorithmen – smarte Assistenten im Labor

Novartis verwendet Graph-Algorithmen, um den Graphen zu „durchlaufen“ und ein gewünschtes Dreiecks-Knotenmuster zu identifizieren, das die drei Datenklassen miteinander verbindet. So findet das Team nicht nur relevante Knoten, sondern erhält gleichzeitig Hinweise auf die Stärke der Verbindung zwischen den Knoten in jedem Dreieck. Entsprechend dieser Assoziationsstärke lassen sich Knoten neu anordnen.

Mit Textmining-Methoden lassen sich Daten extrahieren und in das Graphenmodell übertragen. © Neo4j

Diese Vorgehensweise könnte einen Innovationsschub in der Arzneimittel- und Therapieentwicklung bringen und letztendlich bewirken, dass Medikamente schneller auf den Weg gebracht werden. Aus Abermillionen von Wirkstoffkandidaten lassen sich so jene Moleküle auswählen, die gegen verschiedene Erkrankungen helfen könnten. Zudem können Data Scientists auch bislang unerkannte Wirkungszusammenhänge von Substanzen aufspüren.

Von Machine Learning und visualisierten Suchkriterien: Literaturrecherche mal anders

Auch beim Molekulardiagnostikunternehmen Miroculus hat man das Potenzial von Graphdatenbanken, ML und NLP erkannt – und nutzt diese Methoden für die Erforschung gastrointestinaler Tumore (Magenkrebs) anhand von Biomarkern in mRNAs. Das Team entwickelte eine digitale Mikrofluidik-Plattform, mit der sich Krankheiten anhand von mRNAs nachweisen lassen. Dafür assimilierten die Forscher zunächst Erkenntnisse aus umfangreicher medizinischer Forschung und erfassten sie in einem „Knowledge“-Graphen.

Anstatt manuell innerhalb von Artikeln nach bestimmten Schlagworten zu suchen, extrahierte das Team Informationen aus Pubmed schrittweise. Mit Hilfe des freien Frameworks Apache Hadoop wurden zunächst alle relevanten Artikel (rund eine Milliarde) mit spezifischen Schlüsselwörtern wie mRNA, Genen und bestimmten Krankheiten „gelesen“ und die Texte in Sätze und Daten zerlegt. Das Ergebnis: ein Datensatz aus insgesamt 200.000 Millionen Sätzen und 100.000 Millionen Concept Mentions. Als Concept Mention bezeichnet man in der Linguistik eine Erwähnung eines bestimmten Suchbegriffs innerhalb eines Texts. Dazu gehört beispielsweise der Name eines Gens oder eines bekannten Wirkstoffs im Abstract eines wissenschaftlichen Fachartikels.

Im nächsten Schritt wurde auf dieser Basis ein Machine-Learning (ML)-Modell entwickelt, um die Beziehungen zwischen den Textbausteinen zu erkennen und zu klassifizieren. Schließlich überführte das Team die neu erlangten Informationen sowie das ML-Modell in die Graphdatenbank Neo4j. Dank farbcodierter interaktiver Visualisierung suchen Forscher jetzt intuitiv im semantischen Kontext des Graphen und können mit einem Klick relevante Artikel und dazugehörige Studien einsehen. Die Suchkriterien bilden hierbei den Dreh- und Angelpunkt der Visualisierung, wobei die umliegenden Knoten bestimmte mRNAs miteinander verbinden.

Fazit

Das Potenzial von Technologien wie NLP, ML und Graphdatenbanken für das Wissensmanagement in der medizinischen Forschung ist noch lange nicht ausgeschöpft. Novartis stellt sein biologisches Gesamtwissen in einem Graphen dar und macht so schätzungsweise 1,5 Milliarden Beziehungen erkennbar und nutzbar. Das Beispiel von Miroculus zeigt eindrücklich, wie eine moderne Literaturrecherche aussehen kann und wie Forschende dank ganzheitlichem Blick auf wertvolle Daten einen Wissensvorsprung im Kampf gegen Krankheiten erlangen könnten.

In beiden Fällen bauen Wissenschaftler auf vorhandenes Know-how auf und nutzen gleichzeitig das externe Wissen der Forschenden-Community. So lässt sich der „Lese-Last“ in der modernen medizinischen Forschung ein effizientes digitales Tool entgegensetzen.

AUTOREN
Dirk Möller
Area Director of Sales CEMEA
Alicia Frame
Senior Data Scientist
Neo4j Germany GmbH, München
info@neo4j.com
www.neo4j.com

Anzeige

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Newsletter bestellen

Immer auf dem Laufenden mit dem LABO Newsletter

Aktuelle Unternehmensnachrichten, Produktnews und Innovationen kostenfrei in Ihrer Mailbox.

AGB und Datenschutz gelesen und bestätigt.
Zur Startseite