Daten intelligent und effizient nutzen
Forschende entwickeln KI-Lösungen für die medizinische Forschung
Daten sind Gold – das gilt auch für die biomedizinische Forschung. Die Datenqualität ist häufig sehr unterschiedlich und die Integration verschiedener Datensätze oft nicht möglich. An Lösungen mithilfe von künstlicher Intelligenz und maschinellem Lernen arbeiten am Computational Health Center des Forschungszentrums Helmholtz Munich in enger Vernetzung mit der Technischen Universität München (TUM) mehr als hundert Wissenschaftler und Wissenschaftlerinnen.
Matchmaker+
Anbieter zu den Themen im Artikel
Themen im Artikel
Mit dem Computational Health Center des Forschungszentrums entsteht unter der Leitung von Fabian Theis nach Angaben des Helmholtz Zentrum München eines der europaweit größten Forschungszentren für künstliche Intelligenz in der medizinischen Wissenschaft. Fabian Theis, Leiter des Computational Health Center bei Helmholtz Munich und Professor für Mathematische Modellierung biologischer Systeme: „Wir haben vier intensive Wochen hinter uns, in denen unsere wissenschaftlichen Projekte und Methoden gleichzeitig erfolgreich publiziert wurden. In meiner Gruppe konzentrieren wir uns auf die Einzelzellgenomik. Mit dieser Methode wollen wir den Ursprung von Krankheiten auf mechanistische Weise verstehen. Dafür nutzen und entwickeln wir Ansätze des maschinellen Lernens, um komplexe Daten besser darzustellen. Mit unseren drei neuesten Studien haben wir uns mit der Integration von Einzelzelldaten, dem Lernen von Trajektorien und der räumlichen Auflösung beschäftigt.“ Ziel sei es, die Einzelzellforschung und damit das Verständnis von Krankheiten auf die nächste Stufe zu bringen. Im Folgenden sind die Lösungen, die in drei Artikeln der Ausgabe 19 (2022) des Fachjournals Nature Methods beschrieben werden, vorgestellt.
Datenintegration
In wissenschaftlichen Studien arbeiten Forschende oft an einzelnen Datensätzen. Um zu prüfen, ob sie ihre Ergebnisse aus einer Studie verallgemeinern können, müssen sie ihre Daten mit anderen Datensätzen aus demselben System vergleichen. In der medizinischen Forschung handelt es sich dabei oft um Daten einzelner Zellen. Da Einzelzelldaten nicht immer zur gleichen Zeit, am gleichen Ort oder von der gleichen Person erzeugt wurden, unterscheiden sich auch die gleichen Zelltypen in ihrem molekularen Profil. Dieses Problem bezeichnet man als Batch-Effekt und es erschwert die Kombination von Datensätzen immens. Bisher brachte die Forschung mehr als 50 unterschiedliche Lösungsvorschläge hervor, doch welcher ist der beste? Malte Lücken und seine Kollegen und Kolleginnen haben 86 Datensätze sorgfältig aufbereitet und 16 der gängigsten Lösungen für die Datenintegration anhand von 13 Aufgaben miteinander verglichen. Nach mehr als 55 000 Stunden Rechenzeit und einer detaillierten Auswertung von 590 Ergebnissen haben sie einen Leitfaden erstellt, wie sich das Dilemma mit der Datenintegration am besten lösen lässt. Dies macht eine bessere Beobachtung von Krankheitsprozessen über unterschiedliche Datensätze hinweg möglich.
Schicksal von Zellen mit Open-Source-Software vorhersagen
In der medizinischen Forschung dreht sich vieles um die Fragen: Wie entwickeln sich Zellen? Wie funktioniert Zellregeneration? Um diese zu beantworten, interessieren sich Forschende für die Genexpression von Zellen, die über eine Methode namens Einzelzell-RNA-Sequenzierung ermittelt wird. Das Verfahren zerstört jedoch die Zelle und liefert nur eine kurze Momentaufnahme der Genexpression. Deshalb haben Wissenschaftler und Wissenschaftlerinnen bereits viele Algorithmen entwickelt, um von der Momentaufnahme künstlich auf einen kontinuierlichen Entwicklungsprozess rückschließen zu können. Die Algorithmen stehen jedoch alle vor derselben Herausforderung: Sie können keine verlässlichen Vorhersagen für das Schicksal der Zelle treffen. Marius Lange und Team arbeiten dafür an einem neuen Algorithmus. „CellRank“ beschreibt die Entwicklung einer Zelle, indem es die Momentaufnahme der Genexpression mit „RNA Velocity“ kombiniert, einem Konzept zur Abschätzung der Genregulation. Sowohl in vitro als auch in vivo konnte „CellRank“ das Schicksal von Zellen korrekt vorhersagen und bekannte Gene wiedererkennen. In einem Beispiel zur Lungenregeneration sagte „CellRank“ neuartige Zellzwischenzustände voraus, deren Existenz experimentell bestätigt wurde. CellRank ist eine Open-Source-Software, die in Laboren weltweit bereits zum Einsatz kommt, um komplexe Zelldynamiken im Kontext von Reprogrammierung, Regeneration oder Krebs zu untersuchen.
Räumliche Omics-Analysen visualisieren
In den letzten Jahren wurden immer mehr Technologien entwickelt, um Veränderungen in der Genexpression von Geweben zu messen. Der Vorteil solcher Technologien besteht darin, dass Forschende die Zellen in ihrem Kontext beobachten können. So können sie besser verstehen, wie das Gewebe aufgebaut ist und wie die Zellen miteinander kommunizieren. Um die wachsende Vielfalt solcher Daten speichern, integrieren und visualisieren zu können, braucht es flexible computergestützte Systeme. Zu diesem Zweck haben Giovanni Palla, Hannah Spitzer mit Kollegen und Kolleginnen eine neue Software, Squidpy genannt, entwickelt. Squidpy ermöglicht die Verarbeitung räumlicher Genexpressionsdaten. Es vereint Werkzeuge für die Genexpressions- und die Bildanalyse, um räumliche Omics-Daten effizient zu bearbeiten und interaktiv zu visualisieren. Squidpy ist erweiterbar und kann mit einer Vielzahl von Tools für maschinelles Lernen aus dem Python-Ökosystem verbunden werden. Wissenschaftler und Wissenschaftlerinnen weltweit nutzen die Lösung bereits, um räumliche molekulare Daten zu analysieren.
Zu den genannten Personen:
Fabian Theis leitet das Computational Health Center bei Helmholtz Munich und ist Koordinator der Helmholtz Artificial Intelligence Cooperation Unit (Helmholtz AI). Darüber hinaus ist er Inhaber des Lehrstuhls für Mathematische Modellierung biologischer Systeme an der TUM. Giovanni Palla und Marius Lange arbeiten als Doktoranden bei Helmholtz Munich und an der TUM. Malte Lücken und Hannah Spitzer sind beide als Postdocs bei Helmholtz Munich.
Publikationen: Lücken et al. 2021: Benchmarking atlas-level data integration in single-cell genomics. Nature Methods, DOI: 10.1038/s41592-021-01336-8. https://www.nature.com/articles/s41592-021-01336-8
Lange et al. 2022: CellRank for directed single-cell fate mapping. Nature Methods, DOI:10.1038/s41592-021-01346-6. https://www.nature.com/articles/s41592-021-01346-6
Palla, Spitzer et al. 2022: Squidpy: a scalable framework for spatial omics analysis. Nature Methods, DOI:10.1038/s41592-021-01358-2. https://www.nature.com/articles/s41592-021-01358-2
Quelle: Helmholtz Zentrum München