zurück zur Themenseite

Automatisiertes maschinelles Lernen für die Zellkulturanalyse

Intuitive Auswertung von Mikroskopiebildern

Der Einsatz von Mikroskopen in Laboren zur Analyse von beispielsweise Zellkulturen und Gewebeschnitten ist gängige Praxis. Biologische Experten werten dabei Bilder aus, um Rückschlüsse auf die zu untersuchende Probe zu erhalten. Vielfach erfolgt diese Arbeit manuell und ist in starkem Maße abhängig von der Erfahrung und dem Wissen der Mikroskopierenden. Teilweise kann dabei bereits auf Software zurückgegriffen werden, die die Analyse vereinfacht. Dies können Bildverarbeitungsprogramme sein, die für eine bestimmte Aufgabe, beispielsweise eine Zellzählung, programmiert wurden und diese unter bestimmten Aufnahmebedingungen lösen können.

Die Algorithmen werden anwendungsfallspezifisch und automatisch ausgewählt und konfiguriert; der Anwender erhält dann das trainierte AIxCell-Modell. Damit kann er dann Mikroskopiebilder biologischer Proben mit Hilfe von maschinellem Lernen zu analysieren: Dabei lädt der biologische Experte Bilder in eine Weboberfläche (1) und annotiert bzw. bewertet diese initial. Alle nachfolgenden Schritte erfolgen voll automatisch. AIxCell wählt anhand der zur Verfügung stehenden Information die beste Pipeline aus (2). Eine allgemeine DL-Bibliothek (DL=Deep Learning) führt diese Pipeline aus (3) und stellt dem Nutzer die Ergebnisse im User-Interface zur Verfügung. © Fraunhofer IPT

Mit gezieltem Einsatz von maschinellen Lernalgorithmen können eine Vielzahl von zeitaufwendigen Auswertungen automatisiert und objektiviert werden. Die am Fraunhofer IPT in Aachen entwickelte Software zur Automatisierung der Deep-Learning-basierten Zellkulturanalyse, kurz AIxCell, können auch Anwender aus Biologie und Medizin nutzen, die keine Kenntnisse zum maschinellen Lernen besitzen. Ausgangspunkt des überwachten maschinellen Lernens ist die Erzeugung der Trainingsinhalte anhand der vom Biologen genau beschriebenen Beispiele – man spricht hier von Annotation. Mit diesen wird dann ein künstliches neuronales Netz trainiert. Das neuronale Netz lernt, Muster in diesen Trainingsdaten zu erkennen mit dem Ziel, diese Muster auch in neuen und nicht-annotierten Bildern wiederzufinden. Anhand dieser Muster, den extrahierten Bildeigenschaften, können dann wichtige Kenngrößen der zu untersuchenden Zellkulturen abgeleitet werden.

Anzeige

Dabei sind drei Punkte entscheidend: Erstens sollte das neuronale Netz in der Lage sein, den Erkenn-Prozess mit einer hohen Genauigkeit in einer für die Analyse akzeptablen Zeit durchzuführen. Zweitens sollten die Eingabedaten möglichst alle zu erkennenden Klassen in verschiedensten Formenabbilden und auch unterschiedliche Aufnahmebedingungen und variierende Bildqualität berücksichtigen, um in der Nutzung robust gegenüber solchen variierenden Bildeigenschaften zu sein. Der dritte Punkt ist die Auswertung. Die Ausgabe des trainierten neuronalen Netzes sollte so weiterverarbeitet werden, dass eine spezifische Kennzahl, z. B. die durch eine bestimmte Zellart besiedelte Fläche, bestimmt werden kann.

Das Training

Insbesondere beim Erstellen geeigneter Trainingsdaten sind viele externe Parameter zu berücksichtigen. Dies können mikroskopspezifische Parameter wie Helligkeitsabweichungen, Unschärfen oder unterschiedliche Auflösungen sein. Aber auch probenspezifische Parameter wie z. B. verschiedene Zellarten, Verunreinigungen und Aggregationen spielen eine Rolle. Um „die Wirklichkeit“ abzubilden, wird eine sehr große Anzahl verschiedener Bilder benötigt. Um die initiale Arbeit durch den biologischen Experten zu verringern, kann der Datensatz an dieser Stelle durch gezielte künstliche Erweiterung (Augmentation) vergrößert werden. Beispiele hierfür sind Rotationen, Stauchungen oder das Verwischen von Bildern, um Unschärfen und Verzerrungen zu simulieren.

Bild 2: Dargestellt ist eine Zellkultur mit induziert pluripotenten Stammzellen (IPSC). Neben der besiedelten Fläche sind einzelne Kolonien für die Anlagensteuerung der StemCellFactory interessant. Dazu werden mehrere Zellklassen durch die generierte DL-Pipeline bestimmt und deren prozentuale Flächenanteile berechnet. Gleichzeitig werden die Kolonien nummeriert und morphologisch durch Größe, Umfang und Rundheit charakterisiert. Dies ermöglicht eine Weiterverarbeitung auch auf Kolonieebene, beispielsweise zum Picken. © Fraunhofer IPT

Eine maschinelle Lern-Software muss all diese Schritte berücksichtigen. Die Reihenfolge ist dabei festgelegt und enthält eine Sequenz von aufeinander aufbauenden Verarbeitungsschritten, auch Daten-Pipeline genannt. Sie beginnt mit der Aufnahme eines Trainingsdatensatzes und der Annotation der Daten. Ein Teil (ca. 10 – 20 %) der Daten wird nicht im Training verwendet und später nur zur Evaluierung des Trainingsergebnisses verwendet. Es folgt die Augmentation und die Datenvorverarbeitung, das heißt die technische Vorbereitung der Daten, um diese dem Lernalgorithmus zuführen zu können, sowie anschließend das iterative, episodenweise Trainieren eines künstlichen neuronalen Netzwerks. In der Nutzung werden die Bilder dann durch das trainierte neuronale Netzwerk verarbeitet und spezifische Kennzahlen im Postprocessing extrahiert.

In Abhängigkeit des Anwendungsfalls unterscheiden sich die Pipelines in den speziellen Verarbeitungsschritten, z. B. in der Art der Augmentation durch künstliche Generation von Bilddaten, des Aufbaus der Netzarchitektur oder der Wahl der Auswertung (z. B. nach Zellzahl oder besiedelter Fläche).

Biologische Expertise für das Training nutzen

Der Data Scientist als Spezialist für maschinelles Lernen hat die Aufgabe, die einzelnen Elemente der Pipeline so zu konfigurieren, zu trainieren und auszuwerten, dass ein optimales Analyseergebnis erzielt wird. Dies erfordert sowohl ein hohes Maß an Verständnis für jeden einzelnen Teilschritt als auch Erfahrung im maschinellen Lernen und bei der Auswahl der entsprechenden Parameter. Ein Großteil der kommerziell verfügbaren Software hat diese Aufgabe für bestimmte Pipeline-Konfigurationen abstrahiert. So wird oft nur eine geringe Anzahl an Konfigurationen eines einzigen Netzwerks zum Training oder für das Erkennen angeboten. Im Forschungsprojekt AIxCell  [1] entwickelte man ein Tool mit folgendem Ziel: Zu jedem Problem soll die ideale Pipeline gefunden werden, ohne dass ein Eingreifen des Data Scientists nötig ist. Im gleichnamigen Cell Culture Analysis Tool „AIxCell“ konfiguriert der biologische Experte dazu ein Projekt in einer webbasierten grafischen Oberfläche und lädt initial Bilder seiner Zellen hoch. Im nächsten Schritt erfolgt die Annotation der Bilddaten als Vorbereitung für das maschinelle Lernen. Dabei wählt der Biologe grafisch zusammenhängende Zellbereiche oder Zellarten aus und markiert diese. Für eine semantische Segmentierung sind meistens nur eine geringe Anzahl zwischen 10 und 100 Bildern notwendig. Die Anzahl variiert dabei mit der Auflösung und dem Informationsgehalt der Bilder. Damit wird insbesondere die Expertise des Biologen, Zellen zu analysieren und zu unterscheiden, genutzt. Ist diese initiale Annotation erfolgt, übernimmt das Tool „AIxCell“ alle weiteren Arbeiten (s. Bild 1).

Vorgehensweise

Zunächst werden die Bilder analysiert und Metadaten sowohl zum Inhalt der Bilder als auch über Aufnahmeverfahren, Größen etc. vollautomatisch generiert und mit einer bestehenden Wissensdatenbank verglichen. Es entstehen mehr als 800  verschiedene Metainformationen. Diese sind Eingabeparameter für das Meta-Learning-System „AutoKonfig“. „AutoKonfig“ nutzt diese Metadaten und die Lernparameter aus bereits erstellten Projekten, um die Pipelines vorherzusagen, die das optimale Analyseergebnis für den neuen Anwendungsfall versprechen. In Abhängigkeit der durch das System Autokonfig vorhergesagten Genauigkeiten werden die Pipelines im Learning-to-Rank-Verfahren in einer Rangfolge geordnet und eine bestimmte Anzahl an performantesten Pipelines ausgewählt. Um die vorhergesagten Genauigkeiten durch Approximation der tatsächlichen Genauigkeiten zu validieren, werden die Pipelines parallel trainiert und zu bestimmten Zeitpunkten evaluiert. In Abhängigkeit der Evaluation werden nach jedem Zeitpunkt die Hälfte der Pipelines aus dem Training entfernt, um die Rechenleistung den performanteren Pipelines zur Verfügung zu stellen. Letztendlich bleibt eine optimale Pipeline übrig. Alle Trainingsergebnisse werden wieder in die Wissensdatenbank zurück gespeichert und stehen für zukünftige Aufgaben als Metainformationen zur Verfügung. Die „optimale“, austrainierte Pipeline steht dann dem biologischen Experten zur automatisierten Analyse seiner Zellkulturbilder zur Verfügung.

Anwendungen

Zwei Anwendungsfälle zur Nutzung von „AIxCell“ sind die automatisierten Analysen von sowohl mesenchymalen Stammzellen (MSC) als auch induziert pluripotenten Stammzellen (iPSC) der am Fraunhofer IPT entwickelten StemCellFactory [2, 3] und der StemCellDiscovery [4]. Die StemCellFactory und StemCellDiscovery sind vollautomatisierte Labore, in denen Zellkulturen in Multititerplatten parallelisiert expandiert werden. Einer der wichtigsten Parameter zur Anlagenregelung ist die Messung der Konfluenz, d. h. der Anteil der mit Zellen besiedelten Fläche an der Gesamtfläche. Des Weiteren sind bei iPSC-Zellen Lage, Größe und Rundheit der Kolonien und bei MSC-Zellen die Zellzahl wichtige Parameter. In beiden Anlagen werden dazu vollflächige Mikroskopaufnahmen im Phasenkontrast über ein High-Speed-Mikroskop [5] aufgenommen. Die dabei entstehenden hochaufgelösten Aufnahmen müssen in kurzer Zeit analysiert werden. Dabei ist nicht nur die Bestimmung der Gesamtkonfluenz, sondern auch die nach Zellarten aufgelöste Konfluenz entscheidend.

Tabellen: Erkenn-Genauigkeit für induzierte pluripotente Stammzellen (iPSC; oben) und mesenchymale Stammzellen (MSC; unten) über alle Klassen hinweg und für die Klasse iPSC-Kolonie bzw. MSC separat. Der IoU-Score (Intersection over Union) beschreibt die pixelgenaue Übereinstimmung von initialer Annotation und Vorhersage des Netzwerks.

Nach der initialen Annotation erhält der Nutzer das optimale neuronale Netz zum Einsatz in der Anlage. Bei iPSC-Kulturen (s. Bild 2) werden nicht nur globale Werte für die Konfluenz, sondern auch Daten zu den einzelnen Kolonien, z. B. Größe, Rundheit und Lage erzeugt. Das auf „PSPNet“ basierende Netzwerk erreicht einer Genauigkeit von 0,955 und einen F1-Score von 0,866 über alle Klassen (IPS-Zellen, Hintergrund, differenzierte Zellen, frühe iPS-Zellen, Suspensionszellen) verteilt. Für die wichtigste Klasse iPSC liegt die Genauigkeit bei 0,939 und der F1-Score bei 0,891 (Tabelle, oben). Für das Training wurden 40 Bilder (1 424 x 1 424 px) im Trainingsdatensatz mit dem Faktor zwei augmentiert und ergaben 4 896 Patches der Größe 384 x 384 px. Für den Testdatensatz wurden 13 Bilder vorgehalten. Das Netzwerk wurde über 20 Epochen trainiert.

Bei MSC-Kulturen (s. Bild 3) dagegen geht es mehr um die Bestimmung globaler Parameter wie Zellzahl und Konfluenz. Das trainierte U-Net (künstliches neuronales Netz) erreicht eine Genauigkeit von 0,949 über alle Klassen (MS-Zellen, Hintergrund, Suspensionszellen) hinweg und 0,923 für die Klasse MS-Zellen (Tabelle, unten). Dazu wurden 20 Bilder der Größe 8000 x 8000 px in Patches der Größe 384 x 384 px geteilt und zweifach mit Helligkeitsvariation und Unschärfevariation sowie Rotation augmentiert. So entstanden 11502 Trainingspatches und 2430 Testpatches. Das Netzwerk wurde über 20 Epochen trainiert.

Bild 3: Gezeigt sind mesenchymale Stammzellen (MSC) mittlerer Dichte. Bei der Anlagensteuerung der StemCellDiscovery ist die besiedelte Fläche entscheidend. Die Zellen werden durch die generierte DL-Pipeline erkannt, markiert und anschließend wird die Gesamtfläche nach Zellart berechnet. Zusätzlich werden Zellzahlen ermittelt. © Fraunhofer IPT

Die Auswertung der Bilder kann dann dem automatisierten Labor zur Bewertung der weiteren Schritte zur Verfügung gestellt oder direkt mit einer Teststatistik, z.B. T-Test oder Anova, verknüpft werden.

Zusammenfassung

Dieses im Forschungsprojekt AIxCell speziell entwickelte Vorgehen ermöglicht ein besonders gutes Erkennen auch ohne aufwendige Konfiguration von Algorithmen durch einen Data Scientist. Bei den Analysen fließt die Expertise des biologischen Experten in die genaue Annotation ein, im täglichen Einsatz des trainierten Netzwerks wird so auch ein Bedienereinfluss vermieden. Dies spielt gerade für hohe Genauigkeit der mikroskopischen Ergebnisse eine große Rolle. Auch wechselnde Aufgaben können effizient und systematisch automatisiert und somit objektiviert werden. Die beiden hier gezeigten Anwendungsfälle zeigen auch, dass eine Integration in voll automatisierte Laborsysteme oder Mikroskope möglich ist.

Förderung
Das IGF-Vorhaben 21361 N der Forschungsvereinigung Feinmechanik, Optik und Medizintechnik e. V. (F.O.M.) wurde im Rahmen des von der AiF durchgeführten Programms zur Förderung der Industriellen Gemeinschaftsforschung (IGF) vom Bundesministerium für Wirtschaft und Klimaschutz aufgrund eines Beschlusses des Deutschen Bundestages gefördert.

Quellen/Literatur
[1] AIxCell - Medizin- und Pflegetechnik, Künstl. Intelligenz, Deep Learning, Sonstige Metathemen - Laufende Projekte | Forschung F.O.M. [online]. Available: https://www.forschung-fom.de/forschung/projekte-und-vorhaben/d/s/AIxCell (accessed:May 9 2022).

[2] A. Elanzew et al., “The StemCellFactory: A Modular System Integration for Automated Generation and Expansion of Human Induced Pluripotent Stem Cells”. Frontiers in bioengineering and biotechnology, vol. 8, p. 580352, 2020, doi:10.3389/fbioe.2020.580352.

[3] T. Piotrowski et al., “Deep-learning-based multi-class segmentation for automated, non-invasive routine assessment of human pluripotent stem cell culture status”. Computers in Biology and Medicine, vol. 129, p. 104172, 2021, doi:10.1016/ j.compbiomed.2020.104172.

[4] J. Ochs et al., “Fully Automated Cultivation of Adipose-Derived Stem Cells in the StemCellDiscovery - A Robotic Laboratory for Small-Scale, High-Throughput Cell Production Including Deep Learning-Based Confluence Estimation”. Processes, vol. 9, no. 4, p. 575, 2021, doi:10.3390/pr9040575.

[5] F. W. Schenk, N. Brill, U. Marx, D. Hardt, N. König, and R. Schmitt, “High-speed microscopy of continuously moving cell culture vessels”. Sci Rep, vol. 6, no. 1, p. 34038, 2016, doi:10.1038/srep34038.

AUTOREN
Tobias Piotrowski M. Sc., Lars Leyen- decker M. Sc., Bastian Nießing M. Sc., Dipl.-Phys. Niels König
Fraunhofer-Institut für Produktionstechnologie IPT, Aachen
Tel. 0241/8904-0
info@ipt.fraunhofer.de
www.ipt.fraunhofer.de

Prof. Dr.-Ing. Robert H. Schmitt
Fraunhofer IPT und WZL der RWTH Aachen
Werkzeugmaschinenlabor WZL der RWTH Aachen
www.wzl.rwth-aachen.de

Anzeige
276.4 KB
TabellenErkenn-Genauigkeit für induzierte pluripotente Stammzellen (iPSC; oben) und mesenchymale Stammzellen (MSC; unten) über alle Klassen hinweg und für die Klasse iPSC-Kolonie bzw. MSC separat. Der IoU-Score (Intersection over Union) beschreibt die pixelgenaue Übereinstimmung von initialer Annotation und Vorhersage des Netzwerks.
zurück zur Themenseite

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige