Datenmanagement

Barbara Schick,

Data Lakehouse – für eine bessere Nutzung von Labordaten

Labore, egal ob teildigitalisiert oder komplett vernetzt und hochautomatisiert, erzeugen laufend riesige Datenmengen aus verschiedenen Quellen und mit unterschiedlichen Komplexitätsgraden. Inkubatoren und Kühlschränke zum Beispiel liefern kontinuierlich vergleichsweise einfache Temperatur-Logs (sogenannte "Sensor-Streams"). Dem gegenüber stehen komplexe Spektroskopiedaten, dreidimensionale und ultrahochauflösende Mikroskopiedaten oder zahlreiche Petabyte-große Datensätze (1 Petabyte entspricht 1 024 Terabyte) aus "Next-Generation Sequencing" (NGS).
© Murrstock/stock.adobe.com

Datenmenge und -vielfalt sprengen herkömmliche Speicherformen

Längst geht es heute bei der Menge und Vielfalt an Daten nicht mehr nur darum, sie auf Verdacht für zukünftige Analyseverfahren aufzuheben. Moderne Labore analysieren die Datenströme fast in Echtzeit und überwachen, steuern und optimieren so sich selbst und laufende Experimente. Die Software hinter solchen autonomen KI-gesteuerten Entscheidungen basiert auf maschinellem Lernen und mathematischen Verfahren wie beispielweise der Bayes’schen Optimierung. Dafür benötigt sie einen möglichst kontinuierlichen, heterogenen und gut strukturierten Datenstrom, der aus aktuellen Maschinen-, Verarbeitungs- und Forschungsdaten besteht. Diese werden durch Laborgeräte jedoch meist in unterschiedlichen (sowohl standardisierten als auch nicht standardisierten) Formaten generiert. Moderne Labore benötigen deshalb eine Infrastruktur, die aus der riesigen Menge sehr großer Rohdaten automatisiert die passende Datensätze generiert, FAIR*-konform abspeichert, die gesetzlichen Aufbewahrungspflichten berücksichtigt sowie lückenlose Rückverfolgbarkeit gewährleistet und hochperformante Datenanalysen unterstützt. Hier können herkömmliche Silo-Speicherlösungen wie Netzlaufwerke, Ordnerstrukturen, Labor-Informations- und Management-Systeme (LIMS) sowie elektronische Laborbücher (ELN) an ihre Grenzen stoßen. "Data Lakes" und "Data Lakehouses" stellen moderne Lösungen dar.

Anzeige

Was sind Data Lakes und Data Lakehouses?

Ein "Data Lake" (Datensee) lässt sich metaphorisch mit einer großen Kiste in einem Kinderzimmer beschreiben, in das unterschiedliche Spielsachen einfach hineingelegt wurden. Was zunächst nach nutzlosem Chaos klingt, birgt zwei große Vorteile: Einerseits sind alle verfügbaren Spielsachen an einem zentralen Ort. Zum anderen lassen sich die unterschiedlichen Elemente in der Kiste voneinander unterscheiden und auf Wunsch zum Beispiel nach Größe oder Kaufpreis sortieren. Das liegt daran, dass jedes Element über Metadaten (Zusatzinformationen) verfügt.

Fehlen diese Metadaten, wird diese Kiste schnell zum "Data Swamp" (Datensumpf), die neben brauchbaren Dingen auch allerlei Müll enthält. Doch auch mit Metadaten können in einem "Data Lake" kaputte Spielsachen oder sachfremde Dinge liegen. Die Suche nach einem bestimmten Objekt ist deshalb langwierig. Werden Dinge aber nach bestimmten Kriterien vorsortiert, in der Spielkiste z. B. Klemmbausteine nach Farben und zusätzlich noch nach Größe und Höhe, so benötigt das zwar Zeit, aber ein bestimmter Baustein ließe sich später viel schneller finden als in der unsortierten Kiste. Wenn in der Kiste ausschließlich solche perfekt sortierten Klemmbausteine liegen, lässt sich das mit einem "Data Warehouse" vergleichen.

Allerdings gibt es in den allermeisten Kinderzimmern auch Spielsachen, die sich nicht so gut nach bestimmten Merkmalen sortieren lassen. Eine Kiste, die beide Konzepte "zulässt", wäre im übertragenen Sinne ein "Data Lakehouse": Offen für alle Spielzeugarten und trotzdem thematisch (in verschiedenen Ecken der Kiste) sortiert. Ein paar Grundregeln unterstützen zudem diese Ordnung: Längere Zeit ungenutzte Spielsachen müssen in eine Kiste im Keller umziehen und können bei Bedarf zurückgeholt werden. Kaputte Spielsachen kommen konsequent in den Müll.

Data Lakes in der Praxis

Ähnlich wie die Spielzeugkiste im Kinderzimmer nimmt ein "Data Lake" im Labor als zentraler Speicher Rohdaten unabhängig vom Format auf – also sowohl strukturierte Daten (meist im Tabellenformat mit Zeilen und Spalten) als auch unstrukturierte Daten (beispielsweise Bilddateien). Die Rohdaten bleiben unverändert (Schema-on-Read) und stehen jederzeit für Analysen zur Verfügung. Hierfür müssen Datenwissenschaftler (Data Scientists) sie jedoch zuerst in die benötigte, standardisierte Form transformieren sowie die Analysemethoden implementieren. "Data Lakes" sind deshalb vor allem ideal, um große heterogene Datenmengen effizient und zentral zu speichern. Sie sind hochflexibel, skalierbar (insbesondere, wenn sich die Laborverantwortlichen für Cloud-Speicherplatz entscheiden) und mit vergleichsweise geringem Arbeitsaufwand verbunden.

Wichtig für die Arbeit mit "Data Lakes" sind die Metadaten. Reine Bilddateien sind beispielsweise für weiterführende Analysen wertlos, wenn zusätzliche Informationen wie Versuchsnummer und Geräteinstellungen fehlen. Teildigitalisierte Labore liefern Versuchsdaten bereits in digitaler Form (Digitization), verknüpfen sie jedoch noch nicht mit den Metadaten, die LIMS und Laborgeräte zur Verfügung stellen. Das Laborpersonal muss diesen Arbeitsschritt deshalb manuell ausführen, was fehleranfällig und bei großen Datenmengen schier unmöglich ist. Volldigitalisierte Labore übernehmen diesen Prozess dagegen eigenständig (Digitalization): Die Laborgeräte sind über Middleware-Lösungen direkt mit dem "Data Lake" verbunden und liefern Messwerte und Metadaten zusammenhängend sowie synchronisiert mit LIMS und ELN (s. Grafik). Erst dieses Level der Digitalisierung ermöglicht einen effizienten und zielgerichteten Umgang mit den Daten.

Data Lakehouses in der Praxis

Zwei Nachteile haben "Data Lakes": die fehlende Datenorganisation sowie den notwendigen Zeitbedarf, um die Daten für jede Analyse neu aufzubereiten. Beide Aspekte könnte ein "Data Warehouse" lösen, das beispielsweise einem LIMS in seiner Grundform ähnelt. Es speichert ausschließlich strukturierte Daten, die üblicherweise in relationalen Datenbanken im Tabellenformat mit Zeilen und Spalten vorliegen. In den meisten Fällen sind das SQL-Datenbanken (SQL: "Structured Query Language", eine Datenbanksprache). Dank dieser zentralen und gut organisierten Ablage, in der Informationen nach definierten Kriterien geordnet sind, ist ein sehr schneller Zugriff auf die Daten möglich. Davon profitiert auch das Laborpersonal, denn bereits mit durchschnittlichen SQL-Kenntnissen kann es viele Datenanalysen durchführen, ohne auf zusätzliches Fachpersonal angewiesen zu sein. Jedoch hat auch das "Data Warehouse" einen entscheidenden Nachteil: Es kann keine unstrukturierten Daten wie beispielsweise Bilddateien aufnehmen. Deshalb wird in digitalisierten Laboren zunehmend auf "Data Lakehouses" gesetzt, wie ein Praxisbeispiel etwa von der LAB14-Gruppe aus Heidelberg zeigt. In Zusammenarbeit mit infoteam ist dort jüngst ein "Data Lakehouse" auf Open-Source-Basis entstanden, das ähnlich einem "Data Lake" alle Datenformate akzeptiert. Doch anstatt die Rohdaten unsortiert abzulegen, gibt es ihnen eine Grundstruktur ähnlich dem "Data Warehouse". Datenwissenschaftler, Laborpersonal und das Controlling-nahe Management können so sehr schnell über unterschiedliche Werkzeuge auf die verschiedenen Daten zugreifen und sie auswerten.

Speichert das "Data Lakehouse" Daten ab, so durchlaufen sie mehrere Schichten (Layer), die sich jeweils um bestimmte Aufgaben kümmern: Sie verknüpfen beispielsweise die Rohdaten mit den Metadaten und übersetzen sie in passende Formate, mit denen Analysemethoden und KI-Anwendungen arbeiten. Ein anderer Layer dient als Schnittstelle, über die gängige Analysewerkzeuge wie Power BI oder Tableau auf die abgelegten Daten zugreifen. Welche Layer ein "Data Lakehouse" konkret besitzt, hängt vom individuellen Anwendungsfall ab.

Elementar für das "Data Lakehouse" ist zudem die "Data Governance". Das sind klare Vorgaben im Umgang mit den Daten. Sie definieren beispielsweise, welche Daten wann und mit welcher Häufigkeit in das System fließen, welche Datenstruktur und welche Metadaten notwendig sind und wie lange die Daten gespeichert werden müssen. Verantwortlich hierfür ist der sogenannte "Data Owner". Dieser kann maßgeblich steuern, wie feingliedrig und leistungsstark das "Data Lakehouse" ist und welches Level der Datenqualität es erreicht (in der Grafik als Medaillen-Modell dargestellt):

  • Bronze (die einfachste Form): Die Rohdaten sind mit den Metadaten kombiniert und in Tabellenform abgelegt
  • Silber (harmonisiert und kuratiert): Fehlerhafte Daten (z. B. Sensordaten) sind aus den Rohdaten herausgefiltert. Unterschiedliche Begriffe, Ontologien und Formate (z. B. Zeitformate) sind vereinheitlicht
  • Gold (aggregiert und korreliert): Die Daten sind so aufbereitet, dass sie direkt für auditrelevante oder regulatorisch verpflichtende Berichte sowie Management-Entscheidungen verwendet werden können – häufig sind sie sogar GMP-validiert

Labordaten stärker nutzen

Für "digitale Labore" ist das "Data Lakehouse" somit die Grundlage, um alle im Labor produzierten Daten effizient zu nutzen. Zum einen können Laborverantwortliche im regulierten Umfeld jederzeit nachweisen, wie ihre Daten entstanden sind. Zum anderen können verschiedene Nutzergruppen die Daten für ganz unterschiedliche Analysen und KI-Verfahren verwenden. Neben betriebswirtschaftlichem Monitoring und autonomer, datenbasierter Laborsteuerung bieten KI-Modelle enormes Potenzial: Large Language Models (LLM) beispielsweise durchsuchen die riesigen Datenmengen nach relevanten Informationen auf komplexe Forschungsfragen und liefern in kürzester Zeit Antworten, die Menschen kaum entdecken würden. Dasselbe gilt für KI-Tools, die Mikroskopiebilder auf etwas Bestimmtes untersuchen, oder KI-gestütztes Design-of-Experiment, das die optimalen Parameter für Versuche eigenständig ermittelt. Solche Möglichkeiten zu nutzen birgt großes Potenzial, und mit zielgerichtetem Datenmanagement machen Labore sich zukunftsfähig.

AUTOREN

Dr. Melanie Kahl, Senior Consultant Labordigitalisierung
Patrick Kraus, freiberuflich
infoteam Software AG, Bubenreuth
Tel.: 09131/78 00-0
[email protected]
www.infoteam.de

Analytica 2026: Halle B2, Stand 415

  • Xing Icon
  • LinkedIn Icon
Anzeige
Anzeige

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige

Interview

Smarte Rohrpost bei Novartis

Novartis setzt an den Standorten Basel und Cambridge ein innovatives Probentransportsystem ein: Proben werden pneumatisch zwischen Laboren und Analysegeräten transportiert. Dr. Ingo Muckenschnabel, Senior Manager Scientific Operations bei...

mehr...
Anzeige
Anzeige
Anzeige
Jetzt Newsletter abonnieren