Big Data and beyond…

LIM-Systeme der Zukunft

Der Ausbau eines ECM-Systems zum LIM-System ermöglicht es weitere Aufgabenstellungen zu lösen, denen man sonst typischerweise mit Business-Intelligence-Mitteln beizukommen versucht.

© Optimal Systems

In den vergangenen Jahren haben sich Techniken der Informationsverarbeitung etabliert, von denen manche das Stadium experimenteller Showcases verlassen haben. Zentrale Konzepte dieser neuen Technologien – grob mit den Begriffen „Big Data“ und „Machine Learning“ umschrieben – versprechen zu omnipräsenten Helfern bei der Gewinnung neuen Wissens zu werden: als intelligente Assistenten mitzudenken, auf kommende Probleme und Engpässe im Arbeitsablauf hinzuweisen oder den über Jahre gewachsenen Berg an Daten in einen wertvollen Schatz zu transformieren, der erhellende Erkenntnisse für den täglichen Laborbetrieb bereithält.

Einige dieser Versprechen sind bisher nur angekündigt worden, manch andere hingegen entwickeln sich zur selbstverständlichen Hilfe für den analytisch arbeitenden Chemiker. Von besonderem Interesse ist dabei der Stellenwert der Laborinformationssysteme (LIM-Systeme, LIMS), da sie über das Potenzial verfügen, durch einen generalistischen Ansatz isolierte Dateninseln zu vermeiden. In der Domäne der Chemie, speziell der analytischen Chemie, kommt man zunächst einmal nicht ohne Methoden der Chemoinformatik aus. Essenziell dabei sind bewährte Algorithmen zur Sub-, Super- und exakten Struktursuche, Methoden zur Ähnlichkeitsbestimmung (etwa Metriken wie Tanimoto- oder Hamming-Abstand), Tautomer-Identifikation oder auch Konvertierungs- prozeduren für Einzeilennotationen, von denen sich insbesondere das InChI-Format als Quasistandard herausbildet. Zu diesen klassischen Methoden gesellen sich nun jene der Neuronalen Netze, der Clusteranalyse, Knowledge Graphs, Entity Recognition sowie des Supervised/Unsupervised Machine Learning (ML).

Anzeige

Während Letzteres unter anderem in der organischen Chemie wertvolle Unterstützung bei der Syntheseplanung liefern kann [1], sind Anwendungen für die analytische Chemie noch eher im experimentellen Stadium oder im akademischen Umfeld zu suchen. Die Möglichkeiten der Automatischen Strukturaufklärung zum Beispiel setzen – wie bei allen ML-Verfahren – die Existenz sorgfältig bereitgestellter Trainingsdaten voraus. Wenngleich es hierzu frei verfügbare Bibliotheken gibt, die über API-Aufrufe eingebunden werden können [2], gestaltet sich die Auswahl spektroskopischer Basisdaten in der nötigen Qualität alles andere als trivial.

Big Data performant verwalten 

Über die genaue Definition des „Big“ in Big Data gehen die Meinungen auseinander. Es gibt bereits Versuche, die Größenordnung in die Billionen auszudehnen, was aber einen enormen hardware-seitigen Aufwand bedeutet und profundes Wissen im Umgang mit Cluster-Architekturen erfordert [3]. Wenn „Big“ hingegen nicht nur „viel“ bedeutet, sondern „vielschichtig“ und „verschiedenartig“, kann ein Content Management System durchaus mithalten. Das Enterprise Content Management System (ECM-System) Enaio®, auf dem Enaio® LIMS aufbaut, kann flexibel an bestehende Logiken und Objektmodelle angepasst werden, und ist dennoch in der Lage, problemlos Millionen von Objekten – etwa Proben oder Substanzeinträge – performant zu verwalten.

ECM wird zum LIMS

Der Ausbau des ECM-Systems Enaio zum LIM-System ermöglicht es weitere Aufgabenstellungen zu lösen, denen man sonst typischerweise mit Business-Intelligence-Mitteln beizukommen versucht: Wie ausgelastet ist mein Gerätepark? Wo habe ich im gesamten Ablauf die gravierendsten Bottlenecks? Da sämtliche angeschlossenen Analysegeräte Logging-Dateien ans LIMS senden, bildet sich schon nach kurzer Zeit ein Datenkonvolut, was mit Data-Mining-Algorithmen erschlossen werden kann. Sorgfältige Auswertung der Maschinendaten fließen in KPI-Betrachtungen wie die OEE-Kennzahl mit ein.

Die Erstellung von Substanzdatenbanken (Chemical Inventory) zählt zu den Standardfunktionen chemoinformatorischer Werkzeuge. Hierbei geht es um die Bereitstellung von firmeninternen Basisinformationen – egal ob für den Lagerarbeiter, Chemikanten, Labormitarbeiter oder den Forschungsleiter. Fragen wie z. B. „Wo“, „Wieviel“ und „In welcher Qualität liegt die gewünschte Verbindung vor?“ müssen schnell und einfach beantwortet werden können. Ist noch ausreichende Menge vorhanden oder muss – bspw. über geeignete Schnittstellen zum ERP-System – nachgeordert werden? Kann man Preisschwankungen ausnutzen? Darüber hinaus müssen Regularien erfüllt sein, wie die schnelle Verfügbarkeit von aktuellen, ggf. mehrsprachigen Gefahren- und Sicherheitsdatenblättern (MSDS).

Eine Voraussetzung für ein leistungsfähiges LIMS ist die möglichst vollumfängliche Konnektivität zu den vorhandenen Analysegeräten. In letzter Zeit zählen auch mobile Handheld-Analysatoren [4] zur Ausstattung, insbesondere in der Wasser- und Lebensmittelchemie. Wo auch immer Proben entnommen werden: die Erfassung vor Ort, Zeit und idealerweise auch die simultane Auswertung sind Grundanforderungen, die künftig noch stärker in den Fokus rücken. Im Falle fehlender Access-Points muss jedoch wenigstens im weiteren Verlauf sichergestellt sein, dass alle erhobenen Daten den Weg ins LIMS finden. Die Nutzung von GPS-Daten, RFID-Chips und Barcodes, um Rückverfolgbarkeit und Auffindbarkeit von Proben und Laborsubstanzen zu gewährleisten, gehört zum selbstverständlichen, allgemeinen Standard der meisten LIM-Systeme. Des Weiteren kann die Kombination der Enaio Lims Auswertungsroutine mit Geoinformationsystemen (GIS) wichtige Aufschlüsse über die lokale Analytkonzentration liefern; die graphische Aufbereitung z. B. mittels Heatmaps veranschaulicht zusätzlich die Schadstoffverteilung.

Integrierte Suchfunktion hilft auch bei Onboarding-Prozessen 

Bild 1: Beispiel zu personalisierten Suchtermen: Suche nach monochlorierten m-Terphenylen. © Optimal Systems Jena

Die Möglichkeit zur Suche nach abgelegter digi­taler Information – sei es zum Nachschlagen in Dokumenten, Gerätedaten, benötigten Kontaktdaten oder zur allgemeinen Recherche – ist für ein effizientes Arbeiten unerlässlich. Im Enaio LIMS sind sämtliche Objektdaten wie Proben, Aufträge, Arbeitsanweisungen etc. durch eine integrierte Suchmaschine indexiert. Die eigentliche Engine basiert auf Elasticsearch und greift auf den gesamten Datenbestand zu. Wie in Elasticsearch üblich, können mit zusätzlichen Parametern, wie z. B. die Verwendung von sog. Wildcards „*“ und „?“, der Abstandssuche oder Boole’schen Operatoren komplexe Suchterme erstellt und gespeichert werden. Das Besondere im Kontext der chemischen Anwendungsszenarien stellt die Identifikation spezieller Entitäten dar: chemische Verbindungen (etwa in Form von systematischen Namen oder Trivialnamen, Struktur-Identifier, Formelschreibweisen usw.), der sprachliche Duktus von Präparationsanweisungen in Laborjournalen oder auch Patentschriften. Eine extra trainierte KI im Hintergrund hilft sogar – in Kombination mit OCR-prozessierten Dokumenten – „altes Wissen“ wieder zu entstauben. Somit wird aus einer normalen Volltextsuche ein Werkzeug zum Erschließen des firmeneigenen Knowhows, für das nicht nur neue Mitarbeiter während des Onboarding-Prozesses dankbar sind (s. Bild 1).

Komplexe Automatismen realisieren

Bild 2: Von generischer Struktur zur automatisch generierten Substanz-DB: alle 3 279 mono- bis perchlorierten m-Terphenyle. © Optimal Systems Jena

Der modulare Aufbau von Enaio LIMS mit eigenen Programmierschnittstellen ermöglicht die Realisierung komplexer Automatismen; aber auch die Anbindung an externe Softwaretools wie R, Python­ oder Mathematica bietet weitere Vorteile: Selbstentwickelte Funktionen schließen die letzten Lücken­ zu eher selten nachgefragten Features, wie etwa exhaustive Strukturgenerierung (s. Beispiel polychlorierte Terphenyle oder PCBs). Gekoppelt mit heuristischen Verfahren der Spektrenvorhersage wird so die Probenauswertung komplexer Kongener-Mischungen erheblich erleichtert (s. Bild 2).

Eine besondere Stärke, quasi geerbt durch die Herkunft als ECM-Plattform, ist die Behandlung von Information je nach individuellem Nutzer: Es werden nur genau die Daten zugänglich gemacht, für die Berechtigungen vorliegen. Dieses feingranulare Rechte- und Rollenkonzept bietet sich somit insbesondere für Projekte im regulierten Umfeld an, z. B. in der forensischen Chemie oder für die Verwaltung klinischer Studien. Die gemäß DIN 13485 und weiteren Regularien konforme Lösung garantiert durch erprobte Mechanismen die geforderten Retentionszeiten sowie die Erfüllung aller Nachweispflichten, was auch renommierte Forschungsinstitute überzeugt hat, auf Enaio LIMS zu setzen.

Schließlich bleibt festzustellen, dass ganzheitliche, universelle Systeme – wie das ECM-Framework Enaio – genau diesen Spagat überwinden helfen: althergebrachte Anwendungsszenarien mit modernen Technologien zu koppeln und die digitale Welt des chemischen Wissens an einem Ort auffindbar zu machen.

AUTOR

Armin Vollmer
Chemoinformatiker/Technischer Account Manager
Optimal Systems Jena

Referenzen:

[1] Grzybowski, B. A. et al. (2018). Chematica: A Story of Computer Code That Started to Think like a Chemist. Chem 4, 390–398.
[2] http://www.chemspider.com
[3] Ruddigkeit, L. et al. (2012). Enumeration of 166 Billion Organic Small Molecules in the Chemical Universe Database GDB-17. Journal of Chemical Information and Modeling 52, 2864−287.
[4] https://www.labo.de/spektroskopie/mobile-nir-spektrometer-fuer-die-lebensmittelkontrolle.htm

Anzeige

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Newsletter bestellen

Immer auf dem Laufenden mit dem LABO Newsletter

Aktuelle Unternehmensnachrichten, Produktnews und Innovationen kostenfrei in Ihrer Mailbox.

AGB und Datenschutz gelesen und bestätigt.
Zur Startseite