Mikroben-Datenschätze smart auswerten
Jörg OvermannBeruf:
Mikrobiologe
Position:
Wissenschaftlicher Direktor des Leibniz-Instituts DSMZ-Deutsche Sammlung für Mikroorganismen und Zellkulturen in Braunschweig und Universitätprofessor für Mikrobiologie an der TU Braunschweig
Beruf:
Mikrobiologe
Position:
Wissenschaftlicher Direktor des Leibniz-Instituts DSMZ-Deutsche Sammlung für Mikroorganismen und Zellkulturen in Braunschweig und Universitätprofessor für Mikrobiologie an der TU Braunschweig
Der Mikrobiologe Jörg Overmann will die Vielfalt der Bakterien erforschen und setzt dabei auf Künstliche Intelligenz.
Jörg Overmann ist Wissenschaftlicher Direktor des Leibniz-Instituts DSMZ-Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH und leitet damit das weltweit vielfältigste Archiv für biologische Ressourcen. An der Braunschweiger Forschungseinrichtung werden Mikroorganismen sowie Zellkulturen gesammelt, erforscht und archiviert. Mit dem Projekt DiASPora (Digital Approaches for the Synthesis of Poorly Accessible Biodiversity Information) war ein Team um Overmann beim Leibniz-Wettbewerb 2019 erfolgreich und wird mit 1 Mio. Euro gefördert. Mikrobiologie trifft hier auf Informatik, um die enorme Biodiversität der Bakterien besser zu erschließen.
Aus welcher Motivation heraus wurde das Projekt DiASPora gegründet?
Wir entwickeln seit einigen Jahren die Datenbank BacDive, welche sich inzwischen zur größten Metadatenbank zu Mikroorganismen entwickelt hat. Hier sammeln wir aus verschiedenen Quellen alle existierenden Daten zu Taxonomie, Kultivierung, Stoffwechsel, Herkunft und Molekularbiologie und bieten sie in über 600 Datenfeldern in standardisiertem Format an. Datenbanken wie BacDive bieten großes Potenzial für neue Erkenntnisse, da sie – im Gegensatz zu Daten in der Literatur – systematisch auswertbar sind. Weiterreichende, komplexere Analysen benötigen jedoch immer noch umfangreiche bioinformatische Vorkenntnisse und Erfahrungen in den Datenwissenschaften, wenn zum Beispiel das biochemische Potenzial aus Genomsequenzdaten ermittelt und mit den Stoffwechseldaten in BacDive verglichen werden soll oder wenn aus ökologischen Daten anderer, verstreuter Datenquellen die Physiologie der Mikroorganismen abgeleitet werden soll. Diese Hürden wollen wir herabsetzen und einen verbesserten Erkenntnisgewinn mittels modernster Analysen, zum Beispiel mittels Künstlicher Intelligenz, ermöglichen.
Welche Daten soll DiASPora verbinden und woher stammen diese?
Wir beginnen mit den Daten in unserer Datenbank BacDive, wo wir eine Vielzahl von Datentypen haben. Diese beschreiben und verknüpfen wir in einem sogenannten Knowledge-Graphen. Zusätzlich erweitern wir diese Daten mit Genomannotationsdaten, die aus den zahlreichen sequenzierten Genomen von Bakterien gewonnen werden. Durch die semantische Aufbereitung ist es uns dann möglich, diese Daten mit anderen Daten im sogenannten Linked-Open-Data-Netzwerk zu verbinden, wo sich zum Beispiel mit DBpedia/Wikidata auch viele Daten aus Wikipedia wiederfinden.
Die Daten sollen semantisch vernetzt werden. Was bedeutet das?
Wenn man heute sein Smartphone – sei es nun Siri, Google Assistant oder Alexa – wörtlich fragt, „Nenne mir in meiner Umgebung ein indisches Restaurant, das morgen Abend geöffnet hat“, kann der Algorithmus diese Frage verstehen und beantworten. Dass er die Frage beantworten kann, liegt daran, dass die Informationen im Internet zu Restaurants & Shopping in der Ressource-Description-Framework-Sprache (RDF) beschrieben und somit maschineninterpretierbar sind. Nun sind wissenschaftliche Daten deutlich komplexer, aber auch hier gibt es bereits Versuche, diese im RDF-Format zu beschreiben. In Zeiten der Datenflut wird diese Art der Datenaufbereitung immer wichtiger werden, um bei der Suche und Verknüpfung von Daten auf die Hilfe von Künstlicher Intelligenz zurückgreifen zu können.
Wie können auf diesen Grundlagen Vorhersagen über die Eigenschaften von Bakterien getroffen werden?
Das geht auf verschiedene Weisen. Die erste ist eine rein phylogenetische beziehungsweise statistische: Wenn ich für alle Arten einer taxonomische Gruppe weiß, dass sie eine Eigenschaft haben, zum Beispiel Sporen bilden, dann kann ich mit einer gewissen Wahrscheinlichkeit sagen, dass der nächste, den ich in der Gruppe finde, auch diese Eigenschaft haben wird. Die zweite Möglichkeit ist, die heutzutage häufig vorliegenden Genominformationen zu Hilfe zu nehmen. Durch den systematischen Vergleich von Genom- mit Phänotypinformationen wie denen aus BacDive kann ich die Vorhersage von Eigenschaften auf der Basis von Genomfunktionen sukzessive verbessern. Schließlich erlaubt das Vorkommen der Bakterien an einem bestimmten Standort – wie beispielsweise das Vorkommen in einer heißen, mineralischen Hydrothermalquelle – bei gleichzeitiger Kenntnis der ökologischen Bedingungen dieses Standorts auch Vorhersagen zur Physiologie der Bakterien, konkret dem Wachstum bei entsprechend hohen Temperaturen unter Nutzung anorganischer Verbindungen zur Energiegewinnung.
Haben Sie dabei bestimmte Gruppen von Bakterien im Blick und warum?
Der Großteil der Arten von Mikroorganismen konnte bisher noch nicht beschrieben werden, da sie bisher nicht im Labor kultivierbar sind. Um diesen riesigen „Schatz“ für die Forschung nutzbar zu machen, müssen Kultivierungsbedingungen empirisch ermittelt werden. Unsere Idee ist es, gezielt für diese Gruppe Vorhersagen zu machen und diese auch in den Laboren der DSMZ zu überprüfen. Ein Beispiel sind die im Boden dominanten Acidobakterien, die wahrscheinlich für die Nährstoffumsetzung relevant sind. Bisher konnte nur ein sehr geringer Teil der vorkommenden Arten dieser Gruppen isoliert und analysiert werden. Mit unseren neuen Ansätzen sollten sich die Kenntnisse über diese Gruppe deutlich verbessern, sodass mehr neuartige Bakterienstämme für gezielte Untersuchungen isoliert und verfügbar werden.
Welche Anwendungsmöglichkeit dieses Projekts sehen Sie über die Grundlagenforschung hinaus?
Wie schon gesagt, findet RDF im kommerziellen Sektor bereits breite Verwendung. Wenn man diese auf die Auswertung von wissenschaftlichen Daten signifikant ausweiten könnte, ergäben sich komplett neue Analysemöglichkeiten. Setzt sich dieser Trend fort, haben wir in Zukunft bessere Chancen, die gigantische Flut an wissenschaftlichen Daten mit semantischen Fragen zu erkunden und so viel schneller Antworten und die dahinterliegenden Daten zu bekommen. Die Bedeutung der so gewonnenen Erkenntnisse könnte von einer Verbesserung der Nährstoffversorgung in landwirtschaftlichen Böden, über die Suche nach neuartigen Wirkstoffproduzenten bis zu einem besseren Verständnis von Infektionserregern reichen.
Interview: Björn Lohmann