DiASPora

Digital Approaches for the Synthesis of Poorly Accessible Biodiversity Information (BacDive & Semantics)

Fakten

Leitung

Dr. Angelina Kraft

Projektbearbeitung

Gautam Kishore Shahi

Förderung durch

Leibniz SAW

Laufzeit

Mai 2020 – April 2023

Die Digitalisierung und Integration von Biodiversitätsinformationen kann einen erheblichen Mehrwert für bestehende Daten generieren und zu neuen wissenschaftlichen Erkenntnissen führen, die für Bioökonomie, Biotechnologie, menschliche Gesundheit und Umweltschutz relevant sind. Bisher wurde dieses Potenzial aufgrund der Heterogenität und Fragmentierung der Datenquellen sowie der geringen Dokumentation, der variablen Standards und der begrenzten Interoperabilität der Daten nur selten genutzt. Für Bakterien sind die Forschungsdaten besonders vielfältig und breit gestreut; daher werden diese Organismen als Modellgruppe für das aktuelle Projekt dienen. Das Projekt DiASPora wird einen Ansatz zur Synthese von Informationen für Bakterienarten etablieren, indem es modernste datenwissenschaftliche Methoden, Genomik und die Entwicklung benutzerorientierter Workflows anwendet.

Kooperationen

  • Leibniz-Institut DSMZ - Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH
  • ZB MED (Informationszentrum Lebenswissenschaften)

Weiterführende Links

Beschreibung

Das Projekt DiASPora wird einen Ansatz zur Synthese von Informationen für Bakterienarten unter Anwendung modernster datenwissenschaftlicher Methoden etablieren. Die Extraktion phänotypischer Daten aus der mikrobiologischen Literatur wird durch groß angelegtes Text Mining unter Anwendung von Techniken der künstlichen Intelligenz (KI) erreicht, die durch das Feedback von Kuratoren der Mikrobiologen geschult werden.

An der TIB werden im Rahmen des Projektes folgende Aufgabenbereiche bearbeitet:

  • Semantifizierung von prokaryotischen Daten: Die Daten werden standardisiert und in ein maschinenlesbares Format umgewandelt werden, das den FAIR- (findable, accessible, interoperable, reusable, reusable) und Linked Data Prinzipien entspricht. Dazu gehört die Verwendung von semantischen Formalismen wie dem Resource Description Framework (RDF), Ontologien und R2RML-Mappings
  • Erstellung eines maschinenlesbaren Wissensgraphen: Diese Aufgabe umfasst die semantische Integration von Daten, Metadaten und Schema. Es werden agile, iterative und gemeindegetriebene Methode zur Entwicklung der Ontologie durch und mit allen Beteiligten entwickelt. Dazu gehören die Bewertung der NCBI-Taxon-Ontologie und die Darstellung von Qualitätskriterien einschließlich Klassifizierungsschemata für den mikrobiologischen Sektor
  • Verbesserung des grafischen und programmatischen Zugangs zu mikrobiologischen Daten

Das Projekt widmet sich einem ganzheitlichen gesellschaftlichen Engagement und einer effizienten Verbreitung der Ergebnisse. DiASPora baut auf der komplementären Expertise von drei teilnehmenden Institutionen auf, die die Bereiche mikrobielle Datenbanken und Diversitätsforschung, Bakteriengenomik, Text-Mining, künstliche Intelligenz und semantische Technologien abdecken.

zurück zur Liste