Forschung

Forschungsschwerpunkte und Projekte im Bereich Scientific Data Management

Effiziente und skalierbare Methoden für die Integration großer Datenmengen sowie Wissensrepräsentation und -entdeckung sind zentrale Herausforderungen des Forschungsprogramms der Forschungsgruppe Scientific Data Management. Die entwickelten Anwendungen werden in verschiedenen Domänen eingesetzt (insbesondere Biomedizin und digitale Bibliotheken), um aus heterogenen Daten verwertbare Erkenntnisse zu machen.

Der Forschungsplan beinhaltet die Entwicklung modernster Infrastrukturen zur Verwaltung heterogener wissenschaftlicher Daten, zur Extraktion von aus diesen Daten gewonnenem Wissen und zur Erschließung neuer Zusammenhänge und Muster. Diese Infrastrukturen erleichtern die Integration und Analyse großer und komplexer Datenbestände in wissenschaftliche Wissensgraphen und ermöglichen die Zusammenarbeit aller Akteure in Wertschöpfungsketten um wissenschaftliche Daten. Zu den Herausforderungen, welche die Forschungsgruppe bearbeitet, gehören:

  • Wissensgraphen, die nicht nur die Bedeutung und Zusammenhänge wissenschaftlicher Daten kodieren, sondern auch Wissen über Provenienz, Privatsphäre, Qualität und Unsicherheit enthalten.
  • Domänenspezifische Ontologien und Link-Discovery-Techniken, die in der Lage sind, die Interoperabilität von heterogenen und großen wissenschaftlichen Datensätzen auf skalierbare Weise zu befördern.
  • Integrationsmethoden für heterogene und umfangreiche wissenschaftliche Datenquellen, zum Beispiel Altdatenbestände, strukturierte und unstrukturierte Daten sowie statische Daten und kontinuierliche Datenströme.
  • Speicherung und Verteilung von umfangreichen wissenschaftlichen Daten und Wissensgraphen.
  • Zugriffskontrollmethoden zur Durchsetzung von Datenschutzvorschriften für sensible Daten. 
  • Föderierte Abfrage-Engines für wissenschaftliche Wissensgraphen.
  • Datenanalyse und Methoden der Wissensentdeckung über wissenschaftliche Wissensgraphen.

Die entwickelten Infrastrukturkomponenten werden anhand verschiedener Datenbestände evaluiert. Dafür eignen sich insbesondere wissenschaftliche Daten aus Veröffentlichungen, die in den Datenbanken der TIB archiviert werden (zum Beispiel via RADAR oder DataCite). Wissenschaftlerinnen und Wissenschaftler werden die entwickelten Scientific-Data-Management-Infrastrukturen nutzen können, um die Effektivität und Produktivität ihrer Forschungsarbeit nachhaltig zu steigern.

Projekte

Die Forschungsgruppe bearbeitet von der Universität Bonn transferierte und neu akquirierte Drittmittelprojekte. Dazu gehören insbesondere:

  • iASiS: Integration and analysis of heterogeneous big data for precision medicine and suggested treatments for different types of patients (2017 bis 2020).
  • BigMedilytics: Big Data for Medical Analytics (2017 bis 2020)
  • QualiChain: Decentralised Qualifications’ Verification and Management for Learner Empowerment, Education Reengineering and Public Section Transformation. EU H2020 Research and Innovation Action (RIA) funded project. 2019-2022
  • CLARIFY: Cancer Long Survivors Artificial Intelligence Follow Up. EU H2020 Research and Innovation Action (RIA) funded project. 2020-2023
  • ImProVIT: Transforming big data into knowledge: for deep immunoprofiling in vaccination, infectious diseases, and transplantation. Project supported by the Minister for Science and Culture in Lower Saxony. 2019-2022
  • PLATOON: Digital PLAtform and analytic TOOls for eNergy. EU H2020 Innovation Action (IA) funded project. 2020-2023
  • P4-LUCAT: Personalized medicine for lung cancer treatment: using Big Data-driven approaches for decision support. ERAPerMed JTC2019. 2020-2023.
  • NoBIAS: European Training Network (ETN) for the study of methods of detecting, describing, and managing bias during in knowledge-driven approaches. 2020-2023

Prototypen

  • Ontario:  Ontario ist ein ontologiebasiertes Datenintegrations- und Semantic Enrichment-On-Demand-Framework über Semantic Data Lakes. Ontario fügt eine semantische Schicht auf die Quelldatensätze hinzu, die als Rohformat in einem Data Lake gespeichert werden. Ontario unterstützt verschiedene Datenmodelle (strukturiert und teilstrukturiert) wie Relational, CSV, TSV, JSON, XML, Dokument und Grafik. Darüber hinaus werden die folgenden Datenmanagementsysteme unterstützt: MySQL, Postgres, MongoDB, Neo4j und verteilte Dateisysteme Hadoop HDFS und S3. SPARQL ist die globale Abfragesprache und derzeit werden RML-Mappings unterstützt.
  • Falcon: FALCON ist ein Entity- und Relation-Linking-Framework über DBpedia, das in der Lage ist, Relationen und Entitäten in kurzen Texten oder Fragen zu identifizieren.
  • RDFizer: SDM-RDFizer ist ein Interpreter von Mapping-Regeln, die die Transformation von (un)strukturierten Daten in RDF-Wissensgraphen ermöglichen. Die aktuelle Version des SDM-RDFizers geht davon aus, dass die Mappingregeln in der RDF Mapping Language (RML) definiert sind. Der SDM-RDFizer implementiert optimierte Datenstrukturen und relationale Algebraoperatoren, die eine effiziente Ausführung von RML-Triple-Maps auch in Gegenwart von Big-Daten ermöglichen. Der SDM-RDFizer ist in der Lage, Daten aus heterogenen Datenquellen (CSV, JSON, RDB, XML) zu verarbeiten.

Joint Lab Data Science & Open Knowledge

Die Erforschung der genannten Themen findet zum Teil im Rahmen des Joint Lab Data Science & Open Knowledge statt.

Das Joint Lab wird gemeinsam mit der Leibniz Universität Hannover (LUH), Fakultät für Elektrotechnik und Informatik sowie dem Forschungszentrum L3S der LUH etabliert.