Forschung

Forschungsschwerpunkte und Projekte im Bereich Scientific Data Management

Effiziente und skalierbare Methoden für die Integration großer Datenmengen sowie Wissensrepräsentation und -entdeckung sind zentrale Herausforderungen des Forschungsprogramms der Forschungsgruppe Scientific Data Management. Die entwickelten Anwendungen werden in verschiedenen Domänen eingesetzt (insbesondere Biomedizin und digitale Bibliotheken), um aus heterogenen Daten verwertbare Erkenntnisse zu machen.

Der Forschungsplan beinhaltet die Entwicklung modernster Infrastrukturen zur Verwaltung heterogener wissenschaftlicher Daten, zur Extraktion von aus diesen Daten gewonnenem Wissen und zur Erschließung neuer Zusammenhänge und Muster. Diese Infrastrukturen erleichtern die Integration und Analyse großer und komplexer Datenbestände in wissenschaftliche Wissensgraphen und ermöglichen die Zusammenarbeit aller Akteure in Wertschöpfungsketten um wissenschaftliche Daten. Zu den Herausforderungen, welche die Forschungsgruppe bearbeitet, gehören:

  • Wissensgraphen, die nicht nur die Bedeutung und Zusammenhänge wissenschaftlicher Daten kodieren, sondern auch Wissen über Provenienz, Privatsphäre, Qualität und Unsicherheit enthalten.
  • Domänenspezifische Ontologien und Link-Discovery-Techniken, die in der Lage sind, die Interoperabilität von heterogenen und großen wissenschaftlichen Datensätzen auf skalierbare Weise zu befördern.
  • Integrationsmethoden für heterogene und umfangreiche wissenschaftliche Datenquellen, zum Beispiel Altdatenbestände, strukturierte und unstrukturierte Daten sowie statische Daten und kontinuierliche Datenströme.
  • Speicherung und Verteilung von umfangreichen wissenschaftlichen Daten und Wissensgraphen.
  • Zugriffskontrollmethoden zur Durchsetzung von Datenschutzvorschriften für sensible Daten. 
  • Föderierte Abfrage-Engines für wissenschaftliche Wissensgraphen.
  • Datenanalyse und Methoden der Wissensentdeckung über wissenschaftliche Wissensgraphen.

Die entwickelten Infrastrukturkomponenten werden anhand verschiedener Datenbestände evaluiert. Dafür eignen sich insbesondere wissenschaftliche Daten aus Veröffentlichungen, die in den Datenbanken der TIB archiviert werden (zum Beispiel via RADAR oder DataCite). Wissenschaftlerinnen und Wissenschaftler werden die entwickelten Scientific-Data-Management-Infrastrukturen nutzen können, um die Effektivität und Produktivität ihrer Forschungsarbeit nachhaltig zu steigern.

Projekte

Die Forschungsgruppe bearbeitet von der Universität Bonn transferierte und neu akquirierte Drittmittelprojekte. Dazu gehören insbesondere:

  • iASiS: Integration and analysis of heterogeneous big data for precision medicine and suggested treatments for different types of patients 2017-2020.
  • BigMedilytics: Big Data for Medical Analytics 2017-2020
  • QualiChain: Decentralised Qualifications’ Verification and Management for Learner Empowerment, Education Reengineering and Public Section Transformation. EU H2020 Research and Innovation Action (RIA) funded project. 2019-2022
  • CLARIFY: Cancer Long Survivors Artificial Intelligence Follow Up. EU H2020 Research and Innovation Action (RIA) funded project. 2020-2023
  • ImProVIT: Transforming big data into knowledge: for deep immunoprofiling in vaccination, infectious diseases, and transplantation. Project supported by the Minister for Science and Culture in Lower Saxony. 2019-2022
  • PLATOON: Digital PLAtform and analytic TOOls for eNergy. EU H2020 Innovation Action (IA) funded project. 2020-2023
  • P4-LUCAT: Personalized medicine for lung cancer treatment: using Big Data-driven approaches for decision support. ERAPerMed JTC2019. 2020-2023.
  • NoBIAS: European Training Network (ETN) for the study of methods of detecting, describing, and managing bias during in knowledge-driven approaches. 2020-2023
  • Knowledge4Hubris: Knowledge graph methodology allows various types of information deriving from heterogeneous sources to create an integrated representation of all data relevant to the tenure of different forms of power. 
  • TrustKG: A Framework for Knowledge Graphs based on Semantic Integration, Representation, and Curation of Scientific Data to enable Trustable and Interpretable Knowledge Exploration and Discovery
  • Leibniz Data Manager: A Research Data Management System. LDM is funded by Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) in the LIS Funding Programme e-Research Technologies (grant no. 438302423).

Prototypen

  • Ontario:  Ontario ist ein ontologiebasiertes Datenintegrations- und Semantic Enrichment-On-Demand-Framework über Semantic Data Lakes. Ontario fügt eine semantische Schicht auf die Quelldatensätze hinzu, die als Rohformat in einem Data Lake gespeichert werden. Ontario unterstützt verschiedene Datenmodelle (strukturiert und teilstrukturiert) wie Relational, CSV, TSV, JSON, XML, Dokument und Grafik. Darüber hinaus werden die folgenden Datenmanagementsysteme unterstützt: MySQL, Postgres, MongoDB, Neo4j und verteilte Dateisysteme Hadoop HDFS und S3. SPARQL ist die globale Abfragesprache und derzeit werden RML-Mappings unterstützt.
  • Falcon: FALCON ist ein Entity- und Relation-Linking-Framework über DBpedia, das in der Lage ist, Relationen und Entitäten in kurzen Texten oder Fragen zu identifizieren.
  • RDFizer: SDM-RDFizer ist ein Interpreter von Mapping-Regeln, die die Transformation von (un)strukturierten Daten in RDF-Wissensgraphen ermöglichen. Die aktuelle Version des SDM-RDFizers geht davon aus, dass die Mappingregeln in der RDF Mapping Language (RML) definiert sind. Der SDM-RDFizer implementiert optimierte Datenstrukturen und relationale Algebraoperatoren, die eine effiziente Ausführung von RML-Triple-Maps auch in Gegenwart von Big-Daten ermöglichen. Der SDM-RDFizer ist in der Lage, Daten aus heterogenen Datenquellen (CSV, JSON, RDB, XML) zu verarbeiten. Die neueste Version von SDM-RDFizer, Version 4.0, mit neuen Optimierungsfunktionen zur effizienten Erstellung sehr großer KGs, wurde im Oktober 2021 veröffentlicht.
  • Dragoman: Dragoman ist ein optimierter Interpreter von Mapping-Regeln (definiert in RML) und integriert Datenvor- und -nachbearbeitungsfunktionen, die gemäß der FnO (Function Ontology) als Teil der Transformation von Daten in RDF-Wissensgraphen definiert sind. Dragoman ermöglicht es dem Benutzer, seine eigene Funktionsbibliothek einfach zu erstellen.
  • easyRML: easyRML erleichtert die Erstellung von RML-Mapping-Regeln. easyRML bietet eine benutzerfreundliche Oberfläche, die es den Benutzern ermöglicht, ihre Mapping-Regeln zu erstellen, ohne sich um die Syntax der Mapping-Sprache kümmern zu müssen. easyRML ermöglicht es den Benutzern, ihre Ontologie und die Liste der Datenfelder hochzuladen, damit sie während des Prozesses der Deklaration der Mapping-Regeln einen besseren Überblick über die Komponenten des Datenintegrationssystems haben.
  • Leibniz Data Manager: Der Prototyp des TIB Data Manager wurde entwickelt, um den Aspekt der besseren Wiederverwendbarkeit von Forschungsdaten zu unterstützen.
  • DeTrusty: ist eine föderierte Abfragemaschine. In diesem Stadium werden nur SPARQL-Endpunkte unterstützt. DeTrusty unterscheidet sich von anderen Abfragemaschinen durch seinen Fokus auf die Erklärbarkeit und Vertrauenswürdigkeit des Abfrageergebnisses.
  • Trav-SHACLeine SHACL-Engine, die in der Lage ist, die Durchquerung und Ausführung eines Shape-Schemas so zu planen, dass ungültige Entitäten frühzeitig erkannt und unnötige Validierungen minimiert werden. Trav-SHACL ordnet die Shapes in einem Shape-Schema für eine effiziente Validierung neu an und schreibt Ziel- und Constraint-Abfragen für eine schnelle Erkennung ungültiger Entitäten um. Das Shape-Schema wird anhand eines RDF-Graphen validiert, der über einen SPARQL-Endpunkt zugänglich ist.

Joint Lab Data Science & Open Knowledge

Die Erforschung der genannten Themen findet zum Teil im Rahmen des <link de forschung-entwicklung joint-lab _self internal-link>Joint Lab Data Science & Open Knowledge statt.

Das Joint Lab wird gemeinsam mit der Leibniz Universität Hannover (LUH), Fakultät für Elektrotechnik und Informatik sowie dem Forschungszentrum L3S der LUH etabliert.

Feedback