Data Science

Als Teil ihrer Strategie verfolgt die TIB den langfristigen Ansatz "Move beyond text". In diesem Rahmen betrachtet die TIB neben analogen bildlichen und textuellen Informationen zusätzlich wissenschaftlich-technische Datenquellen in digitaler Form, wie Forschungsdaten, audiovisuelle Inhalte, 3D-Informationen, Simulationsmodelle und Software. Die Datenmengen in allen diesen Bereichen steigen in starkem Maß an, was neue Anforderungen an ihre nachhaltige Erschließung, Bereitstellung und Vorhaltung durch die TIB stellt. Davon sind sowohl die Auszeichnung der Datensätze mit Metainformationen und die automatisierte Erschließung der Inhalte und ihre Verknüpfung im übergeordneten Rahmen betroffen.

Hierfür werden neue methodische Ansätze sowohl für die TIB-interne Informationserschließung und -aufbereitung sowie die Bereitstellung für externe Kundinnen und Kunden im Rahmen des TIB-Dienstleistungsportfolios benötigt.

Was ist Data Science?

Der Begriff "Data Science" wurde bereits 1960 als Synonym für Informatik oder Computerwissenschaften eingeführt, wurde jedoch ab den 1990er Jahren neu interpretiert. Das Thema ist eng verknüpft dem Schlagwort "Big Data" für die im Internetzeitalter rasant ansteigenden vielfältigen digitalen Informationsquellen, die neue Herausforderung für ihre inhaltliche Erschließung und Analyse mit sich bringen. Dabei werden besonders folgende vier Kategorien zur Beschreibung der Informationsmengen herangezogen: Datenmenge (Volume), Änderungs- bzw. Bereitstellungsgeschwindigkeit (Velocity), interne qualitative Unterschiede (Variety) und Aussagekraft, bzw. Güte (Veracity).  

In der aktuellen Definition verknüpft der Forschungsbereich Data Science fachübergreifend etablierte Techniken und Theorien aus den Bereichen Mathematik, Statistik und Computerwissenschaften zur Erfassung, Modellierung und Analyse der Informationen zwecks thematischer Entscheidungsfindung. Dabei werden aus den Ausgangstechnologien neue technische Lösungen abgeleitet und erweitert. Die Themenfelder maschinelles Lernen, Mustererkennung und Statistik nehmen eine zentrale Stelle ein.

Forschungsthemen

Die Forschungsaktivitäten der TIB im Bereich Data Science zielen darauf ab, für den Bibliotheksbereich Lösungen zu entwickeln und umzusetzen, wie die wachsenden Datenvolumina in den TIB Sammlungen nachhaltig und zukunftssicher auffindbar und durchsuchbar gemacht sowie archiviert werden können.

Aktuell stehen dabei folgende Themenfelder im Vordergrund:

  • Die als Text- (Data-) Mining bezeichneten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus und- oder schwach strukturierten Texten. Aus den analysierten Texten sollen Kerninformationen gewonnen und so Zusammenhänge abgeleitet werden, von denen nicht bekannt war, dass sie in den Texten enthalten sind. Diese Verfahren werden auch zur Verbesserung der TIB-Dienstleistungen, etwa für die TIB-Portal-Infrastruktur angewendet.
  • Wissensmanagement zur Ableitung hierarchischer thematischer Klassifikationsansätze (Ontologien und Taxonomien) basierend auf bestehenden Dokumentsammlungen. Diese Klassifikationen bilden die Basis für erweiterte Servicedienstleistungen in den TIB-Portalen wie hierarchische Suchen oder Suchtermerweiterung.

Projekte

Im Rahmen des TIB-AV-Portals werden Multimedia-Retrieval-Verfahren und semantische Analyse kombiniert. Die dadurch entstehende automatische Videoanalyse umfasst eine strukturelle Analyse (Szenenerkennung) sowie eine Text-, Audio- und Bildanalyse.

Wer hilft weiter?

Dr. Peter Löwe

Telefon: 0511 762-3428