Forschungsgruppe Visual Analytics der TIB erhält Auszeichnung auf internationaler Konferenz

Best Paper Award für den Beitrag „Understanding, Categorizing and Predicting Semantic Image-Text Relations“

Ein Beitrag der Forschungsgruppe „Visual Analytics” der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften wurde auf der diesjährigen ACM International Conference on Multimedia Retrieval (ICMR), die vom 10. bis 13. Juni 2019 in Ottawa (Kanada) stattfand, mit dem „Best Paper Award“ ausgezeichnet. Insgesamt wurden 84 Beiträge in der Rubrik „Full Paper“ zur Begutachtung eingereicht, von denen 26 zur Präsentation eines Vortrags auf der Konferenz eingeladen wurden.

Christian Otto, Matthias Springstein und Ralph Ewerth (alle TIB) sowie Avishek Anand (Forschungszentrum L3S und Juniorprofessor an der Fakultät für Elektrotechnik und Informatik der Leibniz Universität Hannover) zeigen in dem Beitrag „Understanding, Categorizing and Predicting Semantic Image-Text Relations“, wie sich die Beziehungen zwischen visuellen und dazugehörigen textuellen Informationen formal beschreiben lassen.

Im Zuge des Beitrags wird der aktuelle Forschungsstand zu Bild-Text-Bezügen um eine weitere Dimension ergänzt. Bislang erfolgte die Charakterisierung von Text-Bild-Bezügen mithilfe der beiden Metriken „Cross-modal Mutual Information“ (CMI) („Wie viele Objekte/Personen haben Bild und Text gemein?“) und Semantic Correlation (SC) („Wie viel Interpretation und Kontext haben Bild und Text gemein?). In dem ausgezeichneten Paper kommt nun eine weitere Dimension hinzu: die Status-Relation von Bild und Text. Diese Relation beschreibt, ob beide Modalitäten – also Text und Bild – bei der Vermittlung von Informationen gleich wichtig sind oder ob eine von beiden eine übergeordnete Rolle spielt.

Anschließend wird gezeigt, wie sich aus diesen drei Metriken eine Kategorisierung semantischer Bild-Text-Klassen ableiten lässt, die eine (automatische) Klassifikation von Bild-Text-Paaren entsprechend ihres Typs gestattet. Hierbei haben die Autoren interdisziplinär gearbeitet und Forschungsergebnisse aus den Kommunikationswissenschaften aufgegriffen und in die Informatik übertragen.

Die Autoren stellen auch ein auf tiefen neuronalen Netzen („Deep Learning“) basierendes System vor, das automatisch diese Bild-Text-Metriken und -Klassen bestimmen kann. Zum Trainieren solcher Netze und zur Unterstützung künftiger Forschung wird ein (fast vollständig) automatisch generierter Datensatz öffentlich zur Verfügung gestellt.

Anwendungen für diese Arbeit finden sich zum Beispiel im Bereich des Lernens im Web oder in der Schule: Hier können benutzer- oder themenspezifische Inhalte gefiltert beziehungsweise nach Relevanz sortiert werden. Potenziell lassen sich die Ergebnisse aber auf viele verschiedene Aufgaben im Zusammenhang von multimodalen Informationen (Generierung von Bildbeschreibungen, automatische Beantwortung von Fragen, Suchmaschinen etc.) anwenden, da sie einen tieferen Einblick in das Zusammenspiel von Bild und Text aus Informatiksicht geben.

Christian Otto, Matthias Springstein, Avishek Anand and Ralph Ewerth: „Understanding, Categorizing and Predicting Semantic Image-Text Relations“. In: Proceedings of ACM International Conference on Multimedia Retrieval, Ottawa, Canada, pp. 168-176, 2019. DOI: 10.1145/3323873.3325049