Mensch vs. Maschine: Wer erkennt den Aufnahmeort eines Fotos besser?

Forschungsgruppe Visual Analytics der TIB entwickelt innovatives Verfahren zur Geolokalisierung

Das Foto zeigt die Skyline einer Großstadt vor grauem Himmel, im Vordergrund ist Wasser: Welche Stadt ist das?  Mensch und Maschine treten bei der von der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften entwickelten „Geolocation Estimation“ gegeneinander an und schätzen, wo das Foto aufgenommen wurde. Das Ergebnis: Seattle.   

Skyline von Seattle, USA (©clango CC-BY-SA 2.0)

Meist gewinnt der Computer bei der Schätzung, der Mensch ist unterlegen. Aber wie funktioniert das? Dank künstlicher Intelligenz.

Die Forschungsgruppe Visual Analytics (Leitung Prof. Dr. Ralph Ewerth) der TIB forscht zum Thema visuelle Konzeptdetektion – das heißt zur automatischen Extraktion von Informationen aus Bildern – und hat ein innovatives Verfahren zur Lokalisierung des Aufnahmeortes von Fotos entwickelt: Ein maschinelles Lernverfahren auf Basis sogenannter neuronaler Netze nutzt zur Schätzung des Aufnahmeortes von Bildern neben geografischen Merkmalen zusätzlich kontextbezogene Informationen der auf dem Foto abgebildeten Szene.

Damit erlangt das neuronale Netz, das neurobiologische Vorgänge im Gehirn des Menschen nachahmt, die Fähigkeit für verschiedene Szenarien wie zum Beispiel Stadt, Natur oder Innenaufnahmen spezifische geografische Merkmale zu erlernen. „Bei Stadtimpressionen sind das beispielsweise Bauwerke oder architektonische Details, bei Naturaufnahmen werden Pflanzen und Tiere berücksichtigt“, beschreibt Prof. Dr. Ewerth das Verfahren.

TIB liefert bessere Ergebnisse als Google-Verfahren

Bei der Schätzung des Aufnahmeortes ist die Maschine nachweislich besser als der Mensch und auch im Vergleich zu einem von Google-Forschern entwickelten Ansatz zur Geolokalisierung muss die TIB sich nicht verstecken. „Obwohl wir unser System mit weniger Trainingsdaten gefüttert haben, liefert es schon jetzt bessere und genauere Daten als das entsprechende System von Google-Forschern“, erklären die TIB-Promovenden Eric Müller-Budack und Kader Pustu-Iren stolz.

TIB-Direktor Prof. Dr. Sören Auer hat das Ziel, dieses innovative Verfahren zur Geolokalisierung mittelfristig zu einem Web-Dienst der TIB zu entwickeln. „Mit einem solchen Dienst könnten Bilder in Gedächtnisinstitutionen wie Bibliotheken und Archiven weltweit besser gefunden werden“, sagt Auer.

Selbst gegen den Computer antreten kann man übrigens bei der browserbasierten Demonstration: https://tibhannover.github.io/GeoEstimation

Mehr zur Forschungsgruppe Visual Analytics: http://tib.eu/visual-analytics 

E. Müller-Budack, K. Pustu-Iren, R. Ewerth:
Geolocation Estimation of Photos using a Hierarchical Model and Scene Classification.
In: Proceedings of the European Conference on Computer Vision (ECCV), München,  Springer, 2018, 563-579. https://link.springer.com/chapter/10.1007/978-3-030-01258-8_35

Open-Access-Link: http://openaccess.thecvf.com/content_ECCV_2018/papers/Eric_Muller-Budack_Geolocation_Estimation_of_ECCV_2018_paper.pdf