There is an Open Access version for this licensed article that can be read free of charge and without license restrictions. The content of the Open Access version may differ from that of the licensed version.
Pricing information
Please choose your delivery country and your customer group
In den letzten zehn Jahren sind digitale Bibliotheken und Internet-Video-Portale immer populärer geworden. Die automatische Aufzeichnung und deren Bereitstellung im World Wide Web (WWW) führt extrem schnell zu großen multimedialen Datenmengen. Laut dem offiziellen Statistikbericht des populären Video-Portals YouTube1 werden mehr als 4 Milliarden Video pro Tag angesehen und circa 100 Stunden Video pro Minute hochgeladen. Deshalb ist das effiziente Suchen von Videodaten über das Internet oder innerhalb eines großen Video-Archivs heutzutage eine sehr wichtige und herausfordernde Aufgabe. Texte innerhalb des Videos bieten die wesentlichen, qualitativ hochwertigen semantischen Informationen für die Videoinhalte. Daher kann Texterkennung innerhalb von Videos als eine wertvolle Quelle für die automatisierte Videoindizierung in Video-Portalen oder digitalen Video-Bibliotheken verwendet werden. In dieser Arbeit werden sowohl Textlokalisierung als auch Texterkennungstechnologien für das Videobild thematisiert. Für die Textlokalisierung wurde ein neues Textdetektionssystem entwickelt. Zunächst identifiziert in diesem System ein auf Kanten basierender Multiskalen-Textdetektor potenzielle Textkandidaten mit einer hohen Recall-Rate. Dann werden alle detektierten Kandidaten durch einen Entropie-basierten Filter verfeinert. Schließlich werden auf Stroke Width Transformation (SWT) und Support Vector Machine (SVM) aufbauende Prüfverfahren angewendet, um die Fehlerquote zu reduzieren. In dem Texterkennungsschritt wurde ein neuartiges auf der Skelett basierendes Binarisierungsverfahren entwickelt, um gezielte Textpixel aus dem komplexen Hintergrund zu extrahieren. Dieser Prozess ergibt eine geeignete Eingabe für eine Standard Optical Character Recognition (OCR) Software. Der zweite Teil der Arbeit (cf. Kapitel 6) stellt mehrere neuartige Anwendungen auf Basis der Video Analyse Technologien vor. Die erste Anwendung ist eine semantische Video Suchmaschine. Dort kann durch die neuartigen Videoanalysetechniken auf den visuellen Inhalt des Videos zugegriffen werden. Außerdem sind die Analyseergebnisse die Grundlage für semantische Empfehlungen in der Sucheingabe. Die entwickelte Video OCR Software spielt eine Schlüsselrolle für das automatische Generieren der textuellen Metadaten in diesem System. In der zweiten Anwendung wurde eine effiziente Indizierung und Durchsuchung der Inhalte von Vorlesungsvideos in einem großen Vorlesung-Videoarchiv realisiert. Ein komplettes System für die strukturelle Segmentierung der Vorlesungsvideo, die Video OCR Analyse, die automatische Extraktion einer Gliederung aus den OCR-Transkripten, eine Schlüsselwortsuche und eine Videosuche unter Verwendung der OCR und Automatic Speech Recognition (ASR) Ergebnisse wurde entwickelt. Die Funktionsfähigkeit sowie die Genauigkeit der vorgeschlagenen Methoden wurden durch die Nutzung öffentlich zugänglicher Testdatensätze ausgewertet. Ein Nutzertest vervollständigt die Evaluation.
In the last decade digital libraries and web video portals have become more and more popular. The amount of video data available on the World Wide Web (WWW) is growing rapidly. According to the official statistic-report of the popular video portal YouTube more than 6 billion hours of video are watched each month and about 100 hours of video are uploaded every minute. Therefore, how to efficiently retrieve video data on the web or within large video archives has become a very important and challenging task. Text displayed in a video is an essential part of the high-level semantic information of the video content. Therefore, video text can be used as a valuable source for automated video indexing in video portals or digital video libraries. In this thesis, we address both text detection and recognition issues for video images. In the text detection, we have developed a new localization-verification scheme, in which an edge-based multi-scale text detector first identifies potential text candidates with high recall rate. Then detected candidate text lines are refined by using an image entropy-based filter. Finally, Stroke Width Transform (SWT)- and Support Vector Machine (SVM)-based verification procedures are applied to eliminate false alarms. Next, for text recognition, we have developed a novel skeleton-based binarization method in order to separate text from complex backgrounds to make it processible for standard Optical Character Recognition (OCR) software. The second part of the thesis (cf. Chapter 6) introduces several novel applications based on our proposed video analysis techniques. The first application is a semantic video search engine which applies the state-of-the-art video analysis techniques to search through the visual content of the video, and provides semantic entity-based search recommendations for the users. The proposed video OCR software is one of the most important parts for the automatic textual metadata generation in this system. The second application attempts to realize an efficient way of indexing lecture videos and exploring for them in a large lecture video archive. We have implemented an entire workflow for structural segmentation of lecture videos, video OCR analysis, automated lecture outline extraction from OCR transcripts, speech-to-text analysis, content-based keyword browsing and video search by using OCR and Automatic Speech Recognition (ASR) results Operability and accuracy of proposed methods have been evaluated using publicly available test data sets Furthermore, a user study completes the evaluation.