Materialien

Demonstratoren

SEMEX Screencast

Contentus Screencast


Face Detection/Clustering/Tracking

Aufgabe
Ziel ist es, eine Software zu entwickeln, die in einem Video zunächst Gesichter von Personen ausfindig macht. Anschließend sollen die detektierten Gesichter nach den abgebildeten Identitäten (Personen) gruppiert werden (Clustering). Für das extrahieren der Gesichter soll die OpenCV-Library verwendet werden. Die Implementierung muss auf Linux lauffähig sein. Für das Clustering können beliebige Librarys oder eigene Implementationen eingesetzt werden. Die Qualität des Algorithmus soll durch eine repräsentative Evaluation gemessen und optimiert werden.

Literatur
Detection mit OpenCV ist ausreichen dokumentiert im WWW: Google mich

Clustering
Koji YAMAMOTO, Osamu YAMAGUCHI, and Hisashi AOKI, "Fast face clustering based on shot similarity for browsing video", Progress in Informatics, No. 7, pp.53–62, (2010) PDF

S. Thilagamani, N. Shanthi, "A Survey on Image Segmentation Through Clustering", International Journal of Research and Reviews in Information Sciences Vol. 1, No. 1, March 2011 Paper

(Dies ist nur Einstiegsliteratur, natürlich sollen Sie selbst eine umfangreiche Recherche durchführen.)

Text Detection

Aufgabe
Die Aufgabe für das Seminarthema „Textlokalisation in Videos“ ist es, Bilder aus einem Videodatenstrom herauszufiltern die Text enthalten. Weiterhin soll die Region im Bild gekennzeichnet werden die Text enthält. Die Kennzeichnung der Textregion erfolgt üblicherweise durch eine Boundingbox, welche die Koordinaten im Bild beschreibt, wo Text vorkommt.

Materialien
Für die Umsetzung der Aufgabe sollte die frei erhältliche Programmbibliothek OpenCV genutzt werden. OpenCV beinhaltet zahlreiche Algorithmen für Bildverarbeitung und maschinelles Sehen.
Der Vorteil besteht darin, dass nicht alle „einfachen“ Algorithmen (z.B. Bilder aus einem Videodatenstrom extrahieren) selbst implementiert werden müssen. Das Endsystem soll unter Linux lauffähig sein und aus Performancegründen in C oder C++ geschrieben sein, da Video- und Bildverarbeitung sehr rechenintensiv sind. Die Analyse und Evaluation wird auf einen von uns zur Verfügung gestellen Datensatz durchgeführt.

Literatur
Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008

Weinman, J.J., Learned-Miller, E., Hanson, A.R.: „Scene text recognition using similarity and a lexicon with sparse belief propagation“ IEEE Trans. Pattern Anal. Mach. Intell. 31 (2009) 1733-1746 PDF

Yi-Feng Pan, Xinwen Hou, Cheng-Lin Liu, "Text Localization in Natural Scene Images Based on Conditional Random Field," Document Analysis and Recognition, International Conference on, pp. 6-10, 2009 10th International Conference on Document Analysis and Recognition, 2009 PDF

Anthimopoulos, M., Gatos, B. & Pratikakis, I. „A two-stage scheme for text detection in video
Images“ Image Vision Comput., Butterworth-Heinemann, 2010, Vol. 28, pp. 1413-1426 PDF

OCR Spellcorrection

Aufgabe
Der Spell Corrector Hunspell soll für OCR-Texte optimiert werden, so dass man damit in Videos erkannte Texte automatisch korrigieren kann. Dazu muss das Ranking der Verbesserungsvorschläge für typische Character-Recognition-Fehler angepasst werden. Dahingehend sollen verschiedene statistische Herangehensweisen untersucht werden. Einerseits können dafür Ähnlichkeiten von Zeichen und Zeichenkombinationen und andererseits typische Fehler bei der OCR von (gegebenen und selbst generierten) Textobjekten analysiert werden. In diesem Zusammenhang kann ein Tool zur Generierung der Konfiguration von Hunspell entstehen. Die Arbeit schließt mit einer Evaluation ab.

Literatur
How to Write a Spelling Corrector

Hunspell Manual

Kazem Taghva and Eric Stofsky: "OCRSpell: An Interactive Spelling Correction System for OCR Errors in Text", 2001

Padmanabhan Soundararajan, Matthew Boonstra, Vasant Manohar, Valentina Korzhova, Dmitry Goldgof, Rangachar Kasturi, Shubha Prasad, Harish Raju, Rachel Bowers, and John Garofolo: "Evaluation Framework for Video OCR", 2006

Stephen V. Rice, and Thomas A. Nartker: "The ISRI Analytic Tools for OCR Evaluation", 1996

Wikipedia Article: "Edit Distance"


Genre Detection

Aufgabe
Videosegmente sollen nach unterschiedlichen Genre-Klassen 
(Tag, Nacht, Innenraum, Außen, Grafik, Vor-/Abspann, Interview, Vortrag/Rede, etc.) klassifiziert werden. Initial müssen Low-Level-Features auf Einzelbildern bestimmt und
 automatisch extrahiert werden (z.B.: Helligkeitsverteilung,
 Farbspektrum, Farbverteilung, ...). Zur Implementierung sollte auf die OpenCV-Bibliothek zurückgegriffen werden. Aus vorhandenen Videos müssen Segment-Kollektionen für die gewünschten Genres erstellt werden. Mithilfe maschineller Lernverfahren soll ein Klassifikator trainiert werden und auf diesem Testset optimiert und evaluiert werden.

Literatur
Stephan Fischer, Rainer Lienhart, and Wolfgang Effelsberg: "Automatic Recognition of Film Genres", 1995

Martin Szummer, and Rosalind W. Picard: "Indoor-Outdoor Image Classification", 1998

Tzvetanka Ianeva: PhD Thesis "Detecting cartoons: a case study in automatic video-genre classification", 2003

Pedro Quelhas, Florent Monay, Jean-Marc Odobez, Daniel Gatica-Perez, and Tinne Tuytelaars: "A Thousand Words in a Scene", 2007

Audio Data Mining

Aufgabe
Ziel ist es, den Audiostrom eines Videos bezüglich verschiedener 'Ereignisse' zu untersuchen. Ereignisse können sein: Sprache, Musik, Stille, Schreien, Lachen, Explosionen/Schüsse, Applaus, Dialog, Monolog, Sprechgeschwindigkeit, Geschlecht des Sprechenden, Rhythmische Geräusche, uvm. Für die einzelnen Ereignisse müssen deskriptive Eigenschaften (Features) festgelegt und extrahiert werden. Analytische Verfahren und maschinelle Lernverfahren sollen zur Klassifikation eingesetzt werden. Die Implementierung muss auf Linux lauffähig sein. Die Qualität des Algorithmus soll durch eine representative Evaluation gemessen und optimiert werden.

Literatur
Joke-o-mat

G. Friedland, L. Gottlieb, A. Janin: Using Artistic Markers and Speaker Identification for Narrative-Theme Navigation of Seinfeld Episodes, Workshop on Content-Based Audio/Video Analysis for Novel TV Services, Proceedings of the 11th IEEE International Symposium on Multimedia (ISM09), pp. 511-516. PDF

Jose Portelo, Miguel Bugalho, Isabel Trancoso, Joao Neto, Alberto Abad, Antonio Serralheiro, "Non-speech audio event detection," Acoustics, Speech, and Signal Processing, IEEE International Conference on, pp. 1973-1976, 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, 2009 Paper

Google mich
Google mich auch

Generell findet man viele Ressourcen auch bei:
http://www.citeulike.org/
http://www.bibsonomy.org/
http://scholar.google.com/

Referenzdaten und -systeme findet man u.a. bei der TREC Video Retrieval Evaluation