Passer au contenu

/ Département d'informatique et de recherche opérationnelle

Je donne

Rechercher

Navigation secondaire

Prédoc III - Ohini Toffa : Recherche et indexation multimodale par audio, texture et mouvement dans les images fixes et séquence d’images

Titre : Recherche et indexation multimodale par audio, texture et mouvement dans les images fixes et séquence d’images
Lieu :
Local 3185, Pavillon André-Aisenstadt, Université de Montréal
Date : Jeudi 6 Septembre à 10h00

Jury : Pierre Bellec, Sébastien Roy et Max Mignotte

Résumé :

La présence d’appareils mobiles intelligents et de médias sociaux ont rendu disponibles des milliards d'images et de vidéos. La recherche et indexation par le contenu de ces données médiatiques en vue de les classifier ou d’en extraire des parties dignes d’intérêt s'est très vite imposée comme un besoin essentiel. Malheureusement, la plupart des algorithmes de classification se focalisent séparément sur le contenu visuel ou sur le contenu audio, jamais sur les deux conjointement. Nos travaux consistent à explorer la complémentarité que représente les caractéristiques audio par rapport aux caractéristiques de textures et de mouvements enfin d'obtenir des algorithmes plus performants. Dans un premier temps, nous généralisons un descripteur de textures d'image aux textures sonores et l'utilisons complémentairement à un descripteur de mouvement afin de classifier, intérroger et visualiser une base de données vidéos. Dans un second temps nous développons un modèle de sonification d'image de bas niveau en traduisant des textures d'images en sons facilement identifiables par les nons voyants. Les résultats préliminaires dans les deux cas montrent qu'il y a un avantage à combiner les deux types de caractéristiques. Dans le futur, nous allons nous intéresser à l'extraction de sons d'objets à l'intérieur de vidéos en utilisant notre algorithme de recherche multimodale afin de constituer une base de données audio qui servira de base au développement d'un système de sonification de moyen niveau d'images et de vidéos sans sons.

Abstract :

Smart mobile devices and social media made available billions of images and videos. More than ever, searching for and indexing the content of this media data in order to classify it or extract relevant parts have been mandatory. Unfortunately, most classification algorithms focus separately on visual content or audio content, rarely on both. Our work presents the complementarity of audio features with the features of textures and movement in order to obtain improved algorithms. First, we generalize a visual texture feature into audio feature and use it complementarily to a motion descriptor to classify, query and visualize a video database. Secondly, we develop a low-level image sonication system by translating textures of images into sounds easily identifiable by visually impaired people. Preliminary results in both cases show that there is an improvement to combine the two types of features. In the future, we will focus on extracting from videos, sounds of object using our multimodal search algorithm in order to build an audio database that will be used to develop a medium-level sonication system of images and videos without sounds.

 
Vous êtes cordialement invité.

Emplacement : 3185, Pavillon André-Aisenstadt, 2920, Chemin de la Tour, Montréal, Canada