Environnement interactif pour l’hypervid´ eo

Dans le document The DART-Europe E-theses Portal (Page 74-79)

3.5 Environnement interactif pour l’hypervid´ eo

Dans cette section, je pr´esente deux applications que j’ai con¸cues et d´evelopp´ees pour r´ealiser un d´emonstrateur des tra-vaux de l’INRIA dans le domaine de l’analyse et la structuration de vid´eos.

Apr`es ma th`ese, j’ai ´et´e embauch´e comme ing´enieur-expert `a l’INRIA Rhˆones-Alpes dans le projet MOVI dirig´e par Roger Mohr, pour d´evelopper des applications afin de valoriser les travaux effectu´es dans le domaine de l’hypervid´eo au sein de l’INRIA Rhˆones-Alpes et l’´equipe Vista de l’IRISA/INRIA `a Rennes. Alcatel Alsthom Research `a Marcousis ´etait ´egalement partenaire du projet ainsi que L’Institut National de l’Audiovisuel. En 1999, le projet est `a la une de Inedit, la lettre d’information de l’INRIA (figure D.1page141).

L’hypervid´eo est la notion d’hypertexte associ´ee `a des s´equences vid´eo. Dans une hypervid´eo, on peut par exemple cliquer sur des objets qui ´evoluent dans l’image et obtenir des informations compl´ementaires ou ˆetre amen´e dans une autre vid´eo relative `a l’objet cliqu´e. L’hypervid´eo est un concept qui n’est pas encore arriv´e `a maturit´e et qui est encore largement du domaine de la recherche. Dans la majorit´e des cas, force est de constater qu’il n’est pas envisageable dans un futur proche d’avoir des traitements totalement automatis´es g´erant l’extraction, le suivi et l’indexation d’objets dans les vid´eos. Il est donc important du cˆot´e conception de d´evelopper des interfaces et outils interactifs d’´edition (authoring tools) permettant d’utiliser et de corriger manuellement les r´esultats obtenus avec les techniques actuelles.

D’un point de vue utilisateur, il est tout aussi capital de tirer partie au mieux de ces nouveaux supports d’information avec des interfaces adapt´ees pour la visualisation, la recherche d’information pr´ecise ou synth´etique et la navigation dans les vid´eos.

Dans ce projet, j’ai con¸cu et d´evelopp´e une architecture logicielle et deux applications graphiques. Les difficult´es techniques principales ´etaient les suivantes :

1. l’inter-op´erabilit´e : ex´ecuter de fa¸con transparente plusieurs traitements existants comportant cha-cun leur propre param´etrage, entr´ees/sorties et formats de donn´ees.

2. l’interactivit´e avec l’utilisateur : mettre `a disposition des outils de retouche graphique, un player vid´eo performant, comme il en existe beaucoup maintenant (mais ce projet a commenc´e en 1997 et date de 14 ans).

Par la suite, sous ma direction, ces applications ont ´et´e r´e-´ecrites en Java pour ˆetre ind´ependantes des biblioth`eques graphiques Ilog Views que j’avais pr´ec´edemment utilis´ees `a la demande de l’INRIA.

La premi`ere application (Videoprep) est destin´ee au concepteur de l’hyper-vid´eo. Elle utilise des traitements semi-automatiques pour donner une structure `a une vid´eo. Cette structuration est obtenue en 3 ´etapes : d´ecoupage en plans, extraction de zones d’int´erˆet et indexation. Chaque ´etape peut ˆetre suivie par une visualisation et ´edition des r´esultats en utilisant un lecteur de vid´eo et des outils graphiques [BMS+98,BBB+98b,BBB+98a,HM00,Ham02].

3.5.1 D´ ecoupage en plans

Apr`es une d´etection automatique des plans (cuts ou transitions), l’interface permet de visualiser chacun d’eux `a l’aide d’une imagette ainsi que le d´ecoupage de la vid´eo obtenu (figure D.2.a page142).

L’usage de la souris permet tr`es simplement de supprimer une rupture de plan ou une transition erron´ee ou de corriger avec pr´ecision (`a l’image pr`es) une transition erron´ee.

peut ˆetre associ´e `a l’objet : un nom et une description (figure D.2.b page142). Une action particuli`ere peut ˆetre attach´ee `a un objet et sera d´eclench´ee lorsque l’objet sera s´electionn´e par l’utilisateur : son, ex´ecution d’une autre application, connexion `a une page web, . . . Tout objet statique (i.e. appartenant au mouvement dominant) peut ˆetre d´etour´e manuellement ; le mouvement dominant ´etant connu, toutes les instances de cet objet peuvent ensuite ˆetre g´en´er´ees automatiquement tout au long du plan et tant que l’objet reste dans le champ, par compensation de mouvement.

3.5.3 Construction des classes d’objets

Le traitement automatique d’indexation permet ensuite de regrouper les objets en classes. Le but est de mettre dans une mˆeme classe des objets qui apparaissent dans des plans diff´erents mais qui partagent des caract´eristiques communes (points caract´eristiques, couleurs). L’interface affiche une classse par ligne, avec une imagette par objet. Les classes peuvent ˆetre modifi´ees par simple glisser/d´eposer des imagettes.

Comme pour les objets, on peut associer une action quelconque `a une classe (figureD.2.c page142).

3.5.4 L’interface de l’utilisateur final

La seconde application, VideoClic (figure D.2.d page142) est destin´ee `a l’utilisateur final et a pour but de montrer ce qu’il est possible de faire avec une vid´eo qui a ´et´e pr´ealablement structur´ee :

• Des imagettes (une par plan) r´esument la structure et le contenu de la vid´eo et donnent par un simple clic un acc`es direct `a une partie de la vid´eo.

• L’ensemble des classes (par exemple les personnages, les voitures, les produits commerciaux) peut ˆetre affich´e et donne `a l’utilisateur une id´ee du contenu s´emantique de la vid´eo. L’acc`es direct dans la vid´eo `a tout objet d’une classe se fait par simple clic sur son imagette.

• L’utilisateur peut visionner une vid´eo `a l’aide d’unplayerdot´e d’une interface de type magn´etoscope.

Un clic sur un objet pendant que la vid´eo se d´eroule ou est en mode pause affiche la description de l’objet et ex´ecute l’action ´eventuelle pr´ed´efinie.

• Des boutons particuliers permettent de naviguer dans la vid´eo, par exemple jouer tous les plans contenant l’objet s´electionn´e.

3.5.5 Conclusion

Ce travail men´e `a l’INRIA a ´et´e pr´ecurseur dans son domaine. Il a ouvert la voie `a plusieurs applications industrielles et a montr´e quels ´etaient les ´el´ements essentiels pour obtenir un outil fonctionnel et ´evolutif :

• la mise en commun des r´esultats de recherche de diff´erents bords,

• le d´ecoupage en deux applications : unauthoring toolet unplayer,

• l’ind´ependance entre le flux vid´eo et l’information ajout´ee,

• l’ind´ependance entre les traitements et l’interface utilisateur,

• des interfaces graphiques ´evolu´ees,

• des outils interactifs pour l’´edition des r´esultats.

Grˆace aux retomb´ees de ce travail, on a ´egalement compris qu’`a cette ´epoque (il y a 14 ans), le march´e n’´etait pas encore prˆet pour des vid´eos enrichies et donc pour les applications associ´ees. Mais en quelques ann´ees, l’`ere de la vid´eo num´erique et de la distribution `a la demande est arriv´ee et il semble certain que

3.5. ENVIRONNEMENT INTERACTIF POUR L’HYPERVID ´EO 69 de telles fonctionnalit´es sont sur le point de rencontrer un tr`es large public, et par l`a mˆeme, faire la part belle aux environnements de vid´eos interactives.

Chapitre 4

Extraction d’objets cl´ e dans les vid´ eos

Sommaire

4.1 Introduction : les pr´emices des objets vid´eos . . . 71 4.2 Extraction d’information cl´e . . . 72 4.3 Extraction d’objets en mouvement par pyramide locale . . . 74 4.4 Rejet des S-VOPs non pertinents. . . 75 4.5 Classification en deux ´etapes des S-VOPs. . . 77 4.6 Suppression des classes temporellement non significatives . . . 84 4.7 S´election de l’objet cl´e et des vues cl´es . . . 85 4.8 R´esultats . . . 87 4.9 Conclusion . . . 87

4.1 Introduction : les pr´ emices des objets vid´ eos

A

l’heure actuelle, il est possible de filmer ou de visualiser des vid´eos dans n’importe quelle circons-tance et `a n’importe quel endroit car les techniques associ´ees sont commun´ement int´egr´ees dans les syst`emes portables qui inondent le march´e. Ceci est rendu possible grˆace `a la combinaison de facteurs socio-culturels et technologiques : l’explosion de la production internationale de contenu vid´eo num´erique, la d´emocratisation des syst`emes num´eriques d’acquisitions (webcams, camescopes, appareils photos, t´el´ephones), la progression des techniques de compression, des d´ebits des r´eseaux de t´el´ecommunication et enfin la miniaturisation des moyens de stockage.

Les vid´eos (films, clips, bandes-annonces, publicit´es, informations, fˆetes de familles, souvenirs de va-cances, visiophone 3G), font partie int´egrante de notre quotidien. Le consommateur et l’utilisateur se retrouvent face `a une masse importante de donn´ees difficile `a g´erer et `a manipuler. Il est commun d’en-tendre ”trop d’informations tue l’information”. Cet adage ´ecul´e nous montre n´eanmoins qu’il est n´ecessaire et urgent de trouver des techniques efficaces pour structurer, synth´etiser, indexer, archiver, cataloguer, repr´esenter, interroger et parcourir ces vid´eos toujours plus nombreuses. Les chercheurs ont tout d’abord repr´esent´e le contenu des vid´eos avec des images caract´eristiques. D´esormais, je crois qu’il est indispen-sable de repr´esenter le contenu d’une vid´eo grˆace `a des objets repr´esentatifs. Par la suite, l’´etude du comportement de ces objets pourrait permettre `a la fois leur manipulation et une repr´esentation de haut niveau du contenu.

71

Dans le document The DART-Europe E-theses Portal (Page 74-79)