• Aucun résultat trouvé

composés d’images de la vidéo originale. On additionne ensuite les cou-vertures relatives des images appartenant à chaque ensemble, et on garde finalement l’ensemble ayant la couverture maximale.

En se basant sur cette idée, nous pouvons imaginer une application partic-ulière qui consiste à montrer un résumé vidéo d’un document multimédia à un utilisateur, puis à lui présenter un extrait tiré aléatoirement de la vidéo en ques-tion. On lui demandefinalement de deviner si cet extrait était tiré ou non de la vidéo dont le résumé lui a été présenté. Dans les chapitres suivants, nous présen-terons plusieurs méthodes pour construire les résumés optimaux par rapport à cette tâche de reconnaissance maximale, en fonction du ou des médias pris en considération.

Maintenant que nous avons présenté cette idée de façon intuitive, récapitulons et formalisons notre Principe de Reconnaissance Maximale.

3.3 Reconnaisance Maximale

Le résumé est un sous-ensemble du document original. Chaque sous-ensemble tiré du document original constitue un résumé potentiel, dont la qualité est aléatoire (elle peut être bonne ou mauvaise, en fonction de la tâche considérée).

Notre approche de création et d’évaluation de résumés vidéos est basée sur la tâche de reconnaissance. Dans ce cas, l’utilisateur est sollicité pour décider si le court extrait qui lui est présenté provient ou non de la séquence audio-visuelle originale dont il ne connaît que le résumé. La performance de l’utilisateur est définie comme le pourcentage de décisions correctes lorsqu’on considère tous les extraits possibles de la séquence originale. En d’autres termes, c’est le nombre d’extraits pour lesquels l’utilisateur devine correctement s’ils proviennent de la séquence vidéo correspondante au résumé qui lui est présenté, par rapport au nombre total d’extraits possibles. Nous dénommons cette tâche la Tâche de Reconnaissance (TR), et nous sélectionnons le résumé qui permet à l’utilisateur d’identifier et de reconnaître le plus grand nombre possible d’extraits. Le résumé optimal par rapport à la tâche définie est construit en fonction d’un Principe de Reconnaissance Maximale (PRM).

Ce principe peut être formalisé comme suit:

• Soit Dun document multimédia (une séquence audio-visuelle, un texte, un document audio, etc. . . ),

• Soit R un résumé (un sous-ensemble) deD,

• Soit E un extrait aléatoire (un sous-ensemble continu) du documentD, Nous faisons l’hypothèse que l’utilisateur U dispose d’une règle de décision d(E, R) qui lui permet de décider si un extrait E provient du même document que le résumé ou non (d= 1 pour oui ,d= 0 pour non),

La performance perf dans la TR est donc la valeur moyenne de d(E, R) à travers tous les extraits possibles ξ tirés du document D:

perf(R) =moyenne

Avec cette définition, le meilleur résumé, Rˆ par rapport au PRM est:

Rˆ = arg max

R

perf(R) (3.2)

Notons que cette approche dépend de la définition de la règle de décision d(E, R). Nous présenterons dans les chapitres suivants plusieurs exemples de règles de décision en fonction de l’application, qui utiliseront soit la vidéo, soit le texte, soit les deux.

L’avantage de cette approche réside dans le fait que la performance du résumé n’est pas seulement un nombre abstrait mais possède une interprétation intuitive et directe. La performance est la proportion des extraits de la vidéo originale reconnus par un utilisateur n’ayant connaissance que du résumé. Un bon ré-sumé va, bien entendu, permettre à l’utilisateur d’identifier un plus grand nom-bre d’extraits qu’un mauvais résumé. Cette approche fournit donc une mesure d’évaluation objective et significative de la qualité du résumé créé.

Le critère de performance étant défini, les chapitres suivants vont étudier précisément les procédures de construction du meilleur résumé possible. Si ces procédures s’avèreront trop coûteuses en temps de calcul, nous allons chercher à concevoir des méthodes de construction sous-optimales, mais moins complexes.

3.4. Conclusion 57

En pratique, certaines contraintes pour le calcul de la moyenne et du résumé op-timal en général devront être prises en compte. Nous poserons comme paramètre la durée des extraits qui seront considérés lors des expériences, et nous fixerons a priori ladurée du résumé (en terme de nombre d’images représentatives). Ceci permet de répondre au mieux aux besoins des utilisateurs, dont le temps de disponibilité et les exigences diffèrent de l’un à l’autre. Ces deux valeurs seront ainsi des paramètres, et nous étudierons leur influence dans les divers processus de construction automatique de résumés proposés dans la suite.

3.4 Conclusion

Après avoir présenté, dans ce chapitre, les diverses problématiques liées à la con-struction de résumés vidéos, nous avons proposé une nouvelle approche de créa-tion et d’évaluacréa-tion automatique de résumés vidéos. C’est dans ce courant d’idées que nous avons exposé notre principe de reconnaissance maximale (PRM) pour la construction de résumés basée sur une tâche de reconnaissance (TR). Cette dernière peut être utilisée pour plusieurs applications, et nous montrerons plus tard qu’elle s’applique à différents types de média. Le principe de construction de tels résumés est générique ; nous l’avons décrit en faisant apparaître l’importance d’une règle de décision. Dans la suite de ce travail, nous allons nous pencher sur plusieurs exemples de règles de décision, applicables à différents média (vidéo, texte, audio).

Chapitre 4

Construction de Résumés Vidéos

Dans ce chapitre, nous détaillons notre approche pour la création et l’évaluation automatique de résumés vidéo. Pour ceci, nous adaptons le principe de recon-naissance maximale (PRM) défini dans le chapitre précédent en utilisant à ce stade uniquement l’information visuelle. Nous formulons cette approche d’une manière mathématique, et nous montrons comment cette dernière nous permet de construire un résumé quasi optimal par rapport à la tâche définie.

4.1 Introduction

Plusieurs travaux ont déjà porté sur le problème de la construction automa-tique du résumé d’une seule vidéo à la fois [DDK00] [IL96] [SK97b] [DKAM96] . L’approche de base consiste à opérer une classification des images ou des segments vidéos, parfois après avoir effectué un découpage en plans. Ensuite, un critère de nature mathématique permet de sélectionner les segments les plus représen-tatifs pour constituer le résumé. Parmi ces critères, on trouve l’utilisation des fréquences d’apparition, mais aussi parfois des contraintes sur la disposition tem-porelle, des notions d’abscisse curviligne lorsque la vidéo est considérée comme une courbe, ou encore l’utilisation d’une décomposition en composantes prin-cipales. Quelques rares travaux combinent plusieurs sources d’information: la vidéo, ainsi que des éléments d’analyse du signal de la parole (bruits, musique,

59

identification des locuteurs, reconnaissance de la parole) et même parfois le con-tenu textuel des sous-titres [LPE97] [PLKE98] . Ce sont alors des règles parti-culières qui gèrent la combinaison de ces éléments pour l’identification des mo-ments importants. La construction automatique de bandes d’annonces de films est un exemple d’application de ces travaux [SK97a]. Par ailleurs, la plupart des approches actuelles souffrent d’un problème critique: l’évaluation de la qualité du résumé. Il est donc très délicat et très difficile d’apporter un jugement sur la performance et la qualité du résumé résultant. Même si cette dernière est cal-culée en utilisant un critère et une mesure mathématique, l’interprétation et la compréhension du sens restent très complexes.

Le début de ce chapitre présente l’application de notre principe de reconnais-sance maximale (PRM) à l’information visuelle. Nous y présentons d’une manière formelle notre méthode de construction et d’évaluation de résumé visuel d’une seule vidéo. Ensuite nous expliquons la fonction de similarité des images que nous avons adoptée afin de sélectionner une représentation des images et une distance de mesure de similarité adéquate et raisonnable pour l’accomplissement de notre expérimentation. Enfin, nous présentons et commentons (section 4) les différents résultats obtenus.