• Aucun résultat trouvé

Le fait d’imposer une contrainte sur la surface occupée par les images et les mots pénalise la sélection des images une fois que la surface disponible est insuff-isante pour supporter cette dernière. A part cette limite, cette contrainte n’influe pas directement sur le nombre des images et le nombre de mots obtenus à la fin de la construction du résumé. Tant que l’espace est disponible, le système sélectionne l’élément ayant la plus grande couverture sans aucune autre condi-tion. Cet élément peut être soit une image soit un mot, ceci ne dépendra que de la composition et la structuration originale du document multimédia traité.

Notre objectif à ce niveau de travail est de permettre à l’utilisateur de décider de la constitutionfinale du résumé que nous lui construisons, en d’autres termes, lui donner la possibilité de choisir un nombre fixe d’images et respectivement un nombre fixe de mots, qui seront combinés tous ensemble pour composer le résumé de taille globale désirée. Nous avons proposé pour réaliser ce but, une nouvelle variante de notre algorithme de création de résumés vidéo-textuels. Lors du processus de la création du résumé composé de NI images et NM mots et à chaque étape de sélection, nous vérifions le nombre de mots et celui des images sélectionnés jusque là. Si le nombre désiré est atteint dans un cas ou dans l’autre,

7.5. Gestion de la composition du résumé 173

nous négligeons cette classe d’éléments et nous ne la prenons plus en compte lors des prochaines sélections, c’est-à-dire, si nous avons déjà inséré dans le résumé en cours de construction NM mots, lors de nos prochaines sélections nous gardons le meilleur élément à condition qu’il soit une image et ainsi de suite jusqu’à ce que nous complétions notre résumé, et vice-versa si le nombre total des images NI est atteint en premier.

Dans le cadre du projet européen «Spation», nous souhaitons construire des résumés vidéo-textuels adaptés à des écrans de PDA. Nous considérons qu’un écran PDA comporte15 emplacements consacrés à l’affichage des différents élé-ments composant le résumé obtenu. Chaque emplacement correspond ou bien à une image ou bien à cinq mots. Ces emplacements sont organisés sous forme d’une matrice 5∗3. Chaque ligne peut contenir au maximum 3 images ou 15 mots et chaque colonne supporte au plus5 images ou25mots. Pour des raisons de représentation graphique et de design, nous avons décidé de construire des résumés vidéo-textuels où le nombre d’images est un multiple de 3 afin d’éviter le cas où une ligne de la matrice comportera simultanément des images et des mots. Nous mettons en place les images sélectionnées, ensuite nous complétons les emplacements libres par l’ensemble des mots choisis où chaque emplacement comprendra 5 mots. Pour chacune des six vidéos, nous construisons tous les résumés possibles en respectant cette contrainte de design. Les combinaisons possibles des résumés correspondant à chaque vidéo sont {(15images, 0mots), (12images, 15mots), (9images, 30mots), (6images, 45mots), (3images, 60mot), (0image, 75mots)}. Pour chaque combinaison, nous avons construit plusieurs résumés en utilisant diverses durées des extraits utilisés lors du calcul des cou-vertures conditionnelles des éléments composant le document multimédia pris en considération.

Lafigure ci-dessus représente un exemple de résumé vidéo-textuel créé pour le documentaire «Cooking» en utilisant des extraits de durée égale à 10 secondes.

Ce dernier est composé de9images et30mots. Afin de détecter la meilleure com-binaison possible pour chacun des documents multimédia pris en considération, nous comparons les performances des résumés construits pour le même document avec diverses constitutions de mots et d’images. Les combinaisons qui donnent les meilleures performances pour les six vidéos traitées ainsi que les performances

Just - Good

Figure 7.10: Résumé du documentaire «Cooking» composé de 9 images et 30 mots.

correspondantes sont reportées dont le tableau 7.6. Ces performances sont cal-culées en utilisant des extraits de durée égale à 10 secondes.

Andes to

M_C 3I/60M 9I/30M 3I/60M 9I/30M 9I/30M 3I/60M

Perf 72.88% 94.70% 89.28% 64.23% 72.84% 98.05%

Tableau 7.6: Les meilleures combinaisons ainsi que les performances correspon-dantes pour les différentes vidéos (d=10sec).

D’après ce tableau, nous remarquons que pour les six vidéos étudiés, les com-binaisons qui donnent les meilleures performances sont 3images et60mots ainsi que 9 images et 30 mots. Pour les deux films «Mission Impossible» et «Young Americans» ainsi que le documentaire «Predators» nous obtenons un résumé où 9emplacements sont occupés par des images contre6 emplacements pour les mots. Pour les deux autres documentaires et le journal télévisé, les mots occupent

7.5. Gestion de la composition du résumé 175

12emplacements contre 3 pour les images. Notons que ces résultats sont spéci-fiques et dépendent de la durée des extraits utilisés lors du calcul des couvertures conditionnelles dans la phase de sélection. Le tableau ci dessous 7.7 représente le même contenu que le tableau précédent mais cette fois-ci en utilisant des extraits de durée égale à 20 secondes. Nous remarquons que pour les deux films c’est toujours la combinaison de 9 images et30 mots qui donne les meilleures perfor-mances. Cependant pour les autres vidéos, les combinaisons ayant les meilleures performances ne sont plus les mêmes. De ce fait, nous ne pouvons assigner à chaque vidéo une combinaison qui lui soit vraiment adéquate, c’est-à-dire celle qui permet d’avoir la meilleure performance du résumé quelle que soit la durée d’extraits utilisée. En comparant les différentes combinaisons ainsi que les perfor-mances associées en utilisant différentes tailles des extraits, nous avons noté que la combinaison 9 images et 30 mots permet d’avoir souvent des résumés ayant de très bonnes performances même si ce n’est pas toujours la meilleure. Nous suggérons donc de garder cette représentation pour la construction de résumés combinés dédiés au PDA

M_C 6I/45M 12I/15M 12I/15M 9I/30M 9I/30M 9I/30M

Perf 92.49% 99.56% 97.64% 87.16% 89.90% 100%

Tableau 7.7: Les meilleures combinaisons ainsi que les performances correspon-dantes pour les différentes vidéos (d=20s).

Le schéma représenté dans la figure 7.11 résume les performances des dif-férents résumés créés en fonction de la combinaison Mots/Images considérée.

Ces performances sont calculées avec des extraits de durée égale à 20 secondes.

Nous observons sur le graphe que les performances les moins bonnes sont celles qui correspondent aux résumés composés uniquement de15 images sans aucune participation de mots. Ceci montre que par rapport à notre règle de décision la combinaison des deux médias améliore les performances des résumés créés.

Nous remarquons que pour les différentes combinaisons possibles les valeurs des performances sont assez proches et il n’y a pas de grand écart.

Figure 7.11: Performances des résumés en fonction de leurs constitutions (d = 20sec).