• Aucun résultat trouvé

Dans les expériences que nous avons effectuées jusque là, les images et les mots étaient considérés à égalité sans aucune différence ou préférence lors de la sélec-tion. Nous ne pouvons apporter ni un jugement objectif ni une quantification réaliste de l’importance des images par rapport aux mots ou celle des mots par rapport aux images d’une manière générale. Par contre, il se manifeste claire-ment que l’espace d’affichage occupé par une image en pratique est d’usage plus important que celui utilisé par un mot et que cette relation d’espace peut être quantifiée en fonction des besoins et des préférences des utilisateurs ou en fonc-tion du dispositif d’affichage par exemple un écran de PDA, un écran d’ordinateur ou un écran de télévision. Dans le cadre du projet européen «Spation» à lequel

7.4. Gestion de l’espace d’affichage 169

notre équipe de recherche participe, notre tâche principale consiste à construire des résumés vidéo-textuels adaptés à des écran de PDA, voir la photo de lafigure 7.7. Ayant déjà un procédé de construction de résumés vidéo-textuels, notre ob-jectif est de trouver un consensus pour optimiser l’affichage des meilleurs éléments (mots/images) dans l’espace disponible.

Figure 7.7: Exemple d’affichage d’un résumé multimédia sur un écran de PDA.

Dans ce but, nous proposons le changement suivant par rapport à ce que nous avons présenté préalablement: «Au lieu que la taille du résumé en con-struction soit estimée en un nombre fixe d’éléments, elle dépendra plutôt de la surface d’affichage».Nous considérons la surface globale qui comportera le ré-sumé comme étant composée d’un regroupement d’un ensemble de surfaces élé-mentaires. Chacune de ces surfaces élémentaires correspond à l’espace que nous estimons indispensable pour l’affichage d’un mot. Nous faisons l’hypothèse que la surface nécessaire pour l’affichage d’une image est un multiple de la surface élémentaire. Dans ce cas defigure, notre algorithme de construction de résumés vidéo-textuels est très similaire au précédent avec la seule différence d’une con-trainte sur la surface disponible après l’ajout de chaque élément. C’est-à-dire, le processus de construction débute par un résumé vide et une surface totale libre.

Ensuite à chaque étape de sélection, il calcule les couvertures conditionnelles des

éléments (mots/images) non sélectionnés. Il les trie en fonction du rapport de leur couverture divisée par la surface disponible, puis il choisit le meilleur élément à insérer dans le résumé tel que la surface non utilisée le permet. Chaque fois qu’un élément est inséré dans le résumé, la surface libre diminue. Le taux de diminution dépend de la nature de l’élément rajouté (mot ou image), s’il s’agit d’un mot la surface totale non utilisée diminue d’une surface élémentaire, mais si c’est une image elle diminue d’un nombre multiple de la surface élémentaire.

Le rapport entre la surface occupée par un mot et celle occupée par une image est un paramètre dans notre processus de création qui répond aux besoins des utilisateurs.

Afin d’étudier les résultats de cette nouvelle variante de construction de ré-sumés vidéo-textuels où une contrainte d’espace d’affichage est imposée, nous réalisons plusieurs expériences. Pour chaque vidéo parmi les six étudiées, nous construisons divers résumés vidéo-textuels en utilisant différentes tailles d’espace global d’affichage (taille du résumé total exprimé en un nombre de surfaces élé-mentaires)10,15,20,25,30,35,40,50,60,75,100; différents rapports entre la sur-face d’un mot et celle d’une image (la sursur-face d’une image= [5 ou10]∗la surface d’un mot) ainsi que différentes durées pour les extraits utilisés lors du calcul des couvertures conditionnelles d= 5,10,15,20,25,30,40,60.

PEOPLE – POLICE – IRA – BOMB – JUST – TODAY BSE – SAID – HOSPITAL – BIRTHDAY

Figure 7.8: Résumé du JT de taille égale à 40, Surface(I) = 10*Surface(M), d= 5sec.

La figure 7.8 représente un résumé vidéo-textuel du journal télévisé de la

chaîne BBC. Ce résumé occupe quarante surfaces élémentaires, chaque image

7.4. Gestion de l’espace d’affichage 171

correspond à 10 surfaces élémentaires, tandis que chaque mot occupe une seule surface élémentaire. Lors du calcul des couvertures conditionnelles, nous avons utilisé des extraits de durée égale à 5 secondes. Ceci implique la présence de 5 images par extrait suite à la phase de sous-échantillonnage que nous avons effectuée au début du processus de construction. Cependant le nombre de mots inclus dans un extrait reste variable en fonction de la position de l’extrait sur l’axe du temps. La figure 7.9 représente un autre résumé de la même séquence vidéo construit cette fois-ci en utilisant des extraits de durée égale à15secondes.

La première remarque que nous pouvons faire en observant les deux résumés présentés dans lesfigure 7.8 et 7.9 est que le nombre d’images et de mots diffère selon la durée des extraits utilisés lors du calcul des couvertures conditionnelles.

Nous constatons que le résumé contient un nombre plus important de mots et moins d’images lorsque la durée des extraits utilisés a augmenté de5sec à10sec.

Nous avons noté, pour l’ensemble des résumés du document «JT de BBC»

de taille égale à40, que l’augmentation de la durée des extraits utilisés provoque la croissance du nombre de mots et la diminution du nombre d’images résul-tantes. Nous expliquons ce phénomène par le fait que la durée des extraits in-flue directement sur le nombre de mots pleins que contiennent tous les extraits possibles. Donc chaque fois que la durée augmente la probabilité d’obtenir des mots intégraux représentatifs, que nous considérons lors du calcul des couvertures conditionnelles des éléments composant le document multimédia (mots/images), augmente. Ceci est dû la plupart du temps à la croissance de la couverture condi-tionnelle de quelques mots qui se classent devant les images. Un deuxième point à signaler tient au fait que lorsqu’il reste moins de dix espaces élémentaires les im-ages ne peuvent plus être sélectionnées. C’est-à-dire que même si à la prochaine étape de sélection, c’est une image qui représente l’optimum local en fonction de sa couverture, cette dernière ne peut être prise en compte et systématiquement remplacée par le mot ayant la plus grande couverture vis-à-vis de l’ensemble des mots non sélectionnés encore à ce niveau de construction. Le même phénomène (augmentation du nombre de mots et diminution du nombre d’images en fonction de la durée des extraits) était enregistré pour la plupart des résumés construits pour l’ensemble des vidéos traitées.

PEOPL –SAID

Figure 7.9: Résumé du JT de taille égale à 40, Surface(I) = 10*Surface(M), d= 10sec.