• Aucun résultat trouvé

Chapitre 3 Segmentation des actions dans une vidéo

3.5.1 Intégration des votes des pixels

À l’aide de la méthode décrite jusqu’à présent, nous caractérisons les transitions ayant lieu entre deux états stables d’un pixel (pour une valeur de “L” donnée). Du point de vue de ce pixel, nous considérons que l’existence d’une transition à un instant donné est susceptible de correspondre à une limite d’action dans la vidéo. Dans cette section, nous proposons un système visant à combiner les résultats obtenus sur tous les pixels sur l’ensemble des positions temporelles étudiées pour former une décision globale au niveau de la vidéo.

La position d’une transition, dans la SNC, entre deux Codewords stables indique la position probable d’une limite d’action. Mais, cette transition est généralement indirecte dans la mesure où des Codewords intermédiaires séparent le début de la fin de l’action (voir le cas III dans Tableau 1). Or, le plus souvent, les positions temporelles exactes du début et de la fin de l’action se trouvent au milieu de ces Codewords intermédiaires. Ce cas est présenté dans l’exemple 3.4.2.1, où les positions 14 à 18 séparent le Codeword 1 du Codeword 4. Les interventions sur la scène lors de cette phase sont cachées par l’opérateur (Figure 17 : image 2 et 3). Par contre, nous sommes sûrs qu’une modification persistante est effectuée sur l’arrière-plan après la trame 13 (le Codeword stable “1” n’apparait plus avant le nouveau Codeword stable “4”). Comme on l’a mentionné avant, nous choisissons de placer la transition à la dernière apparition du premier Codeword stable “1” (trame 13).

De point de vue de ce pixel, il existe une limite d’une action à la trame numéro 13. La séquence est transformée en “Vecteur des votes” identifiant la position des transitions observées sur un pixel.

0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Figure 23: Vecteur de votes.

Afin d’obtenir une décision globale au niveau de la vidéo, il suffit de calculer la somme des vecteur des votes de tous les pixels pour produire le “Vecteur global des Votes”. Dans ce vecteur, une valeur élevée informe sur la grande probabilité que la trame correspondante forme une limite d’une action (début ou fin).

Figure 24: Exemple d'un "Vecteur global des Votes" d’une video à trois actions. Les flèche indiquent les débuts et les fins des actions selon la vérité terrain.

Même en ayant restreint fortement notre champ d’étude aux seules actions qui produisent une modification persistante de l’environnement de l’utilisateur, celles-ci ne se traduisent visuellement pas toutes de la même manière, et par suite elles ne produisent pas le même résultat sur le vecteur global des votes comme l’illustre la Figure 20. Dans le but de rehausser le contraste entre les valeurs correspondant à des transitions et les autres, nous pouvons considérer que la durée des états stables situés de part et d’autre de la transition, sont des indicateurs de confiance. Ainsi, plus ces états stables sont longs, plus il est probable que le pixel concerné affiche un objet immobile dans l’environnement. Nous proposons d’intégrer cette hypothèse dans notre système sous la forme d’une pondération des votes.

Nous utilisons pour cela comme poids la durée minimale parmi les durées des deux Codewords stables situés de part et d’autre d’une transition. De cette manière, une transition entre deux Codewords stables de courte durée vote avec une faible valeur et inversement.

𝑉𝐺𝑉𝐿(𝑡) = ∑ ∑ 𝑉𝑉𝑃(𝑥, 𝑦, 𝑡)

𝑦 𝑥

Équation 1

où VVP est le vecteur de vote pondéré du pixel (x, y). VGVL est le vecteur global des votes obtenu en fonction du paramètre “L”

La pondération des vecteurs des votes en utilisant la durée minimale pose un problème pour les limites d’action situées aux extrémités de la vidéo (au début ou à la fin de la vidéo). Par exemple, une action qui commence juste au début de la vidéo est associée à un vote qui est petit, car le premier Codeword stable (couleur initiale) n’apparaît pas longtemps avant qu’il ne soit changé. Ceci rend la détection de cette

limite plus difficile. Nous ne traiterons pas ce problème dans notre travail en considérant que si une attention particulière devait être portée aux actions qui pourraient apparaître en début ou en fin d’enregistrement, nous pourrions aisément définir une pondération adaptée en fonction de la position possible de la limite dans la vidéo et de la valeur du paramètre L.

Exemple :

Soit la SNC suivante :

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

1 1 1 1 1 1 1 1 1 1 2 2 1 2 3 3 3 3 4 4 2 2 2 4 4 4 4 4 4 4 4 La SNC des Codewords stables est :

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

1 1 1 1 1 1 1 1 1 1 - - 1 - - - 4 4 - - - 4 4 4 4 4 4 4 4 Le vote reçoit pour poids le minimum (durée des “1”, durée des “4”) = minimum (10, 8)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

0 0 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Figure 25: Vecteur de vote pondéré de la même vidéo que celle de la Figure 24.

La Figure 25 reprend la courbe de la Figure 24 après pondération des votes. Les parties en rouges de la courbe représentent les positions des actions dans la vidéo issues de la vérité terrain. Les limites des actions sont clairement représentées par des

Pour montrer l’impact de la pondération, nous calculons la mesure suivante qui souligne les contrastes des pics correspondants aux actions, par rapport à la moyenne de la courbe.

Pour chaque vidéo “v”, nous calculons :

𝑀𝑣= moyenne

𝑝 ∈ 𝑃 ( 𝑉𝐺𝑉𝑣(𝑝) 𝑚𝑜𝑦𝑒𝑛𝑛𝑒(𝑉𝐺𝑉𝑣))

Équation 2

Où :

VGVv est le vecteur global de votes de la vidéo “v”,

P est l’ensemble des indices des pics dans VGVv,

p est l’indice du pic qui correspond à une limite d’action.

Ensuite, nous calculons la mesure suivante de contraste:

𝐶𝑜𝑛𝑡𝑟𝑎𝑠𝑡𝑒_𝑚𝑜𝑦𝑒𝑛 = moyenne

𝑣 ∈ 𝑉

(𝑀𝑣) Équation 3

Les valeurs calculées de cette mesure en utilisant le vecteur global de votes pondérés et celui sans pondération, sont :

Sans pondération Avec pondération

Contraste moyen 2.2052 2.7904

Tableau 2 : La mesure de contraste du vecteur global de vote sans/avec pondération.

Nous remarquons que la pondération a augmenté l’amplitude des pics qui correspondent à des limites d’action par rapport aux autres valeurs, ce qui les rend plus aisément détectables.

Documents relatifs