• Aucun résultat trouvé

3.3 Analyses expérimentales des points d’intérêt spatio-temporels

3.3.2 Détection de transitions

3.3.2.2 La méthode proposée

Dans [Laganièreet al., 2008], Laganière définit une fonction "activité" à partir du nombre de STIP détectés par image avec l’objectif de créer automatiquement un résumé vidéo. L’évo-lution temporelle de cette activité permet de détecter des informations intéressantes d’un point de vue sémantique. En particulier, les maxima temporels locaux de cette fonction d’activité sont généralement liés à des événements importants dans la séquence tels que les transitions (exemple des "dissolves" - figure 3.15) ou un changement entre deux phases d’un même mouvement.

Figure 3.15 —Exemples de transitions "dissolve" pour "Le moine et le poisson".

Nous avons repris cette mesure d’activité, et l’avons exploitée pour la détection de dif-férents types de transition. L’exploitation de la fonction "activité" requiert deux étapes :

1. Mesure du nombrea

(

t

)

de STIP par image (oùtreprésente le temps).

2. Lissage dea

(

t

)

par un filtre moyenneur. Le but est de lisser la fonction d’activité géné-ralement bruitée. La taille du filtre moyenneur est choisie en adéquation avec l’écart-type st de la gaussienne utilisée dans la détermination des STIP. A titre d’exemple, pourst

=

1, 5, ce qui correspond à une fenêtre temporelle de recherche des STIP de 11 images, on choisit un filtre moyenneur de taille 11. On noteaf ilt

(

t

)

la fonction d’activité filtrée.

Sur la figure 3.16, on peut voir l’évolution de af ilt

(

t

)

(courbe rouge) et les transitions réellement présentes (lignes vertes). Un certain nombre de transitions brutales ("cuts") présentes dans la séquence semblent correspondre à un pic de l’activité enregistrée. Les transitions plus lentes telles que les "fades" ou les "dissolves" correspondent à des configu-rations typiques de croissance ou de décroissance deaf ilt

(

t

)

.

Selon le type de transitions, l’exploitation de la fonction "activité" va donc être différente. Détection des "cuts"

Figure 3.16 —Transitions trouvées sur un passage du "Le moine et du poisson".

par un maximum local deaf ilt

(

t

)

satisfaisant à la condition suivante :

0.8

af ilt

(

t a

)

af ilt

(

t

)

0.8

af ilt

(

t

+

a

)

(3.11) oùaest la demi-taille du filtre moyenneur utilisé pour lisser la fonctiona

(

t

)

. Le coefficient 0.8 a été choisi de manière empirique après une première évaluation effectuée sur 250 plans (voir [Laganièreet al., 2008]).

La méthodologie utilisée consiste à chercher sur l’ensemble des images déjà traitées le maximum d’activitéa

(

t

)

et de fixer le seuil de détection de "cut" comme étant la moitié du maximum d’activité atteint. Cette recherche est réalisée dynamiquement, c’est à dire qu’à chaque image, si son activité est supérieure à la valeur maximale mémorisée au préalable, alors celle-ci est modifiée ainsi que le seuil de détection associé. La première apparition d’un "cut" permet d’établir une valeur satisfaisante de seuil et toutes détections précédant ce premier "cut" génèrent un faux positif. L’application d’un seuil adaptatif permet d’utiliser la méthode quelle que soit la résolution de l’image, le nombre de points et donc la valeur d’activité étant très dépendante de ce paramètre.

Détection des "fades"

Les "fade-out" et "fade-in" sont modélisés par une plage où l’activité est très faible. Pour détecter cette plage nous avons utilisé la méthodologie suivante :

On parcourt les images et on calcule la fonction d’activité. On détecte la valeur nulle si on ne trouve aucun point d’intérêt sur a images consécutives. Le critère de détection est donc très restrictif et convient bien pour les vidéos dont la résolution est plutôt petite et les vidéos les moins compressées (moins sujettes aux divers artefacts de compression). Dans le cadre général, on peut considérer avoir détecté la valeur nulle si on trouve moins d’une

dizaine de points par l’image suraimages consécutives.

Un "fade-out" est la zone précédant la plage de faible activité alors que le "fade-in" la suit. Dans les deux cas, il est important de noter qu’une absence de mouvement dans une image peut être considéré comme le passage à un "fade" par la méthode proposée. Dans le but de corriger ce problème, nous avons ajouté un critère de détection de "fade" : le passage à la couleur uniforme (en l’occurrence le noir, mais la méthode est généralisable à la notion de couleur uniforme dans l’image). On considère le passage à un "fade" lorsqu’on passe par une valeur d’activité nulle et une image présentant une couleur uniforme (écart-type de la couleur inférieur à 5).

Détection des "dissolves"

Les dissolves sont les transitions les plus difficiles à détecter. Comme les "cuts", ils peuvent être modélisés par un maximum local deaf ilt

(

t

)

, mais ce maximum est plus large et moins important que pour un "cut". La méthodologie utilisée est la suivante :

On effectue le calcul de l’activité en utilisant plusieurs a différents. Les valeurs de a utilisées sont supérieures à celle utilisée pour la détection des "cuts" et selon l’augmenta-tion, permettent de détecter des "dissolves" plus ou moins longs. Nous avons fixé deux seuils : adissolve court et le adissolve long définis respectivement comme arrondiimpair

(

2

a

)

etarrondiimpair

(

4

a

)

soit arrondiimpair

(

2

adissolve court

)

. De plus, afin d’éliminer les faux-positifs pouvant provenir de "cuts", on considère une détection valide si et seulement si, on n’a pas détecté une transition "cuts" à

±

aimages de la position courante.

On parcourt donc les images et on calcule af ilt

(

t

)

poura, adissolve court et adissolve long. Le seuil de détection est la moitié du maximum d’activité atteint par une transition "dissolve".

Critères de performances

Pour évaluer les performances obtenues dans la détection des transitions grâce aux STIP, nous avons classiquement utilisé laPrecisionet leRappel:

Precision

=

BD

BD

+

FD,Rappel

=

BD

NT (3.12)

oùBDest le nombre de bonnes détections,FDle nombre de fausses détections etNTest le nombre total de transitions dans la séquence. La vérité terrain a été obtenue manuellement. Dans le calcul de ces critères, nous avons introduit une tolérance vis-à-vis de la localisation temporelle des transitions. Pour ce qui concerne les "cuts", une transition est considérée détectée si le pic considéré est situé à

±

3images de la vérité terrain. En ce qui concerne les "fades" et les "dissolves", la tolérance est un peu plus large. La transition est considérée comme détectée si elle est située à

±

5imagesde la vérité terrain.