Conclusion - THESE POUR OBTENIR LE GRADE DE DOCTEUR DE L’UNIVERSITE DE TOURS

FIG. 2.3 – Evolution temporelle des mesuresd(envert), d⁰ (enrouge), etd⁰_cumul(enbleu) pour des séquences contenant des transitions brusques (à gauche) ou progressives (à droite) indiquées par les flèches.

Type de changement Rappel Précision Transitions brusques 100 % 100 % Transitions progressives 54 % 100 % Transitions quelconques 82 % 100 %

TAB. 2.2 – Qualité de la détection de changements de plans.

Finalement, nous avons évalué la complexité théorique de l’approche proposée en utilisant les notations introduites dans le chapitre 1. La mesure obtenue est égale àO(3P + 27B). Plus précisément, la réduction de l’image (dans le cas de données non compressées), le changement d’espace de représentation couleur, et le calcul de la mesured(I_t₁, I_t₂)requièrent respectivement 3P+ 3B,16B, et8Bopérations. Si l’on compare avec les différentes méthodes présentées dans l’état de l’art (chapitre 1, et plus particulièrement le tableau 1.1), la complexité obtenue ici est relativement faible pour un résultat pour le moins satisfaisant.

2.6 Conclusion

Dans ce chapitre, nous cherchions à résoudre le problème de la détection des changements de plans en considérant les contraintes décrites en page 3.

Afin de satisfaire la contrainteC_rapidité tout en considérant la contrainteC_couleur, nous avons proposé de diminuer la quantité de données à traiter, par réduction du nombre de pixels des images et du nombre de composantes couleur utilisées. Nous avons choisi effectivement de re-présenter les pixels par 2 paramètres de chrominance (les composantes T et S), ce qui permet de gérer efficacement la contrainteCillumination. La diminution du nombre de pixels des images est quant à elle indépendante de la nature des séquences vidéo, ce qui nous permet de gérer la

2.6. Conclusion 39 contrainteCcompression. L’aspectC_mouvement est important à prendre en compte car il peut générer un grand nombre d’erreurs lors de la détection. Pour considérer cette contrainte tout en limitant le taux d’erreur, nous avons introduit d’une part un seuil adaptatif, et d’autre part une façon ori-ginale d’utiliser les mesures de dissimilarité entre images. Plus précisément, nous nous basons sur l’étude des variations des mesures de dissimilarité et non sur les mesures elles-mêmes.

Une fois la séquence vidéo découpée en plans, il est alors possible d’étudier le contenu des images constituant le plan en question. Nous considérons l’arrière-plan de la scène et les objets en mouvement présents dans la scène. Nous nous proposons dans la partie suivante d’étudier l’arrière-plan de la scène.

Deuxième partie

Etude de l’arrière-plan de la scène

41 Après avoir segmenté une séquence vidéo en plans, chaque plan peut ensuite être analysé indépendamment des autres. Le contenu des différentes images peut être classé en deux parties décrivant la scène observée : l’arrière-plan et les objets en mouvement.

Dans cette partie, nous étudierons l’arrière-plan de la scène. Pour cela, nous proposerons tout d’abord (chapitre 3) de résoudre le problème de la séparation des objets et du fond (c’est-à-dire l’arrière-plan). Le résultat obtenu permet d’une part l’obtention des positions des objets dans l’image. D’autre part, l’analyse des images pour leur interprétation nécessite de mettre en évidence la structuration du fond qui permettra de se référencer dans l’espace. La structuration du fond sera abordée dans un second temps (chapitre 4). Elle permettra notamment un change-ment de repère des positions des objets depuis l’espace 2-D de l’image vers l’espace de la scène réelle.

Chapitre 3

Séparation des objets et du fond

Après la détection de changements de plans, il est possible d’étudier le contenu des images d’un plan. Cette étude peut concerner soit l’arrière-plan, soit les objets en mouvement présents dans la scène. L’étude de l’arrière-plan permet de résoudre différents problèmes. Parmi eux, celui de la séparation des objets et du fond sera abordé dans ce chapitre. Ce problème est posé dans de nombreuses applications, telles que le suivi d’objet, l’interprétation du contenu des images et des séquences d’images, ou encore la compression. En effet, la norme de compression MPEG-4 décrit une scène par les différents objets qui la composent et par son arrière-plan [Has98, Sik97, Zha95b].

Après avoir justifié l’importance de la séparation des objets et du fond, nous présenterons les approches traditionnellement utilisées pour résoudre ce problème. Deux types d’approches existent, selon l’état de la caméra effectuant l’acquisition (statique ou dynamique). Nous pro-poserons une approche multirésolution permettant de résoudre ce problème [Lef02i].

3.1 Problématique

La séparation du fond et des objets permet une meilleure interprétation du contenu des images. En effet, une fois la segmentation en deux parties (objets et fond) effectuée, il est alors possible d’analyser plus finement chacune de ces parties. D’une part, les pixels correspondant à l’arrière-plan peuvent être étudiés afin d’obtenir un modèle de l’espace, c’est-à-dire des in-formations permettant de générer un modèle de la structure de la scène ou de l’environnement.

D’autre part, les parties de l’image correspondant aux objets peuvent être traitées avec des al-gorithmes adéquats, comme les alal-gorithmes de suivi d’objet (c.f. partie III). Ces alal-gorithmes, même s’ils sont performants, nécessitent le plus souvent une étape d’initialisation des positions

3.1. Problématique 43 des objets dans la première image de la séquence (ou plus précisément du plan). Dans le cas d’un système automatique d’indexation de séquences vidéo, une saisie manuelle des positions initiales des objets par l’utilisateur est bien évidemment à proscrire. L’obtention automatique de ces positions est donc nécessaire. Elle peut être réalisée grâce à l’utilisation du résultat de la sé-paration du fond et des objets. C’est d’ailleurs l’utilisation principale de ce type d’algorithme : la séparation du fond et des objets permet l’initialisation des positions des objets dans la première image d’un plan, tandis que les positions dans les images suivantes sont obtenues par utilisation d’un algorithme de suivi d’objet. Nous nous limitons donc au cas où tous les objets sont présents dans la scène avant d’être suivis, et nous ne considérons pas les objets pouvant apparaître au cours du plan.

Le domaine (notéI) de définition des images d’une séquence vidéo peut être décomposé la plupart du temps en deux parties complémentaires : la scène ou l’environnement qui est repré-senté par l’arrière-plan, et les objets mobiles présents dans la scène. En notant Rle domaine occupé par les objets, nous pouvons définirR ={^IRle domaine occupé par l’arrière-plan de la scène.

La détection des objets et celle de l’arrière-plan sont donc deux problèmes complé-mentaires et il est possible de déterminer les pixels de l’image appartenant à l’une de ces deux parties par recherche des pixels de la partie complémentaire.

Dans le cadre de la détection d’événements dans des séquences vidéo, les images analysées présentent souvent un partitionnement non équitable de l’arrière-plan et des objets. En effet, l’arrière-plan occupe fréquemment une partie du champ de vision plus importante que les objets en mouvement présents dans la scène, ce qui se traduit par aire(R) aire(R). Cela permet une meilleure interprétation des actions effectuées par les différents objets dans leur environnement. Nous aborderons donc ici le problème de la séparation du fond et des objets dans ce type d’images. Les objets considérés ne doivent pas être prépondérants dans l’image.

Nous ne traiterons pas par exemple le cas des images de visage où le visage occupe quasiment toute l’image.

L’intégration d’une méthode de séparation du fond et des objets dans un système d’indexa-tion de séquences vidéo impose certaines contraintes. Ainsi, les images analysées seront des images couleur acquises avec une caméra qui peut être en mouvement et peut représenter des scènes soit d’intérieur soit d’extérieur. Dans ce dernier cas, les changements d’illumination sont fréquents, et la méthode devra donc être caractérisée par une certaine robustesse à ce type d’artefact. Finalement, l’exécution devra être effectuée en temps réel sur une architecture infor-matique standard, ce qui signifie que la complexité algorithmique de la méthode devra être rela-tivement faible. Nous considérons donc ici les contraintesC_rapidité,C_couleur,Cillumination,C_mouvement.

3.2. Approches classiques 44

Dans le document THESE POUR OBTENIR LE GRADE DE DOCTEUR DE L’UNIVERSITE DE TOURS (Page 48-54)