• Aucun résultat trouvé

2 données 'microscopiques' de

2.3 Détection et suivi de personnes

2.3.4 Evaluation des performances de l'approche proposée

2.3.4.1 Présentation des bases de données

Pour tester les performances du processus proposé pour le suivi multiple de per-sonnes, nous présentons une première étude expérimentale, menée sur deux bases de données, avec des conditions diérentes. La première est une base d'images intérieures alors que la seconde est une base d'images dans un environnement extérieure très varié :  CAVIAR [113] : Context Aware Vision using Image-based Active Recogni-tion. Il s'agit d'une large base de données d'images dans un centre commercial au Portugal intégrant plusieurs scénarios avec mono ou multi personnes mar-chant dans le couloir du centre. Nous avons utilisé le scénario de trois personnes, marchant ensemble, en vue frontal à la caméra et qui croisent un autre person-nage se déplaçant dans la direction inverse. Les vidéos utilisées sont réalisées à 25 images/seconde avec 384 × 288 pixels par image.

base de données est celle réalisée dans le cadre de cette thèse. Nous l'avons construite progressivement devant la diculté à trouver une base de données de traversée d'une rue avec les diérentes conditions et scénarios possibles qui peuvent être observées en situation écologique. Nous envisageons d'héberger cette base sur le Net et de la rendre accessible aux publics intéressés par la sécurité routière et l'analyse comportementale de piétons. Ces séquences vidéo sont réalisées à 25 images/seconde avec 720 × 576 pixels par image.

Dans CWV, deux sens de scénarios de suivi multiple de personnes ont été utili-sés : Le premier contient 2 piétons traversant le passage piétons dans la même direction et le deuxième contient 3 piétons avec 2 dans la même direction et le troisième dans la direction opposée. Notre base de données contient des si-tuations d'occlusion volontairement diciles, où des personnes ont été occultées par des véhicules ou par d'autres personnes. Les images sont issues de vidéo capturées dans un environnement extérieur avec des changements importants d'éclairage.

2.3.4.2 Protocole de tests

Par ces expérimentations, nous voulons déterminer les performances du processus de suivi, en termes d'association de la même identité à la bonne personne durant toute la séquence vidéo. Un numéro unique (1, 2, 3...) est associe initialement pour chaque personne, dès la première apparition dans la scène. Le résultat est dit correct, si le numéro associé à la personne reste le même tout au long de la séquence vidéo.

2.3.4.3 Résultats quantitatifs

Un processus idéal de suivi des objets multiples devrait, à tout moment, trouver le bon nombre d'objets présents dans la vidéo et estimer la position de chaque objet avec précision. Il doit également conserver une identité constante de chaque objet au cours du temps : chaque objet doit être aecté à une trajectoire unique qui reste constante tout au long de la séquence [114]. Ainsi, pour une évaluation quantitative, nous utiliserons les métriques fréquemment utilisées dans la littérature et proposées par [114], telles que :

 La abilité de suivi des objets multiple (Multi-Object Tracking Accu-racy : MOTA) Par cette métrique nous voulons quantier l'erreur moyenne. La valeur de MOTA se calcule par l'équation 2.3.

M OT A = 1 − P

i,t(fpt, mt, mmet)

P

tgt (2.3)

Avec des réponses négatives-positives 0fpt0 (tout autre objet qui est considéré

comme personne par erreur), des négatives-négatives 0m0t (toute personne non

détectée) et des erreurs d'association d'identité 0mme0t (toute position associée

à la mauvaise trajectoire) sur toutes les détections 0gt0 au frame0t0.

 La abilité de détection des objets multiple (Multi-Object Detection Accuracy : MODA) Par cette métrique nous voulons évaluer l'eet de la

technique d'interpolation sur les performances de détection. En eet, la valeur de

MODA est calculée en fonction des réponses négatives-positives 0fpt0 (tout autre

objet qui est considéré comme personne par erreur) et les négatives-négatives

0m0t (toute personne non détectée) pour chaque frame 0t0. La valeur de MODA

se calcule par l'équation 2.4.

M ODA = 1 − P

i,t(fpt, mt) P

tgt (2.4)

Avec des réponses négatives-positives 0fpt0 (toute autre objet qui est considéré

comme une personne par erreur) et les négatives-négatives 0m0t (toute personne

non détectée) pour chaque frame 0t0.

Les valeurs de MODA et MOTA calculées sur les deux bases de tests sont résumées dans le tableau 2.1.

Table 2.1  Résultats quantitatifs du processus proposé pour le suivi de personnes en termes de MODA et MOTA [111].

MODA (%) MOTA (%)

CAVIAR 73,74 55,33

CWV(scénario 1) 91,67 86,41

CWV(scénario 2) 92,06 85,56

Au regard du tableau 2.1, nous constatons en premier lieu des valeurs importantes du MODA. En eet, nous avons obtenu une précision de détection de 73, 74%, 91, 67 % et 92, 06 % respectivement pour la base CAVIAR et les deux scénarios de notre base de données. Ces valeurs montrent que notre processus d'interpolation basé sur la vitesse moyenne, contourne le problème de détections perdues à cause de l'occultation totale ou partielle.

Les performances de l'association sont illustrées par les valeurs importantes de

M OT A. En fait, dans une séquence de 114 images (scénario 1 de notre base de

don-nées), nous avons une valeur de MOT A de 86, 41 %, avec un nombre d'associations erronées qui est de 6 sur 114. Cela traduit la robustesse de notre processus de couplage basé sur la maximisation de la similarité des spatiogrammes de détections successives. 2.3.4.4 Résultats qualitatifs

Pour la visualisation des performances du processus proposé pour la détection de personnes, des extraits des bases d'évaluation CAVIAR (Figure 2.8 a), CWV séquence 1 (Figure 2.8 b) et 2 (Figure 2.8 c) sont présentés. Ces extraits sont des images res-pectivement du début, milieu et n des séquences pour visualiser l'évolution du suivi et l'association de la bonne identité à la bonne personne. Ces extraits montrent que les identités '1, 2 et 3' sont toujours associées à la même personne durant les diérents instants de la séquence vidéo.

Figure 2.8  Illustration de résultats de détection de personnes : a) Base CAVIAR, b) Base CWV séquence 1 et c) Base CWV séquence 2 [111].

Malgré les performances du spatiogramme en termes d'identication et de réiden-tication du bon objet cible durant plusieurs frames montrés, tant par la littérature que par les expérimentations présentées précédemment, ce descripteur peut générer des réponses négatives en nombre réduits (6 sur 114). En eet, à cause de la confu-sion d'identités, quelques positions de la première trajectoire (en bleu) peuvent être associées par erreur à la trajectoire 2 (en rouge) comme illustré par la gure 2.9 a).