Partie III : Systèmes automatiques
5 Détection de l’orientation de la tête
5.4 Evaluation et résultat sur le corpus ROMEO2
Figure 16 : intensité de rotation de la tête extraite par le système de détection visuelle
La Figure 16 représente les courbes d'intensité de la rotation de la tête extraite au fil du temps pour un sujet dans le corpus ROMEO2. La première courbe est calculée en utilisant les 3 détecteurs de visage, la seconde utilise seulement les deux détecteurs de Haar. La différence entre les deux courbes est très faible. Entre la troisième et la cinquième courbe, les 3 filtres mentionnés dans la sous-section « 5.3 Méthode » sont appliqués sur la première courbe d'intensité pour illustrer les performances du lissage. Nous pouvons constater que tous les filtres fonctionnent bien pour l'élimination du bruit. Les résultats obtenus après une application de différents filtres et l’utilisation de 2 ou 3 détecteurs de visage seront comparées plus tard pour tous les sujets. Pour l'exemple de la Figure 16, 0,5 pourrait être un bon seuil au niveau de l’intensité pour la détection de rotation de la tête. Les détections automatiques sont comparées à l'annotation manuelle pour l'évaluation (voir la sixième courbe dans la Figure 16). Pour les 24 segments vidéo extraits, les occurrences de rotation de la tête vers l'expérimentateur ont été annotés par un logiciel de édition de sous-titres et transformés en étiquettes d'image pour l’évaluation.
L'algorithme mentionné ci-dessus a été utilisé pour chacun des 24 segments vidéo pour trouver le seuil qui conduit à la meilleure performance de détection pour chaque
Université Paris-Saclay
Espace Technologique / Immeuble Discovery
Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France
84 segment. Le Tableau 19 montre une analyse des meilleures performances de détection au niveau des frames avec les seuils correspondants des 24 segments. Dans ce tableau, les résultats sont obtenus en utilisant les 3 détecteurs de visage, filtre Pascal et le meilleur seuil pour chaque segment. Comme nous pouvons le voir, la moyenne des seuils est de 0,44. La variance du seuil est de 0,13 et elle peut être due à un ou plusieurs facteurs tels que la position de l'expérimentateur, la résolution des images du visage, la variation de la luminosité, l'habitude de rotation de la tête du sujet et de la variabilité de la performance des détecteurs de visage pour les différents sujets. Le ratio moyen de bonne reconnaissance est d'environ 94,2% avec une précision moyenne de 84,2%, un rappel moyen de 88,1%, une F-mesure moyenne de 85,5% et un ratio d’erreur balancé (« Balanced Error Rate » en anglais) de 9,4%. Comme les bords temporels de la rotation de la tête sont difficiles à annoter précisément, la performance de détection peut être légèrement sous-estimée. De plus, comme le nombre de frame de rotation de la tête couvre seulement 23,8% du nombre de frame total, le nombre d’échantillons des classes positive et négative ne sont pas donc balancés, la précision de la détection ainsi que la F-mesure sont également sous-estimées.
Tableau 19 : Analyse des meilleures performances de détection au niveau de frame avec les seuils correspondants pour les 24 segments. BER signifie le ratio d’erreur balancé.
Unité : % Seuil reconnaissance Taux de bonne Précision Rappel F-‐mesure BER
Max 80,0 94,7 78,5 94,1 85,6 11,4
Min 20,0 95,1 73,7 65,6 69,4 14,7
Moyen 44,4 94,2 84,2 88,1 85,5 9,4
Ecart-‐type 12,8 3,5 11,5 11,7 9,7 2,6
Le Tableau 20 compare les performances moyennes de détection de l'ensemble des 24 segments vidéo suivant trois axes: le nombre de détecteurs utilisés (deux détecteurs de Haar ou tous les trois détecteurs de visage), le choix du filtre et le type de seuil (global ou par segment). Malgré une performance légèrement meilleure en utilisant les trois détecteurs de visage, la détection avec deux détecteurs de visage de Haar peut aider à réduire la charge de calculs. Ceci est un point important car le système de détection doit être embarqué sur un robot. Les trois filtres résultent tous en un bon lissage, il n'y a que de petites différences de performance. Quant à la F-mesure, les trois filtres ont presque le même résultat avec un léger avantage au filtre de moyenne des 5 dernières trames. Quand le système est appliqué à un sujet inconnu, un seuil commun de 0,5 devrait être envisagé. En utilisant cette valeur de seuil, les performances de détection diminuent d'environ 4% au niveau de la F-mesure et augmentent d’environ 1% au niveau de ratio d’erreur balancé. Le système final, qui utilise les deux détecteurs de visage de Haar et un filtre de moyenne des 10 dernières images et 0,5 comme valeur du seuil, atteint une performance au niveau de la trame de 93,0% en taux de bonne reconnaissance, 85,1% en précision, 81,4% en rappel, 81,5% en F-mesure et 9,9% en
Université Paris-Saclay
Espace Technologique / Immeuble Discovery
Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France
85 ratio d’erreur balancée. Le score de F-mesure est le même qu’avec la méthode des réseaux de neurones utilisée dans [68] et testée avec des adultes. Par contre, comme ce qui est mentionné, le nombre de trame de rotation de la tête couvre seulement 23,8% du nombre de trames total, la précision de la détection ainsi que la F-mesure du système sont également sous-estimées.
Tableau 20 : Evaluation de la performance de la détection visuelle de rotation de la tête aux trois niveaux. Le système final indépendant du sujet est marqué en couleur bleu.
(Unité : %) Tous les 3 détecteurs de visage Avec le meilleur seuil pour chaque segment
2 détecteurs de visage de Haar Filtre PF10 MF10 MF5 PF10 MF10 MF5 Taux de bonne
Reconnaissance 94,2 94,3 94,3 94,3 94,4 94,4 Précision 84,2 84,8 84,9 85,0 85,4 85,6 Rappel 88,1 87,7 87,8 87,9 87,5 87,6 F-‐mesure 85,5 85,6 85,7 85,8 85,8 85,9 BER 9,4 9,2 9,1 9,1 8,9 8,8 Seuil 0,5
Tous les 3 détecteurs de visage 2 détecteurs de visage de Haar Filtre PF10 MF10 MF5 PF10 MF10 MF5 Taux de bonne
Reconnaissance 92,9 93,0 93,0 92,9 93,0 93,0 Précision 83,9 84,7 84,1 84,6 85,1 84,8
Rappel 82,4 81,7 82,2 82,0 81,4 81,9
F-‐mesure 81,5 81,5 81,5 81,6 81,5 81,6
BER 10,4 10,1 10,3 10,2 9,9 10
L'évaluation précédente était au niveau de la trame. Afin d'évaluer le système de détection à un niveau supérieur comme l’évaluation au niveau de segment d’évènement, nous considérons une bonne détection si la majorité des trames dans un segment sont reconnues comme trames de rotation de la tête. Le Tableau 21 montre que 87,7% des segments de rotation de la tête annotés ont été bien détecté. Et peu importe à qui le sujet parle, le taux de détection atteint plus de 83%.
Tableau 21 : Evaluation segmentale de la détection de destinataire adressée
Evènement (fois) Nombre de rotation de tête annoté Détection automatique
Parler à l’expérimentateur 77 69 (89,6%)
Parler au robot 36 30 (83,3%)
Regarder ailleurs 1 1 (100%)
Total 114 100 (87,7%)
Dans l’expérience suivante réalisée avec l’annotation complète du corpus, le système est appliqué sur 23 sujets en raison de la perte d’annotation d’un sujet parmi les 24 sujets utilisé pour la première expérience. Le corpus complet utilisé pour l’expérience finale est composé d’environ 6,5 heures de données, la durée de rotation de la tête
Université Paris-Saclay
Espace Technologique / Immeuble Discovery
Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France
86 représentant 17,3% de la durée totale. La performance au niveau de la trame atteint 92,4% en taux de bonne reconnaissance, 75,3% en précision, 73,0% en rappel, 74,1% en F-mesure et 14,7% pour le ratio d’erreur balancée.