• Aucun résultat trouvé

Détection des noms de personnes dans les

Extraction des noms écrits dans les vidéos

3.4 Détection des noms de personnes dans les

transcriptions du texte (corpus REPERE)

3.4.1 Détection des noms de personnes

A partir des transcriptions obtenues avec LOOV, nous utilisons une simple technique de détection des positions spatiales des cartouches. Cette technique compare chaque transcription avec une liste de 175000 noms de personnes cé-lèbres, groupes de musique, personnages de fiction, etc. Nous avons constitué cette liste à partir d’une sélection des pages du site Wikipedia. La sélection a été effectuée en fonction des tags liés aux pages.

A chaque fois qu’une transcription correspond à un nom, nous ajoutons sa position spatiale à une liste. Les positions récurrentes dans cette liste nous per-mettent de déduire les positions spatiales des cartouches utilisés par l’émission pour introduire une personne.

Les boîtes de texte détectées à ces positions spatiales récurrentes ne contiennent pas toujours un nom. Un simple filtrage basé sur quelques règles linguistiques

(est-ce que le premier mot est un prénom, est-ce que c’est un nom célèbre, de combien de mots la transcription est-elle composée, etc) nous permet de suppri-mer les transcriptions ne contenant pas qu’un nom. Sur les 58h de l’ensemble d’apprentissage de la phase 1 du corpus REPERE, on obtient 4779 boîtes de texte candidates, 1315 après filtrage, 11 qui n’auraient pas dû être filtrées, 13 qui auraient dû être filtrées.

Nous avons évalué la qualité de la détection des noms écrits à l’écran pour introduire la personne correspondante (tableau3.2). Ces résultats ont été calculés sur la plus grosse partie du corpus REPERE disponible, la partie apprentissage de la phase 1, mais aussi sur l’ensemble de test de cette phase.

Ensemble #Noms dans #Noms dans #Noms enla référence l’hypothèse commun Précision Rappel F1-mesure

Apprentissage 1378 1373 1352 98.5% 98.1% 98.3%

Test 186 179 178 99.4% 95.7% 97.5%

Tab.3.2 – Qualité de détection des noms écrits à l’écran sur le corpusREPERE, phase 1, partie apprentissage + test. Évaluation sur les images annotées à l’aide du protocole du défiREPERE

Une correction a été appliquée pour corriger les erreurs de transcription. Elle est basée sur la liste de 175000 noms de personnes célèbres. Lorsque le ratio de la distance d’édition (entre 0 et 1) entre une transcription et un nom est supérieur à 0.9, nous corrigeons le nom. Nous avons corrigé 207 noms avec seulement 4 corrections erronées sur l’ensemble d’apprentissage.

Pour l’ensemble de test, nous avons aussi utilisé la liste des personnes présentes dans la partie apprentissage de la phase 1. L’utilisation de ces noms issus du même corpus nous permet d’avoir quelques noms de présentateurs et journalistes cor-rectement orthographiés. On peut observer la très bonne qualité d’extraction des noms avec une très bonne précision de 98.5% et 99.5% avec un rappel de 98.3% et 95.7%. Les erreurs restantes sont principalement dues au filtrage et à une trans-cription erronée.

Les transcriptions (avant et après combinaison) et la liste des noms de per-sonnes détectées dans ces transcriptions sont disponible à l’adressehttp://mrim. imag.fr/johann.poignant/section téléchargement.

3.4.2 Identification des personnes basée sur les noms écrits

On utilise ensuite ces noms écrits pour identifier directement qui apparaît ou qui parle : c’est-à-dire qu’à chaque fois qu’un nom écrit a été détecté par cette méthode, nous avons considéré que la personne correspondante parlait et était visible à l’écran. On peut ainsi évaluer la capacité des noms écrits à identifier les personnes présentes dans les émissions de télévision.

La figure 3.14 montre la précision de l’identification avec les différentes er-reurs possibles, dans la partie apprentissage du corpus REPERE. Cette précision

Détection des noms de personnes dans les transcriptions du texte (corpusREPERE)87

Fig. 3.14 – Noms écrits pour l’identification des locuteurs et des visages, partie apprentissage, images annotées du Corpus REPERE.

est calculée sur les images annotées. Ce graphique nous permet de voir la très bonne précision obtenue si on utilise les noms écrits pour identifier les personnes présentes dans les vidéos d’émissions de télévision.

Dans notre corpus, il arrive régulièrement que deux noms soient écrits en même temps. Comme un seul des deux peut identifier le locuteur sur l’image uti-lisée pour l’évaluation, l’autre génère automatiquement une erreur (104 des 1315 noms hypothèses). Ceci nous donne une précision de 95% de bonne identification lorsqu’il n’y a qu’un seul nom écrit. Ces erreurs n’existent pas pour l’autre tâche puisque les deux noms sont bien utilisés pour identifier un visage visible.

30 erreurs proviennent de fausses alarmes. Une partie d’entre elles sont des erreurs du système d’extraction des noms. Pour l’autre partie, sur les images évaluées, le locuteur n’était pas en train de parler (il y a de fortes chances qu’il ai parlé avant ou après les images annotées).

23 erreurs sont dues à des confusions. Ces erreurs proviennent principalement des émissions de débat où les interlocuteurs se coupent souvent la parole.

L’identification du visage par les noms écrits induit moins d’erreurs de confu-sions. Cela est dû à la plus grande proximité entre ces deux modalités. En effet, l’ajout des noms écrits en post-production est plus souvent corrélé aux personnes apparaissant que parlant.

A l’aide de LOOV et de cette simple technique d’extraction des noms, nous avons une très bonne brique de base pour nommer les clusters de personnes dans les émissions de télévision. Cette modalité ayant très peu été utilisée avec succès dans l’état de l’art par rapport aux noms cités, une comparaison de ces deux modalités d’extraction des noms de personnes s’impose. Dans le chapitre suivant, nous allons donc comparer la capacité des noms écrits et des noms prononcés à proposer les noms des personnes présentes dans les vidéos.

Chapitre 4