• Aucun résultat trouvé

Méthodes d’identification des personnes dans les flux télévisés

5.1 Identification non supervisée des locuteurs Pour l’identification des locuteurs sans l’aide de modèles biométriques, la

5.1.3 Nommage précoce ( NP )

Pour augmenter le rappel tout en gardant une bonne précision, il faut donc pouvoir poursuivre le regroupement en évitant de fusionner des clusters nom-més différemment. C’est pourquoi, l’intégration de l’information issue des noms pendant ce processus devient une évidence. Nous avons donc modifié le schéma d’association noms-clusters (voir figure 5.16) avec l’intégration des contraintes apportées par les noms pendant le processus de diarization.

Noms écrits

Association noms-clusters avec une minimisation de

l'erreur d'identification Regroupement en locuteurs

contraint

Fig. 5.16 – Nommage précoce

Nous avons profité du fait que lorsqu’un ou plusieurs noms sont écrits à l’écran, il y a une forte probabilité que le nom du locuteur courant corresponde à un des noms écrits à l’écran. Nous avons utilisé cette information pour à la fois nommer les clusters mais aussi contraindre le regroupement (empêcher la fusion de clusters nommés différemment).

Notre méthode de nommage précoce pour l’identification des locuteurs est découpée en quatre étapes :

Initialisation du regroupement: avant d’effectuer le regroupement des tours de parole en clusters de locuteur, nous avons créé des liens entre les deux modalités.

Contraintes sur le regroupement : au cours du regroupement hiérar-chique basé sur une matrice de similarité des tours de parole, nous avons empêché certaines fusions pour éviter d’avoir des tours de parole d’un même cluster avec des noms différents.

Mise à jour après chaque fusion : la fusion de deux clusters de parole peut changer les liens d’association entre les noms et les clusters. Il faut aussi recalculer les scores de similarité entre le nouveau cluster (créés par la fusion) et les autres clusters.

Association finale entre noms et clusters: l’association finale va choi-sir la meilleure association noms-clusters.

Initialisation du regroupement

Nous définissons d’abord l’ensemble des nomsN et des occurrences de noms O :

N = {a, b, . . . , n}

O = {oi} (5.6)

Ces deux ensembles sont reliés à l’aide de l’application h: O → N, définie par :

Identification non supervisée des locuteurs 113 Nous définissons aussi l’ensemble des tours de paroleT :

T ={t1, t2, . . . , tM} (5.8)

Le regroupement va fusionner des tours de parole en cluster, donc nous définissons l’ensembleG des clusters de tours de parole. Un cluster correspondant à un sous-ensemble deT. Comme avant le regroupement, il n’y a qu’un seul tour de parole par cluster, alors G correspond à l’ensemble des singletons de T :

G ={{t}, t∈ T } (5.9) Ensuite, nous allons créer des liens entre ces deux modalités avec la fonction f: G →P(O) avec P(O) l’ensemble des parties deO, définie par

f(g) ={o ∈ O |o co-occurre avecg} (5.10) Ce qui nous permet de diviser l’ensembleG des clusters en deux sous-ensembles :

K = {g ∈ G |f(gi)6={}}

U = G\K (5.11)

Il est important de préciser que, pour chaque élément deO, l’étiquette porte sur le segment de parole le plus co-occurrent avec le nom détecté. Donc chaque élé-ment de O correspond à un seul cluster alors qu’un cluster peut correspondre à plusieurs éléments deO.

Maintenant que des liens ont été créés entre les deux modalités, nous pouvons effectuer le regroupement hiérarchique des éléments de l’ensembleGà partir d’une matrice de similarité entre les tours de parole.

Le but de ce regroupement est de trouver les classes d’équivalence qui mini-misent l’erreur d’identification, mais aussi de réduire l’ensemble d’arrivée d’un cluster de parole g dans la fonction f à des occurrences du même nom :

card({h(o) | o∈f(g)}) = 1 (5.12) Contraintes sur le regroupement

Nous avons utilisé les liens entre les clusters de parole et les occurrences de noms pour contraindre ce regroupement. Ainsi, deux clustersg1 etg2 deK(donc des clusters déjà nommés) ne pourront pas fusionner si :

∄(o1 ∈f(g1), o2 ∈f(g2))| h(o1) =h(o2) (5.13) C’est-à-dire s’ils n’ont pas un nom en commun dans l’ensemble des noms avec lesquels ils co-occurrent.

Mise à jour après chaque fusion

A chaque itération du regroupement, la fusion de deux clustersg1 etg2 en un clusterg12va modifier la fonction qui relieG àO. Trois cas de figure se présentent quant à la fonction f :

• Les deux clusters appartiennent à K, alors :

f(g12) ={o1 ∈f(g1), o2 ∈f(g2) | h(o1) = h(o2)} (5.14) • Seulement le cluster g1 (respectivement g2) appartient à K alors

f(g12) =f(g1) (respectivement f(g12) =f(g2)) (5.15) • Aucun cluster n’appartient à K, alors la fonction f reste inchangée. Après chaque fusion, il faut recalculer le score de similarité entre le nouveau cluster g12 et tous les autres cluster g de G. Ce nouveau score correspond à la moyenne des scores de similarité entre les éléments de chaque cluster :

score(g12, g) =

P

t1∈g12,t2∈gscore(t1, t2)

card(g12)∗card(g) (5.16)

Exemple pour les contraintes et la mise à jour des ensembles

Prenons un exemple avec K = {g1, g2, g3, g4} et U = {g5, g6}. 3 noms sont affichés N ={a, b, c} aveca ={a1, a2, a3}, b={b1, b2}et c={c1}. a1 a2 b2 b1 Noms écrits g6 g1 g2 g3 g4 g5 Clusters t a3 c1

Une autre représentation est donnée ci-dessous avec les deux fonctionsf eth :

g1 g2 g3 g4 g5 g6 a1 a2 a3 b1 b2 c1 a b c 1 2 3 4

Les co-occurrences nous permettent de définir que :

Identification non supervisée des locuteurs 115 Des exemples de fusion des classes suivantes donnent comme résultat :

classes f :G →P(O) Ensembles K etU g5∪g6→g56 K={g1, g2, g3, g4} etU ={g56} g1∪g6→g16 f(g16) ={a1} K={g16, g2, g3, g4}etU ={g5} g2∪g6→g26 f(g26) ={a2, b1} K={g1, g26, g3, g4}etU ={g5} g1∪g2→g12 f(g12) ={a1, a2} K={g12, g3, g4}etU ={g5, g6} g1∪g3 Fusion interdite g3∪g4

Association finale entre noms et clusters

Lorsque que le critère d’arrêt est atteint, pour chacun des g de K qui n’ont qu’un seul nom associé (card({h(o) | o f(g)}) = 1), on nomme directement g par le nom. Pour les autres clusters appartenant à K, on sélectionne le nom qui a le meilleur score TF.IDF du cluster (voir section 5.1.1.3).

Dans les faits, sur le corpus REPERE, seule l’émission « Pile et face » utilise régulièrement l’affichage de deux noms simultanément, mais ces noms peuvent être affichés seuls à un autre moment de la vidéo. Donc, dans la majorité des cas, le regroupement va produire des clusters associés à un seul nom.

5.1.4 Comparaison des nommages tardifs (NT), intégrés