Nommage précoce ( NP ) - Identiﬁcation non supervisée des locuteurs Pour l’identiﬁcation des lo

Méthodes d’identiﬁcation des personnes dans les ﬂux télévisés

5.1 Identiﬁcation non supervisée des locuteurs Pour l’identiﬁcation des locuteurs sans l’aide de modèles biométriques, la

5.1.3 Nommage précoce ( NP )

Pour augmenter le rappel tout en gardant une bonne précision, il faut donc pouvoir poursuivre le regroupement en évitant de fusionner des clusters nom-més différemment. C’est pourquoi, l’intégration de l’information issue des noms pendant ce processus devient une évidence. Nous avons donc modifié le schéma d’association noms-clusters (voir figure 5.16) avec l’intégration des contraintes apportées par les noms pendant le processus de diarization.

Noms écrits

Association noms-clusters avec une minimisation de

l'erreur d'identification Regroupement en locuteurs

contraint

Fig. 5.16 – Nommage précoce

Nous avons proﬁté du fait que lorsqu’un ou plusieurs noms sont écrits à l’écran, il y a une forte probabilité que le nom du locuteur courant corresponde à un des noms écrits à l’écran. Nous avons utilisé cette information pour à la fois nommer les clusters mais aussi contraindre le regroupement (empêcher la fusion de clusters nommés diﬀéremment).

Notre méthode de nommage précoce pour l’identiﬁcation des locuteurs est découpée en quatre étapes :

• Initialisation du regroupement: avant d’eﬀectuer le regroupement des tours de parole en clusters de locuteur, nous avons créé des liens entre les deux modalités.

• Contraintes sur le regroupement : au cours du regroupement hiérar-chique basé sur une matrice de similarité des tours de parole, nous avons empêché certaines fusions pour éviter d’avoir des tours de parole d’un même cluster avec des noms diﬀérents.

• Mise à jour après chaque fusion : la fusion de deux clusters de parole peut changer les liens d’association entre les noms et les clusters. Il faut aussi recalculer les scores de similarité entre le nouveau cluster (créés par la fusion) et les autres clusters.

• Association ﬁnale entre noms et clusters: l’association ﬁnale va choi-sir la meilleure association noms-clusters.

Initialisation du regroupement

Nous déﬁnissons d’abord l’ensemble des nomsN et des occurrences de noms O :

N = {a, b, . . . , n}

O = {oi} (5.6)

Ces deux ensembles sont reliés à l’aide de l’application h: O → N, déﬁnie par :

Identification non supervisée des locuteurs 113 Nous déﬁnissons aussi l’ensemble des tours de paroleT :

T ={t1, t2, . . . , tM} (5.8)

Le regroupement va fusionner des tours de parole en cluster, donc nous déﬁnissons l’ensembleG des clusters de tours de parole. Un cluster correspondant à un sous-ensemble deT. Comme avant le regroupement, il n’y a qu’un seul tour de parole par cluster, alors G correspond à l’ensemble des singletons de T :

G ={{t}, t∈ T } (5.9) Ensuite, nous allons créer des liens entre ces deux modalités avec la fonction f: G →P(O) avec P(O) l’ensemble des parties deO, déﬁnie par

f(g) ={o ∈ O |o co-occurre avecg} (5.10) Ce qui nous permet de diviser l’ensembleG des clusters en deux sous-ensembles :

K = {g ∈ G |f(gi)6={∅_}}

U = G\K (5.11)

Il est important de préciser que, pour chaque élément deO, l’étiquette porte sur le segment de parole le plus co-occurrent avec le nom détecté. Donc chaque élé-ment de O correspond à un seul cluster alors qu’un cluster peut correspondre à plusieurs éléments deO.

Maintenant que des liens ont été créés entre les deux modalités, nous pouvons eﬀectuer le regroupement hiérarchique des éléments de l’ensembleGà partir d’une matrice de similarité entre les tours de parole.

Le but de ce regroupement est de trouver les classes d’équivalence qui mini-misent l’erreur d’identiﬁcation, mais aussi de réduire l’ensemble d’arrivée d’un cluster de parole g dans la fonction f à des occurrences du même nom :

card({h(o) | o∈f(g)}) = 1 (5.12) Contraintes sur le regroupement

Nous avons utilisé les liens entre les clusters de parole et les occurrences de noms pour contraindre ce regroupement. Ainsi, deux clustersg₁ etg₂ deK(donc des clusters déjà nommés) ne pourront pas fusionner si :

∄(o1 ∈f(g1), o2 ∈f(g2))| h(o1) =h(o2) (5.13) C’est-à-dire s’ils n’ont pas un nom en commun dans l’ensemble des noms avec lesquels ils co-occurrent.

Mise à jour après chaque fusion

A chaque itération du regroupement, la fusion de deux clustersg₁ etg₂ en un clusterg12va modiﬁer la fonction qui relieG àO. Trois cas de ﬁgure se présentent quant à la fonction f :

• Les deux clusters appartiennent à K, alors :

f(g12) ={o1 ∈f(g1), o2 ∈f(g2) | h(o1) = h(o2)} (5.14) • Seulement le cluster g1 (respectivement g2) appartient à K alors

f(g12) =f(g1) (respectivement f(g12) =f(g2)) (5.15) • Aucun cluster n’appartient à K, alors la fonction f reste inchangée. Après chaque fusion, il faut recalculer le score de similarité entre le nouveau cluster g12 et tous les autres cluster g de G. Ce nouveau score correspond à la moyenne des scores de similarité entre les éléments de chaque cluster :

score(g12, g) =

t1∈g12,t2∈gscore(t₁, t₂)

card(g12)∗card(g) ^(5.16)

Exemple pour les contraintes et la mise à jour des ensembles

Prenons un exemple avec K = {g1, g2, g3, g4} et U = {g5, g6}. 3 noms sont aﬃchés N ={a, b, c} aveca ={a1, a2, a3}, b={b1, b2}et c={c1}. a₁ a₂ b₂ b₁ Noms écrits g₆ g₁ g₂ g₃ g₄ g₅ Clusters t a₃ c₁

Une autre représentation est donnée ci-dessous avec les deux fonctionsf eth :

g₁ g₂ g₃ g₄ g₅ g₆ a₁ a₂ a₃ b₁ b₂ c₁ a b c 1 2 3 4

Les co-occurrences nous permettent de déﬁnir que :

Identification non supervisée des locuteurs 115 Des exemples de fusion des classes suivantes donnent comme résultat :

∪classes f :G →P(O) Ensembles K etU g₅∪g₆→g₅₆ K={g₁, g₂, g₃, g₄} etU ={g₅₆} g₁∪g₆→g₁₆ f(g₁₆) ={a₁} K={g₁₆, g₂, g₃, g₄}etU ={g₅} g₂∪g₆→g₂₆ f(g₂₆) ={a₂, b₁} K={g₁, g₂₆, g₃, g₄}etU ={g₅} g₁∪g₂→g₁₂ f(g₁₂) ={a₁, a₂} K={g₁₂, g₃, g₄}etU ={g₅, g₆} g₁∪g₃ Fusion interdite g₃∪g₄

Association ﬁnale entre noms et clusters

Lorsque que le critère d’arrêt est atteint, pour chacun des g de K qui n’ont qu’un seul nom associé (card({h(o) | o ∈ f(g)}) = 1), on nomme directement g par le nom. Pour les autres clusters appartenant à K, on sélectionne le nom qui a le meilleur score TF.IDF du cluster (voir section 5.1.1.3).

Dans les faits, sur le corpus REPERE, seule l’émission « Pile et face » utilise régulièrement l’aﬃchage de deux noms simultanément, mais ces noms peuvent être aﬃchés seuls à un autre moment de la vidéo. Donc, dans la majorité des cas, le regroupement va produire des clusters associés à un seul nom.

5.1.4 Comparaison des nommages tardifs (NT), intégrés

Dans le document Identification non-supervisée de personnes dans les flux télévisés (Page 117-121)