Regroupement en locuteurs dans les grandes bases de données (Clustering)

CHAPITRE 1 RECONNAISSANCE DU LOCUTEUR

1.3 Regroupement en locuteurs dans les grandes bases de données (Clustering)

1.3.1 Définition et utilité de la tâche

Le regroupement ou ce qu’on appelle souvent la classification automatique (clustering) est un problème traditionnellement connu dans plusieurs domaines, entre autres, dans la reconnaissance des formes et de l’apprentissage-machine. Dans un ensemble de données non étiquetées, l'objectif d’une tâche de regroupement est de relier les observations les plus proches en terme d’une métrique adoptée, et ce, afin de déterminer la structure intrinsèque de ces données. Cette tâche devient plus complexe lorsqu’on ignore le nombre et la forme des distributions des classes de l’ensemble de données à regrouper.

Dans le cas du traitement de la parole, le regroupement en locuteurs d’un ensemble de segments audio non étiquetés consiste à attribuer à chaque segment un identifiant correspondant à son locuteur émetteur. Il est à souligner que chaque segment audio est présumé contenir la parole d’un unique locuteur. Le regroupement en locuteurs peut être considéré comme un but en soi quand il s’agit par exemple du regroupement d’un ensemble des enregistrements dont chacun contient la parole d’un seul locuteur. Il est aussi considéré comme une sous-tâche dans le cas de la structuration en tours de parole d’un seul flux audio multilocuteur par exemple, et dans ce cas-là, une étape préalable de la segmentation de ce flux où chaque segment contient la parole d’un seul locuteur est indispensable. Les effets du

canal entre les segments à regrouper constituent la principale différence entre ces deux façons d’exploitation du regroupement en locuteurs. Dans le premier cas, chaque segment est considéré comme un enregistrement indépendant. Ce qui implique que les segments d’un même locuteur sont enregistrés sur différentes sessions, et ainsi, une variabilité indésirable complique la tâche de regroupement. Dans le cas de la structuration en tours de parole, le scénario est considérablement différent, du fait que tous les segments sont enregistrés lors d’une même session. Ainsi, les effets du canal dépendant du locuteur (le type du microphone ou du téléphone, le bruit du fond, le positionnement du locuteur par rapport au microphone, etc.) peuvent jouer un rôle positif dans la procédure de la distinction entre les locuteurs participants.

Le regroupement en locuteurs, qu’il soit pour les grandes corpora de données ou pour un seul flux (c.-à-d. la structuration en tours de parole), est une discipline substantielle du traitement de la parole. Il fournit une solution adéquate pour l’extraction des métadonnées afin d’étiqueter automatiquement un corpus de données. Ces données peuvent servir à l’adaptation non supervisée des modèles indépendants du locuteur dans le but d’améliorer leurs performances. Cette discipline peut ainsi servir à faciliter l’archivage, le stockage et la recherche dans les grandes bases de données audio.

1.3.2 Corpora de données et mesures d’évaluation

Le regroupement en locuteurs vise à assigner chaque segment à une classe (groupe) de façon que : 1) chaque groupe contient les segments d’un même locuteur, 2) tous les segments d’un même locuteur assignés au même groupe (voir Figure 1.5). En se basant sur ces deux concepts, deux mesures de performances d’un regroupement sont définies dans la littérature (Van Leeuwen, 2010), à savoir, l’impureté de classe (Ic) (Cluster Impurity) et l’impureté du locuteur (Is) (Speaker Impurity). Il est à noter que le mot « classe » dans Ic fait référence au groupe des segments assemblés par l’algorithme du regroupement et que le mot « locuteur » dans Is fait référence à la vraie identité du locuteur émetteur d’un ensemble de segments.

Afin de pouvoir fournir les formules mathématiques de ces deux mesures, nous devons définir les concepts suivants :

− : l’ensemble des classes hypothétiques fournies par l’algorithme de regroupement en locuteurs.

− : le vrai locuteur (référence) du segment j. − : la classe à laquelle le segment j était assigné. − : l’ensemble des segments émis par le locuteur k.

− : la fréquence d’occurrence des segments du locuteur référence k dans la classe hi, ces fréquences sont triées en ordre décroissant dans la classe hi.

− : est le nombre des segments de la classe hi. − : est le nombre total des segments à regrouper.

− : la fréquence d’apparition des segments du locuteur k dans la même classe hi,, ces fréquences sont ainsi triées en ordre décroissant pour chaque locuteur k. − : est le nombre des segments de la classe hi.

− : est le nombre total des segments à regrouper.

Les mesures d’impureté sont alors définies comme suit :

hi { }i=1..H R( j ) C( j) S_k f_ik_{= f}_k

(

R(h_i)

)

ni=



_kfik N_{= n}



_i _i_• gki= gi

(

C(Sk)

)

m_k_{= g}



_i _ki N=



kmk Locuteur 1 Locuteur 2 Ensemble de signaux audio, chacun contenant la parole d’un seul locuteur

Regroupement en locuteurs

− Impureté de classe :

(1.28)

− Impureté du locuteur :

(1.29)

Il faut noter que si chaque classe contient un seul segment (c.-à-d. le nombre des classes égales au nombre des segments) nous obtenons une impureté de classe nulle. En revanche, l’affectation de tous les segments à une seule classe engendre une impureté du locuteur nulle. Nous observons l’existence d’une relation inverse qui relie le couple d’impuretés (Ic, Is), ainsi, les performances optimales d’un système de regroupement sont exprimées en fonction d’un point de compromis entre les deux impuretés (i.e. Ic = Is). Une telle relation peut être considérée comme similaire à celle qui relie les deux types d’erreurs du système de la vérification du locuteur (FA, FR), donc, nous pouvons aussi adopter la courbe DET afin de mieux observer l’évolution du couple (Ic, Is).

1.3.2.1 Corpus de données

Au cours de ce travail, l’intérêt accordé à la tâche du regroupement en locuteurs est plus particulièrement un intérêt de validation dans le sens de vouloir tester l’efficacité d’un algorithme du regroupement en locuteurs. De ce fait, nous avons adopté le corpus des données téléphoniques fournies par NIST dans le cadre de sa campagne d’évaluation de la reconnaissance du locuteur en 2008. I_c=1− 1 N i fi1  I_s₌₁₋ 1 N k gk1



Dans le document 2014 — Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs (Page 55-59)