• Aucun résultat trouvé

Devant l’importance des écarts de performance dus au changement de fichier d’ap-prentissage, il nous a semblé indispensable devérifier la stabilité du système.Que se passe-t-il si les fichiers d’apprentissage sont équivalents ?Pour cela, nous avons con-struits à partir des fichiers de 2 minutes et 30 secondes de trames sélectionnées du cor-pus BREF deux modèles différents en utilisant chacun des fichiers.Le premier modèle comporte toutes les trames impaires du fichier tandis que le second modèle comporte toutes les trames paires. Nous pouvons considérer que les informations utilisées pour construire les deux modèles sont équivalentes.

Comme précédemment, nous cherchons à déterminer quels sont les écarts maximum de performances que nous pouvons observer en fonction du modèle utilisé. Pour chaque locuteur, nous avons déterminé quel estle meilleur modèle entre celui construit avec les trames paires et celui construit avec les trames impaires. Nous avons effectué la même série de comparaisons en prenant les meilleurs fichiers puis les pires fichiers. Les fichiers tests des comparaisons sont ceux utilisés en4.6.2. Cette expérience a été menée avec les fichiers des sériesMinetMaxuniquement.

Le tableau4.7présente les EER dans chacune des conditions.

Genre Catégorie d’origine

TABLE 4.7 – EER obtenus en prenant une trame sur deux des fichiers Min et Max de BREF 2min30svs30s

Pour les hommes, lorsque les modèles sont construits à partir des fichiers de la série Min (EER = 1.0 lorsque l’intégralité des fichiers est utilisée), les meilleurs modèles obtiennent un EER de 2.1% tandis que les pires modèles obtiennent un EER de 3.2%.

Lorsque les modèles sont construits à partir de la sérieMax(EER = 5.8 lorsque l’inté-gralité des fichiers est utilisée), les meilleurs modèles obtiennent un EER de 2.7% tandis

que les pires obtiennent un EER de 3.2%.

Pour les femmes, lorsque les modèles sont construits à partir des fichiers de la sérieMin (EER = 0.9 lorsque l’intégralité des fichiers est utilisée), les meilleurs modèles obtien-nent un EER de 1.2% tandis que les pires modèles obtienobtien-nent un EER de 2.7%. Lorsque les modèles sont construits à partir de la sérieMax(EER= 6.0 lorsque l’intégralité des fichiers est utilisée), les meilleurs modèles obtiennent un EER de 1.2% tandis que les pires obtiennent un EER de 2.3%.

Que ce soit pour les hommes ou pour les femmes, nous observons un écart de perfor-mance de près d’un point d’EER alors que les modèles ont été construits à partir de jeux de données statistiquement équivalents. Lorsque l’on observe les distributions de scores obtenues (figure4.17), nous voyons bien qu’il existe une différence entre les séries. Cet écart est dû au système mais est largement plus faible que les écart de performance observés précédemment.

Il est par ailleurs étonnant que les performances de la sérieMaxsoient si proches de celles de la sérieMin. Une analyse de la composition trame à trame des jeux de don-nées utilisés pour l’apprentissage reste nécessaire pour mieux comprendre le com-portement du système, qui pourrait être du à la présence de quelques données très spécifiques.

FIGURE4.17 –Distribution des scores pour les modèles issus de la série Min des hommes de BREF 2min30svs30s en sélectionnant une trame sur 2

Synthèse du chapitre

Dans ce chapitre, nous avons montré les éléments suivants :

– Les systèmes de RAL, aussi bien fondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants(Pour NIST,VrIdento = 1.41 etVrALIZE/SpkDet = 1.47 et pour BREF,Vr = 3.11) selon le choix du fichier d’apprentissage utilisé pour chaque locuteur.

– La normalisation des scores n’a que peu d’effet sur les écarts de performance (1.41<VrNoNorm <1.47 etVrZTNorm=1.46).

– Ce phénomène est observé aussi bien sur une base de données où les enreg-istrements sonttrès contrôlésque sur de laparole conversationnelle: les varia-tions relatives dépendent de la base de données (Pour ALIZE/SpkDet,VrN IST = 1.47 etVrBREF =3.11).

Augmenter le nombre de trames utilisées pour l’apprentissage permet de dimin-uer les pires performances(Pour les hommes de BREF,EER30s=33% etEER2.5minutes = 5.3% pour les sériesMax) mais n’a que peu d’effet sur les meilleures performances (Pour les femmes de BREF,EER30s= 1.1% etEER2.5minutes = 0.9% pour les séries Min).

– La sensibilité d’un système comme ALIZE/SpkDet est d’un point de EER lorsque les données d’apprentissage sont similaires.

Troisième partie

Localisation, dans le flux de parole, des indices idiosyncratiques en vue

d’une prédiction de la performance

Chapitre 5

Le facteur locuteur comme source de variation

Résumé: Dans ce chapitre, nous présentons la méthode que nous avons adoptée afin de partir à la recherche du locuteur à travers différentes mesures acoustiques identifiées comme idiosyncratiques. Cette étude nous permet d’une part de mieux comprendre où se situent les indices pertinents pour discriminer les locuteurs et expose des critères pour distinguer un fichier donnant lieu à un modèle pertinent de celui conduisant à un modèle peu performant.

Sommaire

5.1 Questions . . . 137 5.2 Corpus . . . 138 5.2.1 Un corpus contrôlé . . . 138 5.2.2 Premières études sur un corpus conversationnel . . . 139 5.3 Indices étudiés . . . 140 5.4 Mesures . . . 140

5.1 Questions

Rechercher le locuteur dans un extrait de parole revient à comprendre comment la variation du signal peut être expliquée par le facteur locuteur en n’oubliant pas que d’autres contraintes influencent à la fois le locuteur et le signal de parolecomme sa culture, sa langue, sa situation sociale ou son état émotionnel. Il est d’autant plus

difficile de séparer les différentes contraintes que lesindices identifiés comme permet-tant de reconnaître le locuteur(cf. chapitre2.3) peuvent égalementservir à caractériser d’autres facteurs linguistiques ou para-linguistiques. La recherche du locuteur dans le signal de parole ne peut pas faire abstraction de ces éléments. Il est tout de même possible decontrôler certains éléments de variation afin de comprendre le rôle et la place du locuteur. L’identification des meilleurs indices pour repérer le locuteur dans cette situation donnée est alors envisageable.

Ce cadre étant posé, les trois questions auxquelles nous cherchons à répondre dans ce chapitre sont les suivantes.

– L’influence du locuteur sur l’indice et donc la pertinence de l’indice varie-t-elle en fonction des extraits de parole ?

– L’information sur le locuteur est-elle uniformément répartie dans le signal de pa-role ?

– Quelle part de variation peut alors être attribuée au locuteur ?