• Aucun résultat trouvé

Conclusions sur l’approche neuronale

inter-document. Sur les deux collections, le DER est minimal pour λX = −30, et on peut noter qu’à ce seuil le taux d’erreur pour chaque classe est très proche de son minimum (hormis pour les journalistes ponctuels de LCP, classe marginale dans la collection). Cet alignement des optima peut expliquer les DER particulièrement bons obtenus avec ce système de SRL (pour rappel, 13.4% pour BFM et 16.5% pour LCP).

5.6 Conclusions sur l’approche neuronale

Dans ce chapitre, nous avons proposé une nouvelle méthode de mesure de si-milarités entre i-vectors. Un réseau de neurones projette les i-vectors, de façon non linéaire, dans un espace qui optimise la séparation des classes-locuteurs du point de vue de la similarité cosine. Pour entraîner le réseau, on utilise la triplet loss, qui permet de focaliser l’apprentissage sur les exemples les plus difficiles. Les seuils de regroupement optimisant le DER dans le nouvel espace sont les mêmes que dans l’espace de variabilité totale initial, avec la similarité cosine et un regroupement CC. Comme le nombre d’exemples d’apprentissage est relativement faible, seulement 3 triplets par classe-locuteur sont utilisés à chaque époque, et certaines classes arrêtent de contribuer à l’apprentissage après quelques époques.

Les performances de SRL sur les deux collections cibles montrent que l’approche proposée est compétitive avec les méthodes de calcul de similarités à l’état de l’art, telles que la PLDA, que ce soit en DER intra- ou inter-document. La principale dif-férence réside dans le nombre de paramètres du réseau de neurones à optimiser : ils sont bien plus nombreux que ceux de la PLDA et nécessitent donc beaucoup d’expé-riences d’apprentissage avant d’obtenir une configuration optimale. Cependant, une fois le réseau entraîné, le calcul de similarités est aussi rapide qu’avec la PLDA.

On a également remarqué que le choix du regroupement HAC était incompatible avec l’approche TR, qui doit donc être utilisé avec un regroupement CC pour être optimal. C’est une différence notable avec la PLDA, qui fonctionne mieux avec un regroupement HAC. Or le regroupement HAC est conservatif et donc moins sensible aux erreurs que le regroupement CC, associatif, ce qui constitue un avantage pour l’approche PLDA/HAC comparée à l’approche TR/CC.

Chaque système a donc ses avantages et ses inconvénients. Si la méthode TR/CC donne les meilleurs résultats, on pourrait lui préférer la méthode PLDA/HAC pour le caractère conservatif du regroupement et le faible nombre de paramètres à op-timiser pour l’apprentissage. Les résultats obtenus restent à être confirmés sur la tâche de reconnaissance du locuteur, où le nombre de locuteurs disponibles pour l’apprentissage est bien plus élevé (du millier à la centaine de milliers). Cependant, l’approche Triplet Ranking semble prometteuse pour les futurs systèmes de SRL.

Deuxième partie

Adaptation au domaine d’un système

de SRL

Chapitre 6

Adaptation au domaine

Résumé

Ce chapitre, qui constitue une des contributions de la thèse [Le Lan et al., 2016c], est consacré à la question de l’adaptation au domaine pour la SRL de collection. Après un état de l’art portant sur l’adaptation au domaine pour la tâche de recon-naissance du locuteur, nous proposons une stratégie d’adaptation pour la SRL de collection. L’idée sous-jacente est d’utiliser les classes-locuteurs produites par une première passe de SRL de collection pour mettre à jour les modèles de calcul de similarités. Ainsi, une nouvelle passe de regroupement inter-document peut être ef-fectuée avec des modèles mis à jour et adaptés à la collection traitée. Le processus, vertueux, peut être répété plusieurs fois pour alternativement améliorer les modèles et la qualité des classes-locuteurs produites. Nous proposons donc une méthode d’adap-tation itérative pour chaque type de compensation de variabilité (WCCN, PLDA, TR), en utilisant une pondération des données d’apprentissage initial et de la col-lection. Les évaluations montrent que le processus d’adaptation itérative permet de réduire le DER pour la majorité des configurations testées, et fonctionne particu-lièrement bien avec le regroupement HAC. De plus, il est robuste au choix du seuil de regroupement inter-document. L’analyse en locuteurs met en évidence le fait que le taux d’erreur nominal de plusieurs locuteurs ponctuels diminue lors de la pre-mière itération d’adaptation, tandis que les itérations supplémentaires permettent de réduire l’erreur des locuteurs récurrents.

6.1 Introduction

Dans la première partie, nous avons présenté notre système de SRL de collection à l’état de l’art (au chapitre 4), et avons proposé une nouvelle méthode de compen-sation neuronale de variabilité intra-locuteur/inter-document (TR) (au chapitre 5), qui s’est révélée plus performante que les approches classiques telles que la PLDA.

Quelle que soit la méthode de compensation de variabilité utilisée, on a pu noter un écart significatif de performances entre DER intra- et DER inter-document, pou-vant varier du simple au double. L’adaptation au domaine pourrait être un moyen de réduire cet écart.

Dans les applications classiques de reconnaissance vocale, des modèles acous-tiques sont estimés sur des données d’apprentissage, pour traiter des données cibles. Souvent, lorsque les données d’apprentissage et cibles ne sont pas du même domaine, les performances sur les données cibles sont dégradées : les modèles n’ont pas été appris pour ce type de données et fonctionnent mal. C’est le champ d’application de l’adaptation au domaine, qui vise à compenser la différence de conditions acoustiques entre domaine source et domaine cible. En général, un corpus de développement, du domaine cible, sert à adapter les modèles.

Pour les évaluations présentées dans ce manuscrit, nous ne disposons pas d’un tel corpus de développement puisque nous ne possédons que deux collections. Nous proposons donc d’utiliser directement les collections cibles pour l’adaptation. Ce n’est pas une contrainte étant donné la tâche à laquelle on s’intéresse : comme on considère les collections dans leur ensemble pour réaliser la SRL, on peut très bien les utiliser pour réaliser l’adaptation.

Un système de SRL de collection à l’état de l’art repose sur trois modèles néces-sitant un apprentissage supervisé, avec des niveaux de supervision (ie. d’annotation) différents selon les modèles :

• Le modèle du monde (GMM/UBM) requiert des segments de parole non bruitée pour être appris.

• La matrice de Variabilité Totale (TV) doit être entraînée sur des segments de parole contenant chacun la voix d’un seul locuteur.

• Les modèles de compensation de variabilité intra-locuteur/inter-document (WCCN, PLDA, TR) sont ceux nécessitant le plus haut niveau d’annota-tion : pour un grand nombre de locuteurs, on a besoin de plusieurs segments de parole ne contenant que leur voix, dans des environnements acoustiques variés.

Lorsqu’on veut effectuer un traitement de SRL sur une nouvelle collection, il y a trois possibilités :

1. Si la collection cible est acoustiquement et/ou structurellement proche du jeu d’entraînement disponible (par exemple de nouveaux épisodes d’une émission déjà présente dans le corpus d’apprentissage), on peut entraîner le système sur les données d’entraînement, de façon supervisée.

2. Lorsque les différences d’environnement acoustique sont importantes, on peut utiliser les données cibles (sans annotations) pour adapter les paramètres du système source, de manière non supervisée.

6.2. ETAT DE L’ART EN RECONNAISSANCE DU LOCUTEUR 91

Documents relatifs