• Aucun résultat trouvé

Etat de l’art en reconnaissance du locuteur

supervisée.

Les travaux de ce chapitre sont dédiés à la deuxième approche. Dans les sections suivantes, nous commencerons par faire un état de l’art de l’adaptation au domaine pour la tâche de vérification du locuteur, comme c’est une problématique qui n’a jamais été abordée pour la tâche de SRL. Nous proposerons ensuite une stratégie d’adaptation itérative pour la SRL de collection, puis évaluerons la stratégie propo-sée sur les différents systèmes de SRL à l’état de l’art, à travers la mesure du DER et l’analyse en locuteur des résultats.

6.2 Etat de l’art en reconnaissance du locuteur

L’apprentissage d’un système de SRL à l’état de l’art requiert plusieurs di-zaines d’heures de parole annotées pour estimer la variabilité intra- et inter-locuteur. Lorsque qu’on ne dispose pas de suffisamment de données issues du domaine cible, la solution consiste à adapter des modèles appris sur des données du domaine source. Pour la tâche de vérification du locuteur, dans [Shum et al., 2014b], il a été mon-tré que le composant le plus important pour l’adaptation au domaine d’un système i-vector/PLDA est la PLDA. Par conséquent, nous allons principalement nous in-téresser aux méthodes d’adaptation au domaine agissant sur la covariance intra-classe [Glembek et al., 2014] ou la PLDA [Garcia-Romero and McCree, 2014; Shum et al., 2014b], en mentionnant que d’autres approches existent, se concentrant sur l’adaptation de l’espace de variabilité totale [Aronowitz, 2014; Chen et al., 2015; Kanagasundaram et al., 2015].

6.2.1 Adaptation de la covariance intra-classe

Dans [Glembek et al., 2014], les auteurs proposent une méthode d’adaptation de la covariance intra-locuteur. Le système de comparaison de locuteurs utilise le paradigme i-vector, combiné à une analyse discriminante linéaire (LDA) pour réduire le nombre de dimensions et à la PLDA pour le calcul de scores. Comme la LDA repose sur le calcul des covariances intra- et inter-classe, la proposition consiste à adapter la variabilité intra-locuteur en ajoutant la variabilité inter-domaine.

Wnew = W + αWBD (6.1)

Le facteur α permet d’exagérer la variabilité inter-domaine, qui ne dépend pas du locuteur, ce qui a pour effet de mieux la compenser lors de la LDA.

6.2.2 Adaptation de la PLDA

Deux méthodes pour l’adaptation de la PLDA sont présentées. Le choix de la méthode dépend de la quantité de données cibles disponibles pour réaliser l’adapta-tion.

6.2.2.1 Vraisemblance pondérée

L’idée principale de l’adaptation au domaine par vraisemblance pondérée (Weigh-ted Likelihood Domain Adaptation [Garcia-Romero and McCree, 2014]) est de dé-composer l’expression du maximum de vraisemblance pour l’apprentissage de la PLDA en la pondération de deux termes relatifs à chaque domaine. Cette méthode a l’avantage de fonctionner avec une faible quantité de données cibles. On note (φij) l’ensemble des ni i-vectors du locuteur i. La distribution conjointe des i-vectors est donc :

p((φij)|Γ, Λ) = N ((φij); 0, ˜Φ ˜ΦT + ˜Λ) (6.2) L’idée de l’adaptation est de décomposer l’expression maximum de vraisemblance pour introduire un coefficient de pondération α :

L(ΦΦT,Λ) = αLin(ΦΦT,Λ) + (1− α)Lout(ΦΦT,Λ) (6.3) Où Lk(ΦΦT,Λ) = 1 Nk Sk X s=1 nik X j=1 log(p((φij)|ΦΦT,Λ)) (6.4) Nk est le nombre d’i-vectors du domaine k and Sk est le nombre de locuteurs. L’avantage de la méthode est de pouvoir choisir le coefficient de pondération, qui quantifie l’influence des données cibles par rapport aux données sources lors de l’apprentissage. L’estimation des paramètres de la PLDA adaptée est similaire à la méthode classique, à ceci près que l’apprentissage se fait sur deux corpus en simultané, à l’aide du paramètre de pondération. A l’étape Espérance, on calcule la moyenne a posteriori E[hik] et la corrélation E[hikhT

ik] des variables locuteur cachées pour chaque corpus.

A l’étape Maximisation, les paramètres sont mis à jour selon :

Φnew = source X k=cible ˙ αk Sk X i=1 nik X j=1 φijkE[hik]T ! source X k=cible ˙ αk Sk X i=1 nikE[hikhTik] !−1 (6.5)

6.2. ETAT DE L’ART EN RECONNAISSANCE DU LOCUTEUR 93 Λnew = source X k=cible ˙ αk Sk X i=1 nik X j=1

ijkφTijk− ΦnewE[hik]φT ijk



(6.6) avec ˙αcible= α et ˙αsource= 1− α.

Dans la littérature [Garcia-Romero and McCree, 2014], les résultats montrent que la PLDA adaptée est plus efficace que la PLDA source, et que le taux d’égale erreur diminue à mesure que le nombre de locuteurs du domaine cible augmente. 6.2.2.2 Interpolation a posteriori

Quand le corpus cible contient suffisamment de données (nombre de sessions supérieur à la dimension des i-vectors), une approximation de la méthode précédente consiste à entraîner séparément les paramètres de la PLDA source et de la PLDA cible, avec l’algorithme EM, puis d’interpoler les matrices PLDA source et cible. L’avantage de cette méthode est que l’on n’a pas besoin de conserver les i-vectors du domaine source, seulement les matrices PLDA. La mise à jour des matrices se fait de la manière suivante :

ΦΦTf inal = α1ΦΦTin+ (1− α1)ΦΦTout (6.7) Λf inal = α2Λin+ (1− α2out (6.8) On peut déterminer α1 et α2 par recherche exhaustive, les deux paramètres pouvant ne pas être positionnés à la même valeur. Dans [Garcia-Romero and Mc-Cree, 2014], les résultats montrent que l’interpolation apporte un gain par rapport à l’utilisation de la PLDA source seule, et que la méthode donne des performances comparables à l’approche par vraisemblance pondérée.

6.2.3 Adaptation non supervisée

Dans certains cas, les i-vectors d’adaptation ne sont pas annotés en locuteurs [Khoury et al., 2014; Shum et al., 2014b; Villalba and Lleida, 2014], l’adaptation de la PLDA doit se faire de façon non supervisée, en utilisant une méthode de regroupement pour les étiqueter automatiquement. Par exemple, dans [Shum et al., 2014b], les paramètres de la PLDA source sont utilisés pour calculer des similarités entre les i-vectors cibles. La matrice des similarités permet ensuite de regrouper ces i-vectors en différentes classes-locuteurs, qui peuvent alors servir à estimer une PLDA adaptée par interpolation avec la PLDA source. Les résultats montrent que l’interpolation est la plus efficace lorsque le nombre de locuteurs est bas, car si celui-ci est suffisamment élevé, il est préférable de n’apprendre que la PLDA cible seule.

Dans [Khoury et al., 2014], l’approche est différente, elle consiste à progressi-vement regrouper les i-vectors, de façon hiérarchique, en mettant à jour le modèle de calcul de similarités au fil des regroupements. Une première étape consiste à regrouper faiblement les vecteurs en classes de petite taille, à l’aide de la simila-rité cosine. Les classes sont considérées pures. Ensuite, un modèle PLDA est appris sur ces petites classes, permettant de mettre à jour les similarités entre celles-ci et de décider le regroupement suivant à effectuer. Un nouveau modèle PLDA est es-timé de nouveau, de façon périodique, après un nombre de regroupements donné. Cette approche utilise uniquement les données cibles, et nécessite donc d’en avoir suffisamment à disposition pour estimer les modèles.

Les auteurs de [Villalba and Lleida, 2014], quant à eux, ont proposé d’utiliser une méthode de Bayes variationnel pour adapter la PLDA. Le principe, itératif, repose sur l’utilisation d’une variable latente pour caractériser les données d’adaptation (des i-vectors). En l’occurence, la variable latente représente le locuteur correspondant au i-vector. L’approche nécessite de spécifier (ou estimer) le nombre de locuteurs présents dans les données d’adaptation.

6.2.4 Quid de la SRL ?

Jusque récemment, l’adaptation au domaine était principalement étudiée pour la tâche de vérification de locuteurs, pour laquelle les enregistrements audios (télépho-niques, la plupart du temps) ne contiennent en général que la voix d’un locuteur, et où les conditions de variabilité de domaine sont clairement identifiées (prise de son téléphonique vs. microphonique). Les méthodes d’adaptation existantes visent à estimer une meilleure représentation de la variabilité d’une collection, qu’il s’agisse de la variabilité totale ou de la variabilité intra-locuteur. En général, l’adaptation se fait à partir d’un modèle ou de données sources, en utilisant les données de déve-loppement (du domaine cible). La Segmentation et le Regroupement en Locuteurs est une tâche plus difficile, où les enregistrements doivent d’abord être segmentés en locuteurs avant de regrouper les segments par locuteur.

Documents relatifs