Conclusions - Analyse en locuteurs de collections de documents multimédia

6.5 Conclusions

Dans ce chapitre, nous avons proposé une méthode d’adaptation itérative pour différents modèles de compensation de variabilité intra-locuteur/inter-document, dans le cadre de la SRL de collection. L’approche consiste à utiliser les classes-locuteurs produites par un système de SRL, entraîné sur un corpus d’un domaine source différent des collections cibles, pour adapter les paramètres de calcul de simi-larité entre i-vectors. La philosophie de l’approche est d’améliorer progressivement la qualité du regroupement inter-document au fil des itérations d’adaptation, en ex-ploitant la connaissance partielle de la variabilité intra-locuteur/inter-document des données cibles.

Différentes méthodes d’adaptation ont été proposées pour les modèles de com-pensation WCCN, PLDA et TR, et testées avec les méthodes de regroupement HAC ou CC sur deux collections d’une quarantaine d’épisodes. Ces différentes méthodes ont en commun le fait d’utiliser une pondération entre données sources et cibles pour adapter les modèles de compensation de variabilité, à l’aide d’un coefficient α. Cette pondération permet de doser la confiance à accorder aux données cibles, dont les classes-locuteurs peuvent contenir des erreurs, et aux données sources, annotées manuellement, mais qui ont l’inconvénient de ne pas être du même domaine que les données des collections qu’on cherche à traiter.

Les résultats montrent que l’approche proposée fonctionne et diminue le DER pour la majorité des conﬁgurations testées, à l’exception du système CC/PLDA. L’aspect itératif permet d’améliorer progressivement le DER inter-document dans certaines conﬁgurations (particulièrement celles utilisant le regroupement HAC), et en général, la baisse la plus importante est obtenue à la première itération. Le sys-tème de SRL étudié dépend d’un seuil λX pour le regroupement inter-document, et les résultats indiquent que pour les trois méthodes de compensation de varia-bilité, l’adaptation est robuste au choix du seuil, c’est-à-dire qu’elle peut apporter un gain même si le système de SRL initial ne donne pas les résultats optimaux. C’est un résultat important quand on sait que le choix du seuil peut varier selon le type de locuteur pour lequel on cherche à optimiser les performances. Les deux approches donnant les meilleurs résultats sont les approches d’adaptation de PLDA avec regroupement HAC et d’adaptation TR avec regroupement CC.

Chapitre 7

Taille des collections et adaptation

Résumé

Ce chapitre complète le précédent en posant la question de l’influence de la taille des collections sur l’optimalité des paramètres d’adaptation. Jusqu’ici, le système de SRL a été évalué sur deux collections d’une quarantaine de documents. A par-tir de sous-collections de différentes tailles, nous étudions l’optimalité des para-mètres d’adaptation des systèmes HAC/WCCN, HAC/PLDA et CC/TR. Les ré-sultats montrent une dépendance de l’optimalité du coefficient d’adaptation α à la taille de la collection traitée, pour les systèmes HAC/WCCN et HAC/PLDA. Ceci nous amène à proposer une formule paramétrique, afin de rendre le coefficient dé-pendant de la taille de la collection sur laquelle est réalisée ladite adaptation. La taille est exprimée en nombre de locuteurs récurrents. Nous définissons également le DER moyen pondéré, qui permet de rendre compte des performances de SRL sur l’ensemble des sous-collections d’une collection donnée. Les expériences montrent que si adapter sur des sous-collections de trop petite taille dégrade le DER, le choix d’une approche paramétrique peut éviter une telle dégradation.

7.1 Introduction

Dans les chapitres précédents, nous avons proposé une nouvelle méthode de com-pensation de variabilité intra-locuteur/inter-document, dite TR, pour le calcul des similarités entre segments-locuteurs (au chapitre 5). Nous avons également proposé une stratégie d’adaptation itérative, qui consiste à exploiter les données de la col-lection pour mettre à jour les modèles de compensation de variabilité et de réduire les taux d’erreur de SRL (au chapitre 6). La stratégie s’est révélée eﬃcace sur deux collections d’une quarantaine d’épisodes, en réduisant le DER inter-document.

Les résultats du chapitre précédent sont cependant incomplets, puisqu’ils ne traitent pas de la question de la taille des collections. Si les paramètres

tation optimaux ont été bien identifiés pour les trois méthodes de compensation de variabilité (WCCN, PLDA, TR), on n’a aucune certitude quant à leur efficacité pour traiter des collections d’une dizaine d’épisodes seulement, ou au contraire de plusieurs centaines. Or, les auteurs de [Garcia-Romero et al., 2014] ont montré que le coefficient optimal d’adaptation d’un modèle 2-covariance dépendait du nombre de locuteurs utilisés pour l’adaptation, sur la tâche de reconnaissance du locuteur.

Dans ce chapitre, nous abordons la problématique de l’influence de la taille d’une collection sur l’adaptation : faut-il en faire varier les paramètres, peut-on adapter sur de petites collections ? Au chapitre précédent, nous avons montré que l’adaptation au domaine pouvait améliorer les performances de SRL sur deux collections différentes. Les expériences ont été menées sur des collections de 42 et 45 documents, en utilisant un coefficient d’adaptation α fixé empiriquement. Nous allons maintenant étudier le passage à l’échelle de la méthode. En effet, si un α de 0.5 donne de bonnes performances pour environ 40 épisodes avec un regroupement HAC et la similarité PLDA, nous devons étudier si la taille de la collection a une influence sur le paramètre optimal. Par exemple, une petite collection ne peut contenir qu’un faible nombre de locuteurs récurrents, dont la contribution à l’adaptation des paramètres pourrait être mauvaise. Dans ce cas, il serait peut-être plus sage de donner plus de poids aux données d’apprentissage initiales qu’à un nombre limité de classes-locuteurs cibles. Les expériences d’adaptation du chapitre 6 ont montré des zones d’optimalité du coefficient d’adaptation α variables selon les méthodes de calcul de similarités : autour de 0.5 pour la PLDA, autour de 0.8 pour la WCCN et proche de 1 pour la similarité TR.

Dans le document Analyse en locuteurs de collections de documents multimédia (Page 130-133)