• Aucun résultat trouvé

Conclusion sur la taille des collections

Dans cette partie, nous avons étudié l’influence de la taille des collections sur l’optimalité du paramètre d’adaptation α. Les expériences ont été menées sur les sous-collections de BFM et LCP, sur les systèmes HAC/WCCN, HAC/PLDA et CC/TR, en mesurant le DER moyen pondéré sur l’ensemble des sous-collections. Si pour le système CC/TR, l’optimalité du coefficient d’adaptation ne semble pas dépendre de la taille de la collection, nous avons mis en évidence cette dépendance

7.6. CONCLUSION SUR LA TAILLE DES COLLECTIONS 131 pour les deux autres systèmes.

Au vu des zones d’optimalité du coefficient d’adaptation selon la taille des sous-collections considérées, nous avons proposé une méthode paramétrique pour fixer ce coefficient, en le rendant dépendant du nombre de locuteurs récurrents de la sous-collection cible considérée. Les expériences montrent que si adapter sur des sous-collections de trop petite taille dégrade le DER, le choix d’une approche para-métrique peut éviter une telle dégradation.

La taille des collections considérées étant relativement faible (une quarantaine de documents), il faut rester prudent quant à la validité de l’approche paramétrique sur des collections bien plus importantes. Celle-ci reste à démontrer. On peut ce-pendant noter que les résultats de [Garcia-Romero and McCree, 2014], dont les tra-vaux portent sur l’adaptation de domaine en reconnaissance du locuteur, montrent également une dépendance du coefficient d’adaptation à la taille du corpus cible (exprimée en nombre de locuteurs). Si la méthode d’adaptation est différente (mo-dèle 2-covariance, Bayes variationnel) de celle utilisée dans ce manuscrit (PLDA, vraisemblance pondérée), le nombre de locuteurs maximal évalué est de 3790, soit un ordre de grandeur de plus que le nombre de locuteurs des collections cibles sur lesquelles nous réalisons nos expériences.

Chapitre 8

Adaptation incrémentale

Résumé

Ce dernier chapitre aborde la question de la SRL incrémentale de collection, qui consiste à traiter une collection dans l’ordre chronologique de diffusion, sans remettre en cause les résultats du traitement de documents passés. Nous y propo-sons une modification des méthodes de regroupement et d’adaptation au domaine, qui ont été pensées jusqu’ici dans une architecture de regroupement inter-document global. Les expériences sont notamment consacrées à l’étude des différences de per-formances entre systèmes à regroupement global et incrémental, pour les systèmes de SRL HAC/WCCN, HAC/PLDA et CC/TR. Elle permettent de mettre en évidence que le bénéfice des contributions principales de la thèse (adaptation au domaine, compensation neuronale de variabilité) reste valable quand on passe d’une architec-ture globale à incrémentale. Les résultats montrent que le système CC/TR est le plus performant pour la SRL incrémentale de collection, avec une dégradation des performances par rapport à la SRL globale de 1.5% de DER dans le pire des cas (en absolu). On constate également que l’adaptation au domaine permet d’améliorer les performances du système HAC/PLDA au point de talonner celles du réseau de neurones.

8.1 Introduction

Dans les chapitres précédents, nous avons travaillé avec un système de SRL basé sur une architecture de regroupement global. Ce type d’architecture est adéquat pour traiter des collections de taille fixée. Chaque document de la collection est d’abord traité séparément (SRL intra-document), puis quand tous les documents ont été segmentés et regroupés, on applique le regroupement inter-document global. Dans ce cadre, nous avons proposé une nouvelle méthode de compensation de variabilité intra-locuteur/inter-document, dite TR, pour le calcul des similarités entre i-vectors.

Nous avons également proposé une stratégie d’adaptation itérative, qui consiste à exploiter les données de la collection pour mettre à jour les modèles de compensation de variabilité et réduire les taux d’erreur de SRL. La stratégie s’est révélée efficace sur deux collections d’une quarantaine d’épisodes, dans le cadre d’un regroupement global.

Par ailleurs, dans certains contextes applicatifs, le système n’ingère pas une col-lection complète à un instant t, mais doit composer avec la temporalité des diffu-sions. Par exemple, on peut vouloir indexer la collection des épisodes d’un hebdo-madaire au fil de l’eau. Il s’agit alors d’indexer chaque nouvelle diffusion, compte tenu des diffusions précédentes, sans modifier l’indexation des mêmes diffusions pré-cédentes. C’est la problématique du regroupement incrémental, décrit à la section 3.4.3. A chaque nouveau document traité, ses classes-locuteurs sont regroupées avec les classes-locuteurs issues des regroupements passés. Ces classes-locuteurs passées ne peuvent pas fusionner, elle ne peuvent qu’agréger de nouveaux éléments.

Document C

Document A Document B Document D

Chronologie des documents

SRL SRL SRL SRL Regroupement Collection Indexée Intra-document Inter -document Regroupement Regroupement

Figure8.1 – Principe du regroupement incrémental pour la SRL de collection. Cette contrainte applicative amène un certain nombre de questions : comment évoluent les performances par rapport au regroupement global, peut-on adapter tout en traitant les collections de façon incrémentale ? Nous commencerons par discuter des stratégies de regroupement et d’adaptation dans le cadre du traitement incré-mental des collections, avant de les évaluer, pour les systèmes de SRL HAC/WCCN, HAC/PLDA et CC/TR. A la fin de ce chapitre, nous serons en mesure de recom-mander une stratégie d’adaptation pour la SRL incrémentale des collections.

Documents relatifs