• Aucun résultat trouvé

L'étape de création de corpora thématiques s'incrit dans le cadre de notre processus d'adaptation thématique d'un système de reconnaissance automatique de la parole. Cette section vise ainsi à valider la chaîne de traitements que nous venons de décrire avant de poursuivre la présentation des autres étapes dans les chapitres suivants. Pour cela, nous évaluons la qualité des corpora thématiques créés pour la seule adaptation du modèle de langue généraliste de notre système. Plus précisément, nous nous appuyons sur une classique technique d'interpolation linéaire et mesurons le WER obtenus sur nos segments par le système avant et après adaptation. Parallèlement, nous montrons également que le processus que nous avons développé peut être appliqué dans un autre contexte, à savoir celui de la structuration de ux multimédias.

5.4.1 Validationvia l’adaptation d’un modèle de langue

Pour juger de la qualité des corpora thématiques créés après optimisation des diérents paramètres intrinsèques à notre méthode, nous utilisons les modèles adaptés à partir de nos corpora pour chercher à améliorer la transcription automatique de nos segments. Ces modèles sont calculés par l'interpolation linéaire de notre modèle de langue généraliste avec un modèle de langue d'adaptation appris sur le corpus thématique de chaque segment. Cette dernière technique passe par l'optimisation d'un coecient d'interpolation λ. Pour cela, nous avons mesuré la variation de la perplexité des modèles adaptés par rapport à celle du modèle généraliste pour diérentes valeurs du coecient d'interpolation. Ces résultats sont présentés par la gure5.6pour deux jeux de paramètres intéressants de notre processus de création de corpora thématiques. Il apparaît qu'un coecient situé entre0,7et0,8semble conduire aux meilleures perplexités. On remarque toutefois que l'utilisation d'une valeurλ identique pour tous les segments n'est pas optimale. Les droites en pointillés de cette gure montrent que de meilleures variations pourraient être atteintes si l'on savait ajuster au mieux le coecient d'interpolation de manière indépendante pour chaque segment. Ceci nécessiterait de savoir diagnostiquer à quel point un corpus thématique peut apporter à la

FIGURE5.6Impact du coecient d'interpolation sur la perplexité selon qu'il soit constant pour tout segment (lignes continues) ou xé de manière optimale pour chaque segment.

modélisation linguistique du système pour un segment donné. Il pourrait par exemple être intéressant d'étudier s'il existe une corrélation entre la similarité thématique globale d'un corpus avec son segment et la valeur optimale du coecient d'interpolation pour chaque segment. Il s'agit toutefois d'une question que nous n'avons pas traitée. Ainsi, nous utilisons un coecient d'interpolation constant λ= 0,8.

Ce coecient xé, nous générons alors de nouvelles transcriptions à partir des modèles interpolés en ré-évaluant les graphes de mots obtenus après la première passe de décodage du système Irene grâce au modèle de langue généraliste. La table 5.6 compare les dié-rents WER obtenus sur les ensembles de développement et de test. Ces résultats mettent clairement en évidence le fait que, quelle que soit la radio d'où proviennent les segments, les modèles adaptés conduisent à des transcriptions automatiques de meilleure qualité que celles du modèle généraliste. Un gain absolu de0,2 est ainsi obtenu sur l'ensemble de test, ce gain étant statistiquement signicatif d'après les tests de Student (p=7×10−5) et de Wilcoxon (p=1×10−5). Le détail de ces résultats montrent toutefois que les gains obtenus sur l'ensemble de test sont plus faibles que ceux obtenus pour l'ensemble de développement.

Ceci n'est toutefois pas surprenant étant donné que les divers réglages de notre technique ont été eectués sur l'ensemble de développement. Par ailleurs, on remarque que les gains les plus importants sont obtenus pour les segments de la radio RFI. Ceci s'explique sans doute par le fait que les sujets abordés sur cette radio, fréquemment liés à l'Afrique, sont peu présents dans le corpus d'apprentissage du système pour rappel, principalement des articles issus du journal Le Monde et sont donc mal modélisés par le modèle de langue généraliste de notre système. À l'inverse, ceux de France Inter et France Info traitent, par exemple, plus volontiers de politique nationale et internationale, sujets largement traités dans ce quotidien français. Ainsi, l'eet de l'adaptation thématique se fait en moyenne plus ressentir pour les thèmes abordés sur RFI que pour ceux des deux autres radios. Tou-jours est-il que les résultats globaux attestent de la qualité et du potentiel des corpora thématiques construits d'après notre procédure pour la tâche d'adaptation thématique.

Par ailleurs, nous avons cherché à savoir si les gains observés venaient bien de l'utilisa-tion d'un corpus thématiquement cohérent et non pas simplement de l'apport de nouvelles données d'apprentissage. Pour cela, nous avons regroupé l'ensemble des corpora théma-tiques obtenus pour chaque segment de notre ensemble de développement et utilisé ces don-nées pour l'interpolation du modèle de langue généraliste. Après avoir retranscrit chaque

Validation et mise en application

Modèle France France RFI Global de langue Inter Info

Ensemble de développement

Généraliste 20,5 21,0 25,6 22,4

Adapté 20,1 20,6 25,1 21,9

(−0,4) (−0,4) (−0,5) (−0,5) Ensemble

de test

Généraliste 19,9 21,7 23,5 21,7

Adapté 19,7 21,6 23,2 21,5

(−0,2) (−0,1) (−0,3) (−0,2)

TABLE5.6WER observés sur les ensembles de développement et de test, pour chaque radio et globalement, en utilisant soit le modèle de langue généraliste soit les modèles adaptés.

Les variations absolues sont présentées entre parenthèses.

segment avec ce nouveau modèle et remesuré le WER, il n'est alors ressorti qu'un gain absolu moyen de0,1, ce qui est nettement inférieur au gain de0,5 reporté précédemment lorsque l'interpolation s'eectue bien sur la base d'un corpus spéciquement dédié à chaque segment.

5.4.2 Application à l’enrichissement de documents multimédias

Lors d'un travail plus récent, nous avons montré que notre processus de création de corpora peut aussi servir à enrichir la description de documents multimédias dans une application de délinéarisation de ux télévisuels. Globalement, cette application vise à seg-menter automatiquement des ux de télévision en documents indépendants (programmes, reportages. . .) et à générer automatiquement une description de ces segments pour faciliter leur accès par des utilisateurs. Dans ce cadre, nous avons montré que l'étape d'extraction de mots-clés sur la transcription automatique pouvait permettre de caractériser rapidement le contenu d'un document. De plus, nos mécanismes de recherche sur Internet et de ltrage thématique sont exploitables pour mettre en lien le document avec d'autres, extraits du même ux multimédia, ainsi qu'avec des pages Web en rapport avec le contenu du docu-ment. De cette manière, les possibilités de navigation au sein d'une base de documents se trouvent accrues et facilitées.

Cette étude présente quelques particularités par rapport à notre travail précédent.

D'une part, comme cette application de délinéarisation est actuellement appliquée à des journaux télévisés, la création de liens entre divers documents consiste à rassembler des documents traitant d'un même fait d'actualité précis plutôt que d'un même thème. Ainsi, des aménagements sont à apporter à la technique présentée dans ce chapitre. Notamment, notre traitement spécique des noms propres ne se justie plus autant étant donné que ceux-ci sont des éléments centraux pour décrire un évènement précis. D'autre part, cette tâche représente un dé intéressant puisqu'il s'agit de travailler sur des documents issus d'une segmentation automatique alors que les documents que nous utilisons pour le reste de notre travail sont issus d'une segmentation thématique manuelle. Malgré ces particularités, nous avons pu montrer le bon comportement de notre méthode à travers le développement d'une démonstration présentée lors du NEM Summit 200927 dont deux captures d'écran illustrent le contenu en gure 5.7.

27Nous tenons au passage à remercier Mathieu Ben, Sébastien Campion et Camille Guinaudeau pour leurs contributions respectives au sein ce travail collaboratif.

FIGURE5.7 Capture d'écran de notre démonstration de délinéarisation de ux multimédia pour la création de vidéos enrichies.

Améliorations possibles