• Aucun résultat trouvé

Si une détection adéquate est capitale en reconnaissance des mots, lorsque l’on s’intéresse aux réalisations acoustiques des phonèmes, d’autres critères sont également à considérer. L’emplacement des frontières en particulier peut s’avérer crucial suivant les analyses envisagées. L’une des conséquences d’une détermination inadéquate de l’emplacement des frontières du phone peut être une mauvaise évaluation de la durée de ce dernier. Nous avons observé des différences parfois importantes entre l’estimation manuelle et l’estimation automatique comme en témoigne l’exemple présenté dans la figure 4 ci-dessous. Si, en termes de détection, le système du LIA fait office de mauvais élève, en ce qui concerne l’estimation de la durée du schwa, le système IRISA triphones obtient la moins bonne performance. Le système IRISA monophones sort gagnant de cette comparaison. Une explication peut être avancée ici, impliquant à nouveau le type de modèles de phones utilisé par les différents systèmes. Lorsque des modèles de phones dépendants du contexte sont utilisés, les frontières entre les phones sont plus

« floues » : il est difficile de savoir quelle partie du phone va être considérée comme telle ou comme partie du contexte lors de l’apprentissage. On peut dès lors s’attendre à davantage d’erreurs d’estimation de la durée. La moins bonne performance des systèmes utilisant des triphones a d’ailleurs déjà été rapportée dans la littérature (Lanchantin et al., 2008). La performance intermédiaire du système du LIA pourrait se trouver expliquée par l’influence des modèles de phones indépendants du contexte pour les mots ayant un schwa en seconde position. Il est également à relever que le système utilisant des modèles de phones indépendants du contexte attribue au schwa une durée plus courte que l’alignement manuel alors que la durée attribuée par les systèmes pourvus de modèles de phones dépendants du contexte est plus grande que celle de l’alignement manuel. La sur/sous-estimation systématique des durées est probablement liée, outre à la qualité des modèles de phones, à la nature des phonèmes. Si le schwa amène à une surestimation de la durée, d’autres phonèmes seront systématiquement sous-estimés et inversement, puisque la durée totale du mot doit respecter celle de la variante de prononciation et ne peut être étendue au-delà de ses limites.

Figure 4. Exemple de différence dans le placement des frontières du schwa (« x ») entre l’alignement automatique effectué par le système « triphones » de l’IRISA (en haut) et l’alignement manuel (en bas) pour une occurrence du mot « menace »

Les trois systèmes sont fortement similaires en ce qui concerne l’influence du type de consonne précédant le schwa sur les taux et types d’erreurs. Une consonne sourde et/ou fricative génère de nombreuses surestimations de la durée, alors que la présence de consonnes sonantes tend à augmenter le nombre de sous-estimations.

On remarque que les consonnes favorables aux sous-estimations sont les mêmes que celles favorisant les non-détections. Ici à nouveau les caractéristiques acoustiques du schwa et leurs similarités/différences avec celles des consonnes peuvent être invoquées. Les influences ne vont cependant pas toujours dans le même sens pour les trois systèmes. Non seulement les facteurs impliqués diffèrent, mais lorsqu’ils sont impliqués dans plusieurs systèmes, leurs influences peuvent être contradictoires. Par exemple, une consonne voisée à droite n’influence pas l’estimation de la durée pour le système de l’IRISA monophones ; elle favorise les surestimations pour l’alignement du LIA et les sous-estimations pour l’alignement IRISA triphones. Il s’agit cependant de préciser ici que si les valeurs relatives des Chi2 nous donnent un premier aperçu de l’importance des facteurs envisagés, la colinéarité potentielle de ces facteurs n’est pas prise en considération. Étant donné l’absence d’équilibre dans nos contextes, ces conclusions doivent de ce fait être pondérées : il est possible que le rôle de certains facteurs soit moins important lorsque celui des autres est également considéré. Ces résultats vont néanmoins dans

le sens de ce qui est observé dans la littérature. (Wesenick et Kipp, 1996), bien que ne s’intéressant qu’aux frontières entre deux consonnes, relèvent également que lorsque des consonnes nasales ou liquides sont impliquées, le système d’alignement automatique rencontre davantage de difficultés. Nous constatons comme cet auteur que les segmentations difficiles pour le transcripteur manuel le sont également pour la machine. Dans l’étude de (Nguyen et Espesser, 2004), les mauvaises performances sont liées aux contextes droits /, j, z/. Ce profil se rapproche de ce qui est observé ici pour le système IRISA monophones.

En ce qui concerne finalement le placement des frontières en début et fin de voyelle, rappelons que dans l’étude de (Nguyen et Espesser, 2004), les écarts étaient plus importants en fin de voyelle qu’en début. Nos résultats montrent que cela ne peut être généralisé à tous les systèmes. Si l’alignement « monophones » de l’IRISA suit ce profil8, on n’observe pas de différence marquée pour l’alignement du LIA, et un profil inverse pour l’alignement IRISA triphones. Par ailleurs, les trois systèmes d’alignement considérés tendent à placer la frontière de début de voyelle plus tôt que le transcripteur manuel. La frontière de fin de voyelle est placée plus souvent à droite par le système du LIA, et à gauche par les deux autres systèmes. Signalons encore qu’au regard des performances relatées dans la littérature, les deux systèmes de l’IRISA obtiennent une performance souvent meilleure en ce qui concerne l’emplacement des frontières, alors que celle du LIA est inférieure à ce qui est souvent rapporté.

Le choix du système va donc ici également influencer la pertinence de la segmentation et par là son adéquation à des fins d’analyse linguistique. L’objectif de l’étude doit à nouveau être considéré. S’il s’agit d’étudier les caractéristiques temporelles de la voyelle, les données issues d’un alignement automatique devront être considérées avec prudence. Nous avons vu en effet que les durées estimées automatiquement diffèrent parfois fortement des durées segmentées manuellement et qu’elles sont influencées par les consonnes suivantes et précédentes. L’étude de l’influence du contexte segmental sur la durée des voyelles en particulier risque d’être fortement biaisée si elle s’appuie sur un alignement non vérifié manuellement. Par ailleurs, il s’agit de garder à l’esprit les limitations imposées par le système à la durée d’un segment, que cette limite soit ou non imposée par les modèles de phones. Dans les alignements automatiques évalués ici, la voyelle ne se voit jamais attribuer une durée inférieure à 30 ms, or, la durée minimale attribuée au schwa par l’alignement manuel est de 8 ms. En ce qui concerne l’impact des divergences temporelles entre l’alignement manuel et l’alignement automatique sur des analyses formantiques, une étude a été entreprise par (Adda-Decker et al., ce volume). Si les imprécisions d’alignement sont généralement corrigées dans les

8. Il serait intéressant ici de connaître le type de modèles de phones utilisés dans cette étude.

L’alignement du système IRISA monophones semble se rapprocher davantage des résultats qui y sont mentionnés que l’alignement des deux autres systèmes, basés sur des modèles de phones dépendants du contexte.

analyses de par la grande quantité de données, les auteurs suggèrent de prendre certaines précautions méthodologiques. Une analyse acoustique des voyelles dans la partie médiane (du premier au dernier tiers) restera assez peu sensible aux imprécisions de la segmentation, mais il n’en sera pas de même pour une analyse visant à analyser des voyelles plus courtes ou des parties spécifiques des voyelles (transition consonne-voyelle ou voyelle-consonne, par exemple).

7. Conclusion

Cette étude s’est attachée à montrer les différences entre les décisions de systèmes automatiques et de transcripteurs manuels. Les biais éventuels ont été traqués, et pour certains d’entre eux démasqués. Le risque de conclure à des généralités linguistiques qui sont en fait davantage liées à l’outil utilisé existe, il a été souligné. Doit-on pour autant renoncer à ce type d’outils dans le contexte d’analyses linguistiques fines ? Si la faillibilité des systèmes d’alignement automatique est soulignée à plusieurs reprises dans la littérature, leurs avantages sont également fréquemment rapportés. Outre la quantité de matériel qu’ils permettent de traiter et leur faible coût, déjà mentionnés, l’absence de subjectivité et l’uniformité de leurs décisions sont également mises en avant (Cucchiarini et Strik, 2003). Afin qu’ils demeurent un outil privilégié cependant, permettant de conduire à des études de qualité, leur emploi doit se faire en connaissance de cause. Il paraît notamment nécessaire que les phonéticiens se renseignent sur les caractéristiques et performances du système qu’ils envisagent d’utiliser et qu’ils évaluent son adéquation pour la tâche envisagée. Par ailleurs, une certaine quantité de données devrait être soumise à une vérification manuelle.

Quelques généralisations peuvent être dégagées de nos données, susceptibles de guider les linguistes dans le choix et l’évaluation de systèmes d’alignement automatique. L’impact de l’entourage consonantique et de la durée sur la détection et le placement des frontières souligne la nécessité de tenir compte de ces aspects mais permet également de poser des hypothèses sur la direction des biais éventuels.

Afin d’entériner ces résultats, davantage d’études sont cependant encore nécessaires. Il s’agirait notamment d’étudier d’autres contextes et d’apporter une quantité plus importante de détails concernant le rôle particulier des différentes consonnes à l’intérieur des grandes classes dégagées. Par ailleurs, des analyses statistiques supplémentaires permettraient de rendre compte des éventuelles interactions entre les facteurs étudiés. Il a également été montré que certains systèmes/paramétrages étaient plus adaptés à certaines tâches. Ainsi, si un taux optimal de détection est souhaité, il est préférable d’opter, toutes choses étant par ailleurs égales, pour les modèles de phones dépendants du contexte. Si en revanche une plus grande précision temporelle est nécessaire, les systèmes ayant recours à des modèles de phones indépendants du contexte semblent plus appropriés.

Par ailleurs, des liens entre les alignements et les caractéristiques des systèmes qui les ont engendrés ont été évoqués. L’importance notamment de la nature des modèles de phones a été soulignée à plusieurs reprises. Ces liens demandent à être étoffés et approfondis, le rôle d’autres paramètres (nombre de gaussiennes, etc.) doit être évalué. Ces liens suggèrent qu’il est possible d’envisager le développement d’outils spécifiques pour répondre aux impératifs des analyses linguistiques. La littérature regorge d’articles témoignant de tentatives d’améliorer les taux de reconnaissance. Un bon système de reconnaissance n’est cependant pas forcément un bon outil d’alignement, et rien ne permet de penser que l’amélioration des taux de reconnaissance de mots ira de pair avec l’apparition d’outils d’alignement plus efficaces (Kessens et Strik, 2004). Des systèmes d’alignement automatique doivent être optimisés pour cette tâche (Cucchiarini et Strik, 2003). Notons, cependant, que l’optimisation d’aligneurs pour les besoins du TAP ne garantit pas l’émergence d’outils adaptés aux linguistes. Comme le soulignent (van Bael et al., 2007), un alignement optimal pour le TAP n’est pas forcément celui qui ressemble le plus à un alignement manuel. L’alignement effectué dans le cadre de la synthèse par sélection d’unités pourrait s’avérer plus pertinent (Golipour et O’Shaughnessy, 2007 ; Kuo et al., 2007) que les alignements utilisés en reconnaissance des mots. L’idéal serait cependant que l’optimisation d’un système d’alignement à des fins linguistiques soit entreprise dans une collaboration rapprochée entre chercheurs des deux disciplines.

Si les avantages d’une telle entreprise pour les linguistes sont évidents, la recherche en TAP devrait également en sortir gagnante. La quantité de savoir phonétique utilisée actuellement en TAP dans les systèmes automatiques est plutôt réduite. Si les performances sont satisfaisantes pour de la parole lue ou de la parole non lue soignée (environ 10 % d’erreurs de reconnaissance des mots selon la dernière campagne d’évaluation ESTER), le traitement automatique de la parole spontanée n’en est qu’à ses prémices. Élisions, réductions et dysfluences sont de nombreuses sources de variation dans la parole spontanée auxquelles se heurtent les systèmes. Plusieurs auteurs suggèrent que les améliorations futures en TAP passeront par la prise en compte de facteurs linguistiques (Strik, 2005 ; Pols, 1999) en particulier en ce qui concerne la variation phonologique. Ils soulignent cependant que le transfert du savoir phonétique actuel est rendu difficile par le fait que ce dernier est fondé sur de faibles quantités de parole généralement produite en laboratoire et non généralisable à la parole continue. Or, si les linguistes disposent d’outils performants permettant un alignement précis de grands corpus de parole continue, ces obstacles vont s’élimer. Des connaissances phonétiques adaptées aux besoins du TAP et utilisables par ce dernier pourront alors voir le jour.

Que ce soit pour l’élaboration d’outils pour des besoins spécifiquement linguistiques ou dans l’optique d’une meilleure appréhension par les linguistes, des caractéristiques et implications des alignements automatiques existants, il est nécessaire de poursuivre les investigations ébauchées dans le cadre de ce travail.

Les évaluations ont concerné ici uniquement la capacité des systèmes à rendre

compte du schwa. Il convient de ne pas oublier que le schwa est une des voyelles, sinon la voyelle, qui pose le plus de problèmes de détection et d’alignement. Les résultats présentés ici seraient probablement meilleurs pour les autres voyelles, cela reste cependant à entériner dans une étude ultérieure. De même, les régularités observées ainsi que le rôle des différents facteurs avancés demandent à être évalués pour les autres segments du français. Finalement, la présente étude s’est limitée à considérer l’influence de facteurs locaux sur l’alignement. Il s’agirait de poursuivre l’analyse en incluant des facteurs de plus haut niveau, notamment prosodiques.

LIA (n = 2 608) Monophones (n = 2 745) Triphones (n = 2 809) Sonorité

droite

χ² (4) = 11,2, p < 0,05 χ²(4) = 30,52, p < 0,0001 χ² (4) = 39,6, p < 0,0001 Sonorité

gauche

χ² (4) = 36,24, p < 0,0001 χ²(4) = 210,85, p < 0,0001 χ² (4) =186,9, p < 0,0001 Mode droite χ² (6) = 24,65, p < 0,0001 χ²(6) = 61,02, p < 0,0001 χ² (6) = 53,4, p < 0,0001 Mode

gauche

χ² (6) = 62,2, p < 0,0001 χ²(6) = 263,4, p < 0,0001 χ² (6) = 151,8, p < 0,0001

Tableau 6. Valeurs des Chi2 pour chaque système, test de la relation entre catégorie d’estimation de la durée et contextes gauche et droit

Remerciements

Les auteurs souhaitent remercier Julien Chanal pour ses conseils concernant les procédures statistiques, Sandra Schwab ainsi que deux relecteurs anonymes pour leurs commentaires et suggestions lors de la lecture d’une version antérieure de l’article.

8. Bibliographie

Adda-Decker, M., « Problèmes posés par le schwa en reconnaissance et en alignement automatiques de la parole », Actes des 5e journées d’études linguistiques, Nantes, France, juin 2007, p. 211-216.

Adda-Decker, M., Lamel, L., « Systèmes d’alignement automatique et études de variantes de prononciation », Actes des 23e journées d’études sur la parole, Aussois, France, juin 2000, p. 189-192.

Adda-Decker, M., Gendrot, C., Nguyen, N., « Apport du traitement automatique à l’étude des voyelles », Revue T.A.L, vol. 49, n° 3, 2008.

Auran, C., Bouzon, C., « Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives », Travaux Interdisciplinaires du Laboratoire Parole et Langage d’Aix-en-Provence, vol. 22, 2003, p. 33-63.

Béchet, F., « LIA_PHON : un système complet de phonétisation de textes », Revue T.A.L., vol. 42, n° 1, 2001, p. 47-67.

Binnenpoorte, D., Cucchiarini, C., Strik, H., Boves, L., « Improving automatic phonetic transcription of spontaneous speech through variant-based pronunciation variation modelling », Proceedings of LREC, Lisbonne, Portugal, mai 2004, p. 681-684.

Boersma, P., Weenink, D., Praat : doing phonetics by computer. (Version 4.6.15) http://www.praat.org/, 2007.

Boula de Mareüil, P., Yvon, F., d’Alessandro, C., Auberge, V., Vaissière, J., Amelot, A., « A French phonetic lexicon with variants for speech and language processing », Proceedings of LREC, Athènes, Grèce, juin 2000, p. 273-276.

Boula de Mareüil, P., Adda-Decker, M., « Studying pronunciation variants in French by using alignment techniques », Proceedings of Interspeech, Denver, USA, sept. 2002, p. 2273-2276.

Brugnara, F., Falavigna D., Omologo, M., « Automatic segmentation and labeling of speech based on Hidden Markov Models », Speech Communication, vol. 12, n° 4, 1993, p. 357-370.

Bürki, A., Fougeron, C., Gendrot, C., Frauenfelder, U., « De l’ambiguïté de la chute du schwa en français », Actes des 5e journées d’études linguistiques, juin 2007, Nantes, France, p. 83-88.

Bürki, A., Fougeron, C., Gendrot, C., « On the categorical nature of the process involved in schwa elision in French », Procceedings of Interspeech, Anvers, Belgique, sept. 2007, p. 1026-1029.

Cohen, J., « Weighted kappa : nominal scale agreement with provision for scaled disagreement or partial credit »,Psychological Bulletin, vol. 70, 1968, p. 213-220.

Content, A., Mousty, P., Radeau, M., « Brulex, une base de données lexicales informatisée pour le français écrit et parlé », L’Année Psychologique, vol. 90, 1990, p. 551-566.

Côté, M., Morrison, G., « The nature of the schwa/zero alternation in French clitics : experimental and non-experimental evidence », Journal of French and Language Studies, vol. 17, 2007, p. 159-186.

Cucchiarini, C., Strik, H., « Automatic phonetic transcription : an overview », Proceedings of ICPHS, Barcelone, Espagne, Août 2003, p. 347-350.

Fougeron, C., Gendrot, C., Bürki, A., « On the phonetic identiy of French schwa, compared to /ø/ and /œ/ », Actes des 5e journées d’études linguistiques, juin 2007, Nantes, France, p. 83-88.

Galliano, S., Geoffrois, E., Mostefa, D., Choukri, K., Bonastre, J.-F., Gravier, G., « ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast News », Proceedings of Interspeech, Lisbonne, Portugal, sept. 2005, p. 1149-1152.

Gendrot, C., Adda-Decker, M., « Impact of duration on F1/F2 formant values of oral vowels : an automatic analysis of large broadcast news corpora in French and German », Proceedings of Interspeech, Lisbonne, Portugal, sept. 2005, p. 2453-2456.

Golipour, L., O’Shaughnessy, D., « A new approach for phoneme segmentation of speech signals », Procceedings of Interspeech, Anvers, Belgique, sept. 2007, p. 1933-1936.

Kessens, J., Strik, H., « Lower WERs do not guarantee better transcriptions », Proceedings of Interspeech, Aalborg, Danemark, sept. 2001, p. 1721-1724.

Kessens, J., Strik, H., « On automatic phonetic transcription quality : lower word error rates do not guarantee better transcriptions », Computer Speech and Language, vol. 18, 2004, p. 123-141.

Kuo, J., Lo, H., Wang, H., « Improved HMM/SVM methods for automatic phoneme segmentation », Procceedings of Interspeech, Anvers, Belgique, sept. 2007, p. 2057-2060.

Kuperman, V., Pluymaekers, M., Ernestus, M., Baayen, H., « Morphological predictability and acoustic duration of interfixes in Dutch compounds », Journal of the Acoustic Society of America, vol. 121, n° 4, 2007, p. 2261-2271.

Landis, J., Koch, G., « The measurement of observer agreement for categorical data », Biometrics, vol. 33, 1967, p. 159-174.

Lanchantin, P., Morris, A., Rodet, X., Veaux, C., « Automatic phoneme segmentation with relaxed textual constraints », Proceedings of LREC 08, Marrakech, Maroc, mai 2008.

Malécot, A., Introduction à la phonétique française, The Hague, Mouton, 1977.

New, B., Pallier, C., Ferrand, L., Matos, R., « Une base de données lexicales du français contemporain sur internet : LEXIQUE », L’Année Psychologique, vol. 101, 2001, p. 447-462.

Nguyen, N., Espesser, R., « Méthodes et outils pour l’analyse acoustique des systèmes vocaliques », Bulletin Phonologie du français contemporain, vol. 3, 2004, p. 77-85.

Pitt, M., Johnson, K., Hume, E., Kiesling, S., Raymond, W., « The Buckeye corpus of conversational speech : labeling conventions and a test of transcriber reliability », Speech Communication, vol. 45, 2005, p. 89-95.

Pols, L., « Flexible, robust and efficient human speech processing versus present-day technology », Proceedings of ICPHS, San Francisco, USA, août 1999, p. 9-16.

Riley, M., Byrne, W., Finke, M., Khudanpur, S., Ljolje, A., McDonough, J., Nock, H., Saraclar, M., Wooters, C., Zavaliagkos, G., « Stochastic pronunciation modelling from hand-labelled phonetic corpora », Speech Communication, vol. 29, 1999, p. 209-224.

Shriberg, L., Kwiatkowski, J., Hoffmann, K., « A procedure for phonetic transcription by consensus », Journal of Speech and Hearing Research, vol. 27, 1984, p.456-465.

Sjölander, K., « An HMM-based system for automatic segmentation and alignment of speech », Phonum, vol. 9, 2003, p. 93-96.

Stemler, S., « A comparison of consensus, consistency and measurement approaches to estimating interrater reliability », Practical Assessment, Research and Evaluation, vol. 9, n° 4, 2004, Retrieved January 20, 2008 from http://PAREonline.net/getvn.asp?v=9&n=4

Strik, H., « Is phonetic knowledge of any use for speech technology? », In B. Barry et W. van Dommelen (Eds), The integration of phonetic knowledge in speech technology, Series : Text, Speech and language technology, vol. 25, Springer, Dordrecht, 2005, p. 167-180.

Strik, H., Elffers, A., Bavcar, D., Cucchiarini, C., « Half a word is enough for listeners, but problematic for ASR », Proceedings of ITRW on Speech Recognition and Intrinsic Variation, Toulouse, France, mai 2006, p. 101-106.

Strik, H., Cucchiarini, C., « Modeling pronunciation variation for ASR : a survey of the literature », Speech Communication, vol. 29, 1999, p. 225-246.

van Bael, C., van den Heuvel, H., Strik, H., « Validation of phonetic transcriptions in the context of automatic speech recognition », Language Ressources and Evaluation, vol. 41, n° 2, 2007, p. 129-146.

van Bael, C., Baayen, H., Strik, H., « Segment deletion in spontaneous speech : a corpus study using mixed effects models with crossed random effects », Proceedings of Interspeech, Anvers, Belgique, août 2007, p. 2741-2744.

Wesenick, M., Kipp, A., « Estimating the quality of phonetic transcriptions and segmentations of speech signals », Proceedings of ICSLP, Philadelphia, USA, oct. 1996, p. 129-132.

Wester, M., Kessens, J., Cucchiarini, C., Strik, H., « Obtaining phonetic transcriptions : a comparison between expert listeners and a continuous speech recognizer », Language and Speech, vol.44, n° 3, 2001, p. 377-403.

Documents relatifs