Modélisation de la durée des voyelles dans l’apprentissage des systèmes de RAP 111

que leur contrepartie apparaissant en contexte fermé, ce qui rend l’observation du contraste délicate.

Cette analyse assistée par ordinateur du contraste de longueur de voyelles montre que sa réalisation concrète dépend de la voyelle considérée. Finalement, ces mesures empiriques, à grande échelle (45k de voyelles considérées), nous ont incité à essayer de modéliser l’opposi-tion de longueur des voyelles dans nos systèmes de RAP. C’est ce que nous proposons dans la section suivante.

5.3 Modélisation de la durée des voyelles dans

l’appren-tissage des systèmes de RAP

Au vu des résultats obtenus sur les analyses eﬀectuées à partir des alignements forcés du haoussa, nous avons également considéré l’étiquetage des voyelles du wolof en fonction de leur longueur.

5.3.1 Étiquetage des voyelles du wolof

Contrairement au haoussa, l’étiquetage des voyelles du wolof a été relativement simple. En eﬀet, la longueur (phonologique) est marquée par la duplication de la voyelle dans l’ortho-graphe du mot. Lorsque la voyelle est simple, nous lui avons attribué une étiquette «_S» (pour Short), qui indique que la voyelle est phonologiquement considérée brève; de la même manière, lorsque la voyelle apparaît doublée dans le mot, nous avons rassemblé les deux phonèmes vo-caliques correspondants en un seul et lui avons assigné une étiquette «_L» (pour_Long), qui indique que la voyelle est phonologiquement considérée allongée. Toutes les voyelles de notre inventaire phonétique possèdent ainsi deux réalisations dans notre dictionnaire de prononcia-tion, sauf le phonème /ə/ (orthographié ”ë”) dont l’allongement n’est pas phonologique.

Tout comme pour le haoussa, nous avons d’abord entraîné un système modélisant le contraste de durée pour la totalité des voyelles du wolof (pour lesquelles les descriptions pho-nologiques de la langue expliquent qu’une opposition de longueur existe).

Performance du système entraîné avec étiquetage des longueurs sur toutes les

voyelles du wolof. Nous avons relancé la procédure complète pour construire un système

de RAP avec Kaldi. Les meilleurs scores pour chacun de nos corpus d’évaluation et de test pro-viennent du modèle acoustique CD-HMM/DNN. Nous avons obtenu un score WER de 20,0% sur notre corpus_dev (contre 19,8% avec le système de référence) et un score de 24,6% sur notre corpus de_test (contre 23,9% avec le système de référence). Nous n’avons, par conséquent, ob-servé aucun gain sur les performances du système.

5.3. Modélisation de la durée des voyelles dans l’apprentissage des systèmes de RAP 112 Pour autant, nous avons forcé l’alignement des énoncés du corpus d’apprentissage, en uti-lisant le modèle acoustique CD-HMM/DNN, aﬁn de vériﬁer si l’opposition de durée était ob-servable au niveau des voyelles. Nous avons tracé les distributions (statistiques) des durées pour chaque phonème vocalique annoté. Finalement, ces distributions nous ont montré que, comme pour le haoussa, le contraste de durée au sein d’une même paire de voyelle est obser-vable.

Au vu de ces résultats, nous avons décidé de modéliser dans notre système de RAP l’op-position de longueur dans les deux langues en sélectionnant les voyelles pour lesquelles le contraste observé était le plus marqué. Nous espérons qu’un système modélisant plus ﬁnement le phénomène d’opposition de longueur vocalique fournisse de meilleures performances.

5.3.2 Nouvel étiquetage des dictionnaires du haoussa et du wolof

Nous avons formé de nouveaux modèles acoustiques du haoussa et du wolof, en forçant le système à représenter ce contraste. Nous avons ainsi étiqueté de façon automatique, comme indiqué à lasection 5.2, toutes les voyelles de nos dictionnaires de prononciation du haoussa et du wolof. Autrement dit, nous avons modélisé deux unités phonétiques (phones) diﬀérentes pour un même phonème vocalique.

5.3.3 Nouveaux systèmes construits

Pour chaque langue, nous avons entraîné un système de RAP pour lequel le modèle acous-tique et le dictionnaire de prononciation utilisés modélisent la longueur pour seulement un sous-ensemble sélectionné de voyelles. Ces systèmes tiennent compte du contraste existant_a priori entre les longueurs des voyelles.

Letableau 5.2montre les étiquettes attribuées aux sous-ensembles de voyelles. Nous pou-vons voir que, pour le haoussa, nous apou-vons également dans notre dictionnaire une étiquette « _unk». En eﬀet, il reste des voyelles non étiquetées dans notre dictionnaire du haoussa, puisque nous n’avons tenu compte que de la position des voyelles au sein des syllabes, et non de la grande variabilité de leur réalisation phonétique en fonction de leur position dans le mot. Tableau 5.2 – Résumé des étiquettes attribuées à un sous-ensemble de voyelles pour lesquelles le contraste de longueur observé a été le plus fort, pour chaque système de RAP entraîné.

Nouveaux systèmes RAP du haoussa RAP du wolof

#Contrastes 2 ([e], [o]) 5 ([a], [e], [ɛ], [o], [ɔ])

Étiquettes _{Fermé / Ouvert / Inconnu}^_C^/^_O^/^_unk _{Bref / Long}^_S^/^_L

À ce stade, le dictionnaire de prononciation du haoussa est ainsi composé de 37 phonèmes (au lieu de 33 initialement) et celui du wolof est constitué de 39 phonèmes (au lieu de 34 initia-lement). En utilisant ces nouveaux dictionnaires de prononciation, nous avons entraîné, pour

5.3. Modélisation de la durée des voyelles dans l’apprentissage des systèmes de RAP 113 chaque langue, un nouveau système de RAP initié par le même protocole que détaillé au cha-pitre précédent. Le modèle à 3 états du haoussa est entraîné en utilisant 2 969 états dépendants du contexte, tandis que celui du wolof a été entraîné avec 3 406 états (dépendants du contexte), ainsi que 40k gaussiennes.

Le tableau 5.3 expose les résultats obtenus en modélisant la longueur comme expliqué ci-dessus. Nous rappelons également le score WER obtenu sans modélisation de l’opposition de longueur vocalique et avec une modélisation de cette opposition sur la totalité des voyelles. Tableau 5.3 – Résultats des systèmes de RAP CD-HMM/DNN avec modélisation de la lon-gueur vocalique, pour le haoussa et le wolof – avec adaptation du locuteur.

Langue Type de modélisation

CD-HMM/DNN WER (%)

dev test

Haoussa

sans modélisation 8,0 11,3

avec modélisation sur toutes les voyelles 8,3 11,2

avec modélisation sur un sous-ensemble de voyelles 7,9 10,6

Wolof (nettoyé)

sans modélisation 19,8 23,9

avec modélisation sur toutes les voyelles 20,0 24,6

avec modélisation sur un sous-ensemble de voyelles 20,0 24,5 Nous pouvons voir dans le tableau 5.3 que nous avons légèrement amélioré les perfor-mances du système de RAP du haoussa (-0,1 % de WER pour le corpus _dev et -0,7 % de WER pour le corpus_test). À propos du système de RAP du wolof, nous observons en revanche une légère dégradation des performances à ce stade.

Bien que les performances des systèmes entraînés soient similaires, nous pensons que les deux systèmes de RAP (modélisation de la durée ou non) sont complémentaires. Pour chaque langue, nous avons combiné le modèle acoustique CD-HMM/DNN ne distinguant pas la lon-gueur vocalique des unités phonétiques avec le modèle modélisant cette distinction. Ces ré-sultats sont présentés dans letableau 5.4. La colonne_Gain montre que comparé au meilleur WER, la combinaison permet de gagner jusqu’à 0,3% pour le système de RAP du haoussa et 0,9 % sur chaque corpus d’évaluation du wolof.

Pour conclure cette section sur la modélisation de la durée des voyelles au sein du sys-tème de RAP, l’étiquetage des voyelles n’augmente pas les performances du syssys-tème de RAP. Néanmoins, cette modélisation apporte une information supplémentaire aux linguistes qui veulent annoter leur corpus (dans un scénario d’analyse de la parole). Grâce à l’alignement forcé par exemple, l’étiquetage des voyelles peut permettre d’eﬀectuer des analyses linguis-tiques à grande échelle telles que des mesures phonélinguis-tiques. C’est ce que nous allons voir dans les sections suivantes.

5.4. Sélection de paramètres pour une mesure ﬁne du contraste de durée des voyelles 114

Dans le document Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain (Page 130-133)