• Aucun résultat trouvé

Au fil des parties développées jusqu’ici, nous avons pu évoquer deux dimensions dans la sélection des unités :

 La dimension phonétique  La dimension prosodique

Nous allons donc voir dans cette partie comment, peu importe le procédé utilisé, ces deux dimensions sont dépendantes l’une de l’autre et comment, dans un processus manuel comme Mavoa, et dans un processus automatique comme la création de voix SNF, les difficultés liées à l’une ou l’autre de ces dimensions ont pu être résolues.

La création des scripts condensés se fait en fonction de paramètres phonétiques et prosodiques indispensables et indissociables pour pouvoir sélectionner les unités qui composeront une synthèse de bonne qualité. En effet, la sélection de la bonne unité est déterminée par la correspondance phonétique avec la cible ; l’unité peut donc contenir exactement les mêmes phonèmes que la cible ou bien être assimilable grâce aux regroupements permis. Mais la correspondance phonétique n’est pas suffisante pour définir la meilleure unité à sélectionner. En effet, entrent également en compte des paramètres prosodiques tels que la position syllabique, les marqueurs mélodiques, ou encore le contexte de chaque phonème, qui permettent de choisir telle ou telle unité. Ces deux dimensions sont bien sûr liées et un changement dans les paramètres de l’une ou de l’autre peut changer les coûts de sélection et ainsi donner une synthèse complètement différente.

Dans un processus manuel tel que Mavoa, on cherche avant tout, à l’écriture des scénarios, à couvrir les unités les plus longues possibles tout en gardant un effet de surprise pour l’utilisateur. Dans un premier temps, le but est de couvrir les unités d’un point de vue phonétique. On cherche à couvrir des unités correspondantes phonétiquement. Dans un deuxième temps, la dimension prosodique est prise en compte en faisant en sorte de respecter les positions syllabiques et donc les marqueurs mélodiques de la première et de la dernière unité d’un groupe de souffle. A ce stade, les cas de structures syllabiques, des marqueurs mélodiques, etc, en milieu de groupe de souffle sont relégués au second plan. En effet, ce n’est qu’au stade de test des enregistrements et de la synthèse que l’on peut vérifier les correspondances d’enr, une fois que le dictionnaire est créé et que l’on

peut voir les sorties du module «select» de Baratinoo. Ce module permet, entre autre, de voir toutes les valeurs d’enr de chaque phonème, et donc de vérifier que la sélection attendue est bien celle réalisée. Grâce à ces valeurs d’enr, on peut remarquer que la prise en compte de la prosodie influe sur la sélection des unités au même titre que la phonétique.

Par exemple, dans l’exemple donné en partie 2_III_A, la position syllabique et la structure syllabique de la cible attendue ne permettaient pas au système de sélectionner la bonne unité et entraînaient une coupure sur un phonème fragile, le /r/ : (en bleu l’unité sélectionnée par Baratinoo, en orange l’unité attendue pour le sandwich [T AA R T] en rose)

¿ Puedo imitar tu voz, oyes ?

Puedo imaginar tu voluntad. ¿ El hombre sabe imitar también, oyes ?

Tiene una hermosa voz, como Miguel.

Ici, on souhaite sélectionner directement le sandwich [T AA R T] contenu dans «imitar también» afin de ne pas couper sur une unité fragile comme dans «imaginar tu». Le système a néanmoins préféré choisir le diphone [R-T] contenu dans «imaginar tu». En fait, une règle espagnole rend la sélection de la syllabe initiale d’un mot de plusieurs syllabes (/t/ de «también») pour synthétiser un mot monosyllabique (/t/ de «tu») coûteuse. Le système a donc favorisé le diphone [R-T] seul et a donc coupé sur un phonème fragile, le [R]. Il a donc fallu régler ce problème en changeant la valeur de la structure syllabique du phonème [T] de «también» pour que le système le considère comme venant d’un mot monosylabique.

Dans l'exemple suivant, en français, c'est le marqueur mélodique du /a/ et du /v/ de «avec» dans la première phrase qui posait problème. En effet, en changeant leur valeur de 3 (montant) à 5 (neutre), l'unité attendue était sélectionnée.

Veux-tu venir te promener avec moi ?

Veut-il me promettre de rester avec moi ? Et tu eux l’emmener avant de te préparer ?

D'autre part, nous avons pu nous rendre compte plus tard, qu'une règle linguistique stipulait qu'un mot fonctionnel («avec») ne devait pas être remplacé par un mot non fonctionnel et donc sémantiquement plein («avant»). C'est donc cette règle qui était à l'origine de «l'erreur» générée.

Par ailleurs, dans le cas d’un processus automatique et donc beaucoup plus lourd, l’objectif est différent. En effet, il s’agit plutôt de jouer sur les deux tableaux en même temps et donc de prendre en compte tous les critères. Dans un processus tel que la création de voix complète, l’intérêt est de définir des règles capables de sélectionner les meilleures unités, sans garantir qu’elles aient exactement les caractéristiques ciblées par la synthèse. On ne parle donc plus, dans ce cas, de «bonnes» unités puisque l’on n'attend pas réellement de cible spécifique, on cherche plutôt à ce que l’algorithme sélectionne la meilleure unité dans sa base de données, en considérant les paramètres phonétiques et acoustiques mais aussi les paramètres prosodiques et linguistiques. Il serait d’ailleurs impossible de vérifier à chaque fois et pour chaque unité les valeurs d’enr attribuées pour essayer de modifier la sélection dans un processus aussi important, c’est pourquoi on ne peut pas atteindre un taux de couverture de 100%. Par ailleurs, dans un processus tel que la création de voix contextuelles, le but est de renvoyer une synthèse de haute qualité, on cherche donc une couverture de 100% des unités. Ce taux de couverture confère au système la possibilité de sélectionner les «bonnes» unités et non pas seulement les meilleures. En effet, le domaine étant restreint et le corpus fini, les unités sont toutes sélectionnées et correspondent à la cible attendue.

On peut donc noter, encore une fois, que le processus de sélection, à la fois pour le script condensé mais aussi pour la synthèse, est tout à fait lié à la cible applicative visée, que ce soit d’un point de vue phonétique ou prosodique.