Architecture envisageable - Exposé du problème

C HAPITRE 4 : D ÉVELOPPEMENT AVEC LES PERCEPTRONS MULTICOUCHES

4.1/ Exposé du problème

4.1.3/ Architecture envisageable

Ce paragraphe nous permet de présenter une première approximation de l’architecture connexionniste que nous avons choisi de mettre en œuvre. Nous allons parler de deux processus différents qui serviront de base conceptuelle au système à venir : la segmentation de la parole et la

4.1/ Exposé du problème

reconnaissance des mots.

4.1.3.1/ Segmentation

La première étape que nous voudrions isoler est l’étape de segmentation. Comme nous venons de le voir à la fin du chapitre 3, cette étape nécessite de mettre en place un système possédant de connaissances en phonétique puisque l’exploitation des seules informations d’énergie présentes dans le signal ne permet pas d’élaborer une méthode vraiment fiable en milieu bruité. Le choix pour la mise en place d’une méthode de reconnaissance de petits vocabulaires possédant explicitement une phase de segmentation s’explique par la résistance reconnue des voyelles au bruit qui permet de trouver des points d’ancrage fiables. En effet, comme cela a déjà été rapporté au chapitre 3, paragraphe 3.2.6, [steenek92b] note que les voyelles ont un niveau de pression (SPL,Sound Pressure Level) moyen plus élevé de cinq décibels que le SPL moyen des consonnes. Cette caractéristique permet aux voyelles de résister plus longtemps au bruit puisque leurs caractéristiques principales, les formants, ont un rapport signal sur bruit spécifique plus élevé que l’ensemble des événements phonétiques de la phrase. Et comme nous l’avons déjà fait remarquer auparavant, ce fait peut être facilement observé dans les figures 3.10.b et 3.10.c du chapitre 3. Il est par ailleurs intéressant, voire même amusant, de rapprocher la valeur de ce SPL moyen de cinq décibels du rapport signal sur bruit à partir duquel les lettres et les chiffres épelés commencent à être mal perçus par l’homme. Ce rapport signal sur bruit est de cinq décibels négatifs comme l’a également montré [steenek92b]. L’article que nous venons de mentionner ne précise cependant pas si le SPL moyen des voyelles a été déterminé en fonction des taux de reconnaissance des voyelles ou s’il l’a été à partir d’une étude calculant un rapport signal sur bruit segmental. Le rapprochement est pourtant, à notre humble avis, très intéressant.

La phase de segmentation du signal n’est pas une tâche nécessitant a priori beaucoup de connaissances contextuelles. La segmentation devrait donc pouvoir se faire avec une méthode qui n’utilise que des connaissances disponibles à l’instantt du processus. Mais la critique de l’état de l’art que nous avons réalisée au paragraphe 4.1.2 montre qu’il y a tout avantage à utiliser des informations issues d’un contexte de taille variable. La méthode que nous développerons utilisera donc plusieurs trames issues de la phase de prétraitement.

Cette phase de segmentation identifiant les voyelles permettra d’obtenir une liste d’îlots de confiance, ces îlots permettant d’appliquer le processus de reconnaissance des mots en des endroits du signal où le résultat aura une signification. Nous économisons ainsi une mise en œuvre en parallèle de ces deux phases du traitement, parallélisation qui aurait été possible en utilisant une phase de validation par conjonction des résultats et au prix d’une utilisation accrue de la puissance de calcul de la machine utilisée.

4.1.3.2/ Reconnaissance des mots

La deuxième étape nécessaire à notre système de reconnaissance de petits vocabulaires est l’étape de reconnaissance des mots du vocabulaire considéré. Les problèmes qui nous sont posés sont beaucoup moins complexes que ceux qui devraient être pris en compte dans le cas de vocabulaires de grande taille. Notre sujet de thèse se restreint aux seuls chiffres et lettres épelés et le vocabulaire est de ce fait très limité et toute étape de prise en compte d’une grammaire peut être abandonnée. Il n’y aura donc aucune étape de vérification lexicale dans notre système alors que cette vérification permet d’obtenir de meilleurs résultats lorsqu’elle est utilisée (cf. paragraphe 4.1.2). Notre tâche a, cependant, une optique a priori généraliste.

La tâche qu’il nous est demandé de résoudre est simple du point de vue du vocabulaire. Les chiffres épelés sont, par exemple, au nombre de dix, le nombre de mots à reconnaître étant, bien sûr, équivalent. La résistance intrinsèque des voyelles au bruit nous a poussé à décider de la mise en place d’une première étape de segmentation permettant d’isoler des points d’ancrage pour la phase de reconnaissance. En partant de ce type d’informations, la phase de reconnaissance pourrait être

Chapitre 4 : Développement avec les perceptrons multicouches

faite de deux manières. Il serait ainsi possible de développer une phase de reconnaissance de mots utilisant une large fenêtre sur le signal de manière à avoir accès à l’ensemble du mot c’est à dire à la voyelle et à son contexte. Notre tâche correspondrait alors à un agglomérat d’une phase de détection (spotting) des instants de voisement intéressants dans le signal et à l’application d’une phase de reconnaissance de mots utilisant une technique similaire à celle duspotting. L’inconvénient majeur de cette méthode est la grande rigidité de la fenêtre d’analyse mise en œuvre qui doit a priori être adaptée à tous les rythmes d’élocution et doit donc être maximisée, nécessitant par là même d’utiliser plus de coefficients qu’il faudra définir, au préalable, par apprentissage.

La méthode de reconnaissance dont nous venons de parler est une méthode globale, analysant en une fois un signal étendu. L’autre paradigme existant en reconnaissance des formes est celui des méthodes analytiques, étudiant une forme non comme une seule et même entité mais comme une suite de formes plus restreintes dans le temps ou l’espace. Nous allons maintenant voir comment ce type de paradigme, cette deuxième manière de faire, pourrait être appliqué et quels avantages peuvent en être tirés.

La table 4.1 montre la manière dont sont prononcés les dix chiffres en langue française et donne une transcription phonétique de ces prononciations. Un fait intéressant à remarquer est la grande diversité des voyelles employées. Ainsi, ce sont sept voyelles qui sont utilisées pour la prononciation des dix chiffres. Cette constatation permet de conclure que la seule connaissance de la voyelle permet de reconnaître quatre des dix chiffres, les six chiffres restant se partageant, par couple, les trois voyelles restantes. Ces trois couples sont “un” et “cinq”, “trois” et “quatre” et, enfin, “six” et “huit”. Pour résoudre le problème des trois voyelles employées dans deux chiffres différents, une étape supplémentaire de reconnaissance devient nécessaire. Cette étape devrait utiliser une connaissance a priori de la position de la partie du signal autour de la voyelle permettant de discriminer le chiffre en question. Ainsi, pour distinguer “un” de “cinq”, il faudrait soit identifier le phonème /s/ avant la voyelle, soit identifier le phonème /k/ après. La présence de l’un ou l’autre permettrait d’identifier un “cinq” alors que l’absence des deux permettrait de conclure, aux erreurs de classification près, à la présence d’un “un”. Des processus de nature identique pourraient être mis en place pour les autres couples de chiffres.

La constatation qui vient d’être faite pour le français peut également être faite pour l’anglais. Ainsi, en observant la table 4.2 qui donne la prononciation anglaise des dix chiffres et la transcription phonétique de ces chiffres en alphabet phonétique ARPABET, il est aisé de constater que, cette fois encore, sept voyelles différentes sont utilisées. A contrario des observations que nous avions faites sur le français, certaines voyelles se retrouvent maintenant dans plus de deux chiffres. Il

Chiffre Prononciation française Transcription phonétique

0 zéro 1 un 2 deux 3 trois 4 quatre 5 cinq 6 six 7 sept 8 huit 9 neuf

Table 4.1 : Transcription phonétique API des chiffres épelés en langue française. zeRo ε˜ dø tRwa katR sε˜k sis sεt h i( )t nœf

4.1/ Exposé du problème

existe donc un triplet “zero”, “three” et “six” et deux couples : “zero,o” et “four” d’une part et “five” et “nine” d’autre part. Mais, comme pour le français, la reconnaissance de quatre des sept voyelles permet la reconnaissance immédiate de quatre des dix chiffres, les autres voyelles nécessitant, cette fois encore, une phase d’analyse supplémentaire.

Un raisonnement similaire à celui que nous venons de tenir peut être adopté pour les lettres épelées qui sont au nombre de ... vingt six. La table 4.3 donne la liste des vingt six lettres de l’alphabet, leur épellation en langue française et la transcription phonétique correspondante. Il est aisé de constater que, bien que le nombre de lettres soit supérieur au nombre de chiffres, le nombre de voyelles utilisées dans la constitution des vingt six mots est cette fois restreint vis-à-vis du nombre de mots. Il est ainsi possible de comptabiliser un total de neuf voyelles différentes dans la table 4.3. Ce nombre peut paraître faible par rapport aux vingt six mots mais il faut rappeler que le français ne comporte que douze voyelles dont certaines sont, finalement, acoustiquement très proches, sans même tenir compte des accents régionaux, limitant ainsi l’emploi possible de l’ensemble (cf. chapitre 1, table 1.1). Cependant, et de même que pour les chiffres, la connaissance de la voyelle permet encore, dans certains cas proportionnellement plus restreints, d’avoir une connaissance immédiate de la lettre épelée qui a été prononcée. C’est ainsi le cas pour “E” avec le phonème /ø/ ou pour “O” avec le phonème /o/.

Chiffre Prononciation anglaise Transcription phonétique

0 zero, o Z IH R AO, AO 1 one W AH N 2 two T UH 3 three TH R IH 4 four F AO R 5 five F AY V 6 six S IH K S 7 seven S EH V AX N 8 eight EY T 9 nine N AY N

Table 4.2 : Transcription phonétique ARPABET des chiffres épelés en langue anglaise.

Chapitre 4 : Développement avec les perceptrons multicouches

Une fois encore, les constatations qui ont été faites pour le français peuvent être faites pour l’épellation de l’alphabet en anglais. En particulier, les lettres prononcées en français avec la voyelle e sont identiquement regroupées en anglais et prononcées avec la voyelle IH. Toutes ces lettres sont d’ailleurs regroupées dans ce qui est appelé le “E-set” (prononcer i sept) dont nous avons déjà parlé [fanty90]. Il pourrait également être possible de parler d’un “EH-set” (prononcer è sept) pour d’autres lettres épelées [daly88], la taille du “E-set” étant cependant supérieure à celle du “EH-set”.

Les remarques qui viennent d’être faites sur la phase de reconnaissance des mots et l’avantage que nous voyons à tirer parti de la présence de nombreuses voyelles, en particulier dans le cas des chiffres, nous pousse à développer un système qui ne met pas en œuvre le paradigme des méthodes globales mais plutôt celui des méthodes analytiques. Nous avons donc opté pour une reconnaissance des mots effectuée en deux étapes, une première étape permettant de reconnaître la voyelle et la deuxième étape permettant de reconnaître le mot dans le cas où la reconnaissance de la voyelle ne suffit pas.

Dans le document Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques (Page 101-105)