• Aucun résultat trouvé

Apprentissage avec plusieurs bruits à plusieurs rapports signal sur bruit

C HAPITRE 4 : D ÉVELOPPEMENT AVEC LES PERCEPTRONS MULTICOUCHES

4.2/ Description du système

4.4.1/ Architecture utilisée

4.4.3.4/ Apprentissage avec plusieurs bruits à plusieurs rapports signal sur bruit

Les résultats présentés dans la table 4.11 suivent des règles assez simples puisque nous avons choisi de généraliser au maximum les conditions d’apprentissage et de test. Les pourcentages fournis dans cette table correspondent donc au taux d’identification correcte des voyelles à partir des trames de la segmentation manuelle. Ces taux d’identification correspondent à la moyenne des taux d’identification des voyelles à tous les rapports signal sur bruit possibles en présence de bruit c’est à dire pour de la parole du corpus BDSON bruitée à 18, 12, 6, 0 et -6 décibels. Ces taux d’identification peuvent être partiellement rapprochés des chiffres présentés dans les colonnes de

RSSB utilisé à l’apprentissage parole non bruitée (%) 18 dB (%) 12 dB (%) 6 dB (%) 0 dB (%) -6 dB (%) moyenne générale moyenne colonnes 1 à 5 +∞ 100 100 95 72 54 34 75 84 + et 18 dB 100 100 99 96 70 23 81 93 +∞, 18 et 12 dB 100 100 99 99 84 54 89 96 + et de 18 à 6 dB 100 100 100 97 88 57 90 97 +∞ et de 18 à 0 dB 100 99 96 93 85 57 88 94 + et de 18 à -6 dB 98 99 99 100 88 66 91 96

Table 4.10 : Classification des voyelles pour le corpus BDSON, bruit de parole synthétique, réseau à 9 sorties, plus de deux rapports signal sur bruit en apprentissage

Chapitre 4 : Développement avec les perceptrons multicouches

moyenne générale, de la table 4.8 à la table 4.10. Les conditions d’apprentissage sont présentées en ligne et correspondent, à l’exception de la première ligne, à la jonction de deux types de bruits dans le corpus d’apprentissage, chaque bruit étant pris en compte à tous les RSSB comme cela vient d’être précisé. La condition d’apprentissage est rappelée dans chaque ligne par un assombrissement de la case du tableau de manière à améliorer la lisibilité. La première ligne correspond à un apprentissage effectué sur de la parole propre et permet de contrôler les capacités de reconnaissance du réseau sur les différents bruits que nous avons utilisés pour réaliser ces tests. Les différents bruits utilisés sont présentés ci-dessous mais c’est l’utilisation du numéro Noise-Rom-0 qui a prévalu sur l’utilisation du nom pour nous permettre de présenter un tableau succinct. Les bruits utilisés sont :

- le bruit synthétique de parole (speech noise), bruit stationnaire, bruit numéro 06 de Noise-Rom-0, figure A3.2 du paragraphe A3.3.1 de l’annexe 3,

- le bruit de l’hélicoptère Lynx sur plate-forme, bruit stationnaire, bruit numéro 12 de Noise-Rom-0, figure A3.4 du paragraphe A3.3.1 de l’annexe 3,

- le bruit de salle d’opérations d’un contre-torpilleur, bruit non stationnaire, bruit numéro 14 de Noise-Rom-0, figure A3.5 du paragraphe A3.3.2 de l’annexe 3,

- le bruit de rafales de mitrailleuse, bruit non stationnaire, bruit numéro 16 de Noise-Rom-0,

figure A3.9 du paragraphe A3.3.3 de l’annexe 3,

- le signal de test du bateau STITEL, bruit non stationnaire, bruit numéro 18 de Noise-Rom-0,

figure A3.6 du paragraphe A3.3.2 de l’annexe 3,

- le bruit d’une usine de fabrication automobile : bruits de soudures électriques lors de l’assemblage du bas de caisse, bruit non stationnaire, bruit numéro 21 de Noise-Rom-0, figure A3.8 du paragraphe A3.3.3 de l’annexe 3,

Les résultats présentés à la table 4.11 montrent des résultats assez variables selon les conditions d’apprentissage et de test. Une première remarque générale peut être faite pour appréhender les pourcentages les plus faibles de la table : ils marquent généralement un effondrement des taux de reconnaissance, surtout aux rapports signal sur bruit les plus faibles. Ces faibles taux de reconnaissance sont à rapprocher des taux de moyenne générale donnés dans les tables précédentes en se rappelant cependant que le pourcentage de reconnaissance sur la parole propre n’est pas pris en compte.

Les taux de reconnaissance donnés dans la table 4.11 sont très intéressants car ils permettent de voir les comportements variables du réseau en fonction de la difficulté des bruits sélectionnés à l’apprentissage. Ainsi, l’apprentissage de l’identification des voyelles avec les bruits 14 et 16, bruit de salle d’opérations d’un contre-torpilleur et bruit de rafales de mitrailleuse, ne permet pas d’obtenir de meilleurs taux de reconnaissance par ailleurs, le corpus de parole propre excepté. À l’inverse, l’apprentissage effectué avec les bruits 18 et 21, signal de test du bateau STITEL et bruit d’une usine de fabrication automobile, a permis d’obtenir dans tous les autres cas de bruits des résultats au moins aussi bons que ceux obtenus sur les bruits présents dans le corpus d’apprentissage.

Ceci tend à prouver que les conditions choisies lors de l’apprentissage peuvent très fortement influencer les capacités de généralisation du système en phase d’utilisation hors de son milieu de mise au point. Malheureusement, ce choix doit être fait de manière judicieuse car il ne permet pas d’obtenir de bons résultats avec toutes les conditions de bruit de même que le choix pour un rapport signal sur bruit plutôt qu’un autre influait positivement ou négativement sur le résultat comme nous l’avons vu lors de nos précédentes expériences. Il semble cependant, à la vue de la troisième et de la quatrième ligne, que la sélection de bruits stationnaires ne soit pas gage de succès. Les apprentissages effectués avec le bruit synthétique de parole ou le bruit de l’hélicoptère Lynx ne nous ont en effet pas permis d’atteindre les meilleurs résultats de généralisation.

En outre, même s’il semble évident que le choix de bruits non stationnaires permette d’améliorer les capacités de reconnaissance, ce choix n’est pas simple à réaliser puisque plusieurs bruits non

4.5/ Reconnaissance des mots

stationnaires ont été utilisés avec des résultats forts différents.

Il nous est impossible de présenter d’autres conditions d’apprentissage que celle présentées dans la table 4.11 car bien que nous en ayons réalisé d’autres avec des résultats parfois moins intéressants, nous les avons tous perdus.

Nous pensons que les résultats présentés dans la table précédente constituent une première partie d’une des réponses à [bourlard96a] qui note au sujet de la sensibilité au bruit et au rythme d’élocution des systèmes actuels de RAP que “Ces problèmes sont généralement abordés en améliorant la caractérisation du signal acoustique ou en adaptant les paramètres des modèles. Malheureusement, il ne semble pas que les méthodes développées jusqu’à présent soient vraiment satisfaisantes, et il n’est pas impossible que le modèle de base doive être modifié de façon significative de façon à pouvoir faire face aux différents types de variabilités qui n’ont pas été observés dans la base d’entraînement”. Il nous semble, au regard de nos derniers résultats, que la sélection de bruits d’apprentissage, selon un critère de difficulté ou une caractérisation restant à définir, est une méthode efficace pour permettre à un réseau connexionniste d’extraire une information très pertinente d’un signal de parole qui pourra ensuite être bruité suivant différentes conditions.

4.5/ Reconnaissance des mots

La dernière étape de notre système est présentée à la figure 4.13. Cette étape permet de lever les indécisions qui peuvent encore exister, lorsque la voyelle reconnue à l’étape d’identification des voyelles est utilisée pour l’épellation de plusieurs chiffres ou lettres du corpus étudié.

Cette étape repose, de même que les deux étapes précédentes, sur l’emploi de réseaux connexionnistes statiques. Nous avons choisi d’employer des perceptrons multicouches pour cette étape puisque les STNN permettent de traiter des phénomènes énergétiques alors que certains des phonèmes à reconnaître maintenant pourraient avoir une énergie inférieure à l’énergie minimale du segment vocalique, posant problème à l’étape de calcul de la position des deux premières trames. Il faut en effet désormais analyser les phonèmes de nature consonantique qui entourent une voyelle employée dans plusieurs mots. Cette étape pourrait se faire dans le signal précédant la voyelle ou dans celui la suivant. Le choix à faire doit avant tout reposer sur la capacité de résistance au bruit des phonèmes présents en place antérieure ou postérieure à la voyelle.

La figure 4.13 présente le cas d’une suite de trois chiffres, typiquement extraite de NOISEX, qui ne peuvent pas tous être analysés à partir de la seule voyelle. Ainsi, seul le deuxième chiffre,eight, peut être reconnu à partir de la voyelle. Les deux autres voyelles posent problème puisqu’elles sont toutes deux utilisées dans plusieurs chiffres. Il faut donc employer deux réseaux particuliers

Bruit(s) utilisé(s) en apprentissage Test clean Test bruit 06 Test bruit 12 Test bruit 14 Test bruit 16 Test bruit 18 Test bruit 21

Aucun (parole non bruitée) 98 86 87 78 91 81 86

14 et 16 98 66 68 92 94 71 92 06 et 18 99 90 94 74 86 89 79 12 et 18 99 93 95 79 90 91 83 14 et 18 99 88 93 91 87 90 96 16 et 18 98 91 95 79 94 91 82 21 et 18 98 92 95 92 89 90 91

Chapitre 4 : Développement avec les perceptrons multicouches

supplémentaires pour effectuer la reconnaissance du mot prononcé.

Comme le montre la figure 4.13, nous avons choisi, pour la discrimination des chiffres associés à la voyelle /AY/ tout comme pour la discrimination des chiffres associés à la voyelle /IH/, d’utiliser le phonème antérieur pour discriminer les mots prononcés. Ainsi, dans le cas de /AY/, la discrimination se fonde sur la différence acoustique évidente existant entre le /F/ defive et le /N/ denine tandis que la discrimination des chiffres associés à /IH/ repose sur la différence entre le /S/ desix et le groupe /TH R/ de three. Ce dernier choix peut être critiqué puisqu’il existe une certaine proximité acoustique entre /S/ et /TH R/ dans la prononciation anglaise. La perte d’énergie se produisant sur le /R/ est cependant assez forte pour permettre une discrimination aisée. Il aurait aussi été possible d’étudier la présence ou l’absence du groupe phonétique /K S/ en fin de mot pour effectuer cette même discrimination.

Figure 4.13 :Schéma synoptique de l’étape d’identification des mots.

Les résultats obtenus lors de cette étape d’identification des mots à partir de la voyelle étaient de bonne qualité. La simplicité de la tâche dans le cas des chiffres permet de très facilement atteindre un taux tout à fait acceptable de reconnaissance puisque la discrimination est faite à partir d’indices phonétiques très différents comme dans le cas du /AY/ où les phonèmes à reconnaître appartiennent à des classes aussi différentes que les fricatives et les nasales. Cette bonne qualité des résultats doit cependant être nuancée puisqu’il est évident que des tests menés sur une tâche de reconnaissance de lettres épelées auraient eu à résoudre des problèmes comme ceux duE-set. La perte de nos données stockées sur disque ne nous permet cependant pas de présenter le moindre résultat et ne nous permet donc pas de valider nos propos.