Besoin d’une connaissance phonétique

C HAPITRE 4 : D ÉVELOPPEMENT AVEC LES PERCEPTRONS MULTICOUCHES

4.1/ Exposé du problème

4.1.1/ Besoin d’une connaissance phonétique

Comme nous venons de le voir au chapitre 3, paragraphe 3.3, un système de segmentation n’utilisant que la seule énergie présente dans le signal temporel est inapplicable au domaine de la reconnaissance automatique de la parole en milieu bruité. Cette inapplicabilité est principalement due au manque de connaissances phonétiques qui caractérise cette méthode, uniquement fondée sur un calcul mathématique. Il est, dans ce cas, impossible de distinguer, dans l’absolu, l’énergie du bruit ambiant de l’énergie du signal de parole. Cette distinction pourrait cependant être faite dans certains cas de bruits particuliers grâce à des méthodes ad hoc.

Pour pallier ce problème, il semble nécessaire de mettre en place une méthode de segmentation qui possède un minimum de connaissances en phonétique, ces connaissances devant surtout être fondées sur la forme que peuvent prendre les différents événements de la parole qui nous intéressent dans notre tâche : les voyelles (cf. chapitre 3, paragraphe 3.2.6). Avec de telles connaissances, le réseau de segmentation devrait être capable de distinguer les phonèmes par rapport au bruit où ces formes peuvent être noyées. Les figures 3.10.b et 3.10.c du chapitre 3 permettent de comprendre aisément ce fait puisqu’il est possible de distinguer, dans les spectrogrammes, les traces des formants de la voyelle.

La nécessité d’introduire des connaissances phonétiques se retrouve également dans les phases de reconnaissance des voyelles et des mots auxquelles nous ne nous sommes pas encore intéressés. Cette connaissance est nécessaire dans ces tâches de classification, directement en prise avec notre interprétation, perceptive et symbolique, du signal [harnad90].

Chapitre 4 : Développement avec les perceptrons multicouches 4.1.2/ Critique de l’existant

Différentes recherches ont déjà été menées dans le domaine de la reconnaissance de petits vocabulaires. Ces études permettent généralement de valider, sur des tâches d’envergure limitée, de nouvelles architectures de reconnaissance des formes ou de nouvelles méthodes de prétraitement du signal. Elles sont également utiles pour des tâches limitées dans le cadre d’applications restreintes du concept général d’interface vocale homme-machine.

Avant de nous intéresser à différents travaux très proches des nôtres, nous allons rapporter ici quelques remarques faites lors de recherches s’intéressant à la phonétique et à son utilisation lors de l’étiquetage de corpus de parole préenregistrée. Une première étude aux résultats très intéressants a été présentée dans [phillips87]. Cette étude mesure la concordance entre l’étiquetage effectué par des experts en phonétique sur un corpus du DARPA,Defense Advance Research and Project Agency, et l’étiquetage effectué par deux auditeurs après écoute du même corpus. [phillips87] note ainsi que si les deux locuteurs étiquettent le corpus avec une concordance de 67%, la concordance entre l’expert phonétique et les auditeurs n’est que de 62%. La cause mise en avant pour expliquer cette différence est la coarticulation mais la définition phonétique des segments manuels semble également poser problème puisqu’un système automatique, développé vis-à-vis du corpus du DARPA, classe correctement les phonèmes 48% du temps avec l’étiquetage recueilli auprès des locuteurs alors que ce taux n’est que de 46% lorsque l’étiquetage original est utilisé. Une étude restreinte du corpus TIMIT effectuée dans [keating92] présente d’autres constatations relatives aux variabilités contextuelles et confirme ainsi toute la difficulté d’obtenir un étiquetage manuel correct et le problème posé par l’application de règles phonétiques strictes. Une autre étude intéressante a été effectuée par [cole92] et porte sur la capacité de perception par l’homme lors de tâches équivalentes à celles qui sont posées aux systèmes de RAP. Ainsi, des tests de perception de voyelles présentées hors contexte à des auditeurs quelconques n’ont permis d’obtenir que 54,8% de classification correcte, ce type de tâches est pourtant fréquemment réalisé par des méthodes mathématiques dont certaines ont réussi à obtenir jusqu’à 80% de classification correcte. Le même test de perception réalisé avec une présentation des voyelles au milieu d’un contexte restreint a permis aux auditeurs de reconnaître ces voyelles à hauteur de 65,8%. [cole92] précise enfin que la présentation d’un locuteur à un auditeur par écoute préalable d’une phrase complète permet d’obtenir de meilleurs taux de classification puisque l’auditeur peut déterminer les caractéristiques de la voix écoutée. Aucun résultat synthétique n’est cependant présenté dans ce cas. Enfin, plus près de nos préoccupations, [daly88] a effectué une étude de la tâche d’épellation au niveau acoustico-phonétique et au niveau lexical. Cette étude montre que la cause principale d’erreurs est le regroupement de plusieurs consonnes avec une même voyelle c’est à dire le rôle trop important joué par certaines voyelles dans l’épellation de nombreuses consonnes, comme nous le verrons au paragraphe 4.1.3.2. [daly88] note cependant que le nombre d’erreurs peut être réduit par l’emploi de la notion de perplexité, c’est à dire du facteur de branchement, qui impose des contraintes salvatrices même si l’implantation d’une grammaire est alors obligatoire.

La segmentation de la parole a été étudiée dans de nombreuses recherches. Ainsi, [aktas90] présente une comparaison de plusieurs méthodes de reconnaissance des formes appliquées à une tâche de segmentation en grandes classes qui sont les occlusives non voisées, les fricatives non voisées, les occlusives voisées, les nasales, les sonantes, les voyelles et le silence, l’étude étant réalisée en milieu non bruité. Les systèmes utilisés pour la segmentation sont deux réseaux de Markov, un d’ordre 1 et l’autre d’ordre 2, un système de classification fondé sur le maximum de vraisemblance, que l’auteur considère comme un modèle de Markov d’ordre 0, et un réseau connexionniste baptisé Temporal Flow Model, équivalent à un TDNN mais dont les contraintes d’égalités sur les poids auraient été abandonnées. Les meilleurs résultats de cette étude ont été obtenus par le HMM d’ordre 2, juste devant le TFM, ces deux modèles surclassant, dans l’ordre, le HMM d’ordre 1 et le système de classification fondé sur le maximum de vraisemblance. D’autres

4.1/ Exposé du problème

systèmes de segmentation mettant en œuvre des perceptrons multicouches pourront être trouvés dans [bendiksen90], [ghiselli91] et [cohn91], ces systèmes ayant des résultats variables. [depuydt90] présente lui un système fondé sur l’emploi conjoint d’un perceptron et d’un modèle d’audition particulier et obtient des résultats moyens. [galiano91] présente un système de segmentation utilisant des unités infra-lexicales, c’est à dire plus petites que le mot, pour segmenter le signal de parole en grandes classes que sont les voyelles, occlusives, nasales, affriquées, fricatives, latérales et consonnes roulées. La méthode utilisée repose sur l’emploi d’un automate d’états fini stochastique et obtient des résultats plus moyens que ceux présentés dans [aktas90]. S’éloignant un peu des modèles présentés jusqu’à présent, [feng91] définit un système de segmentation utilisant des modèles adaptatifs mettant en place une mémoire à court terme et une mémoire à long terme. La détection des segments se fait par observations des changements dans le signal, le système reposant sur le principe que la parole est un phénomène localement stationnaire. Aucun véritable résultat n’est cependant présenté. Un autre axe des recherches en segmentation se fonde sur les méthodes de calcul de l’énergie incluant des mécanismes supplémentaires. [mak92] présente ainsi une méthode de segmentation des mots isolés, EPD-TFF. Cette méthode utilise la valeur de l’énergie du signal tout en confirmant ou infirmant les choix par l’utilisation d’indices temporels et fréquentiels. Cette méthode a été présentée de manière plus approfondie dans [junqua94b] où elle est favorablement comparée à d’autres méthodes telles que celle calculant l’énergie avec ajustement automatique du seuil, celle effectuant l’extraction dupitch en tenant compte des variations d’énergie, celle calculant l’énergie avec ajustement automatique au bruit ou encore celle calculant l’énergie avec un mécanisme de détection de la voix par zero-crossing. Cependant, tous les bruits étudiés dans [junqua94b] sont stationnaires. [hunt95] présente lui aussi une méthode de segmentation robuste au bruit se fondant sur la détection du voisement par calcul d’une autocorrélation spectrale d’ordre limité. Le peu de résultats ne permet cependant pas de juger de la qualité de la méthode.

Un affinement de la segmentation en classes comprenant chacune moins d’éléments que les “grandes classes” permet de s’orienter vers les systèmes de classification des phonèmes. [elenius91] présente ainsi un système de classification des phonèmes utilisant trois réseaux connexionnistes différents dont les résultats sont fusionnés logiquement. Un premier réseau permet de détecter les caractéristiques du signal. Ces caractéristiques sont des indices grossiers tels que le voisement, la nasalité ou la position avant, centrale ou arrière de la voyelle. Un deuxième réseau permet d’identifier la voyelle à l’échelle de la trame tandis qu’un troisième permet de détecter les frontières entre voyelles dans une fenêtre de 150 millisecondes. Les résultats sont variables en fonction de la nature du réseau. Ainsi, si la reconnaissance des voyelles est correcte et la détection des caractéristiques assez bonne, l’étape de segmentation est, elle, tout à fait moyenne. L’utilisation de plusieurs réseaux connexionnistes a également été étudiée par [pratt91] dans une optique différente pour la classification des phonèmes. Trois réseaux connexionnistes sont entraînés séparément à reconnaître les voyelles avec des couvertures différentes sur le signal. Cette couverture peut être de 35, 65 ou 135 millisecondes. Ces trois réseaux, ayant des couvertures différentes, sont ensuite regroupés au sein d’un unique réseau qui se voit adjoindre quelques unités supplémentaires pour assurer la cohérence de l’ensemble. Cette méthode obtient de bons résultats. D’autres systèmes d’identification de phonèmes employant plusieurs réseaux connexionnistes en parallèle pourront être trouvés dans [buhrke91], [zeng92] ou [koizumi94]. Un modèle connexionniste spécifique utilisant ce même paradigme de décisions prises en parallèle, leNeural Tree Network, a également été appliqué au problème de l’identification de phonèmes [sankar91b], [rahim92]. [leung90] présente également une méthode d’identification des phonèmes utilisant un réseau connexionniste et des indices particuliers mais n’obtient pas de très bons résultats bien que les indices semblent intéressants. [bennani91b] montre, quand à lui, la supériorité d’un modèle connexionniste mixant les paradigmes du TDNN et des cartes de Kohonen pour ce type de tâche. Toutes les méthodes que nous venons de voir reposent sur des méthodes standard de prétraitement du signal. Il est également possible

Chapitre 4 : Développement avec les perceptrons multicouches

d’utiliser des modèles d’audition comme, par exemple, [muthusamy90] qui compare la représentation spectrographique au cochléagramme de Lyon [slaney88] pour la reconnaissance des 12 voyelles de l’anglais. L’utilisation de l’une ou l’autre des représentations complétée par des indices acoustiques tels que lepitch moyen, la durée de l’étiquette manuelle de TIMIT et l’amplitude relative, ne permet cependant pas d’obtenir de très bons résultats. Un autre modèle d’audition a été utilisé par [anderson91] avec de moins bons résultats. [richards92] présente, lui, un réseau connexionniste utilisant une toute autre philosophie. Son réseau se voit en effet imposer de redonner en sortie l’ensemble des informations mises à disposition en entrée. Ces données sont tout autant des indices articulatoires que des paramètres issus du modèle d’audition défini par Libermann et Mattingly et sont fournis sur une ou trois trames. En plus de devoir redonner ces données en sortie, le réseau se voit demander de classer un total de douze phonèmes observables dans le corpus d’apprentissage. Les résultats obtenus en mode locuteur indépendant sont assez moyens, de l’ordre de 70%. Cette idée de compression de l’espace des paramètres d’entrée a également été appliqué à l’identification des voyelles par [nakamura90]. Cet article présente un modèle connexionniste particulier, le Phoneme Filter Neural Network, qui permet lui aussi de réduire l’espace des paramètres. Ce réseau est divisé en deux parties, la première assurant une compression-décompression des paramètres tandis que la deuxième assure la classification. La première partie du réseau permet de transformer une trame en une autre plus proche d’un modèle faisant partie d’un corpus restreint. Toute trame présentée en entrée sera donc modifiée pour être rapprochée d’un élément d’un dictionnaire de formes standard. La deuxième partie du réseau assure l’identification à partir des formes du dictionnaire. [nakamura90] présente des résultats d’identification de voyelles. Les résultats obtenus sont cependant de plus mauvaise qualité que ceux obtenus avec un simple perceptron. Ces résultats ont été améliorés par la suite sur une tâche d’identification de phonèmes [nakamura91]. La compression des informations n’est pas la seule technique envisageable. [gong91] présente une méthode de classification de phonèmes fondée sur l’interpolation vectorielle non linéaire puis la comparaison d’une trame résultat à un corpus de références. Cette méthode regroupe deux notions très utilisées : les systèmes de prédiction non linéaire d’une part, l’interpolation vectorielle non linéaire subsumant des systèmes tels que les

Linked Predictive Neural Network [tebelskis90], [tebelskis91], lesNeural Prediction Model [iso90],

[iso91] et les Hidden Control Neural Network et, d’autre part, les systèmes fondés sur la quantification vectorielle. Cette méthode obtient de bons résultats. [harrison89] présente, lui, un système de classification de phonèmes fondé sur l’emploi de deux réseaux connexionnistes consécutifs. Le premier réseau permet l’identification des unités infra-phonémiques tandis qu’un deuxième réseau est chargé de la reconnaissance des unités zonales. Ce deuxième réseau utilise un mécanisme de récurrence locale proche de celui exposé, ensuite, dans [vries90]. Ce réseau obtient de bons taux de reconnaissance sur les voyelles mais la reconnaissance des consonnes est de moins bonne qualité. Un autre réseau connexionniste récurrent, d’architecture proche de celle d’[elman90], a été présenté dans [robinson89]. Ce réseau a été appliqué au problème de l’identification des voyelles où il a obtenu d’excellents résultats puisque 80% des voyelles du corpus TIMIT peuvent être correctement reconnues [robinson94]. D’autres architectures connexionnistes ont également été appliquées au problème de la classification des phonèmes. [torkkola91b] utilise ainsi un modèle de Kohonen pour l’identification des phonèmes, les résultats issus de ce réseau étant ensuite traités par un perceptron. Ce réseau a obtenu de bons résultats sur le corpus étudié de même que celui présenté dans [mcdermott92] où le réseau de Kohonen utilisé s’est vu adjoindre une étape de DTW, permettant de classer correctement 80% d’un corpusE-set, type de corpus dont nous reparlerons. Le modèle connexionniste des Radial Basis Functions a également été appliqué à une tâche de classification de phonèmes et comparés aux résultats obtenus par un perceptron. [renals89] note que ces deux modèles connexionnistes ont des résultats équivalents mais que les perceptrons ont de meilleures capacités de généralisation. Des résultats similaires sont présentés par [burr92]. [renals89] note par ailleurs que ces deux types de réseaux connexionnistes ont, dans tous les cas, de

4.1/ Exposé du problème

meilleures capacités que les réseaux de Markov d’ordre 1. Les réseaux de Markov ont été utilisés par [niles92] pour l’identification “temps réel”, ou spotting, des trois consonnes /R/, /s/ et /t/. Les résultats obtenus sont assez bons mais l’intérêt de [niles92] réside surtout dans la présentation d’un algorithme d’apprentissage par correction des erreurs qui est assez proche des algorithmes utilisés pour l’apprentissage dans les réseaux connexionnistes récurrents. [chiba90] met lui aussi en place un spotting des consonnes par observation du signal temporel et des indices acoustiques par un perceptron où il obtient 85% de taux de reconnaissance sur huit consonnes. [shirai91] utilise une méthode de quantification vectorielle alliée à un dictionnaire de références pour effectuer une classification de phonèmes. Il repose sur l’observation de trois types d’indices : l’énergie, le ratio d’énergie et les coefficients issus d’une étape de codage par prédiction linéaire du signal. Ceci lui permet d’atteindre des taux de reconnaissance de 98% pour les voyelles et de 82% pour les consonnes sur un corpus de taille cependant limitée. Les méthodes employées dans cette dernière étude sont néanmoins d’un niveau différent de toutes celles que nous venons de citer puisqu’habituellement réservée à l’identification des mots.

[bourlard96a] note qu’une tâche de reconnaissance de petits vocabulaires se résoud le plus souvent par un modèle de mots et donc par une méthode globale. Le paradigme des méthodes globales prône l’analyse d’un phénomène dans son ensemble plutôt que par l’analyse de certains de ses constituants, cette deuxième option constituant la base du paradigme des méthodes analytiques. Rapporté au domaine de la RAP, ces deux paradigmes opposent donc l’analyse des mots à l’analyse des phonèmes ou de toute autre unité phonétique. Comme nous le verrons tout au long de ce chapitre, notre choix s’est, a contrario, porté sur une méthode analytique, s’intéressant à plusieurs caractéristiques des mots plutôt qu’au mot lui-même. Le paradigme des méthodes globales n’en est pas moins intéressant à étudier puisque certaines recherches ont été menées à partir d’excellentes idées. [english92] a ainsi étudié le problème de la reconnaissance des mots en temps réel, ouword spotting, en utilisant trois modèles connexionnistes différents. La première étape de son système utilise une carte de Kohonen, les sorties de cette carte sont ensuite traitées par une couche d’unités connexionnistes récurrentes avant que ces activations ne soient finalement classées par un perceptron multicouche possédant des unités gaussiennes et synaptiques. Le but de ce réseau était d’identifier les dix chiffres. La couche de sortie comprenait elle-même onze sorties, la onzième sortie, baptisée “don’t care”, permettant de classer tout phénomène acoustique ne correspondant pas à un des dix chiffres. Avec cette architecture, l’auteur a pu obtenir un taux de reconnaissance en monolocuteur de 97,5% en test, l’apprentissage ayant permis d’obtenir 100% de reconnaissance correcte. L’utilisation intégrée de plusieurs réseaux connexionnistes a également été étudiée par [yamaguchi90] avec une méthode beaucoup plus simple. Le système est dédié à l’identification de mots isolés indépendamment du locuteur et utilise plusieurs réseaux de neurones successifs, du premier niveau composé d’event-nets au dernier baptisé super-net en passant par les word-nets. L’auteur obtient ainsi un taux d’identification correcte de 97% sur un ensemble de 10 chiffres et de 18 mots de contrôle. [franzini89] utilise par contre un seul et même réseau, celui-ci réalisant deux tâches de manière concurrente : l’identification des phonèmes d’une part et l’identification des 11 chiffres de l’anglais d’autre part. Toutes les informations de sortie sont exploitées par un processus de niveau supérieur. Entre autre particularité, le réseau connexionniste exploite l’information à partir d’une couche cachée de premier niveau synthétisant l’information en provenance de l’entrée mais également à partir de la copie de cette couche cachée sur les 10 pas de temps précédents. Une deuxième couche cachée permet de synthétiser encore toutes les activations avant que celles-ci ne permettent de calculer les deux types de réponse souhaités. Un développement de cette architecture a été présenté dans [franzini92]. Cette dernière architecture essaie de réaliser, à un même niveau, une identification de phonèmes et une identification de mots. L’idée de reprendre un système d’identification de phonèmes par réseau connexionniste pour réaliser l’identification des mots a été étudiée par [lucke92] qui a, pour ce faire, mis en place des représentations compositionnelles.

Chapitre 4 : Développement avec les perceptrons multicouches

D’autres études ont tenté de marier le paradigme connexionniste à d’autres méthodes plus anciennes. [morgan91b] étudie ainsi la possibilité d’utiliser la DTW avec un réseau neuromimétique tandis qu’[hataoka90] étudie l’exploitation des sorties d’un réseau connexionniste par un système

Dans le document Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques (Page 96-101)