Modèles de traitement auditif des sons - La parole comme phénomène temporel

C HAPITRE 5 : B RUIT , PAROLE , TEMPS ET MÉMOIRE

5.2/ La parole comme phénomène temporel

5.2.2/ Modèles de traitement auditif des sons

Comme nous l’avons vu dans le paragraphe précédent, la parole est un phénomène temporel par les caractéristiques d’enchaînement des événements sonores mais également par la prédiction qui peut être faite sur la séquence de production de ces événements.

Certains modèles, neurophysiologiques ou psychologiques, essaient de décrire simplement ces caractéristiques. Il est possible, à partir des idées exposées, d’extrapoler des modèles connexionnistes ou des automates qui permettent de modéliser le comportement perceptif. Nous allons maintenant présenter quelques unes de ces architectures qui nous semblent intéressantes pour représenter tant la perception des durées d’événements que la perception de schémas qui peuvent être rappelés ultérieurement.

Chapitre 5 : Bruit, parole, temps et mémoire 5.2.2.1/ Modèle de la cascade

Une des architectures neurophysiologiques intéressantes dans le domaine de la reconnaissance automatique de la parole est le modèle de la cascade de McClelland [mcclelland79] qui est en fait intéressant pour toute recherche utilisant les paradigmes du connexionnisme, tant dans le domaine de la reconnaissance de la parole que dans celui de la reconnaissance d’images. Ce modèle pourrait être rapproché des concepts d’agents et de traitements parallèles concurrents qui sont étudiés aujourd’hui en informatique. Il peut également être vu comme une variante connexionniste et simplificatrice des architectures de tableaux noirs [lesser75]. Cependant, à la différence des architectures de tableau noir et bien que le modèle soit divisé en strates à la sémantique bien définie, il n’est pas ici possible de retrouver la notion d’expert spécialiste dans son domaine, la connaissance étant, comme dans tout modèle connexionniste, répartie au sein des unités du réseau.

Le modèle de la cascade est fondamentalement opposé au concept du modèle à étages disjoints, discrete stage model, de la neurophysiologie et en propose une alternative. Ce concept de modèle à étages disjoints, dont on pourra trouver des exposés dans [sternberg69] et [hunt78], militent pour une organisation séquentielle et ordonnancée des traitements. Ainsi, une décision à un niveaun ne pourra être prise qu’après que toutes les décisions du niveau n-1 aient été prises. Identiquement, une activation à un niveau n ne pourra être calculée que lorsque toutes les activations de la couche inférieure auront été calculées. Le concept de modèle à étages disjoints peut être vu comme étant très proche des perceptrons multicouches. Dans ceux-ci, le calcul des activations se fait suivant un flot de la couche d’entrée vers la couche de sortie et les activations des neurones de chaque couche ne sont calculées que lorsque toutes les activations de la couche inférieure ont été calculées. Il est possible de considérer ce mode de calcul comme très cartésien, chaque couche représentant une étape dans la résolution du problème et toutes les étapes étant clairement séparées les unes des autres.

Le modèle de la cascade dévie fortement de ces notions. Les activations sont ici constamment recalculées par les neurones en fonction de leurs valeurs précédentes et des activités de la couche inférieure. Bien que l’auteur insiste dans son article sur la notion du calcul de l’activité en fonction des résultats des processus de la couche inférieure, comme cela se fait dans un perceptron, l’activité de chaque neurone est calculée de manière dynamique en se référant à l’équation générale aux différences donnée par l’équation 5.1. Cette équation montre clairement que l’activation de chaque neurone est fonction de l’activation au pas de temps précédent. L’unité a_nj (unité j de la couche n) voit sa valeur modifiée en fonction dei_nj, le niveau d’activation de l’entrée de la cellulea_nj au temps

t, cette variation étant, elle, fonction d’un coefficientk_nj appelé constante de taux (rate constant).

(Éq. 5.1)

L’équation 5.1 accepte une solution générale qui permet de calculer l’activation d’une unitéa_nj en fonction de la présentation d’un stimulusS au tempst = 0.a_ns/S représente l’activité asymptotique de l’unitéa_nj dans le cas où le stimulusS serait laissé indéfiniment en entrée de l’unité, lesk_i étant les constantes de taux [mcclelland79].

(Éq. 5.2)

Les coefficients K_i de l’équation 5.2 sont des constantes dont le mode de calcul est donné par l’équation 5.3. Cette équation implique évidemment que tous les k_i soient différents les uns des autres. Ces constantesK_i sont attachées aux différents termes exponentiels de la somme.

(Éq. 5.3) d dt ---(a_nj( )t ) = k_nj(i_nj( )t –a_nj( )t ) a_nj/S( )t a_nj/S 1 K_ie^–^kⁱ^t i=1 n

∑

– ⎝ ⎠ ⎜ ⎟ ⎛ ⎞ = K_i ^k^l k_l–k_i ---l i≠ n

∏

5.2/ La parole comme phénomène temporel

Dans ce modèle, les neurones sont beaucoup plus indépendants les uns vis-à-vis des autres et effectuent des traitements qui sont sans nul doute plus complexes que ceux effectués par les neurones de McCulloch et Pitts. En plus de la prise en compte de l’activation de la couche inférieure (le terme i_nj de l’équation 5.1), le neurone tient compte de son activation passée. Ceci permet de commencer à modéliser une activation qui est véritablement locale au neurone, un neurone réévaluant sans cesse son activation en fonction de son apprentissage, de son activation au pas de temps précédent et des activations de la couche inférieure, couche qui représente son environnement. Le recalcul se veut véritablement constant et n’est donc pas dépendant d’un certain flot de données. On peut très bien concevoir qu’un neurone d’une couche n voit son activation calculée à partir d’activations de la couche inférieure dont les indices temporels seraientt et t-1 plutôt que d’être tous du temps t, le respect strict des indices temporels marquant l’ordonnancement des calculs du modèle à étages disjoints.

À un niveau plus général, il est aisé de constater que l’architecture générale d’un ensemble de neurones en cascade ne varie pas des modèles séquentiels et correspond, grosso modo, aux architectures des perceptrons multicouches. La figure 5.3 présente l’architecture donnée par l’auteur dans son article [mcclelland79]. Elle permet de constater que la différence, si elle existe, ne peut être vue qu’à un niveau microscopique dans le réseau et non à un niveau méso ou macroscopique.

Figure 5.3 :Modèle en cascade de McClelland (d’après [mcclelland79]).

Le modèle de la cascade constitue donc un pas sur la voie de la complexification de la définition du neurone et du réseau tout entier puisque l’architecture générale seule ne permet pas de connaître les fonctions implantées et les traitements possibles, ajoutant encore à l’effet “boîte noire” des réseaux de neurones. Mais la définition d’unités capables d’effectuer des traitements complexes à un niveau local peut être poussée encore plus loin qu’elle ne l’est dans le modèle de la cascade. Il est en effet possible de définir des unités implantant des automates.

5.2.2.2/ Machine multiniveau d’automates

Les automates d’états finis sont des outils d’une grande puissance qui permettent de représenter simplement des grammaires. De nombreux modèles informatiques en ont été dérivés pour reconnaître ou traiter des grammaires complexes. Les automates de traitement de ces grammaires sont alors implantés informatiquement à l’aide de la structure de données de graphes. Des graphes ont été mis en œuvre dans des tâches de reconnaissance de la parole [sakoe78]. Certains travaux ont permis de complexifier le concept d’automate en mettant en place des procédures de traitement au niveau des nœuds [pierrel81] ou au niveau des transitions [laubsch79]. D’autres modèles d’automates ont, enfin, vu leurs transitions augmenter de valeurs indiquant les probabilités de transitions [rabiner89].

Les automates sont d’usage très répandu dans tous les domaines de l’informatique, reconnaissance de la parole comprise. Aussi, avant d’étudier les manières de simuler des automates grâce à

Niveau de décision Niveau lexical

Niveau de

Niveau phonémique

Niveau des _{Niveau d’activation}

de la réponse caractéristiques prétraitement réponse 2 réponse 1 Stimulus ^oui non

Chapitre 5 : Bruit, parole, temps et mémoire

différents modèles mathématiques, nous allons étudier la manière de les définir formellement. Les automates d’états finis permettent d’analyser de nombreux types de grammaires. Il est possible de représenter mathématiquement ces dernières grâce à un ensemble de données et de règles regroupées sous forme d’ensembles. Formellement, cela se traduit par un système G dont les constituants sont donnés par la formuleG = (N, T,→ , X) [marchand88].N représente l’ensemble des non terminaux de la grammaireG,T représente l’ensemble des terminaux c’est à dire l’ensemble des symboles qui seront effectivement traités,X représente le non terminal à partir duquel toute phrase de la grammaire peut être écrite et la flèche représente l’ensemble des règles de réécriture de la grammaire G. Cette représentation des grammaires permet de traiter des séquences de symboles éléments de T lorsqu’est fournie la liste des règles de la grammaireG dont un exemple est donné dans la figure 5.4. La grammaire est ainsi représentée sous la forme d’un ensemble de règles de réécriture qui utilisent aussi bien des terminaux (lettres minuscules) que des non-terminaux (lettres majuscules). Cette mixité entre les terminaux et les non-terminaux provoque la mise en relation de symboles n’ayant pas le même niveau d’abstraction.

Figure 5.4 :Un exemple de grammaire formelle (d’après [marchand88])

La définition formelle d’une grammaire est la première étape de définition d’un automate capable de la reconnaître. L’automate est construit sous la forme d’un graphe dont les nœuds représentent soit des états de transition, soit des états d’acceptation, soit des états de rejet de la chaîne à analyser. Un nœud particulier du graphe sert de nœud de départ pour le parcours du graphe. Les différentes transitions du graphes ne sont pas, à proprement parler, associées à des valeurs. Le passage d’un nœud à un autre se fera, lors de l’analyse d’une chaîne de symboles terminaux, en fonction du symbole traité qui sert donc de valeur de transition. La définition formelle d’un graphe permet de mieux appréhender cette construction puisque la définition d’un graphe se résume àGr = (X,U) oùX est l’ensemble des nœuds du graphe etU est l’ensemble de transitions, chaque transition étant définie par un couple de nœuds deX [mery95]. Le graphe ainsi défini supprime totalement les références aux non terminaux. Seuls les symboles terminaux sont conservés pour définir les transitions et plus aucune référence aux non terminaux n’est faite. Au mieux, certaines sous-parties du graphe peuvent elles être retrouvées par rapport aux règles de réécriture mais aucun niveau d’abstraction ne sera plus identifiable, pas plus que ne pourra être connue la profondeur de la récurrence sur les règles de réécriture. Toutes ces règles sont donc projetées sur un plan de même abstraction et seuls les terminaux apparaissent.

La projection sur un même plan de symboles de niveaux différents va à l’encontre des principes qui ont été exposés pour la représentation en cascade de la chaîne perceptive. Il semble d’ailleurs très difficile de vouloir définir une grammaire apte à prendre des décisions complexes et de haut niveau à partir d’un simple stimulus d’entrée telle que la parole ou tout autre catégorie de stimuli de bas niveau et très redondants. Le graphe qu’il faudrait définir dans ce cas serait de taille imposante et difficilement gérable. Cette projection sur un même plan peut cependant être contournée grâce à des machines multiniveaux qui permettent, elles aussi, de représenter des grammaires complexes tout en conservant, cependant, certains des niveaux d’abstraction de la grammaire.

Un exemple de définition d’une machine multiniveau pourra être trouvée dans [dimartino87] et [dimartino93]. Les unités de base d’une telle machine sont appelées des cellules. Ces cellules sont en

X→aA aB bA cC

A→Λ bA bB

B→cA bX

C→aA Λ bC aX

5.2/ La parole comme phénomène temporel

fait des automates assez simples possédant plusieurs nœuds de départ, les états d’entrée, et plusieurs nœuds de fin, les états de sorties. Ces cellules sont reliées entre elles par des transitions qui sont appelées ici des liens sémantiques (cf. figure 5.5). Cette liaison permet de constituer une machine. En considérant que les cellules sont ici du niveau le plus bas possible, le niveau 0, l’agrégation de ces cellules entre elles permet de constituer une machine de niveau 1 qui n’est en fait rien d’autre qu’un automate (cf. figure 5.6).

Figure 5.5 :Un exemple de lien sémantique dans une machine de niveau 1

(d’après [dimartino87])

Ce processus peut être itéré autant que nécessaire vis-à-vis de la tâche, cette itération de construction conduisant à la définition d’une machine de niveaun. Si les cellules de base, qui sont des machines de niveau 0, ne traitent que des symboles terminaux, les machines de niveau supérieur seront, elles, en prise avec des symboles abstraits qui sont équivalents aux non terminaux des règles de réécriture des grammaires formelles.

Figure 5.6 :Un exemple de machine de niveau 1 (d’après [dimartino87])

Cette notion de machine multiniveau d’automates n’est pas un concept isolé et des résultats similaires à ceux de [dimartino87] pourront être retrouvés dans [colla85] [bush86].

Ces définitions de machines multiniveaux permettent d’obtenir une alternative, grâce à l’utilisation explicite d’automates, aux modèles de Markov. [dimartino94] compare d’ailleurs les résultats d’une même tâche de reconnaissance de la parole en employant des automates simples d’une part et des réseaux de Markov à états cachés d’autre part. Les résultats obtenus sont équivalents et l’article présente les avantages et les inconvénients respectifs des modèles en fonction des connaissances de l’époque, qui sont déjà dépassées puisque les modèles de Markov ne cessent de progresser du fait de leur grande popularité et du peu d’intérêt que la communauté porte aux machines multiniveaux d’automates. Ce paradigme de machine à plusieurs niveaux de traitement est également étudié aujourd’hui par le biais des réseaux neuromimétiques récurrents [hihi96] utilisant des temporisations au niveau des connexions synaptiques à la manière de [kim92] (cf. chapitre 6, paragraphe 6.4.3.5).

5.2.2.3/ Réseaux de Markov et réseaux de Markov hybrides

Les réseaux de Markov constituent une extension des automates auxquels ont été ajoutés des

lien sémantique

1^ère machine de niveau 0 2^ème machine de niveau 0

machine de niveau 0

Chapitre 5 : Bruit, parole, temps et mémoire

capacités de calcul statistique. Les différents nœuds du graphe représentent les états observables dans la chaîne des symboles terminaux et les transitions du graphe sont associées à des probabilités de passage d’un symbole terminal à l’autre. La somme des valeurs des transitions partant d’un nœud est donc égale à 1 étant entendu qu’il peut exister une transition d’un nœud vers lui-même. Les réseaux de Markov permettent, dans l’absolu, de simuler des automates de grammaire qui peuvent être complexes. L’analyse d’une séquence de symboles terminaux par une chaîne de Markov permet, d’autre part, de connaître la probabilité d’apparition de la chaîne analysée, cette probabilité étant obtenue en effectuant le produit des probabilités des transitions parcourues.

Les nœuds du graphe ayant une sémantique, une extension des réseaux de Markov a été définie pour supprimer cette partie de la définition structurelle. Ceci permet de définir des états qui portent sur des symboles qui ne sont pas connus a priori. Ces réseaux sont appelés des réseaux de Markov à états cachés et sont plus connus sous leur appellation anglaise deHidden Markov Models,HMM.

Les HMM sont très employés en reconnaissance automatique de la parole où ils remportent actuellement la faveur de nombreuses équipes de recherche. Ce succès vient très probablement de leurs capacités à modéliser des grammaires qui permettent de définir des séquences d’enchaînement entre différents événements sonores. Les différents états d’un HMM n’ayant pas a priori de sémantique, la grammaire peut en outre être déterminée par apprentissage sur un ensemble de séquences du même type. Il n’est donc pas nécessaire de connaître la grammaire, et donc l’ensemble des symboles terminaux, à l’avance. Les états qui seront définis par la phase d’apprentissage seront supposés quasi stationnaires et marqueront ainsi différents états remarquables de la séquence apprise.

L’utilisation des réseaux de Markov en reconnaissance de la parole a cependant imposé des modifications, des simplifications voire une sous-utilisation de ces réseaux pour des raisons calculatoires. La phase d’apprentissage dans de tels modèles est longue et la faiblesse des probabilités en sortie a imposé d’utiliser quelques astuces mathématiques. Le nombre des états cachés de tels réseaux est en outre très faible pour limiter les problèmes dans la phase d’apprentissage et, encore une fois, la faible valeur des probabilités de sortie. Ainsi, la littérature propose généralement l’emploi de trois états par phonème dans des tâches de reconnaissance de phonèmes et l’emploi d’un état par phonème dans des tâches de reconnaissance de mots [bourlard95a], [bourlard96].

Le principal inconvénient des réseaux de Markov est la représentation modulaire de la connaissance acquise. Un HMM ne représente qu’un seul type de formes et donnera, après analyse d’une séquence quelconque, la probabilité pour qu’elle appartienne à la classe de celles qu’il a appris à modéliser. La classification se fait donc après comparaison des probabilités de sortie de l’ensemble des HMM, chacun représentant un des types de séquences observables. Ce type de représentation modulaire ne correspond pas pleinement au modèle de la cascade exposé précédemment (paragraphe 5.2.2.1). Dans ce dernier modèle, la connaissance est complètement intégrée dans chaque niveau, chaque neurone pouvant voir l’ensemble des activations et des décisions prises au niveau précédent. À l’opposé, un HMM agit sur une connaissance définie localement et ne possède aucun indice d’infirmation de sa solution. Ce type de représentation de la connaissance ne correspond pas non plus à la représentation des connaissances qui est faite par l’intermédiaire des réseaux connexionnistes puisque, dans ce cas, toute la connaissance est synthétisée au sein d’un seul réseau. Les différentes couches d’un réseau connexionniste ne possèdent cependant pas toujours de sémantique, au contraire du modèle de la cascade. Dans un réseau connexionniste, la couche de sortie possède une sémantique du fait de la mise en place des classes lors de la phase d’apprentissage supervisé. La couche d’entrée peut elle aussi posséder une sémantique, en fonction du corpus d’apprentissage et donc des signaux à analyser. La sémantique des couches cachées est, elle, beaucoup plus difficilement accessible et nécessite l’emploi de techniques dites d’extraction de règles [goh91] qui sont de plus en plus étudiées mais dont les résultats ne sont pas toujours très convaincants...

5.2/ La parole comme phénomène temporel

Un autre inconvénient des HMM est leur faible capacité à modéliser des durées. Les probabilités de passage d’un état à un autre ne prennent normalement en compte qu’une notion de distance entre les symboles terminaux définis sur deux états successifs mais ne modélisent pas la probabilité de rester plus ou moins longtemps dans un état donné. Deux possibilités existent pour prendre en compte la durée d’un événement : il est possible de modifier le mode de calcul des probabilités de transition, il est également possible d’effectuer des modifications architecturales sur un HMM dont les probabilités de passage auront été déterminées au préalable. La modification de la définition des probabilités de transition passe par l’utilisation d’une fonction de densité de probabilité temporelle qui doit, elle aussi, être déterminée par apprentissage. Cette fonction temporelle permet de faire

Dans le document Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques (Page 136-142)