• Aucun résultat trouvé

Transformations verbales dans le modèle TRACE

8.2 Modèle TRACE

Figure 8.1 : Exemple de la fenêtre de liage/décision pour une répétition de la séquence /pata/.

plusieurs candidats pour la sortie du modèle. Le candidat dont l'activité est la plus élevée est considéré comme gagnant. Ce mécanisme de décision entraîne une dynamique déterministe des transformations verbales tandis que, selon les résultats expérimentaux, la dynamique de l'émergence des percepts n'est pas déterministe. Prenons l'exemple du stimulus /patapatapata.../ : en ajoutant la fenêtre de liage et le mécanisme d'adaptation, après un certain temps t1, le percept initial /pata/ bascule vers le percept /tapa/. Le percept /tapa/

se transforme, à son tour, vers /pata/ après la durée t2. Les valeurs t1 et t2 n'étant pas constantes au cours du stimulus, nous proposons un mécanisme de prise de décision probabiliste pour expliquer la dynamique non déterministe des transformations.

Notre objectif dans la partie de modélisation de cette thèse est d'implémenter les mécanismes ci-dessus dans un modèle psychophysique de la perception de la pa-role de sorte que le modèle soit capable de produire nos résultats expérimentaux présentés dans le chapitre 4. Ces mécanismes sont dénis indépendamment du mo-dèle psycholinguistique que nous allons utiliser. Nous pouvons les implémenter aussi bien dans TRACE que dans Shortlist et ART. Pour la suite de travail, nous avons choisi le modèle TRACE. Outre le fait que TRACE est un modèle inuent dans la littérature et qu'il continue à se développer (par exemple, Mirman et al.,2006;

Strauss et al., 2007), ce choix est basé sur des raisons pratiques : le code source de TRACE est libre et il est relativement simple à utiliser. Nous présentons dans la section 8.3 les techniques utilisées pour ajouter ces mécanismes dans le modèle TRACE de base.

8.2 Modèle TRACE

Comme décrit dans la sous-section 7.2.3, TRACE est un modèle connexionniste et localisé dans lequel les unités indépendantes représentent les traits phonétiques, les phonèmes et les mots dans leurs niveaux respectifs. Les connexions entre le niveau lexical et le niveau phonémique et entre le niveau phonémique et le niveau de traits phonétiques sont excitatrices et bi-directionnelles et celles à l'intérieur de chaque niveaux sont inhibitrices. Dans la suite, nous décrivons la manière dont le modèle TRACE fonctionne et notamment réalise une segmentation du ux de parole.

tel-00565893, version 1 - 14 Feb 2011

8.2.1 Architecture

Entrée et niveau de traits phonétiques

L'entrée de TRACE prend la forme d'une séquence de phonèmes que l'utilisateur présente au modèle pour eectuer une simulation. Un phonème d'entrée est fourni au modèle à chaque cycle de traitement. Les entrées peuvent comprendre /p/, /b/, /t/, /d/, /k/, /g/, /s/, /S/, /r/, /l/, /a/, /i/, /u/, /2/ et le silence (/-/). Il est également possible de présenter des segments spéciaux au modèle par exemple, un segment dont les caractéristiques soient entre celles de /p/ et /b/. Grâce à une fonction de type texte-à- parole , TRACE traduit des phonèmes d'entrée en des représentations pseudo-spectrales appelées des traits phonétiques. Ainsi, l'entrée du modèle pour chaque cycle est traduite en une matrice 7×9. Cette matrice com-prend sept traits phonétiques : consonantique , vocalique , dius , aigu , voisé , puissance et amplitude du burst . Chaque trait consiste en neuf continuums : par exemple, le trait vocalique varie de complètement non-voisé jusqu'au tout à fait voisé . Ces traits ont pour but de représenter la structure acoustique du signal de parole. Les cinq premiers traits ont été choisis en lien avec les travaux classiques en phonologie (Jakobson et al.,1969). Le sixième trait, la puis-sance, augmente la diérence entre les consonnes et les voyelles. Enn, l'amplitude du burst a été choisie an de renforcer la distinction entre les consonnes plosives qui ne sont pas très diérentes les unes des autres sans ce trait.

Bien qu'une seule matrice d'entrée soit fournie au modèle par cycle de traitement, son eet persiste pendant les cycles suivants. Comme illustré sur la gure 8.2, les traits correspondant à chaque phonème d'entrée durent 11 tranches de temps. La valeur de chaque trait augmente jusqu'à la sixième tranche et ensuite baisse d'une manière linéaire.

Le tableau8.1présente la corrélation entre les traits phonétiques correspondant aux diérents phonèmes d'entrées. C'est cette corrélation qui détermine le comporte-ment du modèle en indiquant à quel point un phonème à l'entrée excite le détecteur d'un autre dans le niveau phonémique.

Niveau phonémique et lexical

Le niveau phonémique contient une série de détecteurs de phonèmes. Ces dé-tecteurs ont une extension temporelle de 6 tranches de temps et ils sont situés sur diérentes positions des traits (voir gure 8.2). Les centres des détecteurs sont es-pacés de 3 tranches de temps. Cette architecture permet de représenter l'alignement temporel des activations par rapport au passage du stimulus d'entrée que nous dé-taillerons plus loin.

L'organisation du niveau lexical dans TRACE est très similaire à celle du niveau phonémique. Les unités lexicales dans TRACE contiennent deux informations : le degré d'activité des mots qu'elles représentent et leur alignement temporel par rap-port au début de la séquence d'entrée. An de représenter l'alignement temporel des unités activées par rapport à l'entrée, TRACE duplique toutes les unités spa-tialement. La gure 8.3 illustre un exemple concernant cet alignement : l'activité

tel-00565893, version 1 - 14 Feb 2011

8.2. Modèle TRACE 167

Figure 8.2 : Modèle TRACE de la perception de la parole. L'entrée du modèle est la séquence tea cup . Chaque rectangle représente une unité diérente. Les côtés horizontaux des rectangles représentent l'extension temporelle de chaque unité dans TRACE. Figure tirée deMcClelland et Elman(1986).

tel-00565893, version 1 - 14 Feb 2011

Table 8.1 : Corrélation entre les traits phonétiques correspondant aux diérents phonèmes dans TRACE. Les corrélations inférieures à 0.2 ne sont pas présentées.

p b t d k g s S r l a i u 2

p .76 .71 .56 .60 .46 .30

b .76 .56 .71 .46 .60

t .71 .56 .76 .56 .42 .35

d .56 .71 .76 .42 .56

k .60 .46 .56 .42 .77 .24

g .46 .60 .42 .56 .77

s .30 .35 .65

S .24 .65 .20

r .80 .29 .32 .37

l .80 .32 .32

a .29 .32 .65 .75 .67

i .65 .65 .49

u .20 .32 .75 .65 .59

2 .37 .32 .67 .49 .59

de l'unité représentant le mot /k2p/ dans la tranche numéro 24 représente l'hypo-thèse selon laquelle l'entrée contient le mot /k2p/ et que son début correspond à la tranche temporelle 24.

8.2.2 Mécanismes de traitement du ux de parole Traitement par cycle

Le traitement de l'entrée consiste en huit étapes consécutives par cycle : 1. activation des traits par l'entrée

2. inhibition latérale des traits

3. activation des phonèmes par les traits 4. inhibition latérale des phonèmes

5. activation des traits par les phonèmes (si le feedback est activé) 6. activation des mots par les phonèmes

7. activation des phonèmes par les mots (feedback) 8. inhibition latérale des mots

L'activité par défaut des unités est xée à 0, l'activité minimale est de -3 et l'ac-tivité maximale est de 1. Lorsque l'acl'ac-tivité d'une unité est supérieure à 0, elle peut être transmise à d'autres unités via des connexions excitatrices et inhibitrices. Les étapes d'interaction se réalisent pendant chaque cycle de traitement, ce qui conduit à une mise à jour des activités de toutes les unités dans TRACE à la n de chaque

tel-00565893, version 1 - 14 Feb 2011

8.2. Modèle TRACE 169

Figure 8.3 : Activation des unités et leurs connexions dans le modèle TRACE. Les connexions illustrées sont celles des unités correspondant à la valeur maximale du trait vocalique et au mot cup (signalées par un point à gauche) commencant respectivement à la tranche temporelle numéro 9 et 24. Les connexions excitatrices sont illustrées en noir (entourées en vert, niveau phonémique) et les connexions inhibitrices en gris (entourées en rouge, niveau de traits et niveau lexical). Figure tirée de McClelland et Elman(1986).

tel-00565893, version 1 - 14 Feb 2011

cycle. Ainsi, lors du premier cycle de traitement, l'entrée est présentée à la pre-mière partie des unités représentant les traits phonétiques, les étapes de traitement s'eectuent les unes après les autres et les activités des unités sont mises à jour.

Pendant le deuxième cycle, l'entrée est présentée à la deuxième partie de ces unités et ainsi de suite. Nous rappelons que le décours temporel du passage du stimulus dans TRACE est représenté par une extension spatiale des unités. Autrement dit, il existe deux notions de temps dans TRACE : la première représente le temps de passage du stimulus qu'on appelle les cycles de traitement et la deuxième concerne l'alignement temporel des unités par rapport à l'entrée.

Paramètres

Le tableau 8.2 présente les paramètres utilisés dans TRACE. Ces paramètres sont xés à la main. McClelland et Elman (1986) notent que ces paramètres ne sont pas directement comparables d'un niveau à l'autre. Par exemple, l'inhibition entre les traits phonétiques concerne seulement les traits qui sont dans la même tranche temporelle tandis que l'inhibition entre les phonèmes et entre les mots est en fonction de leur recouvrement temporel (voir gure 8.3pour les inhibitions entre les mots). Les valeurs des paramètres réglant les connexions excitatrices inuencent généralement l'amplitude ou la dynamique d'un eet sans que la nature des eets observés soit touchée. Par exemple, des excitations bottom-up plus fortes peuvent augmenter les eets top-down tel que l'eet lexical dans une tâche d'identication phonémique : l'activation plus importante des unités lexicales entraîne des feedbacks plus forts à partir du niveau lexical vers les phonèmes, ce qui augmente à son tour le degré d'activité des phonèmes constituant ces unités lexicales.

Table 8.2 : Paramètres du modèle TRACE.

Paramètre Valeur

Excitation trait-phonème .02

Excitation phonème-mot .05

Excitation mot-phonème .03

Excitation phonème-trait .00

Inhibition entre les traits .04 Inhibition entre les phonèmes .04 Inhibition entre les mots .03 Atténuation des activités des traits .01 Atténuation des activités des phonèmes .03 Atténuation des activités des mots .05

En revanche, les paramètres réglant la valeur d'inhibition entre les unités du même niveau peuvent changer le comportement du modèle. En eet, une inhibi-tion forte entre les unités rend le modèle très sensible à de petites diérences entre l'activité des unités au début de la simulation. Cet eet peut empêcher, dans cer-taines situations, l'inuence du contexte en éliminant les unités peu activées mais

tel-00565893, version 1 - 14 Feb 2011

8.2. Modèle TRACE 171 pertinentes dès le début de la simulation.

Le paramètre d'atténuation permet aux activités des unités de persister pendant des cycles autres que le cycle où l'entrée correspondante est fournie au modèle.

Notamment, une valeur plus petite dans le niveau de traits phonétiques permet une extension temporelle plus large des activités de ces unités. La gure 8.4 illustre ce paramètre dans les trois niveaux de TRACE. Dans le niveau de traits phonétiques, la baisse du niveau de couleur grise représente l'atténuation de l'activité des traits (voir également gure8.2). Dans les niveaux phonémique et lexical, la couleur verte claire illustre cette atténuation.

Figure 8.4 : Atténuation des activités dans le modèle TRACE. Le changement de couleurs du foncé vers le clair représente l'atténuation linéaire dans chaque niveau.

Entrée : abrupt . Figure tirée de Strauss et al.(2008).

Activités des unités

L'activité des unités dans le niveau de traits phonétiques est la somme des valeurs suivantes :

• entrée bottom-up calculée par une fonction texte-à- parole (stimulus).

• entrée top-down du niveau phonémique (si le feedback entre les phonèmes et les traits est actif).

• entrée négative due à l'inhibition : les traits de même dimension correspondant à la même tranche de temps sont mutuellement inhibiteurs.

• activité de l'unité pendant les cycles précédents.

tel-00565893, version 1 - 14 Feb 2011

Le degré d'activité des unités phonémiques est la somme des valeurs suivantes :

• entrée bottom-up des traits dans les mêmes tranches de temps.

• entrée top-down du niveau lexical vers le niveau phonémique.

• entrée négative due à l'inhibition des autres unités phonémiques en fonction de leur degré de recouvrement temporel. Par exemple, un détecteur de phonème inhibe les autres détecteurs situés dans la même tranche de temps deux fois plus que ceux situés à trois tranches de temps plus loin.

• activité de l'unité pendant les cycles précédents.

Enn, le degré d'activité des unités lexicales est la somme des valeurs suivantes :

• entrée bottom-up des phonèmes qu'elle contient (dans l'exemple présenté sur la gure 8.3, l'unité cup reçoit l'excitation du phonème /k/ proche de la tranche numéro 24, du /2/ proche de la tranche numéro 30 et du /p/ proche de la tranche numéro 36).

• entrée négative due à l'inhibition des autres unités lexicales. De la même façon que dans le niveau phonémique, cette inhibition dépend du degré de recouvrement temporel des mots : les unités lexicales représentant les dié-rentes hypothèses étendues sur les même tranches temporelles des phonèmes s'inhibent les unes les autres et celles représentant les hypothèses sur des tranches non-recouvrantes n'entrent pas en compétition (voir gure 8.3).

• activité de l'unité pendant les cycles précédents.

Décision

Le choix entre les diérents candidats dans le niveau lexical et le niveau phoné-mique est basé sur la règle deLuce(1959) : la probabilité de choisir l'unitéicomme sortie est

p(Ri) = ekai P

jekaj (8.1)

où j comprend tous les choix possibles. ai étant l'activité de l'unité i. La trans-formation exponentielle de a garantit que toutes les activités sont positives et le dénominateur assure que la somme de toutes les probabilités est égale à 1.

Segmentation

Dans cette thèse, nous nous intéressons particulièrement à la segmentation du ux de parole. An de réaliser une segmentation de la séquence d'entrée dans TRACE, il n'est pas nécessaire d'avoir des indices spéciant les frontières des mots.

En eet, la segmentation dans TRACE est le résultat de l'activation bottom-up et de la compétition entre les unités dans le niveau lexical. Nous rappelons que le degré d'inhibition entre ces unités est en fonction de leur recouvrement temporel. Ainsi,

tel-00565893, version 1 - 14 Feb 2011