3.3 Inférences probabilistes pour les tâches de perception
3.4.3 Implémentation dans le cadre d’une théorie perceptuo-motrice . 49
P(S |M)P(O
L|S)
. (3.37)
Ainsi, la tâche de production dans le cadre d’une théorie auditive fait intervenir deux parties de
notre modèle : le système perceptifP(O
L|S) et le lien sensori-motreurP(S |M), ainsi qu’une
distribution a prioriP(M) sur les gestes moteurs. En sommant sur tous les percepts sensoriels
S susceptibles de correspondre à l’objet à produire O
L, notre théorie auditive de la production
fait de l’analyse par la synthèse en combinant des cibles acoustiquesP(O
L|S) avec un modèle
directP(S |M) de la transformation articulatori-acoustique.
3.4.3 Implémentation dans le cadre d’une théorie perceptuo-motrice
Réaliser une tâche de production dans le cadre d’une théorie perceptuo-motrice, c’est calculer
indifféremment P(M |O
S[C=1]) ouP(M |O
L[C=1]). Par inférence bayésienne sur la
distri-bution de probabilité conjointe, il vient le résultat suivant :
P(M |O
L[C=1])∝P(M | [O
S=O
L])X
S
P(S |M)P(O
L|S)
. (3.38)
Ainsi, la tâche de production de la parole dans le cadre d’une théorie perceptuo-motrice fait
intervenir trois parties de notre modèle : le système moteur P(M | O
S), le système perceptif
P(O
L| S) et le lien sensori-moteur P(S | M). De plus, la partie droite de l’équation (3.38)
n’est autre que le produit des parties droites des équations (3.36) et (3.37), c’est-à-dire que
la production perceptuo-motrice apparaît comme étant le produit d’une production faisant
intervenir des représentations purement motrices et d’une production faisant intervenir des
représentations purement auditives.
3.5 Résumé des calculs d’inférence
Ainsi, notre modèleCOSMOest un modèle probabiliste d’agent communicant qui, construit sur
une hypothèse d’internalisation de la situation de communication, offre un cadre computationnel
intégrateur permettant d’étudier les interactions sensori-motrices en production et en perception
de la parole.
Dans un souci de synthèse, voici sur des pages voisines le modèle COSMO décrit figure 3.4
par un réseau bayésien et par la décomposition de sa distribution de probabilité conjointe, et la
figure 3.5 qui résume tous les calculs d’inférence précédents.
P(O
SM S O
LC) =P(O
S)×P(M |O
S)×P(S |M)×P(O
L|S)×P(C |O
SO
L) .
Figure 3.4: Le modèle COSMO d’agent communicant, décrit par un réseau bayésien et par
la décomposition de sa distribution de probabilité conjointe.
Cette figure est à mettre en parallèle avec la figure 3.6, déjà présentée dans le chapitre
précédant à la section 2.1.3, qui propose une taxonomie des différentes théories de production
et de perception de la parole, illlustrée par des travaux emblématique de chaque entrée.
C’est une propriété majeure de COSMO que de proposer de décrire, dans un même cadre
théorique et dans un même formalisme probabiliste, l’ensemble des théories auditives, motrices
et perceptuo-motrices de la communication parlée, dans des enjeux de production comme de
perception. C’est cette propriété majeure que nous allons exploiter tout au long de cette thèse,
pour comparer ces différentes théories, notamment dans le contexte de la perception de la parole.
Dans le reste de ce document, nous utiliserons le terme (singulier) de théorie auditive, théorie
motrice et théorie perceptuo-motrice au sens d’unicité que confèrent les différentes équations
pourunethéorie donnée – sans perdre de vue qu’il existe, indépendamment de notre formalisme
unificateur,des implémentations variées dans chaque cadre proposé.
Tâche de production
inférence de la formeP(M|O)
Tâche de perception
inférence de la formeP(O|S)
Théorie motrice
focalisation surOS P(M|OS)| {z }
répertoire moteur ∝X
M P(M|OS)| {z }
décodeur articulatoire × P(S|M)| {z }
modèle inverseThéorie
auditive
focalisation surOL ∝ P(M)X
S P(S|M)| {z }
modèle direct × P(OL|S)| {z }
cibles acoustiques P(OL|S)| {z }
classifieur auditifThéorie
perceptuo-motrice
C=1, i.e. OS=OL ∝ P(M |[OS=OL])| {z }
production motriceX
S P(S|M)P(OL|S)| {z }
production auditive ∝ P([OL=OS] |S)| {z }
perception auditiveX
M P(M |OS)P(S|M)| {z }
perception motriceFigure 3.5: Inférences probabilistes dans COSMO, pour les tâches de production et de
peception prédites par les théories motrice, perceptive et perceptuo-motrices.
Tâche
Théorie Production Perception
Motrice Browman et Goldstein (1989)Articulatory Phonology, Liberman et Mattingly (1985)Motor Theory,
Auditive Auditory reference framesfor speech planning,
Guentheret al. (1998)
Auditory theories,
Diehlet al. (2004)
Perceptuo-motrice Guenther (2006)DIVA model, Theory, SchwartzPerception for Action Controlet al. (2012a)
Figure 3.6: Taxonomie des modèles de production et de perception de la parole,
adaptée de Moulin-Frieret al.(2010). L’objectif de cette table n’est bien sûr pas l’exhaustivité,
mais il s’agit simplement d’illustrer la manière dont les tâches de production et de perception
sont vues par des travaux représentatifs des différentes familles de théories.
4 Théorème d’indistinguabilité des théories motrice et
auditive en perception de la parole
Dans cette partie nous allons montrer que, bien que les théories motrice et auditive de la
perception de la parole soient régies par des équations différentes (obtenues par les calculs
d’inférence de la section précédente), il existe des cas où ces théories sont indistinguables
21.
Nous donnons ici une description informelle de notre théorème d’indistinguabilité, qui sera
démontré rigoureusement plus loin. Ce théorème pose un cadre, constitué de conditions idéales,
sous lesquelles il n’est pas possible de distinguer les prédictions des théories motrice et auditive
de la perception car elles sont identiques. Ces conditions idéales dont la conjonction suffit à
assurer l’indistinguabilité sont les suivantes :
• apprentissage parfait du classifieur auditif à partir des productions d’un maître ;
21
Nous qualifions d’indistinguables des théories qui ne peuvent pas être distinguées, au sens où elles font
rigoureusement les mêmes prédictions expérimentales, ce qui garantit l’impossibilité d’observer des différences.
• identité motrice parfaite avec le maître ;
• connaissance parfaite de la transformation articulatori-acoustique.
Lorsque ces hypothèses caractérisant des conditions idéales d’apprentissage sont vérifiées, les
théories motrice et auditive font les mêmes prédictions quelle que soit la tâche de perception
demandée ensuite à notre modèle d’agent (différents locuteurs, différents niveaux de bruit, etc).
La démonstration du théorème d’indistinguabilité et l’explicitation des conditions parfaites
sur lesquelles il repose nécessitent au préalable d’expliquer comment sont apprises les différentes
distributions de probabilité intervenant dans la décomposition de la distribution de probabilité
conjointe (voir par exemple figure 3.4) de notre modèleCOSMO.
Dans le document
COSMO : un modèle bayésien des interactions sensori-motrices dans la perception de la parole
(Page 60-63)