Paramètres dépendant de l’expérience à simuler

Inférences probabilistes et calibrage du modèle BRAID

2.1 Paramètres dépendant de l’expérience à simuler

En analysant les questions probabilistes associées aux différentes tâches simulées par BRAID , on remarque une certaine constance en partie droite. En effet, si l’on exclut les variables de cohérence qui servent à contrôler les flux d’information dans le modèle, on retrouve les mêmes variables dans toutes les questions : (St

1:N µt A σt

A Gt). Le fait que ces variables se trouvent en partie droite des questions probabilistes signifie que leurs valeurs sont connues au moment de l’inférence. Nous allons décrire maintenant comment les valeurs de ces variables sont choisies, et comment les interpréter.

2.1.1 Connaissances lexicales du modèle

La définition de la langue de travail du modèle BRAID permet de calibrer les paramètres du sous-modèle de connaissances lexicales : le domaine D_W des variables W0:T, les paramètres θ_W du prior P (W0) et les paramètres θ_LW des distributions conditionnelles de la forme P (Lt

n| Wt). Ces informations sont fournies par des bases de données lexicales (ou lexiques) que l’on trouve dans la littérature : en effet, ces lexiques fournissent une liste de mots connus, dont la longueur est le cardinal du domaine DW, des fréquences d’occurrence à l’écrit des mots qui identifient les probabilités a priori des mots dans P (W⁰), et une graphie unique pour chaque mot qui identifie les positions des pics de probabilités dans P (L^t_n | Wt) (par exemple, pour le mot FORK , ∀t, P ([Lt

1 = ‘f’] | [Wt = “fork”]) ≈ 1). Dans la définition mathématique des distributions P (L^t_n | Wt), il reste à fixer la valeur du paramètre , qui représente le « niveau de bruit » des représentations lexicales. Cette valeur n’a pas fait l’objet d’une procédure de calibrage systématique, et a été fixée arbitrairement à 10⁻³.

Toutes les expériences comportementales décrites dans ce manuscrit (Chapitres 5 et 6) utilisent la langue anglaise. Nous disposons de deux lexiques : le English Lexicon Project (Balota et al., 2007), qui est composé de 40 481 mots et autant de non-mots et le British Lexicon Project (BLP), qui contient 28 730 mots monosyllabiques et dissyllabiques (Keuleers, Lacey, Rastle, & Brysbaert, 2012). Pour les simulations présentées dans cet ouvrage, BRAID est configuré avec le lexique BLP.

2.1.2 Nombre de lettres traitées simultanément

Ce paramètre, noté N , correspond à la longueur du stimulus. Il est utilisé pour limiter, par commodité, la taille du lexique effectivement utilisé dans les simulations, aux seuls mots de même longueur. Par exemple, si la tâche consiste à identifier le mot HOME , le lexique utilisé dans cette tâche est restreint aux mots de 4 lettres du lexique BLP. Ce paramètre est également utilisé pour définir le nombre de variables indicées par leur position, c’est-à-dire qu’il fixe la structure spatiale du traitement parallèle dans BRAID . Ces choix ont été fait essentiellement pour limiter les temps de calcul, mais il contraint la définition du voisinage orthographique utilisée dans nos expériences.

Ce choix de modélisation affecte la distribution P (W⁰). La fréquence initiale fournie par le lexique BLP est normalisée, non pas sur le lexique entier, mais sur le sous-ensemble des mots de la longueur d’intérêt. Ceci ne modifie pas la fréquence initiale relative des mots les uns par rapport aux autres, à l’intérieur d’une classe de longueur. Mais elle modifie la fréquence relative des mots de longueurs différentes, rendant la comparaison des simulations pour des longueurs différentes impossible. Ainsi, par exemple, l’avantage dans la reconnaissance des mots de trois lettres, qui ont une fréquence moyenne de 297,54, sur les mots de quatre lettres, qui ont une fréquence moyenne de 61,61, disparaît.

2.1.3 Position du regard Gt

La position du regard est, dans la grande majorité des cas que l’on étudiera par la suite, déterminée par le protocole expérimental de l’expérience comportementale. Par exemple, une consigne sur cette position est indiquée au sujet à l’écran, avant chaque essai, à l’aide d’un point de fixation, d’une croix ou de deux crochets limitant l’espace d’intérêt. Nous faisons donc le choix de simuler systématiquement une position du regard centrée sur le stimulus, c’est-à-dire avec ∀t, G^t = (N + 1)/2, où N est la longueur du stimulus (notez que Gt est un réel et peut avoir une valeur décimale, simulant un oeil posé entre deux lettres du stimulus). Ainsi, pour un mot de 4 lettres, le regard sera placée entre la deuxième et la troisième lettre.

2.1.4 Paramètres attentionnels µ^t_A et σ^t_A

La répartition de l’attention visuelle, modélisée par le terme P (A^t | µt

A σ_A^t) dans BRAID , suit une distribution normale (correctement approximée sur l’intervalle discret des positions de lettres) caractérisée par deux paramètres, sa position moyenne µt

A et sa variance σt

A. Dans le modèle, la position moyenne de l’attention visuelle µ^t_A est totalement indépendante de la position du regard Gt, mais en pratique, nous faisons coïncider ces deux valeurs dans la plupart des simulations. Les seules exceptions sont les simulations dans lesquelles nous manipulons la position de l’attention sans modifier la position du regard. C’est notamment le cas dans les simulations A07 et A08.

La variance de la distribution, σ_A^t, caractérise la répartition de l’attention A^t sur le stim-ulus. Lorsque l’attention est interprétée en terme de processus, σt

sd=1.25 sd= 1.5 sd= 1.75 sd= 2.0 1 2 3 4 5 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35

Position des lettres

Probabilité

Figure 4.3 – Distribution de l’attention sur un mot de 5 lettres, en fonction de σ_A^t. Distributions de l’attention visuelle P (At | µt

A σt

A), sur un mot de cinq lettres (en abscisse), pour µ^t_A = 3 et pour différentes valeurs de σ_A^t. Le trait en pointillés rouge matérialise une attention répartie uniformément sur les cinq lettres, c’est-à-dire σ_A^t → ∞.

attentionnel qui contrôle la création des percepts Pt

n. Lorsque la valeur de σt

A est petite, la répartition de l’attention est concentrée autour de sa valeur moyenne. Dans ce cas, le filtre favorise fortement les lettres centrales au détriment des lettres périphériques. Lorsque la vari-ance augmente, la différence de traitement entre les lettres centrales et les lettres périphériques diminue, jusqu’à devenir nulle lorsque σ_A^t → ∞. Dans ce dernier cas, tout se passe comme s’il n’y avait plus de filtre. La Figure 4.3 montre l’effet de différentes valeurs de la variance σt

Apour un mot de cinq lettres.

Objectif de calibrage Nous faisons l’hypothèse que la valeur de la variance σt

A dépend, en conditions expérimentales habituelles chez l’humain, du nombre de lettres du stimulus. Pour calibrer les valeurs de σt

A, nous n’avons considéré que les mots de 4 à 6 lettres, car ce sont eux qui sont utilisés dans nos simulations. A notre connaissance, il n’existe pas de donnée comportementale permettant de facilement calibrer σ_A^t en fonction de la longueur du stimulus⁷. Nous nous sommes donc fixés arbitrairement quatre contraintes : la lettre la plus excentrée ne doit pas recevoir moins de 10% de l’attention totale ; pour les mots de cinq lettres et plus, au moins trois lettres doivent recevoir plus d’attention que la valeur moyenne ; la perte de performance liée à l’excentricité doit être « graduelle » ; enfin, après 1 000 itérations, et quelle que soit la position de la lettre dans le stimulus, la probabilité d’identification ne doit pas être inférieure à 0.1. Les deux premières contraintes concernent directement la distribution de A^t, tandis que les deux suivantes concernent le résultat de l’identification. De cette manière, nous nous assurons que les stimuli sont identifiés avec un nombre d’itérations relativement homogène. Procédure Pour définir la valeur de la variance σt

A, nous procédons en trois temps. Pour vérifier les deux contraintes concernant la forme de la répartition, nous avons étudié les courbes

7Dans des travaux en cours dans l’équipe, Emilie Ginestet simule des tâches de décision lexicale pour reproduire une grande base de données et calibrer précisément les paramètres attentionnels (Ginestet, 2016). Ses résultats préliminaires sont consistants avec ceux obtenus par notre méthode.

obtenues en faisant varier la longueur du stimulus entre 3 et 6 lettres, et la valeur de σ_A^t entre 1,25 et 2,5 par pas de 0,25. Ensuite, pour étudier la perte de performance liée à l’excentricité, nous avons construit la surface encadrant la performance d’identification des lettres de l’alphabet (sans influence lexicale, voir Section 1.1) sur les 1 000 premières itérations. Pour cela, à chaque itération, nous avons calculé la performance pour chacune des lettres de l’alphabet, présentées isolément, et nous n’avons retenu que la plus petite et la plus grande performance. Enfin, nous avons répété cette procédure, mais cette fois en utilisant la totalité des mots disponibles, par taille, dans le lexique.

Résultats Les valeurs retenues sont les suivantes : pour les mots de longueur 3 et 4, σ_A^t = 1,5 ; pour les mots de longueur 5, σt

A = 2 ; enfin, pour les mots de longueur 6, σt

A= 2,5. Les distri-butions attentionnelles correspondantes, pour les différentes longueurs de mots, sont présentées Figure 4.4. On vérifie bien que la probabilité d’identification est supérieure à 0,1 pour toutes les positions et que pour les mots de longueur 5 et 6, au moins trois positions sont au dessus de la moyenne. On peut également observer la diminution progressive de performance en fonction de l’excentricité sur la Figure 4.5 (colonne de gauche), et la surface encadrant les performances sur tous les mots du lexique, pour chacune des positions considérées, Figure 4.5 (colonne de droite). On vérifie bien que la diminution de performance est progressive avec l’excentricité et que toutes les positions ont une probabilité d’être identifiée après 1 000 itérations d’au moins 0,1. Pour les mots de 4 lettres, en position 3, on observe que la borne inférieure de la surface encadrant les performances semble avoir un comportement anormal. Cela est expliqué par les mots FIJI et JUJU , qui ont en position 3 la lettre J entourée de deux lettres identiques. BRAID identifie avec difficulté cette lettre à cause de l’interférence latérale produite par les deux lettres adjacentes identiques. Ces cas atypiques sont rares et sans conséquence pour la suite de notre analyse.

Dans le document Modélisation bayésienne algorithmique de la reconnaissance visuelle de mots et de l’attention visuelle (Page 97-100)