Apprentissage et extraction de régularités statistiques dans les
RNA
I. La formation de catégories visuelles
1. Catégorisation visuelle chez les jeunes enfants de 3-4 mois (Quinn, Eimas et Rosenkrantz, 1993)
– Technique de familiarisation-préférence pour la nouveauté
• 6 paires de photos de chats présentées séquentiellement
– Les enfants préfèrent ensuite regarder les photos de nouveauxchiens que de nouveaux chats
– Représentation de la catégorie chat qui inclut les nouveaux chats, et qui exclut les nouveaux chiens.
• 6 paires de photos de chiens présentées séquentiellement
– Les enfants ne montrent ensuite aucune préférencepour les nouveaux chiens ou chats
– Représentation de la catégorie chien qui inclutles nouveaux chiens, ainsi que les nouveaux chats.
•
Asymétriede l’exclusivité des représentations catégorielles formées pendant la familiarisation
– Pourquoi ?
2. Un modèle connexionniste de l’habituation (Mareschal & French, 1997)
Méthode :
•2 groupes d’auto- associateurs 10-8-10
•Entraînés pendant 250 époques
•Utilisation des valeurs de 10 paramètres visuels en entrée
•12 items par catégorie d’apprentissage
•6 items par catégorie de test
effet d’asymétrie formation de catégories
• Origine de l’effet d’asymétrie : distribution statistique des traits
des stimuli
3. Conclusions
– Modèle simple de la mémorisation et de la catégorisation pendant la petite enfance (=
habituation)
– Un seul mécanisme simple simule un ensemble d’effets
– Le modèle connexionniste explique
comment ce phénomène émerge, et les données expliquent pourquoi.
II. La segmentation de flux de parole
• Comment découvrir les mots de la langue (pas d’indices acoustiques clairs…)?
– On ne peut pas les apprendre si on ne les distinguent pas, mais on ne peut pas les distinguer si on ne connaît pas la langue…
• Les bébés découvrent les mots grâce à des mécanismes qui exploitent les
régularités statistiques présentes dans les séquences d’évènements
Saffran, Aslin, Newport, Science, 1996.
1. Probabilités transitionnelles
Les bébés exploitent le fait que les probabilités transitionnelles entre syllabes successives sont plus élevées à l’intérieur des mots que entre mots.
1. Probabilités transitionnelles
– Probabilité que Y suive X
– Ou « si X arrive, quelle est la probabilité de Y? »
P(Y/X) = fréquence de la paire X fréquence de X
JO -> LI -> BA LLON
prédictible à 80% prédictible à 1%
PT intérieurMot > PT entreMots
La présence de la syllabe « JO » prédit plus fortement la présence de la syllabe « LI » à l’intérieur du mot que la présence de « LI » ne prédit la présence de « BA » qui appartient à un autre mot
2. Les expériences de Saffran (1996; 1997)
• Flux continu de syllabes sans signification, sans aucun indice
sémantique, syntaxique ou prosodique.
• Syllabes : go/la/bu/pa/bi/ku/tu/…
• Mots : golabu/pabiku/tutibu/babupu/…
– Golabupabikututibubabupugolabubabupu…
– Pas d’indices acoustiques clairs entre les
mots
Golabupabikututibubabupugolabubabupu…
• On présente les 4 mots de manière aléatoire pendant 2 mn (seule contrainte : 1 mot n’est pas immédiatement répété)
• La PT entre 2 syllabes successives « X » et « Y » à l’intérieur d’un mot était de 1 (F(XY)/F(X)). Par contre, la PT entre 2 syllabes successives à la frontière de mots était plus faible (0.33)
• Test : « mot » contre « partie de mot » (bikuti, pugola) ou
« non mot » (bapubu)
1 1 .33
• Procédure « headturn »
• Temps d’orientation du regard : on sait que les bébés préfèrent des stimuli nouveaux
• Les bébés préfèrent les sons les moins familiers (non-mots et parties de mots) aux mots
• Les bébés de 8 mois ont donc déjà un mécanisme très
puissant pour encoder les propriétés statistiques du
langage !
III. Apprentissage de séquences
• Exemple de tâche de prédiction
x y
?
x y
x y
Entrée
Position actuelle
Sortie
Position suivante
0 0
Nécessite de prendre en compte le contexte
1-1
x y
Contexte
Position précédente 0-2
Un modèle connexionniste : le Réseau Récurent Simple (SRN, Elman; 1990)
• Architecture
– Récurrence partielle (unités contextuelles)
– Les unités contextuelles au temps t conservent une copiedes activations des unités cachées au temps t- 1(elles se souviennent de l’étatdu réseau au pas temporel précédent)
• Dynamique
– Des entrées identiques peuvent être traitées
Copie retardée(t -1) Couche de sortie
Exemple de SRN appliqué à une TRS
• Cleeremans (1993) utilise le SRN pour modéliser l'apprentissage de séquences.
A B C D
.5 .6 .4
.5 .6 .4
A B C D
représentation cachée de pos(t-1) (≈D) pos(t)
pos(t+1) ? DBCA…
A C
3
… A
4
C B
2
B D
1
Sortie pos(t+1) Entrée
pos(t) Temps
t
A B
C D
• Résultats
Blocs
S S …. S A S
Erreur de prédiction
Les unités cachées encodent une fenêtre variable des stimuli passés. Les poids encodent la connaissance des régularités statistiques séquentielles.
Structure dans des séquences de lettres
• Système simplifié de production de phonèmes :
– 3 consonnes, 3 voyelles, chaque consonne étant suivant d’un nombre fixe de voyelles particulières.
– Mots : {ba,dii,guuu}
– diibaguuubadiidiiguuu
Encodage phonologique de séquences de sons
• Erreurs des neurones 1 (code « consonant ») et 4 (code « high ») :
L’erreur est toujours faible pour le neurone « consonant », mais pas pour
« high » : le SRN a appris qu’après un certain nombre de voyelles, il attend une consonne
Quand le réseau voit b,d ou g, il attend 2 i, 3 u ou 1 a, donc l’erreur diminue pour ces lettres, et augmente pour la prochaine consonne (car elle n’est pas prévisible)
Les (sous-)régularités du codage lui permettent de faire des prédictions partielles, si les prédictions totales ne sont pas possibles.
SRN & langage
• SRNs très sensibles aux dépendances prédictives dans les patterns séquentiels (exploite les probabilités transitionnelles entre évènements)
• Cette caractéristique rend les SRNs très pertinents pour la modélisation de
l’apprentissage du langage
Résumé
• La segmentation de flux auditif
– Procédure expérimentale
IV. Grammaires Artificielles
(Reber, 1967; 1989)
0 1
2
3
4 B T 5
P
X
S
V V
X E S
T
P
P X V E
Contexte lettre(t)
lettre(t+1) ?
S T B
P X V E
S T B
Simulations connexionnistes
(Cleeremans,91)
Transfert
• Argument en faveur de l’approche abstractionniste de l’apprentissage implicite
0 1
2
3
4 vot rud 5
sog
pel
jix
kav kav
pel hes jix
rud
sog