Apprentissage et extraction de régularités statistiques dans les RNA I. La formation de catégories visuelles

(1)

Apprentissage et extraction de régularités statistiques dans les

RNA

I. La formation de catégories visuelles

1. Catégorisation visuelle chez les jeunes enfants de 3-4 mois (Quinn, Eimas et Rosenkrantz, 1993)

– Technique de familiarisation-préférence pour la nouveauté

(2)

• 6 paires de photos de chats présentées séquentiellement

– Les enfants préfèrent ensuite regarder les photos de nouveauxchiens que de nouveaux chats

– Représentation de la catégorie chat qui inclut les nouveaux chats, et qui exclut les nouveaux chiens.

• 6 paires de photos de chiens présentées séquentiellement

– Les enfants ne montrent ensuite aucune préférencepour les nouveaux chiens ou chats

– Représentation de la catégorie chien qui inclutles nouveaux chiens, ainsi que les nouveaux chats.

•

Asymétrie

de l’exclusivité des représentations catégorielles formées pendant la familiarisation

– Pourquoi ?

2. Un modèle connexionniste de l’habituation (Mareschal & French, 1997)

Méthode :

•2 groupes d’auto- associateurs 10-8-10

•Entraînés pendant 250 époques

•Utilisation des valeurs de 10 paramètres visuels en entrée

•12 items par catégorie d’apprentissage

•6 items par catégorie de test

(3)

effet d’asymétrie formation de catégories

• Origine de l’effet d’asymétrie : distribution statistique des traits

des stimuli

(4)

3. Conclusions

– Modèle simple de la mémorisation et de la catégorisation pendant la petite enfance (=

habituation)

– Un seul mécanisme simple simule un ensemble d’effets

– Le modèle connexionniste explique

comment ce phénomène émerge, et les données expliquent pourquoi.

II. La segmentation de flux de parole

• Comment découvrir les mots de la langue (pas d’indices acoustiques clairs…)?

– On ne peut pas les apprendre si on ne les distinguent pas, mais on ne peut pas les distinguer si on ne connaît pas la langue…

• Les bébés découvrent les mots grâce à des mécanismes qui exploitent les

régularités statistiques présentes dans les séquences d’évènements

Saffran, Aslin, Newport, Science, 1996.

(5)

1. Probabilités transitionnelles

Les bébés exploitent le fait que les probabilités transitionnelles entre syllabes successives sont plus élevées à l’intérieur des mots que entre mots.

1. Probabilités transitionnelles

– Probabilité que Y suive X

– Ou « si X arrive, quelle est la probabilité de Y? »

P(Y/X) = fréquence de la paire X fréquence de X

(6)

JO -> LI -> BA LLON

prédictible à 80% prédictible à 1%

PT intérieurMot > PT _entreMots

La présence de la syllabe « JO » prédit plus fortement la présence de la syllabe « LI » à l’intérieur du mot que la présence de « LI » ne prédit la présence de « BA » qui appartient à un autre mot

2. Les expériences de Saffran (1996; 1997)

• Flux continu de syllabes sans signification, sans aucun indice

sémantique, syntaxique ou prosodique.

• Syllabes : go/la/bu/pa/bi/ku/tu/…

• Mots : golabu/pabiku/tutibu/babupu/…

– Golabupabikututibubabupugolabubabupu…

– Pas d’indices acoustiques clairs entre les

mots

(7)

Golabupabikututibubabupugolabubabupu…

• On présente les 4 mots de manière aléatoire pendant 2 mn (seule contrainte : 1 mot n’est pas immédiatement répété)

• La PT entre 2 syllabes successives « X » et « Y » à l’intérieur d’un mot était de 1 (F(XY)/F(X)). Par contre, la PT entre 2 syllabes successives à la frontière de mots était plus faible (0.33)

• Test : « mot » contre « partie de mot » (bikuti, pugola) ou

« non mot » (bapubu)

1 1 .33

• Procédure « headturn »

(8)

• Temps d’orientation du regard : on sait que les bébés préfèrent des stimuli nouveaux

• Les bébés préfèrent les sons les moins familiers (non-mots et parties de mots) aux mots

• Les bébés de 8 mois ont donc déjà un mécanisme très

puissant pour encoder les propriétés statistiques du

langage !

(9)

III. Apprentissage de séquences

• Exemple de tâche de prédiction

x y

?

x y

Entrée

Position actuelle

Sortie

Position suivante

0 0

Nécessite de prendre en compte le contexte

1-1

x y

Contexte

Position précédente 0-2

Un modèle connexionniste : le Réseau Récurent Simple (SRN, Elman; 1990)

• Architecture

– Récurrence partielle (unités contextuelles)

– Les unités contextuelles au temps t conservent une copiedes activations des unités cachées au temps t- 1(elles se souviennent de l’étatdu réseau au pas temporel précédent)

• Dynamique

– Des entrées identiques peuvent être traitées

Copie retardée(t -1) Couche de sortie

(10)

Exemple de SRN appliqué à une TRS

• Cleeremans (1993) utilise le SRN pour modéliser l'apprentissage de séquences.

A B C D

.5 .6 .4

A B C D

représentation cachée de pos(t-1) (≈D) pos(t)

pos(t+1) ? DBCA…

A C

3

… A

4

C B

2

B D

1

Sortie pos(t+1) Entrée

pos(t) Temps

t

A B

C D

• Résultats

Blocs

S S …. S A S

Erreur de prédiction

Les unités cachées encodent une fenêtre variable des stimuli passés. Les poids encodent la connaissance des régularités statistiques séquentielles.

(11)

Structure dans des séquences de lettres

• Système simplifié de production de phonèmes :

– 3 consonnes, 3 voyelles, chaque consonne étant suivant d’un nombre fixe de voyelles particulières.

– Mots : {ba,dii,guuu}

– diibaguuubadiidiiguuu

Encodage phonologique de séquences de sons

(12)

• Erreurs des neurones 1 (code « consonant ») et 4 (code « high ») :

L’erreur est toujours faible pour le neurone « consonant », mais pas pour

« high » : le SRN a appris qu’après un certain nombre de voyelles, il attend une consonne

Quand le réseau voit b,d ou g, il attend 2 i, 3 u ou 1 a, donc l’erreur diminue pour ces lettres, et augmente pour la prochaine consonne (car elle n’est pas prévisible)

Les (sous-)régularités du codage lui permettent de faire des prédictions partielles, si les prédictions totales ne sont pas possibles.

SRN & langage

• SRNs très sensibles aux dépendances prédictives dans les patterns séquentiels (exploite les probabilités transitionnelles entre évènements)

• Cette caractéristique rend les SRNs très pertinents pour la modélisation de

l’apprentissage du langage

(13)

Résumé

• La segmentation de flux auditif

– Procédure expérimentale

IV. Grammaires Artificielles

(Reber, 1967; 1989)

0 1

2

3

4 B T 5

P

X

S

V V

X E S

T

P

(14)

P X V E

Contexte lettre(t)

lettre(t+1) ?

S T B

P X V E

S T B

Simulations connexionnistes

(Cleeremans,91)

Transfert

• Argument en faveur de l’approche abstractionniste de l’apprentissage implicite

0 1

2

3

4 vot rud 5

sog

pel

jix

kav kav

pel hes jix

rud

sog

(15)

• Dienes et al., 1999

• Corrélation avec les performances humaines : – Transfert de la syntaxe d’une grammaire à un autre

vocabulaire

– Sensibilité à la grammaticalité et à la similarité

– Meilleur apprentissage avec des séquences entières qu’avec des bigrammes

• Pas d’abstraction de règles ni de prototypes, pas

(16)

Apprentissage et extraction de régularités statistiques dans les RNA I. La formation de catégories visuelles