M
H. R OUANET
Les modèles stochastiques d’apprentissage
Mathématiques et sciences humaines, tome 5 (1964), p. 3-10
<http://www.numdam.org/item?id=MSH_1964__5__3_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1964, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
LES MODELES STOCHASTIQUES D’ APPRENTISSAGE
H. ROUANET
I NTRODUCTI ON .
Depuis
unequinzaine d’années,
on assiste à undéveloppement
considérable desmodèles mathématiques
dans les sciences sociales.. EnPsychologie,
enparticulier,
on a vu
apparaitre
à la suité deBush
et Mosteller(1955),
Estes(1950) etc...,
yun nombre considérable de
modèles
dits"Modèles stochastiques d’apprentissage".
Le
présent exposé
a pour but de fournir non pas une revue, mais une introduction à cette littérature. Il sera divisé enquatre parties:
nous tenterons d’abord de situer le domained’application
de cesmodèles, puis
nousprésenterons
un modèlegénéral;
enparticularisant
cemodèle général,
nous retrouverons diversmodèles effectivement utilisés;
nous donneronsenfin,
à titred’illustration,
desexemples
d’
applications.
En se
reportant
auxpublications signalées
enbibliographie,
le lecteur pour- ra se faire une idéeplus complète
desquestions
abordées par cesmodèles,
aussibien sur le
plan mathématique
que sur leplan expérimental.
1
-Champ d:’application des modèles stochastiques d’apprentissage
Il faut situer les modèles
stochastiques d’apprentissage
dans un contextepsychologique,
etplus précisément
dans le courant. de lapsychologie appelé
beha-viorisme. On sait que
celui-ci,
y né il y a undemi-siècle
ens’opposant
aux méthodestraditionnelles fondées sur
l’introspection,
s’est donné pour programme de rendrecompte
ducomportement ("behavior")
desorganismes (animaux
ouhumains)
àpartir
des seules données observables.
Développé parallèlement
aux recherches sur le con-ditionnement de Pavlov et son
école,
y ce courant a conduit à définir des notionsprécises: stimulus, réponse,
yrenforcement,
y pourl’analyse objective
des-situationsexpérimentales.
Ce programme a conduit à étudier des situations très
simples,
y où il estpossi-
ble de contrôler avec
précision
tous lesparamètres.
D’où l’intérêtporté
en par- ticulier auxexpériences
depsychologie
animale. C’est à celle-ci que nous emprun-terons,
y pourpréciser
les notionsprécédentes
sur unexemple (sans
alourdir l’ex-posé
en donnant des définitionstechniques)
le schéma d’uneexpérience classique,
ycelle du
labyrinthe
en T "avecprocédure
de correction". Achaque essai,
yl’animal, préalablement affamé,
estplacé â l’entrée
d’un couloirqui
se ramifie en deux au-tres
couloirs,
droit etgauche.
A l’extrémité du couloirdroit, ,par exemple,
onplace
de la nourriture. On observequel est
lecomportement
del’animal,
et en par- ticulierquel
est lepremier
couloiremprunté
par le rat(si
lepremier
couloirn’est
pas celui dedroite,
on laisse l’animal revenir sur ses pas vers l’embranche-ment,
yjusqu’à
cequ’il
ait trouvé lanourriture).
Onconstate qu’au
bout d’un cer-tain nombre d’essais
(disons
unecinquantaine),
y l’animalemprunte toujours
en pre-ce
texte reprend pour l’essentjel deux exposés faits au groupe d’Etude sur l’automatique non-numéri- que, les 23 et 30 Avril l 1963.w, v
mier le couloir de
droite;
ondit qu’il
y a euaw¿ntissage
de laréponse
"droite" J Dans une telleexpérience,
onpeut
caractériser lenie" essai
par la succession d’uneréponse
an(le
rat va à droite ou àgauchey
et d’unrenforcement en (la
nourriture est à
droite).
Dansl’exemple précédent,
lerenforcement
estconstant, puisque
la nourriture esttoujours placée
à droite. On utilise souvent desrègles
de renforcement
plus compliquées.
Unerègle fréquemment employée
est larègle
ditealéatoire indépendante, où
l’onplace
la nourriture à droite avec uneprobabilité n
et à
gauche
avec uneprobabilité
1 - TC, 7t étant unparamètre
fixé une fois pourtoutes par
l’expérimentateur.
Si 71 est différent de 0 ou1,
onobserve,
yaprès
ungrand
nombred’essais,
nonplus
une tendance du rat à allertoujours
du mêmecôté,
mais une tendance à donner à la
’longue
laréponse "droite’"
avec unefréquence
voi-sine de n . Ce
résultat,
y retrouvé dans diversesexpériences
de mêmestructure,
aété
parfois appelé
"loi del’ajustement".
Il faut noter que dans ce cas lespsycho- logues parlent
encored’apprentissage,
car il y a eu une modification stable du tauxd’apparition
d’uneréponse déterminée.
°Chez
l’homme, beaucoup d’expériences d’esprit analogue
ont étéégalement
effec-tuées. A titre
d’exemple,
nousdécrirons brièvement*
uneprocédure classique
de l’ex-périence
dite d’ "association parpaires".
Aupremier essai,
onprésente
ausujet
uneliste
comportant
un nombre déterminé depaires
d’items(syllabes
sanssignification
ou
chiffres).
Lepremier
élement dechaque paire
est considéré comme lestimulus,
ledeuxième élément constitue la
réponse
correcte à cestimulus.
Audeuxième essai,
onprésente
successivementchaque stimulus,
y endemandant aë sujet
de fournir larépon-
se
correspondante; après
laréponse
dusujet, l’expérimentateur
faitconnaître
laréponses
correcte(renforcement)’i
Chacun des essais suivants s’effectue defaçon
semblable audeuxième
essai(naturellement,
l’ordre deprésentation
des stimuli estchangé
àchaque essai). L’expérience
estpoursuivie jusqu’à
cequ’un critère d’ap- prentissage (par
ex.: aucune erreur lors de troisprésentations consécutives)
soitatteint.
Malgré
son apparencetrès simple,
ce genred’expérience
a donné lieu à denombreux débats au niveau des théories
psychologiques
del’apprentissage.
L’un despoints
lesplus
controversés concerne le rôle de larépétition
dans la formationdes associations. Selon la théorie continuiste
classique,
ychaque répétition
doitentraîner
l’augmentation graduelle
de la "force de la liaison"(variable
latentehypothétique)
entre le stimulus et laréponse correspondante. Cependant
uneexpé-
rience récente de Rock* semble prouver au contraire que la
répétition
nejoue
au-cun rôle dans la formation de l’
’association, qui
s’établirait selon un processus discontinu. Rock modifie ainsi laprocédure classique:
dans le groupeexpérimental, après chaque essai,
lespaires
nonapprises
sont éliminées etremplacées
par despaires
nouvelles. De cettefaçon,
les associationsapprises
sont toutesacquises
àla
première présentation. Or,
y si on soumet ungroupe-contrôle parallèle
à lia. pro-.. cédure
classique,
on constate que le critèred’apprentissage
est atteint aussi vite par le groupeexpérimental
que par legroupe-contrôle.
Ce genre de découverte a amené certains chercheurs à examiner
plus
en détailles données
empiriques
accumulées au cours d’innombrablesexpériences,
et dont onn’avait pas
toujours
extrait toute l’informationquantitative possible.
Dèslors,
l’intérêt
presque exclusif que l’on avaitjusque
làporté
aux courbes moyennesd’apprentissage
aprogressivement
faitpla,ce
à uneanalyse
deplus
enplus
serrPNdes
phénomènes séquentiels (étude
d’essai enessai),
voire à l’examen des sériesrock,
1. The rol e of repet i t i on i n assoc iat i ve 1 earn i ng Amer. J. Psychol., 70, 1957, 186-193.individuelles. Des modèles
mathématiques
sont apparue peu à peu servant deguide
àces recherches et
suscitant
enmême temps,
l’étude de nouvelles situationsexpé-
rimentales. Ce
caractère.d’adaptation empirique progressive explique
d’unepart
lavariété de ces
modèles, d’autre part
le faitqu’ils
n’ont étérigoureusement
for-malisés qu’assez
tard et defaçon
encoreincomplète.
Endépit
de cettediversité,
ces modèles
présentent
uncertain nombre
de traits communs:- leur but est
toujours ,descriptif
etjamais nonnatif;
ils cherchent àrendre
comp-te du
comportement
desorganismes,
et non pas à leurenseigner
cequ’ils
ont àfaire - ils ne cherchent pas non
plus
àfabriquer
des mécanismescapables
de per-fonnances
déterminées.
- ce sont tous des
modèles probabilistes.
Ce derniercaractère
fait de ces modèles des outilsplus souples
que lesmodèles
déterministes(certains
modèles détermi- nistes avaient étéproposés
dans lepassé).
Il est clairqu’il
suffit d’une excep-tion
pour
invalider un modèledéterministe,
alorsmodèle probabiliste
laisseà
l’organisme
étudié unepart plus
ou moinsgrande
de liberté. C’est lecaractère probabiliste
de cesmodèles qui
leur a valu le nomplus répandu
de modèles sto-chastiques d’apprentissage.
Comme
premier exemple simple
de cesmodèles,
y nous dironsquelques
mots du mo-dèle
utilisé par Bower(1961 )
pourformaliser,
dans la situation d’association parpaires,
uneinterprétation
discontinué del’acquisition
voisine de celle avancée par Rock. Bower utilise laprocédure
traditionnelle mentionnéeplus haut,
y avec dixstimuli,
à associer à deuxréponses
seulement: le chiffre 1 pourcinq
desstimuli,
et le chiffre 2 pour les
cinq autres.
Pourchaque stimulus,
on obtient une suitede
réponse
an(où an est,
soit la bonneréponse
a, soit la mauvaiseréponse a’ )
etde renforcements en
(comme
on atoujours
en = a, le renforcement ici est en faitconstant).
Lemodèle
utilisé par Bower consiste à décrire la structure de cessuites obtenues pour
chaque
stimulus*. Selon cemodèle,
lesujet peut
se trouverdans l’un ou l’autre de deux états z
(il
connaît la bonneréponse)
et z’(il
neconnaît pas la bonne
réponse).
Si lezsujet
est dans l’état z, il donne la bonneréponse
avec uneprobabilité égale
à1 ;
s’il se trouve dans l’étatz’ ,
il donne labonne
réponse
avec uneprobabilité
y(en,général
y =1 ~2) .
Apartir
de l’étatz’,
le
sujet
passe à l’état iz avec laprobabilité
c(où
c est unparamètre,
0 c~1);
si le
sujet
est dansl’état
z, ilrestE
dans cet état.On
peut
donner à cemodèle
de Bower uneprésentation plus
formelle etqui
seprêtera
à lagénéralisation.
Pourchaque stimulus,
y nous définissons un ensemble A -a, ati (ensemble
desréponses).
L’ensemble E
=a
est l’ensemble(réduit
à-unélément)
des renforcements.Le
modèle postule qu’il
existe unensemble
Z= z, z’
dit ensemble des états dusujets Les
axiomes dumodèle stipulent (on
poseX~ = ( zn,
an,en) ) .
*l apprentissages des
est clair qu’en sese plaçant
plaçant ainsi "à ainsi "àstiulus
stimulus constant", constant", on suppose on suppose implicitement implicitement que- lesque lesapprentissages des différentes suites se font de façon indépendante. La validité de cette supposition est plus ou moins, acceptable selon 1-a procédure expérimentale. Les modèles sont
en tous cas des premières approximations,
et
d’autre part, dans la discussion qui va suivre, l’accent doit être mis sur la structure’ dumodèle plutôt
que sur sa val idité intrinsèque.Aux axiomes du
modèle proprement dits,
y il fautajouter
la conditionqui exprime
que le renforcement est constant etégal
à a.Mathématiquement
il est facile de voir que ces axiomes entraînent la conver-gence presque
sûre de an
vers a.D’une façon plus générale
onpeut
étudier lespropriétés
du processusstochastique (an).
Bower a calculé de nombreusesprédic-
tions
théoriques
de ce modèle(nombre
moyend’erreurs,
essaicorrespondant
à ladernière
erreur,etc. ) ,
y cequi
lui apermis
de le confronter engrand
détail avecles données
expérimentales.
Il - Un modèle général d’apprentissage
’Le
lecteurqui
désirerait se familiariser avec l’ensemble desmodèles
stochas-tiques d’apprentissage risque
d’êtrerebuté
par ladiversité,
considérable en ap- parence, de ces modèles(diversité
corrélative des situationspsychologiques)
etpar la rareté de
systèmes
formelsgénéraux, englobant
des familles de modèlesadaptés
à des situationsparticulières.
C’estpourquoi
ilpeut
être utile depré-
senter un
modèle général synthétique qui peut être regardé
comme lagénéralisation
de la
plupart
desmodèles
actuellement utilisés. Lespropriétés
de ce modèlesont
actuellement en cours d’étude
(P. Courrège et~ H, Rouanet, 1964,
enpréparation).
Nous
présenterons
ici les axiomes de cemodèle
et unthéorème d’existence
fonda~- mental.Considérons:
,a) b) c) d) Quatre
espaces mesurables*(S,jf), (A, Ct) , (E, e )
et(Z, à-)
ditsrespectivement
desstimuli,
desréponses,
desrenforcements**
et des états.e)
Uneprobabilité Qo
sur(Z,~.).
"*
Un espace mesurable est 1a donnée d’un ensemble
(A..)
et d’une fami 11 e particutière de ses partes- tribu -(,.,..
oLe
mot "renforcement" sera pris ici 1 dans le sens de "renforcement observable", ,contrôlé par
l’expée rimentateur ; ii l peut être préférable dans certains contextes, de lui substituer le terme plus neutreou de "conclusion" de l’essai.
f)
uneprobabilité
de passagePa (~ s, . )
de Z x S dans A)
de ZXSXAXE dans Z.h)
uneprobabilité
de passageP e (s, a; . )
de S x A dans E diterègle
de ren-forcement.
i)
uneprobabilité
de passageFs (s,
a,e, . )
de Sx AxE dans S diterègle
depré-
sentation des stimuli.
Nous chercherons maintenant à déterminer un processus
stochastique*.
à
valeurs dans- - -
et
satisfaisant
aux.relations(Ri)
suivants**.Relations (Ri)***
Concrétement,
lesdonnées a) b) c) correspondent
auxdonnées
observablesqui
définissent
la situationexpérimentale:
S ensemble des stimuli .
A ensemble des
réponses
~’
E ensemble des renforcements.
A
chaque
essai n se succédent les troisévénements
observables: sn,an,
en- Lesdonnées d) , e), f),
yg)
sont des constructionshyBothétiqges qui
caracté-risent le
modèle.
Z est dit ensemble des états
,du sujet.
*
On sait qu’un processus stochastique P,
(X,» à
valeur dans(U,1l,)
cons!ste en ladonnée d’un espace de probabilité
(Ç~,1:r, P)
et ,d’une suiteXn d’applications
mesurablesde 0
dans U. 41’’
**
En toute rigueur, on suppose que ces relations sont vérifiées seulement presque sûrement,
***A
ces relations il l faut adjoindre des relations analogues po’ur le cas’
n = o
"
.
La relation
Ro précise
laprobabilité
initiale.La relation
R1 exprime
que laréponse a.
à l’essai n nedépend
des événementsantérieurs que par
l’intermédiaire
del’état n
dusujet à
cet essai et du stimulusprésente
à cet essai. .La relation
R2 exprime
quel’état
dusujet
à l’essai n+ 1 nedépend
desévénements
antérieurs
que parl’intermédiaire
.de ny
sny en, an.La
donnéeh)
et la relation(RJ) expriment
larègle
de renforcement choisie parl’expérimentateur - règle
derenforcement très particulière (appelée
souvent "sim-plement dépendante") qui
consisteà
choisir à l’essai n le renforcement desorte qu’il
nedépende
desévénements antérieurs
que par l’intermédiaire de laréponse
anqui
vientd’être
donnée par lesujet.
Demême,
la donnéei)
et la relation(R4)
ex-priment
larègle
deprésentation
desstimuli, règle de présentation particulière, qui
consisteà
choisirà l’essai
n + 1 lestimulus T
1Sn+1
de sortequ’il
nedépende
des événements antérieurs que par l’intermédiaire de sn, an, en.
En faisant des
hypothèses simplificatrices
sur les fonctionsPe
etPo,
on ob-tient des cas
particuliers
souvent utiliséspratiquement:
- Si
Ps
est une fonction constante en s, a, e, larègle
deprésentation
des stimuli est diteindépendante.
- Si
Ps
est une mesure de Dirac pourchaque
s, a, e, larègle
deprésentation
estdéterministe.
- La
conjonction
des deux casprécédents correspond
au cas où le stimuluss.
estconstant d’essai à essai.
- Si
Pe
est une fonction constante en sa, larègle
de renforcement est dite "aléa- toireindépendante".
- Si
Pe
est une mesure de Dirac pourchaque sae
larègle
de renforcement est déter- ministe.- La
conjonction
des deux casprécédents correspond
au cas durenforcement
constantdont un
exemple
a été donné dans lapremière partie (situation
d’association parpaires) .
Ce
qui
suit tend à montrerqu’il
existe un processusstochastique
et un seulsatisfaisant à ces diverses données et relations.
Construisons les fonctions
Q
et n o suivantes:et
1M
est la fonction indicatrice de M.On vérifie immédiatement que
-
Q ( z, s, a, e,M)
est uneprobabilité
de passage de Z XS xAxE dans Z x S x A x E--
no (M)
est uneprobabilité
sur Z x S x A x E.Il est alors
possible
de prouver lethéorème suivant,
que nous énonceronssans démonstration.
Lemme
Soit
X = [Q , y
yP,
y(Xn) n
6N] un
processusà
valeurs dansZxSxAxE ;
les deux
propositions
suivantes sontéquivalentes:
a)
X est satisfait aux conditions(Ri)
b)
X est un processus de Markoffstationnaire,
admettantQ
pour fonction de transitionet n o
pour distribution deprobabilité
initiale.(en
d’autrestexmes,
et
En
permettant
deremplacer
la recherche d’un processus satisfaisant aux con-ditions
(Ri)
par la recherche d’un processus deMarkoff,
le lemme entraine immé- diatement lethéorème
fondamentald’existence, grâce
àl’application
duthéorème classique
de Tulcea*.Théorème fondamental
Soit - (ZxSxAxE )N (ensemble
des suites depoints
deZxSxAxE) et,
pour tout n,n e
N soitxn
laprojection de 0
surZxSxAxF,. Soit 17
la tribusur f2
engen- drée par les xn(n E N).
Alors:a)
il existe uneprobabilité
P etune seule sur l’espace
mesurable(f2, ~ )
telle que le processus
’
satisfasse aux relations
(Ri)
b)
laprobabilité
P satisfait aux relations(caractère
markovien station-naire )
" opour tout
où Q
etno
sont les fonctions définiesplus
haut.*Tulcea,
1. Mesures dans les espaces produits. Atti Naz. Lincei Rend. 7.(191.1.9) -
208-211.Processus dérivés
.Les conditions
(Ri)
étanttoujours supposées vérifiées,
onpeut,
y àpartir
duprocessus markovien fondamental de terme
étudier les
propriétés
des processus dérivés. Les processusdérivés,
y de termes( n, sny an) , (ln, sn, en), (ei, sn)
sont encore markoviens.Par contre,
les pro-cessus
qui ne ont pas intervenir
lecouple (ân, sn)
comme le processus des événe--cessus
qui
ne ont pas intervenir lecouple (m sn)
comme le processus des événe-- ments observables(sn,
yan, en)
ne sont pas engénéral
markoviens. Or c’est à ce processusqu’on
s’intéresse. La démarche habituelle dans l’étude d’un modèle par-ticulier,
est la suivante. On étudie lespropriétés
des processusmarkoviens,
eton en déduit les
propriétés
des processusobservables, propriétés qui peuvent
êtrecomparées
aux résultatsexpérimentaux.
Nous montrerons desexemples
de cette dé-marche dans la
troisième partie.
Rappelons,
y avant de clore cettepartie~
y que nous n’avonsprouvé
l’existence etl’unicité,
d’unepart,
et lecaractère markovien,
d’autrepart,
du processus~, qu’en
faisant deshypothèses particulières (caractère simplement dépendant)
surles
règles
de renforcement et deprésentation
des stimuli. Dans le cas derègles plus générales,
onpeut
encore démontrer l’existence et l’unicité d’un processus.~n (Courrège
etRouanet, 1964),
mais ce processus n’estplus
markovien engénéral,
ce