Un modèle d'apprentissage asymétrique des probabilités

(1)

M. V

^ATE

Un modèle d’apprentissage asymétrique des probabilités

Mathématiques et sciences humaines, tome 55 (1976), p. 37-44

<http://www.numdam.org/item?id=MSH_1976__55__37_0>

L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://

msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.

numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

UN MODELE D’APPRENTISSAGE ASYMETRIQUE DES PROBABILITES

M.

VATE*

L’élaboration d’une stratégie adaptative ênâvenirâléatoirepose le problème

de la révision des jugements ^devraisemblance sous l’effet de l’information

progressivement acquise, ^ouapprentissage ^desprobabilités. ^Deux^solutions classiques ^de^ceproblème (solution psychologique linéaire, ^solution

bayésienne) proposent ^des^modèlesd’apprentissage

défini,

c’est-à-dire dans

lesquele-la sensibilité à l’apprentissage (propension ^àréviser les estima-

tions) ^estsoit constante, soit ^fixéepar le nombre d’expériences passées.

Dans le modèle RNC proposé ici, ^lasensibilité dépend ^del’histoire des ré- sultats des expériences passées.

I. SOLUTION PSYCHOLOGIQUE ^LINEAIRE(voir [2] [5] [6] [7] )

Soit une expérience ^à^deux^{issues :}

R1

¹ ^(succès)^et

R2

^(échec).

R1

1 peut ^être la réalisation d’un événement E,

et_R 2

^celle^d’un^élément^ducomplément ^de {E} dans un ensemble d’événements. _ooo

P désigne

_t l’estimation, après ^texpérien-

ces, de la probabilité ^P^de

R1 ;

^;

Pt

^estl’estimation a priori correspondante.

On a :

La révision de _{P par}le modèle linéaire est définie _{par :}

* Institut des Etudes Economiques (section "Prévisions-Choix-Planification"),

Université Lyon-II.

(3)

de P une loi bêta de paramètres âêtb, ôn^{a :}

Après ^texpériences, ^dont^m^succès^etⁿ⁼^t-méchecs, ^le^théorème^deBayes

donne la nouvelle distribution a priori pour la (t+l)ème expérience :

Les relations (4) indiquent ^que^la^révision^desestimations est d’autant plus rapide que les paramètres ^a^et^b^sontplus petits ; ^celasignifie que la con-

viction du décideur est faible : a et b seront appelés paramètres ^de^convic-

tion.

où, naturellement,

0h t 1.

On remarque l’analogie ^des^relations(2) ^et(5).

On obtient ^une^autredescription intéressante de ce modèle en posant

à _compareravec (3).

(4)

L’apprentissage ^estcommutatif. La sensibilité à l’apprentissage,

mesurée _par

1-ht,

^dépendseulement de t et non du partage ^de^{t entre}^m^etⁿ

t

ni, âfortiori, ^de^l’ordre^desévénements ; êlleêstuniformément décrois-

sante.

III. JUSTIFICATION DU MODELE RNC

Une précédente ^recherche^sur^letemps ^del’action économique ^et^sur^{la sé-} quentialité ^des^décisions^nous^a^conduit^à^l’idéeque l’acquisition ^de^l’in-

formation modifie les jugements ^devraisemblance du décideur, ^mais^aussi^sa

sensibilité à l’apprentissage. ^Enconséquence, ^un^schémad’apprentissage ^des probabilités ^devraitrespecter ^lespropositions suivantes :

1/ ^Laprobabilité subjective ^se^situe^auplan ^{de la}connaissance. D’où il suit _quetout événement (ou observation), porteur d’information, ^est^fac-

teur de probabilité ;

2/ L’expérience ^vécue^est^unefonction irréversible et asymétrique ^des

événements. Elle dépend ^donc^de^lanature, ^de^lafréquence ^et^de^l’ordre^des événements ;

3/ ^Ledegré ^deconviction du décideur est fonction de l’expérience

vécue (au ^sens^de2/) ;

4/ L’apprentissage ^est^fonction^{de la}^tension^desconvictions, ^c’est-

à-dire de la plus ^ou^moinsgrande aptitude ^dudegré ^deconviction (au ^sens^de 3/) ^àêtre modifié _parl’expérience.

Le modèle psychologique ^linéaire^et^le^modèlebayésien ^sontcompati-

bles soit avec la deuxième, ^soit^avec^lapremière proposition, ^mais^avec

aucune des deux dernières. Le modèle proposé ^ici^est^construit^{en vue}^de^sa-

tisfaire aux quatre conditions posées. ^Il^seradésigné par ^sapropriété principale qui ^ledistingue ^leplus ^nettement^des^modèlesprécédents : ^modè-

le d’apprentissage ^àrévision non-commutative des convictions (en abrégé

modèle RNC).

(5)

D’où il suit, d’après (1) : ^:

L’identité (8) ^est^vérifiéepar ^uneinfinité de solutions telles _{que :}

Le tableau suivant donne les solutions les plus simples, ^cellesqui correspondent ^{à la}révision d’un seul paramètre ^deconviction après chaque expérience :

La première diagonale désigne ^la^solution^du^modèlebayésien (apprentissage commutatif ; ^fonctiond’apprentissage

h t

^ne^dépendant^{que de}^t).^La

(6)

seconde diagonale ^rend

ht

^fonction^des^nombres^m^etⁿ^de^succès^et^d’échecs,

mais l’apprentissage ^demeurecommutatif. La règle ^de^révision^du^modèle^RNC

est fixée par l’une des lignes du ^tableau,^au^choix.

V. PROPRIETES DU MODELE RNC

A. Non-commutativité des révisions

A l’instant initial, ^lesparamètres ^deconviction sont

a

^o^et

b .

^o ^On^choisit,

par exemple, ^la^révision^de^a(première ligne ^dutableau) :

Posons

k.b

⁼

bo/(bo

⁺^1).Â^partir^deâo, ^le^paramètreâ^va^être

-è o o o

l’objet ^de^mmajorations (+1) ^et^deⁿmultiplications

par k.

^1.^Aussi,

chaque-majoration n’est-elle _pasdéfinitivement acquise (à ^la

différence

^du

modèle bayésien) ^si^soninscription êst^suivie^deûnôuplusieurs ^échecs.^Le

"+1" introduit par le jème ^succèssurvenu en t. j sera multiplié

par k.

^autant

de fois qu’il apparaîtra ^d’échecs^entre

t..

^et^t ^(bornescomprises). ^On

J+

notera f.(l) ^{la valeur}résiduelle en t de la majoration (+1) apparue ^en^t..

J J

D’où :

m

et l’on calcule : D’où finalement :

Remarques :

...

1° - S’il _ya t échecs consécutifs, ^le^vecteur^deconviction en t est

(a ,

^t

b ) =

^t

b ) ;

⁰ ^s’il^yâ^t^succès,ônôbtient

(a ,

^t

b ) = (a +t, b ),

^t ⁰ ⁰

identique à la solution bayêsienne.

2° - Si on permute ûn^succèsâvecûn^échecqui ^lui^étaitpostérieur,

a est

^{minoré ;}^8t^est^majoré^si^le^sens^de^lapermutation ^est^{inversé :}la

révision

^estnon-commutative.

(7)

On note encore que ^tsuccès consécutifs donnent :

B.

Asymétrie

^de

l’apprentissage

Cette propriété d’asymétrie exprime ^leremplacement du dénombrement des évé-

nements par leur chronologie. ^Elledécoule de la propriété précédente. (révi-

sion non commutative), ^{comme on}peut ^le^montrer^enécrivant la fonction

d’apprentissage

ht

qui correspond ^au^modèle^{RNC. En}effet, ^àpartir ^{des rela-}

tions (7) êt(8), ônpeut définir ûnefonction

ht

telle que :

Elle s’écrit :

D’après (9) ^ou(10) :

ou

alors que dans le modèle bayésien, ^onpouvait ^{noter :}

(8)

La relation (11) exprime que l’apprentissage êstûne^fonctionasymé- trique du nombre de succès obtenus, êtênsouligne ^le^caractère"historique".

Ainsi la fonction

h t

â-t-elleûneplus grande ^liberté^de^variationque dans le modèle bayésien. ^Cette^liberté^restepourtant âssez^étroite.^Dans^le^modè- le bayésien, ^la^valeurînitiale

ho

^o^{= (a}0 ⁰⁰⁰⁰

+ b 0 )/(a 0

^{+ b}⁰^{+ 1)}êstâussiûn

minimum _pour

h .

^Mais

h

^ne^reviendra^jamais^à

h

^car^il^tendnécessairement

t t o

vers 1 quand ^taugmente, quels que soient les résultats observés et quel que soit le vecteur de conviction initial

(a ,

^oo

b ).

^{Dans le}^modèle^RNC,

h

^t ^ne ^.

tend vers 1 que si l’on observe une succession indéfinie de succès ; ^d’autre part,

ht

^peut^devenir^inférieur^à

ho

^{en cas}^d’échecs^répétés.^Sa^limite^infé-

rieure, correspondant ^à^unesuite infinie d’échecs,

est b /(b

^{o o o}

+ 1) h .

L’intervalle de variation de

ht

^est^donc^d’autant^plus^étroit^que^les^convic-

tions initiales sont plus ^tendues

(ao

^et

bo

^grands).

Enfin, ^le^modèle^RNC^met^en^évidence^unecaractéristique importante

de l’apprentissage ^de^lavraisemblance : quels que soient les résultats

observés, ^il^estplus difficile d’accéder à la quasi-certitude subjective que de s’en départir.

(9)

Wiley, ^1955.

[3] JACQUARD, A., ^Lesprobabilités, Paris, ^PressesUniversitaires de France, 1974, chap. ^5.

[4] _MURPHY,R.E., Adaptive ^Processesⁱⁿ^EconomicSystems, ^NewYork, ^Academic Press, 1965, chap. ^4.

[5] NORMAN, F., Mathematical Learning Theory, ⁱⁿMathematics of the Decision

Sciences, G.B. DANTZIG and A.F. VEINOTT ed., ^Amer.^Math.Soc., Providence, 1968, ^2èmePartie, pp. 283 à 313.

[6] ROUANET, H., ^Les^modèles

stochastiques

d’apprentissage, Paris, ^Gauthier- Villars, 1967, chap. ³^et⁴spécialement.

[7]

STERNBERG, S., "Stochastic Learning Theory", in Handbook of Mathematical

Psychology, ^vol.II, LUCE, ^BUSH^and^GALANTERed., ^NewYork, Wiley,

2ème éd., 1967, pp. 19 à 24.