• Aucun résultat trouvé

Afin d’am´eliorer l’´etape d’apprentissage, nous avons utilis´e les trois op´erateursI0 p=

I(−1/p), Mp,w1..n et Up0 = U(1/p). Soit D = {((x1i, x2i, ..., xni), yi) , i = 1..N } un ensemble

d’apprentissage d´ecrivant les entr´ees xki d’un nœud et les r´esultats yi souhait´es. Le

probl`eme consiste `a d´eterminer le type du meilleur op´erateur ainsi que ses param`etres afin que le r´esultat de l’agr´egation soit le plus proche possible des r´esultats souhait´es. Cela revient g´en´eralement `a minimiser l’erreur moyenne E d´efinie par :

E = 1 N N X i=1 (Op,w1..n(x1i, ..., xni) − yi)2 (3.16)

o`uO repr´esente le type de l’op´erateur.

Pour r´esoudre ce probl`eme, nous avons appliqu´e deux m´ethodes de minimisation, la premi`ere approche est fond´ee sur l’algorithme de descente du gradient [DUDA-01] et l’algorithme de r´etropropagation du gradient [HAYK-99]. L’autre approche est un algorithme ´evolutif fond´e sur des m´ethodes d’estimation de distributions statistiques [CAST-97, LARR-01].

3.3 Descente du gradient

Supposons que le type de l’op´erateur soit d´ej`a d´etermin´e. Prenons par exemple le cas de l’op´erateur de moyenne g´en´eralis´e Mp,w1..n. L’algorithme de descente du gra-

dient est un algorithme it´eratif, qui calcule `a chaque it´eration l une nouvelle valeur de

(p(l), w(l) 1..n)en fonction de (p(l−1), w(l−1)1..n ) : p(l) = p(l−1)− µ∂E ∂p (3.17) w(l)i = w(l−1)i − µ0∂E ∂wi (3.18)

o`uµ et µ0 sont des constantes positives repr´esentant le taux d’apprentissage.

Le choix du type de l’op´erateur d´epend de la valeur de p`a l’it´eration l. On d´efinit deux bornes Pinter < 0 etPunion> 0 telles que :

– Si (p > Punion), l’op´erateur O est remplac´e par l’op´erateur union Up0.

– Si (p < Pinter), l’op´erateur O est remplac´e par l’op´erateur intersection Ip0.

– Sinon on continue `a utiliser l’op´erateur moyenneMp,w1..n.

Tous les op´erateurs sont initialis´es avec l’op´erateur moyenne. L’´etape d’apprentis- sage consiste `a modifier la valeur de p en fonction des donn´ees D pour atteindre un minimum de E. Soit Pl la suite des param`etres pobtenus `a chaque it´eration l pour un

nœudOi du r´eseau. Si le nœud doit repr´esenter un op´erateur ou logique, la valeur de yi

exemples d’apprentissage. D’apr`es le comportement de l’op´erateur moyenne, la suite

Pl sera une suite croissante entre p0 et pt > Punion (p(t−1) < Punion). Durant toutes ces

it´erations l’op´erateur utilis´e est l’op´erateur moyenne. `A partir de cette it´eration, l’op´e- rateur moyenne va ˆetre remplac´e par l’op´erateur union g´en´eralis´ee U0

p dont le r´esultat

est sup´erieur ou ´egal aux param`etres d’entr´ee. Cet op´erateur est ´equivalent `a 1 quand p tend vers +∞ et `a l’op´erateur max quand p tend vers 0 (Tab. 3.2). L’op´erateur U0

p

est croissant en fonction de la valeur de p. Si la valeur de yi est plus proche de 1 que

du max(x1i, ...xni), la valeur de pva continuer `a croˆıtre jusqu’`a l’obtention d’une valeur

optimale. Dans le cas contraire, si la valeur de yi est plus proche du max, la valeur de

pva se stabiliser.

Dans le cas inverse, si le nœud doit repr´esenter un op´erateur et logique, la suite

Pl sera une suite d´ecroissante entre p0 et pt< Pinter (p(t−1) > Pinter). `A cette it´eration,

l’op´erateur intersectionI0

p sera utilis´e `a la place de la moyenne pour calculer le r´esultat

`a partir des param`etres d’entr´ee. D’apr`es le comportement de l’op´erateurI0

p (Tab. 3.2),

si la valeur deyi est plus proche de 0 que du min(x1i, ...xni), la valeur de pva continuer

`a d´ecroˆıtre jusqu’`a l’obtention d’une valeur optimale.

p −∞ 0 0+ +∞

I−p min 0 ≤ I−p≤ min 0 ind´efini

Up ind´efini 1 max ≤ Up≤ 1 max

Mp min min ≤ Mp≤ max max

Tab. 3.3 – Comportement des op´erateurs I−p, Up et Mp utilis´es par Krishnapuram et

Lee [KRIS-92a] en fonction de p.

Krishnapuram et Lee [KRIS-92a, KRIS-92b] ont utilis´e les op´erateursUp etI−p `a la

place des op´erateursU0

p etIp0, cette diff´erence engendre une divergence de l’algorithme

dans le cas o`u la valeur des r´esultats souhait´es est plus proche de 1 ou0. Prenant par

exemple le cas o`u le nœud doit repr´esenter un op´erateur ou logique, la suitePlsera une

suite croissante entre la valeur initiale de p(p0) et pt> Punion (p(t−1)< Punion). `A cette

it´eration, l’op´erateur moyenne va ˆetre remplac´e par l’op´erateur union de Yager Up.

Contrairement `a l’op´erateurU0

p, le r´esultat de cet op´erateur est d´ecroissant en fonction

dep: il est ´equivalent `a l’op´erateurmaxquandptend vers+∞et `a1quandptend vers0

(Tab. 3.3). Si la valeur deyk est plus proche de1, la valeur dep(t+1) sera inf´erieure `ap(t).

Dans les cas extrˆemes o`u l’op´erateur souhait´e est tr`es optimiste, cette valeur sera aussi inf´erieure `a Punion et l’op´erateur union va ˆetre remplac´e par l’op´erateur moyenne. En

cons´equence le type de l’op´erateur de ce nœud va osciller entre l’op´erateur moyenne et l’op´erateur union sans converger vers une solution fixe. On obtient le mˆeme probl`eme quand yi est plus proche de 0 avec la t-norme I−p et l’op´erateur moyenne.

3.3 Descente du gradient

3.3.1 Comparaison entre notre approche et la m´ethode de Kri-

shnapuram et Lee

Pour illustrer la diff´erence entre notre approche et la m´ethode de Krishnapuram et Lee [KRIS-92a, KRIS-92b], nous avons appliqu´e les deux algorithmes pour essayer d’estimer les param`etres d’un nœud repr´esentant l’op´erateur U0.1 et ayant deux en-

tr´ees x1 etx2. L’ensemble des donn´ees d’apprentissage est illustr´e sur la table 3.4. Cet

exemple repr´esente un cas extrˆeme o`u l’op´erateur union est tr`es optimiste.

i Param`etres d’entr´es R´esultat (yi)

x1i x2i 1 0.950 0.615 1.00 2 0.048 0.073 1.00 3 0.089 0.017 1.00 4 0.231 0.791 1.00 5 0.606 0.921 1.00 6 0.485 0.738 1.00 7 0.060 0.092 1.00 8 0.023 0.079 1.00 9 0.891 0.176 1.00 10 0.095 0.061 1.00

Tab. 3.4 – Exemples d’apprentissage utilis´es pour comparer la m´ethode de Krishna- puram et Lee avec notre approche.

0 500 1000 1500 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Itération E 720 740 760 780 800 820 0.4 0.42 0.44 0.46 0.48 0.5 0.52 Itération E

(a) ´Evolution de l’erreur dans l’algorithme de Krishnapuram et Lee.

0 500 1000 1500 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Itération E

(b) ´Evolution de l’erreur dans le cas de notre algorithme d’apprentissage. Fig. 3.4 – Comparaison entre l’algorithme d’apprentissage de Krishnapuram et Lee et notre algorithme.

En examinant la figure 3.4, on remarque clairement que l’algorithme de Krishna- puram et Lee [KRIS-92a, KRIS-92b] ne converge pas, les oscillations entre les deux op´erateurs Up et l’op´erateur moyenne Mp se traduisent par une oscillation de l’erreur

entre les deux valeurs0.41et0.48sans converger. Dans le cas de notre algorithme, l’er- reur d´ecroˆıt rapidement vers0d`es que l’op´erateur moyenne est remplac´e par l’op´erateur

union. On remarque que les deux algorithmes se comportent de la mˆeme fa¸con entre la premi`ere it´eration et l’it´eration 770. `A cette it´eration, la valeur de p est sup´erieure `a Punion, cela implique que l’op´erateur moyenne sera remplac´e par l’op´erateur union.

Pour notre algorithme, la valeur depcontinue `a augmenter jusqu’`a obtenir une valeur optimale. Cela se traduit par une diminution de l’erreur moyenne obtenue. Dans le cas de l’algorithme de Krishnapuram et Lee [KRIS-92a, KRIS-92b], l’algorithme devient instable `a cause du probl`eme expliqu´e dans le paragraphe pr´ec´edent.

3.3.2 Conclusion

Krishnapuram et Lee [KRIS-92a, KRIS-92b] avaient d´emontr´e que l’algorithme converge dans le cas o`u les op´erateurs sont fix´es `a l’avance, mais leur approche qui consiste `a modifier le type de ces op´erateurs au cours de l’´etape d’apprentissage en- gendre une non convergence de l’algorithme dans les cas extrˆemes. Nous avons apport´e une modification de cet algorithme d’apprentissage en modifiant les op´erateurs utili- s´es, cette modification permet de r´esoudre le probl`eme de divergence de l’algorithme d’apprentissage dans ces cas extrˆemes.

Documents relatifs