Descente du gradient - Inférence quantitative des relations spatiales directionnelles

Afin d’améliorer l’étape d’apprentissage, nous avons utilisé les trois opérateursI0 p=

I(−1/p), Mp,w1..n et Up0 = U(1/p). Soit D = {((x1i, x2i, ..., xni), yi) , i = 1..N } un ensemble

d’apprentissage décrivant les entrées xki d’un nœud et les résultats yi souhaités. Le

problème consiste à déterminer le type du meilleur opérateur ainsi que ses paramètres afin que le résultat de l’agrégation soit le plus proche possible des résultats souhaités. Cela revient généralement à minimiser l’erreur moyenne E définie par :

E = 1 N N X i=1 (Op,w1..n(x1i, ..., xni) − yi)2 (3.16)

oùO représente le type de l’opérateur.

Pour résoudre ce problème, nous avons appliqué deux méthodes de minimisation, la première approche est fondée sur l’algorithme de descente du gradient [DUDA-01] et l’algorithme de rétropropagation du gradient [HAYK-99]. L’autre approche est un algorithme évolutif fondé sur des méthodes d’estimation de distributions statistiques [CAST-97, LARR-01].

3.3 Descente du gradient

Supposons que le type de l’opérateur soit déjà déterminé. Prenons par exemple le cas de l’opérateur de moyenne généralisé Mp,w1..n. L’algorithme de descente du gra-

dient est un algorithme itératif, qui calcule à chaque itération l une nouvelle valeur de

(p(l)_{, w}(l) 1..n)en fonction de (p(l−1), w(l−1)1..n ) : p(l) _{= p}(l−1)_{− µ}∂E ∂p (3.17) w(l)_i = w(l−1)_i − µ0∂E ∂wi (3.18)

o`uµ et µ0 _{sont des constantes positives repr´esentant le taux d’apprentissage.}

Le choix du type de l’opérateur dépend de la valeur de pà l’itération l. On définit deux bornes Pinter < 0 etPunion> 0 telles que :

– Si (p > Punion), l’opérateur O est remplacé par l’opérateur union Up0.

– Si (p < Pinter), l’opérateur O est remplacé par l’opérateur intersection Ip0.

– Sinon on continue `a utiliser l’op´erateur moyenneMp,w1..n.

Tous les opérateurs sont initialisés avec l’opérateur moyenne. L’étape d’apprentissage consiste à modifier la valeur de p en fonction des données D pour atteindre un minimum de E. Soit Pl la suite des paramètres pobtenus à chaque itération l pour un

nœudOi du réseau. Si le nœud doit représenter un opérateur ou logique, la valeur de yi

exemples d’apprentissage. D’apr`es le comportement de l’op´erateur moyenne, la suite

Pl sera une suite croissante entre p0 et pt > Punion (p(t−1) < Punion). Durant toutes ces

itérations l’opérateur utilisé est l’opérateur moyenne. À partir de cette itération, l’opé- rateur moyenne va être remplacé par l’opérateur union généralisée U0

p dont le r´esultat

est supérieur ou égal aux paramètres d’entrée. Cet opérateur est équivalent à 1 quand p tend vers +∞ et à l’opérateur max quand p tend vers 0 (Tab. 3.2). L’opérateur U0

est croissant en fonction de la valeur de p. Si la valeur de yi est plus proche de 1 que

du max(x1i, ...xni), la valeur de pva continuer `a croˆıtre jusqu’`a l’obtention d’une valeur

optimale. Dans le cas contraire, si la valeur de yi est plus proche du max, la valeur de

pva se stabiliser.

Dans le cas inverse, si le nœud doit repr´esenter un op´erateur et logique, la suite

Pl sera une suite décroissante entre p0 et pt< Pinter (p(t−1) > Pinter). À cette itération,

l’op´erateur intersectionI0

p sera utilisé à la place de la moyenne pour calculer le résultat

à partir des paramètres d’entrée. D’après le comportement de l’opérateurI0

p (Tab. 3.2),

si la valeur deyi est plus proche de 0 que du min(x1i, ...xni), la valeur de pva continuer

à décroˆıtre jusqu’à l’obtention d’une valeur optimale.

p −∞ 0− ₀+ _+∞

I−p min 0 ≤ I−p≤ min 0 ind´efini

Up ind´efini 1 max ≤ Up≤ 1 max

Mp min min ≤ Mp≤ max max

Tab. 3.3 – Comportement des op´erateurs I−p, Up et Mp utilis´es par Krishnapuram et

Lee [KRIS-92a] en fonction de p.

Krishnapuram et Lee [KRIS-92a, KRIS-92b] ont utilisé les opérateursUp etI−p à la

place des op´erateursU0

p etIp0, cette diff´erence engendre une divergence de l’algorithme

dans le cas où la valeur des résultats souhaités est plus proche de 1 ou0. Prenant par

exemple le cas où le nœud doit représenter un opérateur ou logique, la suitePlsera une

suite croissante entre la valeur initiale de p(p0) et pt> Punion (p(t−1)< Punion). `A cette

itération, l’opérateur moyenne va être remplacé par l’opérateur union de Yager Up.

Contrairement `a l’op´erateurU0

p, le résultat de cet opérateur est décroissant en fonction

dep: il est équivalent à l’opérateurmaxquandptend vers+∞et à1quandptend vers0

(Tab. 3.3). Si la valeur deyk est plus proche de1, la valeur dep(t+1) sera inf´erieure `ap(t).

Dans les cas extrêmes où l’opérateur souhaité est très optimiste, cette valeur sera aussi inférieure à Punion et l’opérateur union va être remplacé par l’opérateur moyenne. En

conséquence le type de l’opérateur de ce nœud va osciller entre l’opérateur moyenne et l’opérateur union sans converger vers une solution fixe. On obtient le même problème quand yi est plus proche de 0 avec la t-norme I−p et l’opérateur moyenne.

3.3 Descente du gradient

3.3.1 Comparaison entre notre approche et la m´ethode de Kri-

shnapuram et Lee

Pour illustrer la différence entre notre approche et la méthode de Krishnapuram et Lee [KRIS-92a, KRIS-92b], nous avons appliqué les deux algorithmes pour essayer d’estimer les paramètres d’un nœud représentant l’opérateur U0.1 et ayant deux en-

trées x1 etx2. L’ensemble des données d’apprentissage est illustré sur la table 3.4. Cet

exemple représente un cas extrême où l’opérateur union est très optimiste.

i Paramètres d’entrés Résultat (yi)

x1i x2i 1 0.950 0.615 1.00 2 0.048 0.073 1.00 3 0.089 0.017 1.00 4 0.231 0.791 1.00 5 0.606 0.921 1.00 6 0.485 0.738 1.00 7 0.060 0.092 1.00 8 0.023 0.079 1.00 9 0.891 0.176 1.00 10 0.095 0.061 1.00

Tab. 3.4 – Exemples d’apprentissage utilis´es pour comparer la m´ethode de Krishna- puram et Lee avec notre approche.

0 500 1000 1500 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Itération E 720 740 760 780 800 820 0.4 0.42 0.44 0.46 0.48 0.5 0.52 Itération E

(a) ´Evolution de l’erreur dans l’algorithme de Krishnapuram et Lee.

0 500 1000 1500 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Itération E

(b) ´Evolution de l’erreur dans le cas de notre algorithme d’apprentissage. Fig. 3.4 – Comparaison entre l’algorithme d’apprentissage de Krishnapuram et Lee et notre algorithme.

En examinant la figure 3.4, on remarque clairement que l’algorithme de Krishna- puram et Lee [KRIS-92a, KRIS-92b] ne converge pas, les oscillations entre les deux op´erateurs Up et l’op´erateur moyenne Mp se traduisent par une oscillation de l’erreur

entre les deux valeurs0.41et0.48sans converger. Dans le cas de notre algorithme, l’erreur décroˆıt rapidement vers0dès que l’opérateur moyenne est remplacé par l’opérateur

union. On remarque que les deux algorithmes se comportent de la même fa¸con entre la première itération et l’itération 770. À cette itération, la valeur de p est supérieure à Punion, cela implique que l’opérateur moyenne sera remplacé par l’opérateur union.

Pour notre algorithme, la valeur depcontinue à augmenter jusqu’à obtenir une valeur optimale. Cela se traduit par une diminution de l’erreur moyenne obtenue. Dans le cas de l’algorithme de Krishnapuram et Lee [KRIS-92a, KRIS-92b], l’algorithme devient instable à cause du problème expliqué dans le paragraphe précédent.

3.3.2 Conclusion

Krishnapuram et Lee [KRIS-92a, KRIS-92b] avaient démontré que l’algorithme converge dans le cas où les opérateurs sont fixés à l’avance, mais leur approche qui consiste à modifier le type de ces opérateurs au cours de l’étape d’apprentissage engendre une non convergence de l’algorithme dans les cas extrêmes. Nous avons apporté une modification de cet algorithme d’apprentissage en modifiant les opérateurs utili- sés, cette modification permet de résoudre le problème de divergence de l’algorithme d’apprentissage dans ces cas extrêmes.

Dans le document Inférence quantitative des relations spatiales directionnelles (Page 78-81)