Similarité de distribution de croyance avec connaissance de similarité entre éléments

Chapitre III Exploitation, recherche et comparaison d’expériences

III.4. Similarité sur la base de représentations incertaines

III.4.3. Similarité de distribution de croyance avec connaissance de similarité entre éléments

Pour pouvoir comparer les descripteurs incertains de l’expérience, nous avons besoin d’une mesure de similarité qui tienne compte à la fois des valeurs possibles et d’une matrice de similarité entre les éléments de l’ensemble considéré. Comme nous l'avons montré, les mesures classiques de distributions de masse ne sont pas bien adaptées car elles retournent une mesure précise qui traduit plutôt la « forme » des distributions alors que nous souhaitons avant tout comparer les valeurs réelles des attributs. La mesure simensdis est à la base de celle que nous proposons car elle recense et calcule toutes les

similarités possibles entre les éléments de deux sous-ensembles. Nous devons simplement étendre cette mesure pour ne plus comparer seulement deux mais autant de sous-ensembles que les distributions comparées en comptent. Pour réaliser cette mesure, nous procédons, comme pour la mesure de Jousselme, en calculant chaque couple possible de valeurs pour toutes les combinaisons possibles d’ensembles.

III.4.3.1.

Algorithme de similarité locale de valeur exprimée par des

fonctions de croyance

Soient deux informations exprimées par deux sources d’information S1 et S2 sur un même cadre de discernement ", contenant n valeurs, noté {a1 ; … ; ai ; … ; an}. Ces informations sont capturées au moyen de deux fonctions de masse notées m1 et m2 possédant respectivement les ensembles d’éléments focaux {A1 ; … ; Ak} et {B1 ; … ; Br} (avec k ≤ 2n et r ≤ 2n).

Soit une matrice de similarité symétrique S=[sij] associée au domaine " telle que la diagonale soit égale à 1. Bien que nous utilisions le plus souvent des matrices de similarité symétriques, réflexives et même respectant l’inégalité triangulaire (voir les exemples), il n’y a pas vraiment de propriétés dont dépend l’algorithme. Un des avantages des propriétés de symétrie et de réflexivité (sij = sji et i=j K sij = 1) est que la matrice de similarité de taille n n’est alors définie que par n(n-1)/2 valeurs au lieu de n x n ce qui facilite le travail de saisie des experts. Lorsque cette condition est remplie, il est aussi possible d’optimiser l’algorithme pour effectuer moins de recherches dans la matrice de similarité.

La mesure de similarité est exprimée dans l’intervalle [0 ; 1]. Afin de permettre un traitement analogue à celui proposé dans le cadre de comparaison des ensembles, et comme préconisé dans la section III.3.2., nous discrétisons cet intervalle pour définir des classes de similarité. Afin d’illustrer nos propositions, nous avons choisi de scinder arbitrairement l’intervalle [0 ; 1] en 21 intervalles de taille 0,05 centrés autour des valeurs décimales remarquables (0,1 ; 0,2 ;…). Le premier intervalle et le dernier sont par conséquent de taille 0,025. Les intervalles sont donc :

1 :[0 0,025[ ; 2 :[0,025 0,075[ ; 3 : [0,075 0,125[ ;… ; 20 : [0,925 0,975[ ; 21 : [0,975 1]

La mesure de similarité retournée par l’algorithme de similarité que nous présentons correspond alors à un vecteur à 21 composantes qui contient chaque valeur de similarité pour chaque intervalle. Cette taille est bien sûr variable et dépend d’une donnée d’entrée (le nombre des classes de discrétisation par exemple) que nous fixons dans un premier temps pour simplifier la présentation.

Algorithme III-1 - Algorithme SIMBBA(m1, m2)

entrées :

"

contenant n valeurs {a1 ; … ; ai ; … ; an}.

m1 distribution de masse de croyance sur

"

possédant k ensembles focaux : {A1 ; … ; Ak} avec k ≤ 2n. m2 distribution de masse de croyance sur

"

possédant r ensembles focaux : {B1 ; … ; Br} avec r ≤ 2n. S=[sij] matrice de similarité de taille n x n associée aux éléments {a1 ; … ; ai ; … ; an} de

"

sortie :

SIMBBA [] = tableau de taille 21 correspondant aux intervalles dans l’ordre croissant et contenant la valeur de similarité associée.

1 :[0 0,025[ ; 2 :[0,025 0,075[ ; 3 : [0,075 0,125[ ;… ; 20 : [0,925 0,975[ ; 21 : [0,975 1]

SIMBBA [] = [0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0] Pour chaque ensemble focal Ai de m1

Pour chaque ensemble focal Bi de m2

listeTemp

"

liste vide

Pour chaque élément x de Ai

Pour chaque élément y de Bi

Ajouter le couple (x ; y) dans listeTemp Fin pour

Fin Pour

Pour chaque couple (i ; j) de listeTemp

indiceTab

_"

partieEntière _EE F G HH I J D 05 , 0 025 , 0 ij s

SIMBBA [indiceTab]

"

SIMBBA [indiceTab] +

# $

i i i i B A B m A m @ @ ₂ 1 Fin Pour FinPour FinPour

Retourne SIMBBA []

récupération dans une liste temporaire de tous les couples de valeurs possibles

affectation de la part de similarité à chaque couple

Exemple d’application de l’algorithme

Pour illustrer le fonctionnement de ce premier algorithme, nous considérons l’exemple suivant sur " = {a, b, c} avec les deux distributions de masses m1 et m2 et une matrice de similarité définie sur le Tableau III-2 :

BBA2 : m2 (") = m21 = 0,1 m2 ({b ; c}) = m22 = 0,9

A partir des deux fonctions de masse précédentes possédant chacune deux ensembles focaux, nous obtenons les 4 ensembles suivants avec le poids associé calculé par la multiplication des poids des ensembles d’origine. Nous utilisons le produit des masses de chaque ensemble, à l'instar des combinaisons conjonctives.

"\" a b c a 1 0,6 0,1

b 1 0,8

c 1

Tableau III-2 - Matrice de similarité de l'exemple

Ensembles Poids associé

{(a: a) (a ; b) (a ; c) (b ; a) (b ; b) (b ; c) (c ; a) (c ; b) (c ; c)} {(a ; b) (a ; c) (b ; b) (b ; c) (c ; b) (c ; c)} {(b ; a) (b ; b) (b ; c)} {(b ; b) (b ; c)} m11 * m21 = 0,03 m11 * m22 = 0,27 m12 * m21 = 0,07 m12 * m22 = 0,63 ∑ = 1

Tableau III-3 – Similarité ensembliste et connaissance - étape 1

Chaque couple correspond à une valeur de similarité (utilisation de la matrice de similarité). La matrice de similarité étant symétrique, il y a égalité entre les valeurs symétriques (i, j) = (j, i) et l’égalité sur la diagonale quand i = j. En remplaçant par les valeurs de la matrice de similarité de l’exemple puis en regroupant par valeur de similarité (0,1 ; 0,6 ; 0,8 ; 1), nous obtenons :

Regroupement par niveau de similarité et par ensembles Poids associé

msym (0,1) = 2/9 ; msym (0,6) = 2/9 ; msym (0,8) = 2/9 ; msym (1) = 1/3 msym (0,1) = 1/6 ; msym (0,6) = 1/6 ; msym (0,8) = 1/3 ; msym (1) = 1/3 msym (0,6) = 1/3 ; msym (0,8) = 1/3 ; msym (1) = 1/3

msym (0,8) = 1/2 ; msym (1) = 1/2 m11. m21 = 0,03 m11. m22 = 0,27 m12. m21 = 0,07 m12. m22 = 0,63 ∑ = 1

Tableau III-4 - Similarité ensembliste et connaissance - étape 2

Nous obtenons ainsi autant de mesures de similarité que de combinaisons entre les ensembles focaux. Pour calculer la similarité globale, nous collectons les contributions de chacune des combinaisons sur chacun des intervalles du cadre de discernement des mesures de similarités, ainsi :

Regroupement par niveau de similarité Poids associé

msym (0,1) = 2/9 * 0,03 + 1/6 * 0,27 msym (0,6) = 2/9 * 0,03 + 1/6 * 0,27 + 1/3 * 0,07 msym (0,8) = 2/9 * 0,03 + 1/3 * 0,27 + 1/3 * 0,07 + 1/2 * 0,63 msym (1) = 1/3 * 0,03 + 1/3 * 0,27 + 1/3 * 0,07 + 1/2 * 0,63 = 0,052 = 0,075 = 0,435 = 0,438 ∑ = 1

Tableau III-5 - Similarité ensembliste et connaissance - étape 3

Ainsi, l’algorithme présenté retournerait alors le tableau SIMBBA [ ] suivant :

SIMBBA [ ] = [0 ; 0 ; 0,052 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0 ; 0,075 ; 0 ; 0 ; 0 ; 0,435 ; 0 ; 0 ; 0 ; 0,438] La mesure de similarité appartient à l’ensemble {0,1 0,6 0,8 1}, la valeur moyenne est de 0,8362 et les « chances » d’avoir 0,1 et 0,6 sont faibles comparées aux chances d’avoir 0,8 ou 1. A partir d’une information précise donnant une connaissance de distance entre les éléments du domaine et d’une valuation incertaine par des distributions de masse de croyance, nous avons extrapolé une distribution de masse bayésienne sur un nouveau référentiel qui correspond à l’ensemble discrétisé des valeurs de similarité (intervalles entre 0 et 1). Cette transformation, à l’instar de la transformation pignistique,

intervient au moment de la prise de décision. Si les valeurs des attributs changent, il n’est pas possible de mettre à jour cette mesure de similarité autrement qu’en relançant son calcul. La distribution bayésienne ne permet pas de transférer une masse d’un ensemble sur un autre puisque tous les ensembles sont des singletons.

Nous notons la mesure de similarité déduite :

simensdis-AB = { (0.1, 0.052), (0.6, 0.075), (0.8, 0,432) , (1, 0,438)}

La représentation graphique de simensdis-AB est la suivante :

Figure III-7 - Représentation graphique de la mesure de similarité calculée pour l'exemple

L’algorithme développé permet ainsi de retourner une information plus riche que par exemple l’algorithme basé sur la théorie des possibilités présenté dans la partie III.4.1. En effet, nous avons une information supplémentaire quand à la répartition des valeurs possibles alors que l’algorithme basé sur la théorie des possibilités ne retient que les résultats min et max, ce qui donnerait ici :

#=1 et N=0,1 soit {0,1 ; 1}.

III.5. Evaluation de la similarité d’expériences

Les descripteurs de l’expérience ont une structure proche de la structure attributs-valeurs classique étendue par des attributs de type objet. Le typage objet correspond principalement à des compositions récursives d’attributs. Il ne reprend pas tous les aspects du paradigme orienté objet et en particulier nous avons choisi de ne pas considérer l’héritage. C’est pourquoi nous adoptons une vue locale-globale pour calculer la similarité de l’expérience. Les algorithmes proposés sont récursifs et basés sur le même référentiel que pour la mesure de similarité locale présentée dans la partie III.4.3. Nous allons, notamment dans cette partie, présenter différentes techniques d’agrégation de ces similarités locales.

Bien que les descripteurs simples puissent être de type différents (numérique, booléen, liste de valeur, taxonomie…), nous avons choisi de ne considérer que les listes de valeurs et de ramener chaque type à celui-ci par discrétisation lorsque c’est nécessaire. Nous avons fait ce choix pour présenter la méthode de manière uniforme, ce qui nous permet d’utiliser des similarités matricielles pour les domaines des descripteurs. Ce choix pourra facilement être remis en cause par la suite puisqu’il suffira de remplacer la fonction de similarité par une fonction de similarité locale classique vue dans la partie III.2 (seuil, …) et de la paramétrer pour l’adapter au domaine du descripteur considéré. Ce changement ne pose pas de problème puisque toutes les méthodes de similarité retenues répondent toutes à la même spécification d’interface : retourner le degré de similarité entre deux éléments du domaine.

Dans la suite de cette partie nous commençons par la présentation du principe d’agrégation que nous avons retenu et basé sur l’agrégation de tous les vecteurs de similarité possibles. Le principe de cette mesure est le même que pour la similarité locale sauf que nous n’avons que des éléments focaux précis (distributions bayésiennes). Nous proposons une construction incrémentale du résultat permettant de limiter l’explosion combinatoire. Puis, nous présentons les différents algorithmes qui nous servent à faire une comparaison globale en considérant seulement le contexte de chaque expérience, ou en considérant les analyses associées à chacune des expériences. Nous proposons alors une évolution de la

0 1

mesure d’agrégation dans ce cas pour mieux traduire la sémantique que nous conférons à l’analyse (« et » fort).

Dans le document Modélisation générique d'un retour d'expérience cognitif. Application à la prévention des risques (Page 96-100)