• Aucun résultat trouvé

3.4 Construction du profil usager en utilisant l’analyse causale

3.4.7 Découverte des Relations Causales

La découverte des relations causales à partir des séquences présente un défi majeur. Les relations causales sont généralement évaluées entre des variables significatives qui possèdent des relations de corrélations. Cela veut dire, que la découverte des patrons significatifs dans notre travail et l’extraction des relations de corrélations constituent des étapes préparatoires pour cette ultime étape de la découverte des relations causales.

Comme nous l’avons mentionné auparavant, le MI est une mesure de la force d’association entre les patrons. Elle ne permet pas de fournir des informations sur

3.4. Construction du profil usager en utilisant l’analyse causale

les relations causales et leurs directionnalités, si les relations entre les patrons sont des relations mutuelles, c’est à dire que chaque patron possède une force d’influence sur l’autre, ou bien des relations unidirectionnelles, c’est à dire, un patron influence l’autre (une relation dans un seul sens).

Les règles d’association sont des algorithmes qui sont largement utilisés dans la littérature pour analyser les patrons et mesurer éventuellement les forces d’association entre les patrons. Cependant, les règles d’association ne permettent pas de prendre en considération les informations séquentielles disponibles dans les données. Les règles

d’association indiquent que les items s1 et s2 apparaissent généralement ensemble,

mais n’indiquent pas que l’item s2 apparaît toujours immédiatement après l’item

s1. De plus, les algorithmes des règles d’association ne sont pas capables de gérer

le problème de bruit dans les données ni le problème de données manquantes. Par conséquent, les mesures de MI et les règles d’associations sont inadéquates pour la découverte des relations causales et l’influence entre les patrons. Toutes ces limita- tions nous motivent à faire recours à la théorie de la causalité qui est une théorie très puissante pour la découverte des relations causales et de la dynamique de l’informa- tion.

Il existe plusieurs mesures qui permettent de découvrir les relations causales comme indiquée précédemment. Dans ce travail, nous utilisons la mesure de transfert

d’entropie [118]. La mesure de transfert d’entropie (TE), qui est une mesure asy-

métrique, possède beaucoup d’avantages par rapport à toutes les autres mesures de causalité. En effet, contrairement aux autres mesures, le TE prend en compte les informations partagées en incorporant l’historique commune des variables. Ceci peut être effectué en utilisant les probabilités conditionnelles de transition. Lungarella et

al. [76] ont effectué une étude de comparaison entre les deux mesures, la mesure de

Granger et le TE, et ils ont constaté que le TE est plus stable et plus précis que la mesure de Granger sur des données séquentielles temporelles. De plus, la mesure de TE ne requiert aucune hypothèse de départ sur les distributions des données contrai- rement à celle de Granger. L’emploi de la mesure de TE est donc plus indiquée pour la découverte des relations causales.

Dans notre méthode, nous appliquerons donc la mesure de TE uniquement entre les patrons significatifs possédant des relations de corrélation découvertes par les algo-

3.4. Construction du profil usager en utilisant l’analyse causale

rithmes présentés précédemment. Cela réduira considérablement l’espace de recherche et par conséquent le temps de calcul.

Formellement, soient pαet pβdeux patrons significatifs, et soient Xα={x1, x2, ..., xn}

et Xβ ={y1, y2, ..., ym} deux variables aléatoires pour les occurrences des événements

qui composent les patrons pα et pβ respectivement dans le même cluster. Le transfert

d’entropie entre les deux variables aléatoires Xα et Xβ est calculé comme suit [118] :

T E→Xα =  xi+1,xi∈Xα,yj∈Xβ

P (xi+1, xi, yj) log p(xi+1|xi, yj)

p(xi+1|xi) (3.11)

Puisque la mesure de TE est une mesure asymétrique, le calcul de la direction inverse est défini de la même façon comme suit :

T E→Xβ =  yj+1,yj∈Xβ,xi∈Xα

P (yj+1, yj, xi) log p(yj+1|yj, xi)

p(yj+1|yj) (3.12)

où xi+1 et yj+1 représentent les prochaines valeurs que peuvent prendre les deux

variables aléatoires Xα and Xβ respectivement, et xi and yj représentent les valeurs

passées (ou bien l’historique).

Etant donné que : p(xi+1|xi, yj) = p(xp(xi+1,xi,yj)

i,yj) , et p(xi+1|xi) = p(xi+1,xi) p(xi) , les équa- tions 3.11 et 3.12, se réécrivent : T E→Xα =  xi+1,xi∈Xα,yj∈Xβ

P (xi+1, xi, yj) logp(xi+1, xi, yj).p(xi)

p(xi, yj).p(xi+1, xi) (3.13)

T E→Xβ =  yj+1,yj∈Xβ,xi∈Xα

P (yj+1, yj, xi) log p(yj+1, yj, xi).p(yj)

p(xi, yj).p(yj+1, yj) (3.14)

Selon les formules 3.13 et 3.14, la mesure de TE représente l’information sur la

prochaine valeur xi+1 que peut prendre la variable aléatoire Xα, obtenue en utilisant

les observations passées xi et yj simultanément, et en écartant l’information sur la

prochaine valeur xi+1 que peut prendre la variable aléatoire Xα, obtenue en utilisant

3.4. Construction du profil usager en utilisant l’analyse causale

de la mesure T E et la découverte des graphes représentant des relations causales entre les patrons.

Algorithme 3 Découverte des graphes des relations causales Entrée :

- Graphes des relations d’associations G1, G2, ..., GT

Sortie :

- Graphes des relations causales CG1, CG2, ..., CGT

1 : pour i = 1 à T faire (pour chaque graphe)

2 : pour chaque arrête (pα, pβ) dans le graphe faire

3 : - calculer T E→Xβ à l’aide de la formule3.14;

4 : - calculer T E→Xα à l’aide de la formule3.13;

5 : si T E→Xβ > T E→Xα

6 : - remplacer l’arrête (pα, pβ) par l’arc (pα, pβ) ;

7 : sinon si T E→Xβ < T E→Xα

8 : - remplacer l’arrête (pα, pβ) par l’arc (pβ, pα) ;

9 : sinon si (T E→Xβ = T E→Xα) et (T E→Xβ = 0)

10 : - remplacer l’arrête (pα, pβ) par l’arc (pα, pβ) et

l’arc (pβ, pα) ;

11 : fin 12 : fin

13 : - retourner les graphes de relations causales CG1, CG2, ..., CGT;

Comme nous pouvons le constater à partir de l’algorithme3, l’algorithme retourne

T graphes, avec des noeuds représentant des patrons significatifs et des arcs repré-

sentant des relations causales entre ces patrons significatifs. Chaque arc est étiqueté par la valeur de TE entre les deux patrons significatifs représentant les deux ex-

trémités de l’arc. Dans le cas où T E→Xβ = T E→Xα, nous disons que les deux

patrons possèdent une causalité réciproque ou (feedback) [119]. Dans ce cas, un patron

cause l’autre et inversement. Ce phénomène motive l’utilisation des graphes de cau- salité. Contrairement aux graphes orientés acycliques, comme les réseaux Bayésiens, les graphes de causalité peuvent avoir des cycles et deviennent des graphes orientés cycliques. Dans ce cas, les graphes de causalité peuvent être considérés comme étant