• Aucun résultat trouvé

La fouille de séquences

3.2 Une approche novatrice pour l’extraction de règles d’association séquentiellerègles d’association séquentielle

3.2.4 Visualisation des résultats

La visualisation des résultats peut se faire simplement à l’aide d’une repré-sentation textuelle des règles avec leurs rapports de risque associés. Ce mode de représentation permet de classer facilement les règles en fonction de la taille du rapport de risque ou de l’événement dépendant (cf. Tab. 3.12).

prémisse conclusion D(HR=1.7,p=1.59375e-11) ⇒ A B(HR=4.47,p<1e-16)⇒ C(HR=2.09,p=2.42609e-07) ⇒ D TABLEAU 3.12 – Visualisation textuelle des règles d’association séquentielle

Pour chaque règle, les événements qui composent la « prémisse » de la règle se trouvent à gauche, et l’événement « conclusion » est placé à droite. Après chaque événement faisant partie de la prémisse, le rapport de risque estimé (ou le rapport de cote pour un modèle à temps discret avec une fonction de lien logit) est inscrit avec la p-valeur du test de Wald sur le coefficient. Ce rapport de risque représente toujours l’effet multiplicatif de l’événement situé à gauche sur le risque (ou la cote du risque) que l’événement situé immédiatement à droite se produise. La deuxième règle du tableau 3.12 se lit par conséquent de la manière suivante : le risque de subir l’événementC est multiplié par 4.47 lorsque l’événement Bs’est produit ; et parmi ceux qui ont subiB, le risque de subir l’événementDest multiplié par 2.09 lorsqueC s’est produit.

Nous proposons également de représenter les règles d’association sous la forme d’un graphe dirigé (Figure 3.8). Cette représentation rejoint celle proposée par Joshi et al. (2001) et que l’on retrouve dans la figure 3.1, mais dans une forme plus adaptée à une visualisation concise de rapports de risque. Un graphe de règle d’association séquentielle se lit de gauche à droite et est composé de trois parties.

La partie la plus à gauche représente l’événement dont l’occurrence modifie le risque

que l’événement dépendant, situé tout à droite, se produise. Le noeud carré, qui se trouve entre le noeud qui contient l’événement prédicteur et celui qui contient l’événement prédit, possède au minimum une ligne qui se termine par le terme

« | none », ce qui signifie que cette règle n’est conditionnée par aucun événement antérieur.

A HR= 2.51 (p <1e-16) | none

B

C HR= 4.63 (p <1e-16) | none

HR= 2.63 (p <1e-10) |A

Figure3.8 – Représentation graphique des règles d’association

Dans cet exemple, les informations concernant trois règles sont représentées.

Pour chacune des règles, le chiffre entre parenthèses indique la p-valeur de la sta-tistique de Wald. Les résultats s’interprétent de la manière suivante :

– A ⇒ C : lorsqueAs’est produit, le risque de voirCse produire est multiplié par 2.51.

– B ⇒ C : lorsqueB s’est produit, le risque de voirC se produire est multiplié par 4.63.

– A − B ⇒ C ouB ⇒ C | A : lorsqueBs’est produit après A, le risque queC se produise est 2.63 fois plus élevé que siB ne s’est pas produit.

Cette représentation permet de séparer facilement les règles en fonction de l’évé-nement final d’intérêt, puisqu’il est possible de créer un graphe par évél’évé-nement prédit.

3.2.5 Simulation

Afin d’évaluer la capacité de cet algorithme à mettre en évidence les liens exis-tant entre des événements, des données ont été créées artificiellement à partir d’une distribution de probabilité de Weibull (Johnson et al., 1995, p. 629). Cette distribu-tion, dont l’équation 3.20 représente la fonction de densité, est fréquemment utilisée pour modéliser des durées. Une distribution de Weibull possède deux paramètres, le paramètreaqui est un paramètre de forme et le paramètrebqui est un paramètre d’échelle, avecaet b >0.

f(x) =exph

x b

ai

·a b ·x

b

(a−1)

(3.20) Dans notre simulation,xcorrespond à la durée écoulée avant la survenue d’un événement. Lorsque le paramètreaest inférieur à 1, le risque qu’un événement se produise diminue avec le temps. Lors qu’il vaut 1, le risque est constant avec le temps. Lorsqu’il est plus grand que 1, le risque augmente avec le temps.

paramètrea # événements médiane

A 240 732 182

B ti(A) + 48 708 174

C ti(B) + 48 706 163

G 192 803 148

H 384 589 302

TABLEAU 3.13 – Données simulées à partir d’une distribution de Weibull Création des données artificielles

Les temps d’occurrence de cinq événements,A,B,C,Get H, ont été simulés en utilisant la procédure suivante. Un premier tirage de 1000 valeurs est effectué à partir d’une distribution de Weibull avec comme paramètres a= 1.5 etb = 240.

Nous avons choisi la valeur de 240 pour simuler des données qui pourraient res-sembler à des événements de vie en prenant comme unité de temps le mois ; 240 correspond à un âge de 20 ans. Ce premier tirage correspond à ti(A), le temps d’occurrence de l’événementA. Ensuite, pour chaque observationi, les temps d’oc-currenceti(B) sont tirés à partir d’une distribution de Weibull avec comme para-mètrebi=ti(A) + 48. Les temps d’occurrenceti(C) sont tirés de la même manière en utilisant comme paramètre bi = ti(B) + 48. Dans les deux cas, le paramètre a ne varie pas par observation et reste égal à 1.5. Ces trois événements sont par conséquent liés par les paramètres de la distribution de probabilité qui génère leur durée. Les valeursti(G) etti(H) sont quant à elles tirées de manière indépendante aux trois autres événements. Un dernier tirage, indépendant des cinq autres, est effectué afin de fixer les durées d’observation. Tout événement qui apparaît après la durée d’observation est censuré, de manière à avoir des données proches de la réalité des données censurées en sciences sociales. Les données résultant de cette simulation sont résumées dans le tableau 3.13 ; le paramètreade la loi de Weibull est spécifié, ainsi que le nombre d’événements après censure et le temps médian au moment de l’occurrence de l’événement.

Cette génération d’événements artificiels permet d’avoir des données compor-tant trois événements statistiquement liés par la distribution qui les génère ainsi que deux événements indépendants de tous les autres. Nous comparons ensuite les coefficients obtenus avec les mesures de support, de confiance et de rappel.

Résultats

Le tableau 3.14 présente les règles d’association séquentielle retenues par l’al-gorithme précédemment présentées et classées en fonction de la taille du rapport de risque (HR = hazard ratio). Le seuil pa été fixé à 0.01, puis ajusté à 3·10−5 par la procédure de correction de Bonferroni. L’algorithme a retenu 10 règles d’as-sociation significatives. On remarque que les deux premières règles correspondent à l’association entre les deux événements générés à la suite l’un de l’autre (voir les paramètres du tableau 3.13). Il est également intéressant de constater que la valeur du rapport de risque est moins grande entre deux événements associés mais plus éloignés. L’écart temporel moyen entre les événements A et B est de 5.53

mois, tandis qu’entre A et C il est de 14.74 mois. Le coefficient tient compte de la durée entre les événements et respecte donc le caractère temporel des données séquentielles. Le tableau 3.14 indique également que le support de certaines règles, telles queA − C ⇒ B, est tellement bas qu’elles auraient certainement été éliminées durant une fouille de séquences fondée sur un support minimal. On voit pourtant que cette règle est clairement significative selon un modèle de régression de Cox.

Condition Règle Rapport de Risque Confiance Rappel Support B ⇒ C 4.63 0.465 0.466 0.329 A ⇒ B 3.6 0.425 0.439 0.311 C ⇒ B 3.15 0.422 0.421 0.298 C A ⇒ B 2.65 0.263 0.292 0.087 A B ⇒ C 2.63 0.341 0.375 0.106 A ⇒ C 2.51 0.387 0.401 0.283 B ⇒ A 2.32 0.456 0.441 0.323 A C ⇒ B 2.2 0.265 0.241 0.075 C ⇒ A 1.82 0.469 0.452 0.331 C B ⇒ A 1.81 0.369 0.332 0.110

TABLEAU 3.14 – Résultats de l’extraction des règles

Le tableau 3.15 présente les cinq premières règles avec le plus grand support.

On remarque clairement que les trois mesures représentées ne permettent pas de distinguer les règles pertinentes. En effet, même des règles entre événements non-associés dans les données, telles queG ⇒ AouC ⇒ G, possèdent des valeurs élevées pour le support, la confiance et le rappel.

Règle Support Confiance Rappel G ⇒ A 0.378 0.47 0.52 G ⇒ H 0.369 0.46 0.63 C ⇒ A 0.331 0.47 0.45 B ⇒ C 0.329 0.46 0.47 C ⇒ H 0.327 0.46 0.56

TABLEAU 3.15 – Règles extraites avec un support minimum

Il existe des mesures plus appopriées pour le calcul de règles d’association sé-quentielle, notamment un indice d’implication séquentielle (Blanchard et al., 2008).

Il faut cependant noter que l’indice d’implication séquentielle tel qu’il est présenté par Blanchard et al. (2008) nécessiterait une adaptation pour le cas où l’on ne travaille pas sur une longue séquence unique mais sur des séquences multiples.

3.2.6 Complexité

Les performances de l’extraction de règles d’association séquentielle ont été évaluées de manière empirique en faisant varier le nombre de séquences créées arti-ficiellement ainsi que le nombre d’événements. Les essais ont été effectués sur une

machine avec un processeur Intel i5 à 3.2Ghz, 8GB de mémoire vive et un système Linux avec un noyau 2.6. Pour chaque essai, la durée d’exécution de la fonction de création des données dans un format utilisable par l’algorithme ainsi que la durée d’exécution de l’extraction de règles sont rapportées dans le tableau 3.16.

L’algorithme est implémenté en R et en C++. Pour l’étape de fouille de séquences fréquentes, il utilise une fonction implémentée en C++ de la librairie R TraMi-neR (Gabadinho et al., 2009, 2011). Toutes les autres fonctions sont programmées directement dans le langage R, ce qui explique leur relative lenteur.

nombre de séquences

5 événements 500 1000 2000

Cox données 0.72 1.46 3.03

extraction 6.7 13.04 26.29 Temps discret données 16.65 33.64 69.86

extraction 58.69 158.94 .

6 événements 500 1000 2000

Cox données 0.88 1.8 3.74

extraction 24.81 49.77 103.75 Temps discret données 23.04 43.83 86.84

extraction 182.87 513.43 1205.92 TABLEAU 3.16 – Performances de l’algorithme en secondes

On remarque que le temps d’exécution a une relation linéaire avec le nombre de séquences considérées, tandis qu’il semble avoir une relation exponentielle avec le nombre d’événenements.

3.3 Conclusion

Ce chapitre a été consacré uniquement aux aspects méthodologiques de la fouille de séquences, même si le lien entre l’extraction des règles d’association séquentielle et la notion de temporalité dans le paradigme du parcours de vie commence à apparaître de manière plus concrète. La méthode présentée dans ce chapitre pour l’extraction de règles d’association séquentielle à partir d’un ensemble de séquences possède plusieurs qualités. Premièrement, l’utilisation sous-jacente des modèles de durée permet une gestion efficace des données censurées. Etant donné qu’il s’agit d’un problème récurrent en sciences sociales, ainsi que dans d’autres domaines, cette approche pour l’extraction de règles d’association séquentielle ouvre la porte à de nombreuses possibilités d’application ; nous verrons en particulier dans le pro-chain chapitre son utilité dans l’analyse des effets d’accumulation d’événements.

Deuxièmement, les résultats de ce type d’analyse sont intuitifs ; les coefficients, qui représentent des rapports de risque, tiennent compte de la durée « moyenne » entre deux événements et permettent d’estimer l’influence de l’un sur l’autre ainsi que d’évaluer la rapidité avec laquelle un événement en entraîne un autre. L’interpré-tation s’en trouve facilitée, puisque tous ces coefficients peuvent se lire comme des multiplicateurs de risque. Finalement, la significativité statistique donne un critère

de sélection des règles, sans se baser sur leur fréquence, même si la fréquence joue un rôle dans le calcul de la significativité. L’utilisation de la significativité permet d’éviter de choisir un seuil arbitraire pour le support mininum.

Par rapport à des modèles de survie « classiques », l’avantage de cette méthode réside dans la possibilité d’évaluer automatiquement l’impact de séquences d’évé-nements sur n’importe quel autre événement. On remarque ainsi que l’avantage est double ; non seulement l’algorithme permet de changer d’événements cibles suivant la règle à évaluer, mais de plus le jeu de données est automatiquement segmenté dans le but d’évaluer l’impact de sous-séquences spécifiques. Lors d’une modélisa-tion plus classique, il serait nécessaire de procéder à de nombreuses manipulamodélisa-tions sur les données pour parvenir au même résultat.

L’utilisation d’un critère de significativité peut poser problème lors de l’appli-cation de cette méthode à de grands jeux de données. Trop de données pourrait faire perdre le caractère discriminant de l’extraction. Une autre limite actuelle de la méthode est son incapacité à traiter les événements qui se passent simultanément ; ainsi, un motif séquentiel du type (A,B)− C donnera lieu à deux règles,A ⇒ C et B ⇒ C, mais ne pourra prendre en compte la règle (A − B)⇒ C. Ceci pourrait faire l’objet d’une amélioration ultérieure.

Cette méthode ouvre la perspective à d’autres travaux. En premier lieu, une adaptation de l’indice d’implication séquentielle (Blanchard et al., 2008) aux sé-quences multiples permettrait d’obtenir une comparaison des performances de notre méthode avec une mesure plus pertinente que la confiance ou le rappel. En deuxième lieu, nous avons montré que la méthode fournit des résultats pertinents sur des données générées artificiellement. Il est par conséquent envisageable d’utiliser cette méthode sur des données réelles, comme des données sur les événements de vie issues de questionnaires rétrospectifs ou de données de panel. Il s’agit d’ailleurs du sujet du prochain chapitre.

Evénements de vie et santé :