• Aucun résultat trouvé

Figure 2.2 – Schéma général pour l’apprentissage de patrons séquentiels pour l’extraction d’information [PCK+09].

2.6 Ma contribution sur les règles d’association

2.6.1 Motifs rares et règles rares

La plateforme de fouille de données Coron développée par Laszlo Szathmary pendant sa thèse ([Sza06]) avec Amedeo Napoli, intègre un algorithme d’extraction de motifs rares. J’ai participé à la réflexion sur l’intérêt des motifs rares dans la fouille de données et à la définition d’algorithmes d’extraction de ces motifs rares2.

Les motifs fréquents sont la cible de nombreux travaux, tant sur les problèmes algo-rithmiques que sur leur application dans différents domaines. L’idée développée ici est que les motifs rares puissent également être intéressants [SMP+06, MNSY06].

Considé-2. Coron (http ://coron.loria.fr) est un logiciel déposé dont les auteurs sont L. Szathmary (60%) et A. Napoli (20%) et Y. Toussaint (20%)

rons l’exemple factice d’une base de données médicales et le problème de l’identification de la cause de maladies cardio-vasculaires (MCV). Une règle d’association fréquente (ex-traite d’un motif fréquent) comme niveau élevé de cholestérol −→ MCV permet de faire émerger l’hypothèse que les individus ayant un fort taux de cholestérol ont un risque élevé de MCV. À l’opposé, s’il existe un nombre conséquent de végétariens dans la base de données, alors une règle d’association rare comme vegetarien −→ MCV permet de faire émerger l’hypothèse qu’un végétarien a un risque faible de contracter une MCV. Dans un tel cas, les motifs végétarien et MCV sont tous deux fréquents, mais le motif végétarien, MCV est lui-même rare. Il est à noter que la règle végétarien−→ MCV a alors un support faible et une confiance faible.

Dans le cas général, un motif est fréquent si son support est supérieur à un seuil maxsupp et il est rare si son support est inférieur à un seuil minsupp. Cependant, dans le cas de [SMP+06, MNSY06], nous avons étudié la situation où il n’existe qu’une seule frontière entre les fréquents et les non-fréquents. Les motifs qui sont extraits sont les motifs rares minimaux (MRM), c’est-à-dire les motifs dont tous les sous-motifs ne sont pas rares. L’ensemble des motifs rares mininaux forme un ensemble générateur minimal à partir duquel tous les motifs rares peuvent être retrouvés.

Les motifs rares sont nombreux et comptent notamment, tous les motifs de sup-port zéro (les motifs zéros), ceux qui n’apparaissent jamais. Les motifs générateurs zéro-minimaux sont les motifs zéros pour lesquels tous ses sous-motifs sont des motifs non-zéros. Le fait qu’ajouter un élément à un sous-motif non-zéro donne un motif zéro est porteur d’une information intéressante.

La plupart des travaux sur les motifs rares ([KR05, TSB09, SNV07]) se sont focalisés sur des questions algorithmiques pour optimiser l’extraction des motifs rares. Dans sa thèse au sein de l’équipe Orpailleur, Sandy Maumus a analysé les motifs rares extraits d’une cohorte de personnes mais l’intérêt des motifs rares n’est pas encore réellement probant. Pourtant, dans le cadre de textes, on ne peut s’empêcher de faire le lien avec les signaux faibles ainsi dénommés dans la veille technologique. On pourrait en effet rechercher les associations rares dans les textes, associations qui refléteraient de nouveaux usages de termes déjà existants pour décrire de nouveaux phénomènes, avant que, finalement, un terme ne soit créé pour identifier cette nouvelle notion. Malheureusement, une heuristique aussi grossière a peu de chance d’aboutir. On observe souvent une forte dispersion au niveau des termes ou, plus généralement, des structures linguistiques et les signaux faibles risquent de se trouver noyés dans beaucoup de bruit.

2.6.2 Classification de règles d’association selon un modèle de

connaissances

Les travaux que j’ai réalisés sur la fouille de textes par extraction de règles d’association ont été menés dans le cadre de la thèse d’Hacène Cherfi. L’objectif était de pouvoir extraire à partir de textes sur le domaine de la microbiologie des éléments de connaissances sur le phénomène de résistance des bactéries aux antibiotiques par mutation génétique. Ces travaux ont fait l’objet de plusieurs publications. Pour éviter les redites, je ne donne ici que les lignes directrices de ces travaux. J’invite donc le lecteur à lire

2.6. Ma contribution sur les règles d’association 33 en premier lieu notre publication placée en annexe A avant de poursuivre la lecture de ce chapitre. Cet article est un chapitre de livre sur le post-traitement de l’extraction de règles d’association [CNT09] et généralise les travaux introduits à la conférence ECAI en 2004 (Valencia, Espagne). Je souligne dans les sous-sections suivantes trois points originaux que nous avons développés dans ces travaux.

Prise en compte de la variation terminologique

Le contenu des textes est représenté, comme dans les autres travaux cités sur les règles d’association, par un ensemble de termes. La relation d’incidence du contexte formel associe donc à un texte les termes qu’il contient. Pour réduire la dispersion liée à des formes linguistiques de termes différentes, nous avons utilisé FASTR [Jac94] qui prend en compte la variation terminologique. FASTR identifie des variations non triviales et linguistiquement motivées pour les ramener à leur terme préférentiel. Ainsi la phrase “l’alimentation hydrique de l’arbre varie” est reliée au terme “variation de l’alimentation hydrique de l’arbre”. Ce prétraitement des textes réduit la dispersion des données en évitant la caractérisation des textes par des termes différents référant au même concept. Il renforce également le poids des termes (nombre d’occurrences) dans le corpus.

Combinaisons de mesures objectives

Une première approche pour mettre en valeur certaines règles d’association, consiste à combiner les propriétés des différentes mesures. Nous avons proposé un algorithme d’ordonnancement des règles d’associations combinant 4 mesures objectives : l’intérêt, la conviction, la dépendance et la satisfaction [CT02a, CT02e, CT02b, CT02c, CNT03a, CNT03b, CT03, CNT06].

Définition de la mesure de vraisemblance

Les mesures objectives associées aux règles d’association ne dépendent que de la distri-bution des termes dans les textes et ne sont donc pas reliées à un modèle de connaissance qui représenterait les connaissances de l’expert. Pour qu’une mesure prenne en compte les connaissances de l’expert, il faut introduire dans le processus un modèle de connais-sances. Nous avons ainsi défini la vraisemblance pour mesurer à quel point une règle d’association véhicule une connaissance déjà exprimée dans le modèle de connaissance [CJNT04, CNT05a, CNT09]. L’expert peut ainsi étudier les règles pour lesquelles l’indice de vraisemblance est faible en premier lieu puisqu’elles se “démarquent” des connaissances exprimées dans le modèle. Le second intérêt d’une telle approche est son incrémentalité : lorsque l’expert introduit de nouvelles connaissances dans le modèle, l’ordonnancement des règles selon la vraisemblance change.

2.6.3 Hiérarchisation de règles d’association

Ce travail aborde deux problèmes. D’une part, il s’agit de faciliter, pour un expert, l’accès au très grand nombre de règles d’association extraites à partir d’un contexte formel, en structurant ces règles de façon hiérarchique. D’autre part, il s’agit d’extraire des règles

d’association à partir de propriétés qui sont elles-mêmes hiérarchisées. Dans ce dernier cas, il s’agit de privilégier parmi plusieurs règles celle qui est la plus ‘générale”. Ce travail a fait l’objet du DEA de Rokia Bendaoud que j’ai encadré en 2004. La démarche s’inspire des deux algorithmes Basic Cumule introduits dans [SA95] et des travaux de Maedche et Staab [MS00a].

Subsomption dans le cas de propriétés non hiérarchisées

Dans le cas de propriétés non hiérarchisées, nous avons créé des classes d’équivalence de règles reposant sur l’extension de la règle, i.e. pour une règle A −→ B l’ensemble des individus vérifiant la condition A∪ B. Cela revient à associer chaque règle d’association à un concept du treillis de Galois construit à partir du même contexte formel et à exploiter la relation de subsomption définie dans les treillis pour construire des classes d’équivalence entre règles et ainsi, les ordonner [Ben04, BTN05]. Appliqué à la base “zoo” [For] utilisée pour tester des méthodes de fouille de données, les 4 règles suivantes appartiennent à la même classe d’équivalence :

– r21:4pattes −→ denté, respire, vertébré – r32:denté, respire, vertébré −→ 4pattes – r5:4pattes, vertébré −→ denté, respire – r6:4pattes, respire −→ denté, vertébré

Subsomption dans le cas de propriétés hiérarchisées

Définition 7 Soient deux règles r1 :A−→ B et r2 :C −→ D r1 subsume r2, noté r2 v r1 si et seulement si une des conditions suivantes est vérifiée :

1. C est ancêtre de A et B = D : A−→ B v ^A −→ B. 2. D est ancêtre de B et A = C : A−→ B v A −→ ^B.

3. B est ancêtre de A et D est ancêtre de B : A−→ B v ^A −→ ^B

Lors d’une généralisation de la partie droite d’une règle, il n’est pas nécessaire de recalculer le support et la confiance. La règle ainsi généralisée sera nécessairement valide. En revanche, la généralisation de la partie gauche suppose que l’on vérifie que la confiance de la règle est supérieure au seuil σc pour s’assurer que cette règle est valide.