• Aucun résultat trouvé

2.6 Expérimentations

2.6.3 Base de données Stulong

(a) 103Individus

(b) 104 Individus

(c) 105Individus

Figure 2.8: Exemples de grilles bivariées obtenues avec les données du motif com-plexe de la Figure 2.6 pour différents nombres d’individus

2.6.3 Base de données Stulong

Stulong5 [Tomečková et al., 2002] est une base de données médicale recueillie lors d’une étude longitudinale de 20 ans sur les facteurs de risque d’athérosclérose6 dans une population de 1 417 hommes d’âge moyen. Dans cette base de données, nous nous intéressons en particulier aux tables Entry et Control. Dans la table Entry, la table cible, les variables décrivent les propriétés des patients. Parmi ces variables, certaines peuvent être considérées comme variables cibles. Les autres ne nous concernent pas parce que nous nous concentrons sur celles qui se trouvent dans les tables secondaires, à savoir celles de la table Control. Cette table contient 66 variables décrivant 10 610 tests effectués sur les 1 417 patients durant la vingtaine

5. The study (STULONG) was realized at the 2nd Department of Medicine, 1st Faculty of Medicine of Charles University and Charles University Hospital, U nemocnice 2, Prague 2 (head.

Prof. M. Aschermann, MD, SDr, FESC), under the supervision of Prof. F. Boudík, MD, ScD, with collaboration of M. Tomečková, MD, PhD and Ass. Prof. J. Bultas, MD, PhD. The data were transferred to the electronic form by the European Centre of Medical Informatics, Statistics and Epidemiology of Charles University and Academy of Sciences (head. Prof. RNDr. J. Zvárová, DrSc).

The data resource is on the web pageshttp://euromise.vse.cz/challenge2004. At present time the data analysis is supported by the grant of the Ministry of Education CR Nr LN 00B 107.

6. L’athérosclérose est une maladie cardio-vasculaire due à l’accumulation progressive de ma-tières grasses sur la paroi interne des artères.

CONTROL PID

ZMTELAKT ZMDIET LEKCHOL ZMKOUR ...

ENTRY PID GROUP KOURRISK HTRISK CHOLRISK Table Cible

Figure 2.9: Extrait du schéma relationnel de la base de données Stulong

d’années de l’étude. La Figure 2.9 illustre un extrait du schéma relationnel de la base de données Stulong7.

Étant donné que dans ce chapitre nous nous intéressons aux variables secondaires binaires, les variables catégorielles sont binarisées. Le but de l’expérience est de trouver les variables secondaires les plus pertinentes pour prédire les différentes variables cibles. Les résultats expérimentaux obtenus sur la base de donnéesStulong sont présentés dans le Tableau 2.1. Nous présentons pour chaque variable cible les cinq variables secondaires les plus pertinentes. Les résultats montrent que, même par binarisation des variables catégorielles, il est possible d’identifier celles qui présentent une corrélation forte avec la variable cible. Même en utilisant une seule variable binaire secondaire, notre approche permet d’obtenir de bonnes performances en termes de précision et d’AUC.

Le Tableau 2.2 montre des corrélations trouvées entre les différentes variables cibles étudiées et certaines variables secondaires de la table Control. Une variable secon-daire est considérée en corrélation avec la variable cible si elle présente une corréla-tion avec au moins une des variables binarisées correspondantes.

Prenons par exemple la variable secondaire binaire HYPERSD qui dénote pour chaque examen si le patient présente une HYPERtension Systolique/Diastolique.

Cette variable est pertinente pour prédire la valeur de la variable cible HTRISK (qui indique si le patient présente un risque de pression artérielle élevée). La binarisation de la variable HYPERSD génère deux variables : NB1 (le nombre d’examens avec une HYPERSD positive) et NB0 (le nombre d’examens avec une HYPERSD négative).

La Figure 2.10 montre la répartition des patients dans l’espace bivarié NB1×NB0.

La discrétisation bivariée optimale des deux variables NB1 et NB0 est représentée sur le diagramme de dispersion. La grille de données correspondante peut séparer les deux classes (une pression artérielle normale et élevée), avec une précision en test de83,2% et un taux d’AUC de78%.

7. Une description de toutes les variables peut être trouvée sur http://euromise.vse.cz/

challenge2004/data/index.html

Variable cible Variable test acc.(%) test AUC(%) Taille grille

Pourcentage de la classe majoritaire

La notation(Bi)i≥0 denote une variable binarisée. Par exemple, si HODNSK possède 3 mo-dalités alors la binarisation genère 3 attributs : HODNSK(B0), HODNSK(B1) and HODNSK(B2)

ces variables sont initialement binaires

Table 2.1: Exemples de variables secondaires pertinentes pour la prédication de quelques variables cibles dans la base de données Stulong

``

Table 2.2: Exemples de corrélations trouvées dans la base de données Stulong entre variables secondaires et variables cibles

0 1.5 18

00.5 21

NB1

NB0 Hypertension

Normal

Figure 2.10: Nuage de points construit à partir de la binarisation de la variable secondaire HYPERSD (HTRISK comme variable cible). La partition bivariée op-timale est représentée sur le diagramme de dispersion. Le tableau à droite résume les fréquences des valeurs de la variable cible par cellule. Par exemple, pour la cellule en haut à gauche, si le nombre d’examens avec une HYPERSD négative vaut au maximum 1, et si le nombre d’examens avec une HYPERSD positive est supérieur à 2 (97 patients sont concernés), alors, le risque d’hypertension est de 90%

2.7 Conclusion

Nous avons introduit dans ce chapitre une approche pour évaluer la pertinence d’une variable secondaire binaire dans le contexte de l’apprentissage supervisé à partir des données relationnelles. La méthode consiste à changer la représentation relation-nelle initiale en une représentation attribut-valeur équivalente en créant une paire d’attributs. Ces derniers représentent les effectifs des valeurs de la variable initiale par individu dans la table secondaire. Un modèle de discrétisation en intervalles de chacun de ces nouveaux attributs est alors généré, ce qui induit une partition biva-riée. Cette partition permet de qualifier l’information apportée conjointement par ces deux attributs sur la variable cible. Elle donne également une estimation de la densité conditionnelle de la variable cible connaissant la variable secondaire initiale, ce qui permet de prendre en compte la variable secondaire dans un classifieur Bayé-sien Naïf. Un critère d’évaluation est proposé dans le cas d’une variable secondaire binaire pour évaluer chaque partition bivariée au moyen d’une approche Bayésienne.

Nous avons évalué l’approche sur des bases de données artificielles et réelles. Les premiers résultats sur des variables explicatives binaires montrent que le critère d’évaluation permet de sélectionner des variables fortement informatives et de dé-tecter des motifs complexes dans ces variables.

Dans le prochain chapitre, nous généralisons l’approche dans le cas des variables secondaires catégorielles et numériques.

Secondaires Catégorielles et Numériques

Sommaire

3.1 Introduction . . . 58 3.2 Variable catégorielle avec peu de valeurs . . . 58 3.2.1 Approche . . . 59 3.2.2 Critère . . . 60 3.2.3 Algorithme d’optimisation . . . 62 3.3 Variable catégorielle avec groupement de valeurs . . . . 62 3.3.1 Critère . . . 64 3.3.2 Optimisation . . . 67 3.4 Variable Secondaire Numérique . . . 68 3.4.1 Approche . . . 69 3.4.2 Critère . . . 71 3.4.3 Algorithme d’optimisation . . . 74 3.5 Expérimentations . . . 77 3.5.1 Jeux de données . . . 78 3.5.2 Résultats . . . 81 3.5.3 Données synthétiques . . . 82 3.5.4 Données Réelles . . . 83 3.6 Conclusion . . . 84 Une partie de ce chapitre a fait l’objet de publications : [Lahbib et al., 2012b, Lahbibet al., 2013]

3.1 Introduction

Dans ce chapitre, nous nous intéressons aux variables numériques et catégorielles situées dans une table secondaire en relationun-à-plusieurs avec la table cible. Nous étendons progressivement l’approche proposée dans le chapitre 2 dans le cas d’une variable secondaire binaire. Nous proposons de partitionner la variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. L’idée est de projeter dans la table cible l’information contenue dans chaque variable secondaire à l’aide d’un vecteur d’attributs (un attribut par inter-valle ou groupe de partitionnement). Chaque attribut représente le nombre de va-leurs de la variable secondaire appartenant à l’intervalle (respectivement, au groupe) correspondant. Ces attributs d’effectifs sont conjointement partitionnés à l’aide de modèles en grille de données multivariées afin d’obtenir une meilleure séparation des valeurs de la classe.

Nous suivons la même approche Bayésienne de modélisation du chapitre 2 afin de proposer un critère qui évalue les partitionnements candidats pour les variables nu-mériques et catégorielles. Nous introduisons des algorithmes d’optimisation simples qui permettent d’explorer l’espace de partitionnement et de retenir une bonne solu-tion vis-à-vis du critère proposé.

Le reste de ce chapitre est organisé comme suit : la section 3.2 décrit l’approche dans le cas d’une variable secondaire catégorielle avec peu de valeurs. La section 3.3 généralise ensuite la méthode aux variables catégorielles avec un nombre important de valeurs en ajoutant le partitionnement en groupes de valeurs dans la modélisation.

De façon similaire, nous considérons les variables numériques dans la section 3.4.

Dans la section 3.5 nous évaluons la méthode sur des jeux de données artificielles et réelles dans le cas des variables numériques.