• Aucun résultat trouvé

3.4 Variable Secondaire Numérique

3.5.1 Jeux de données

tables # variables

Sec. num. # lignes

table sec. #

Individus # valeurs cibles

Mutagenesis-atoms3 2 2 1 618 188 2

Mutagenesis-bonds3 2 4 3 995 188 2

Mutagenesis-chains3 2 6 5 349 188 2

Diterpenses4 2 1 30 060 1 503 23

Spatial 2 3 3 892 321 7

Miml5 2 15 18 000 2 000 2

Stulong6 2 29 10 572 1 417 2

XOR 2D 2 1 987 762 10 000 2

XOR 3D 2 1 1 843 282 10 000 2

Table 3.1: Description des jeux de données utilisées

moyenne et ceci pour chaque variable secondaire, ensuite appliquer un BN usuel sur la table à plat résultante. Notons que d’autres agrégats ont été testés, à savoir, Max, Min et le nombre d’enregistrements dans la table secondaire, etc. Des résultats similaires à ceux décrits ci-dessous ont été obtenus, mais ils ne sont pas rapportés ici.

3.5.1 Jeux de données

Dans nos expérimentations, nous avons considéré différents problèmes de classifica-tion basés sur des données synthétiques et réelles. Les caractéristiques de ces données sont indiquées dans le Tableau 3.1. Notons que pour certaines bases de données (no-tamment, Miml et Stulong), plusieurs variables de la table cible peuvent être consi-dérées comme variable à expliquer. Afin d’évaluer uniquement la contribution des variables secondaires numériques ainsi que l’apport de notre méthode de discrétisa-tion, nous avons seulement considéré ces variables dans toutes les bases de données utilisées. Les autres types de variables sont ignorés, à savoir, celles de la table cible ainsi que les variables secondaires catégorielles.

3.5.1.1 Données synthétiques

Dans un premier temps, nous avons utilisé des données synthétiques dont on connait le motif qui exploite la variable secondaire. Nous générons de façon contrôlée des bases de données composées chacune de deux tables en relation un-à-plusieurs :

3. http://sourceforge.net/projects/proper/files/datasets/0.1.0/

4. http://cui.unige.ch/~woznica/rel_weka/

5. http://lamda.nju.edu.cn/data_MIMLimage.ashx 6. http://euromise.vse.cz/challenge2003

0 50 100

0 50 100

n[0.5;1]

n[0;0.5[

(a)Motif XOR 2D

0 50

100 0 50 100

0 50 100

n[0.66;1]

n[0;0.33[

n[0.33;0.66[

n[0.66;1]

(b)Motif XOR 3D

Figure 3.9: Diagrammes de dispersion des bases de données synthétiques. Les cou-leurs (noir et gris) indiquent l’étiquette de la classe

– une table cible qui contenant deux colonnes : l’identifiant de l’individu et la va-riable cible

– une table secondaire composée d’une variable secondaire numérique et de l’attribut de clé étrangère.

Dans les données artificielles que nous avons utilisées, la discrétisation idéale est connue à l’avance, et l’étiquette de la variable cible est générée selon une fonction XOR entre les comptes nk. La Figure 3.9 illustre les diagrammes de dispersion des données synthétiques XOR 2D et XOR 3D.

Le générateur de données prend trois paramètres : – le nombre d’individus,

– le nombre d’intervalles de discrétisation de la variable secondaire numérique (puisque cette variable est générée de façon à connaitre au préalable la meilleure discréti-sation et le motif dépend de cette discrétidiscréti-sation), et

– le nombre maximal de valeurs par intervalle de la variable secondaire, par individu.

Pour chaque individu, le générateur choisit de façon aléatoire (selon une distribution uniforme) le nombre de valeurs de la variable secondaire qui lui sont associées dans chaque intervalle, ce qui donne les comptes nk. Ensuite, la valeur de la classe est attribuée selon une fonction XOR entre ces comptes. Enfin, nous générons aléatoi-rement nk valeurs appartenant au kème intervalle et ceci pour tous les intervalles.

Exemple 3.8. Par exemple, dans le modèle XOR 3D (Figure 3.9b), la variable secondaire est discrétisée en trois intervalles : [0; 0.33[,[0.33; 0.66[ et[0.66; 1[. Dans ce schéma plutôt complexe, les points situés, par exemple, près de l’origine (en gris) correspondent à des individus qui ont moins de 50 valeurs dans la table secondaire, respectivement, dans les intervalles [0; 0.33[, [0.33; 0.66[ et [0.66; 1[.

3.5.1.2 Données réelles

Nous avons évalué notre approche sur plusieurs bases de données réelles. Nous pré-sentons ci-dessous une description succincte de ces bases de données. Certaines ont été proposées dans le contexte de la PLI (Mutagenesis) et de l’apprentissage multi-Instances (Diterpenes et Miml). Pour pouvoir les utiliser, nous les avons transformées afin d’obtenir un schéma relationnel contenant une table cible et au moins une table secondaire.

Mutagenesis4 Mutagenesis est une base de données relationnelle (décrite dans [Srinivasanet al., 1994]), où l’objectif est de déterminer si une molécule est mutagène ou non. Dans les données relationnelles originales, une molécule est représentée par un ensemble d’atomes et de liens entre ces atomes. De plus, les atomes et liens sont décrits par plusieurs propriétés telles que l’estimation de la charge partielle ou le type de lien (liaison simple, liaison double, ...). [Reutemannet al., 2004] ont proposé une transformation de ces données afin d’obtenir un schéma relationnel contenant une table cible en relation un-à-plusieurs avec une table secondaire, ce qui produit trois problèmes différents :

– Mutagènes-Atoms : la table secondaire contient une description de tous les atomes qui composent chaque molécule,

– Mutagenesis-Bonds : la table secondaire contient une description de toutes les liaisons entre atomes contenues dans chaque molécule,

– Mutagenesis-Chains : la table secondaire contient une description de toutes les paires de liaisons qui forment la chaine d’atomes de chaque molécule.

Stulong5 Il s’agit d’une base de données médicale dont l’objectif est d’étudier les facteurs de risques de l’athérosclérose (voir la page 53 pour plus de détails). La base de données est composée de plusieurs tables. La table cible « Entry » contient les informations sur les 1 417 patients participant à l’étude ainsi que les variables pouvant être considérées comme cibles. Parmi les autres tables, nous nous intéressons à la table « Control » qui décrit les résultats des examens cliniques de chaque patient effectués sur 20 ans. Un extrait du schéma relationnel de la base de données Stulong a été illustré dans la Figure 2.9.

Diterpenes6 Dans les données Diterpenes [Džeroski et al., 1998], l’objectif est d’identifier le type du squelette (au total, 23 classes) de molécules diterpènes (des composés chimiques organiques qu’on rencontre dans plusieurs plantes dans la na-ture). La table cible contient 1 503 molécules diterpènes. Dans la table secondaire, à chaque molécule, sont reliées les descriptions des spectres RMN (Résonance Magné-tique Nucléaire) des atomes carbone13C qui forment la structure de cette molécule.

4. http://sourceforge.net/projects/proper/files/datasets/0.1.0/

5. http://euromise.vse.cz/challenge2003 6. http://cui.unige.ch/~woznica/rel_weka/

Recherche d’image (Miml, Multi-Instance Multi-Label Learning)7 Cette base de données a été proposée dans le contexte de la recherche d’image à base de contenu (en anglais content-based image retrieval) [Maron et Ratan, 1998]. Elle a été construite à partir d’images réelles. La table cible contient les identifiants et classes des images. La table secondaire décrit des régions de chaque image. Ces der-nières sont décrites par plusieurs propriétés concernant la couleur et la luminance.

Nous utilisons cette base de données comme dans [Zhou et Zhang, 2007] avec 5 pro-blèmes de classification binaire afin d’identifier s’il s’agit ou non d’images de désert (Miml desert), de montagne (Miml mountain), de mer (Miml sea), de coucher de soleil (Miml sunset), et d’arbre (Miml trees).

Données Spatiales (Spatial) Cette base de données décrit des données géogra-phiques collectées dans le cadre du projet ANR GeOpenSim8 (Plate-forme Géogra-phique OpenSource de Simulation). Elle décrit des quartiers situés dans la périphé-rie d’une grande agglomération [Braud et Lachiche, 2011]. Le schéma relationnel est constitué de deux tables. La table cible décrit des îlots (quartiers) avec des attributs numériques (aire, élongation, convexité). La table secondaire décrit les bâtiments et possède trois variables numériques (aire, élongation et convexité). L’objectif est de prédire le type du quartier (habitat collectif, habitat mixte, habitat individuel, habitat continu, emprise peu bâtie, emprise spécialisée, tissu).