• Aucun résultat trouvé

4.4 Evaluation des modèles en grille multivariés

4.4.2 Classification non supervisée

On présente dans cette section des résultats préliminaires sur l’utilisation des modèles en grille pour la classification non supervisée. Des exemples d’application de la méthode sont présentés sur quelques jeux de données à titre illustratif.

4.4.2.1 Classification non supervisée par grille

Le critère d’évaluation utilisé est celui des modèles en grille pour la classification non supervisée, définis en section 2.4 (formule multivariée avec sélection de variables 2.37). La méthode d’optimisation, présentée en section 3.2, est la même que dans le cas supervisé. On retient ici le meilleur modèle issu de l’optimisation pour construire une partition des individus en un ensemble de cellules disjointes.

Le modèle en grille s’interprète comme un estimateur non paramétrique de densité jointe, permettant de détecter les corrélations entre les variables. Ces corrélations sont capturées dans les cellules de la grille, qui regroupent des individus distribués de façon similaire sur chaque variable de la grille. On retrouve ainsi l’objectif classique des méthodes de classification non supervisée, qui visent à regrouper les individus similaires en régions homogènes, les régions étant les plus différentes possible.

4.4.2.2 Apport explicatif des modèles en grille

On utilise à nouveau les 30 jeux de données de l’UCI décrits dans le tableau 3 de l’annexe C, et on lance pour chacun d’eux l’apprentissage d’un modèle en grille non supervisé sur l’ensemble de tous les individus. La figure 4.13 présente pour chaque jeu de données le nombre de variables sélectionnées ainsi que le nombre de cellules non vides.

1 10 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 No. dataset Variable number K log2(N) log2(DG cells) DG vars

Fig. 4.13 – Moyenne du nombre de variables et de cellules non vides des grilles non supervisées sur 30 jeux de données de l’UCI. A titre de référence, le nombre de variables

initiales K ainsi que le logarithme du nombre d’individus log2N sont également tracés.

Par rapport au cas supervisé, il s’agit de détecter le maximum de corrélations entre toutes les variables, et non uniquement les corrélations entre les variables explicatives et une seule variable à expliquer. Les grilles obtenues dans le cas non supervisé détectent plus d’informations, ce qui se traduit par un nombre moyen de variables sélectionnées égal à 6, au lieu de 3.5 seulement dans le cas supervisé.

De façon conforme aux seuils d’apprentissage de la section 4.1, le nombre de variables sélectionnées est toujours inférieur au log base 2 du nombre d’individus, et le nombre de cellules au nombre d’individus.

Interprétation sous forme d’un ensemble de règles. La partition des individus en

cellules étant factorisable sur les partitions univariées des variables sélectionnées, le mo- dèle est aisément interprétable. En effet, chaque partition univarié s’interprète comme une

disjonction de régles élémentaires, du type v1 ≤ x < v2 pour les intervalles numériques ou

x ∈ {v1, v2, . . .} pour les groupes de valeurs catégorielles. Une cellule, résultant du produit

cartésien des partitions univariées, s’interprète comme une conjonction de règles élémen- taires univariées. La grille globale correspond alors à un ensemble de règles, s’exprimant toutes sur la même base de règles élémentaires univariées. Des exemples illustratifs sont présentés en section 4.4.2.3.

4.4.2.3 Quelques exemples de grilles non supervisées

A titre illustratif, on présente des exemples des modèles en grille pour l’analyse non supervisée des jeux de données Iris, Mushroom et Adult.

Base Iris. La base Iris comporte 150 individus pour cinq variables, quatre numériques

et une catégorielle. La grille obtenue partitionne l’espace des individus en 9 cellules non vides, basée sur 4 variables. Les partitions univariées de ces variables sont :

– PetalLength : 3 intervalles ] − ∞; 2.45], ]2.45; 4.75] et ]4.75; +∞[, – PetalWidth : 3 intervalles ] − ∞; 0.8], ]0.8; 1.75] et ]1.75; +∞[, – SepalLength : 2 intervalles ] − ∞; 5.55] et ]5.55; +∞[.

Il est à noter que la grille contient 54 = 3 ∗ 3 ∗ 3 ∗ 2 cellules dont seulement 9 sont non vides. Ces cellules, reproduites dans le tableau 4.3 mettent en évidence de fortes corrélations entre les variables.

Tab. 4.3 – Grille non supervisée pour la base Iris.

Class PetalLength PetalWidth SepalLength Effectif

{Iris-setosa} ] − ∞; 2.45] ] − ∞; 0.8] ] − ∞; 5.55] 47 {Iris-virginica} ]4.75; +∞[ ]1.75; +∞[ ]5.55; +∞[ 45 {Iris-versicolor} ]2.45; 4.75] ]0.8; 1.75] ]5.55; +∞[ 33 {Iris-versicolor} ]2.45; 4.75] ]0.8; 1.75] ] − ∞; 5.55] 11 {Iris-versicolor} ]4.75; +∞[ ]0.8; 1.75] ]5.55; +∞[ 5 {Iris-virginica} ]4.75; +∞[ ]0.8; 1.75] ]5.55; +∞[ 4 {Iris-setosa} ] − ∞; 2.45] ] − ∞; 0.8] ]5.55; +∞[ 3 {Iris-versicolor} ]4.75; +∞[ ]1.75; +∞[ ]5.55; +∞[ 1 {Iris-virginica} ]2.45; 4.75] ]0.8; 1.75] ] − ∞; 5.55] 1

Chaque cellule de la grille peut être caractérisée par une règle simple. Par exemple, les individus des deux cellules de plus fort effectif du tableau 4.3 sont décrits précisément par la règle 1 sur les petites fleurs et la règle 2 sur les grandes fleurs.

Règle 1 : Class ∈ {Iris − setosa} PetalLength ∈ ] − ∞; 2.45] PetalWidth ∈ ] − ∞; 0.8] SepalLength ∈ ] − ∞; 5.55]

Règle 2 : Class ∈ {Iris − virginica} PetalLength ∈ ]4.75; +∞[ PetalWidth ∈ ]1.75; +∞[ SepalLength ∈ ]5.55; +∞[

La grille complète est ainsi décrite par un ensemble de règles intelligibles, puisque s’exprimant toutes sur les mêmes variables et les mêmes parties univariées.

Base Mushroom. La base Mushroom comporte 8416 individus pour 23 variables,

toutes catégorielles. La grille obtenue capture des corrélations entre 10 des 23 variables, ce qui correspond à un nombre important de variables puisque l’on n’est pas loin de

13 ≈ log28416. Parmi les 10 variables de la grille, 6 comportent deux groupes de valeurs

ne contient que 31 cellules non vides, ce qui traduit de très fortes corrélations entre les variables.

A titre anecdotique, il est intéressant de noter une certaine régularité dans les effectifs des 31 cellules de la grille : 1728, 1728, 1024, 864, 560, 432, 288, 192, 144, 144, 128, 128, 96, 96, 96, 96, 72, 72, 72, 72, 48, 48, 48, 48, 48, 48, 32, 24, 24, 8, 8. Cette régularité semble surprenante, ce qui laisse planer un doute sur le qualificatif "réelle" pour la base Mushroom.

Pour procéder à une analyse descriptive plus complète et détecter des corrélations entre toutes les variables, une seule grille ne peut suffire puisque le nombre de variables excède le log base 2 du nombre d’individus. Il faudrait alors recourir à des grilles multiples, en recouvrement ou non. On se rapproche alors des méthodes de recherche de règles d’association initiées par Agrawal [Agrawal et al., 1993].

Base Adult. La base Adult comporte 48842 individus pour 16 variables, pour moitié

numériques et catégorielles. La grille obtenue n’utilise que 6 variables pour environ 3500 cellules, dont seulement 137 sont non vides. Les dix cellules de plus fort effectif, présentées dans le tableau 4.4, représentent environ 60% des individus.

Comme dans le cas précédent, des grilles multiples permettraient de capturer d’avan- tage de corrélations. Par exemple, on peut rechercher les grilles bivariées de façon exhaus- tives pour toutes les paires de variables pour détecter toutes les corrélations élémentaires, voire les variables redondantes. Cette méthode permet par exemple de détecter auto- matiquement que les variables numérique educationNum et catégorielle education sont redondantes.

On peut aussi post-traiter directement la grille multivariée du tableau 4.4 pour obtenir une grille réduite, ce qui en facilite l’interprétation. De telles grilles réduites peuvent être obtenues en imposant une taille maximale aux partitions univariées ou en projetant la grille sur un nombre réduit de variables.

Tab. 4.4 – Grille non supervisée pour la base Adult.

class education edNum maritalStatus relationship sex Effectif

{less} {HS-grad} 9 {Married...} {Husband} {Male} 4382

{less} {HS-grad} 9 {Never-married...} {Unmaried...} {Female} 4205 {less} {HS-grad} 9 {Never-married...} {Unmaried...} {Male} 4071 {less} {Some-college} 10 {Never-married...} {Unmaried...} {Female} 3595 {less} {Some-college} 10 {Never-married...} {Unmaried...} {Male} 2858

{more} {Bachelors} 13 {Married...} {Husband} {Male} 2462

{less} {Some-college} 10 {Married...} {Husband} {Male} 2050

{more} {HS-grad} 9 {Married...} {Husband} {Male} 2005

{less} {Bachelors} 13 {Never-married...} {Unmaried...} {Female} 1793