• Aucun résultat trouvé

Comparaison avec le travail de Vaillant

3.5 Étude comparative avec les autres travaux : Validation

3.5.1 Comparaison avec le travail de Vaillant

3.5.3 Comparaison avec les travaux de Heravi et Zaiane . . . 111 3.5.4 Comparaison avec le travail de Le Bras . . . 113 3.5.5 Comparaison avec les autres travaux . . . 115

3.1 Introduction

De nombreuses mesures d’intérêt existent dans la littérature pour faire face aux limites de l’approche support-confiance. Ce nombre important de mesures met l’utilisateur dans une si- tuation difficile quant à la sélection d’une ou plusieurs mesure(s) complémentaire(s) capable(s) d’éliminer les règles non pertinentes extraites par le couple (support, confiance). Ainsi, et afin d’aider l’utilisateur dans le choix d’un bon ensemble de mesures d’intérêt qui répond à ses be- soins, nous souhaitons détecter des groupes de mesures avec des propriétés similaires. D’où l’objectif principal de ce chapitre, qui est de proposer des classes ou groupes de mesures qui vont permettre à l’utilisateur, d’une part, de restreindre le nombre de mesures à choisir, et d’autre part, d’orienter son choix en fonction des propriétés qu’il souhaiteraient que ces mesures véri- fient.

Ce travail s’appuie sur l’étude formelle réalisée dans le chapitre précédent sur les mesures et leurs propriétés, dont résulte une matrice d’évaluation de61mesures sur19propriétés. Étant donnée cette matrice, nous cherchons à identifier des classes de mesures ayant des comporte- ments similaires par rapport à l’ensemble des propriétés que nous avons dégagées précédem- ment. Toutefois, nous ne cherchons à expliquer ni les propriétés ni les mesures répertoriées dans la littérature puisqu’elles peuvent être trouvées dans les travaux de synthèse [TKS02],

[LT04], [GH07], [Fen07] et [Vai06]. L’identification de ces classes de mesures est effectuée en

utilisant des techniques bien connues en classification non supervisée comme la méthode de classification ascendante hiérarchique et la méthode de partitionnement des k-moyennes. Un consensus sera dégagé à partir des résultats obtenus avec ces deux techniques. Néanmoins, avant de lancer cette recherche de classes, il nous semble essentiel de vérifier si la matrice de

61mesures × 19propriétés (identifiée dans le chapitre précédent) ne peut être simplifiée en supprimant d’éventuelles duplications de lignes ou de colonnes.

Ce chapitre est organisé comme suit. La section3.2définit brièvement la classification non supervisée et expose ses objectifs, les méthodes et les critères choisis. La section3.3 étudie la matrice d’évaluation des mesures selon les propriétés, en vérifiant si celle-ci ne pourrait être simplifiée, et restitue les résultats de la classification obtenue par les deux techniques de clas- sification choisies. La section3.4 propose une sémantique aux classes extraites. Pour finir, la section 3.5 valide la classification retenue en comparaison avec celles dégagées, respective- ment, par Vaillant [Vai06], Huynh et al. [HGB+07], Heravi et Zaiane [HZ10], Le bras [Bra11],

3.2 Classification non supervisée

L’objectif de la classification déborde le cadre strictement exploratoire. Il s’agit de rechercher une typologie, ou segmentation, par la répartition des individus en classes, ou catégories, à partir de traits descriptifs (attributs, caractéristiques, etc.). On distingue essentiellement deux types de classification : supervisée et non-supervisée.

Dans le cadre de ce chapitre, nous nous intéressons au problème de la classification non su- pervisée pour catégoriser les mesures d’intérêt. Cette méthodologie, à l’inverse des méthodes de classification supervisée (ou catégorisation), ne présuppose pas une connaissance a priori de la structure du corpus.

3.2.1 Préparation des données

Avant de procéder à la classification, il serait important de préciser la nature des données (ou des variables). Ces dernières, à caractère quantitatif ou qualitatif, peuvent prendre différentes formes. Les variables à caractère quantitatif se subdivisent eux-mêmes en deux espèces : conti- nues et discrètes. Les variables à caractère qualitatif sont des données descriptives, qui peuvent être sous forme de variables qualitatives nominales ou ordinales. Une définition détaillée des différents types de données est présentée en annexeB.

Les méthodes de classification sont sensibles aux types des données manipulées. Nous re- trouvons par exemple que certaines méthodes sont mises en défaut par les variables continues alors que d’autres peuvent être sensibles à la présence de variables discrètes. Ainsi, il faut prendre ce critère en considération et adapter les variables d’entrée aux méthodes choisies. D’où l’étape de transformation des données de l’ECD.

Dans le reste de ce manuscrit, nous considérons les variables qualitatives nominales.

3.2.2 Objectifs de la classification

L’objectif de la classification non supervisée [Har75], [JD88], également appelée clustering en anglais1, est de découvrir des formes cachées de l’ensemble des individus, ces formes étant des groupes ou classes. Pour ce faire, il s’agit de fractionner l’ensemble hétérogène d’individus à l’intérieur d’une population (l’ensemble des enregistrements) en un certain nombrekde sous- ensembles plus homogènes, appelées classes (ou clusters).

Les techniques de clustering visent à ce que les individus d’une même classe partagent un degré élevé de similarité (maximisation de la similarité intra-classe) et que les différentes

1. Faire attention aux faux amis français/anglais : classification / clustering (non-supervisée). Quand on parle de "classification" en français, cela est traduit par "classification" en anglais. Par contre, le mot "classification" (non supervisée) est traduit par clustering en anglais.

classes soient aussi séparées que possible (minimisation de la similarité inter-classe). La similarité des individus est en général mesurée en terme de la distance géométrique entre les individus. Ces distances géométriques sont définies en annexe C. Et le nombre de classesk

n’est pas forcément défini a priori, il peut être introduit par l’expert du domaine qui va déterminer l’intérêt et la signification des classes ainsi constituées.

Classification non supervisée / Clustering : Il s’agit d’identifier les populations d’un en- semble de données. On suppose qu’on dispose d’un ensemble d’individus que l’on note par

E = {e1; e2;···;er} caractérisé par un ensemble de descripteurs Dr. L’objectif du clustering est de structurer les données en classes homogènes, de façon à ce que les individused’une même classe soient les plus similaires possibles, qu’on note parC ={C1; C2;···;Ck} [CHY96],

[JMF99].

Le problème du clustering a été étudié dans plusieurs domaines, tels que l’analyse des données [CR93], [CS96], les bases de données spatiales [EKX95], [CA11], ou encore l’ECD

[ZRL96], [AGGR98], [JBC13] notre domaine d’étude.

Il existe une très large famille de méthodes dédiées à la classification non supervisée. Dans ce chapitre, nous nous intéressons aux méthodes classiques : les méthodes de classification hiérarchique et les méthodes de partitionnement. Nous explicitons brièvement ces deux familles dans ce qui suit.

3.2.3 Revue des méthodes de classification

Vu le nombre de techniques de classification non supervisée parues dans la littérature, souvent à fort parfum heuristique, nous pouvons aujourd’hui les regrouper en deux grandes familles : les méthodes de classification qui suivent une stratégie hiérarchique et les méthodes qui suivent une stratégie par partitionnement. Pour une bonne introduction à ce domaine, nous pouvons consulter par exemple [Cel89] ou [KR90], [JK13].

Méthodes hiérarchiques Les méthodes hiérarchiques [CDG+89] cherchent à produire à par-

tir d’une population donnée, une séquence de partitions imbriquées les unes dans les autres. Une telle suite de partition est souvent représentée par le biais d’un dendrogramme (dia- gramme de Hasse arborescent dont les noeuds internes - matérialisés sous forme de segments horizontaux- sont alignées par niveau) où chaque partition correspond à un niveau.

Nous citons parmi les méthodes hiérarchiques :

– les méthodes descendantes (divisives) où un ou plusieurs groupes sont éclatés à chaque étape.

Les méthodes descendantes nécessitent l’usage de techniques de partitionnement à chaque étape de division des partitions, elles sont donc des méthodes non déterministes. Contrairement aux méthodes ascendantes, qui sont déterministes, et qui utilisent dans l’étape d’agrégation la notion d’indice d’agrégation (voir annexeC) permettant de mesurer la distance entre deux sous-ensembles d’individus. D’où, nous optons pour cette dernière méthode.

L’avantage des méthodes hiérarchiques par rapport aux méthodes de partitionnement, que nous définissons dans ce qui suit, réside dans le fait qu’il n’est pas nécessaire de définir a priori le nombre de classes. Elles visent à identifier les partitions en coupant le dendrogramme à un niveau satisfaisant. Chaque niveau correspond à une valeur numérique précise de l’indice d’agrégation. Plus la valeur de cet indice est élevée, plus les partitions (ou classes d’individus) sont hétérogènes.

Méthodes de partitionnement Les méthodes de partitionnement cherchent à diviser, de ma-

nière optimale, la population initiale en un nombre de classes fixé a priori. Il s’agit d’améliorer itérativement une partition initiale arbitraire enkclasses, jusqu’à la convergence du critère choisi a priori.

Il existe dans la littérature statistique une profusion de méthodes et de critères de classifica- tion non hiérarchique, parmi lesquelles :

– analyse en composantes principales [Pea01] : cette méthode consiste à transformer des variables "corrélées" en nouvelles variables décorrélées les unes des autres ;

– k-moyennes [Mac67] : cette méthode est encore appelée algorithme des centres mobiles

[Ben73], où chaque classe est représentée par son centre de gravité ;

– nuées dynamiques [Did71] : c’est une généralisation de l’algorithme des k-moyennes, où chaque classe est représentée par un sous-ensemble de la classe, appelé noyau ; – k-médoïdes ou PAM (Partitioning Around Medoids) [KR90] : où chaque classe est repré-

sentée par un objet ou un représentant de cette classe (medoïd) ;

– carte auto-organisatrice (Self Organizing Map) [KSH01] : représente les données sur une carte 2D où chaque point de la carte représente un ensemble d’individus.

Dans la pratique, nous utilisons souvent les méthodes non-supervisées classiques type k- moyennes ou SOM. Ce dernier type de classification par cartes de Kohonen, regroupe les individus en fonction de leur distance du "centre" des différentes classes (du type k-moyennes), mais projette les données sur une grille de faible dimension. Il est donc peu performant pour la détection d’un petit nombre de classes. Dès lors, nous choisissons d’appliquer la méthode des

k-moyennes, qui par la pluralité de ses solutions (puisque les partitions initiales sont arbitraires), nous aidera d’avantage à identifier les classes fortes.

Nous définissons dans ce qui suit les méthodes choisies.

3.2.4 Choix de la procédure de classification

Dans ce qui suit, nous décrivons brièvement les méthodes de classification que nous al- lons utiliser, qui sont la classification ascendante hiérarchique et la technique des k-moyennes. La première méthode aura notre préférence pour son caractère déterministe. La seconde per- mettra, à partir de la contingence de ses résultats, de réduire l’incertitude de la validité de la classification obtenue par la recherche de formes stables, les formes fortes.

Nous commençons par définir la méthode hiérarchique.

Classification ascendante hiérarchique, ou CAH (ou "par agrégation" ou "CAH") Elle

consiste à regrouper itérativement les individus, en commençant par le bas (les deux plus proches au sens de la distance deux à deux, telle que la distance euclidienne) jusqu’à re- grouper finalement tous les individus en une seule classe. À chaque étape, les deux clusters qui vont fusionner sont ceux dont la "distance" est la plus faible. L’utilisateur de cette méthode doit ainsi choisir un lien d’agrégation pour évaluer la "distance" entre deux groupes. Il existe plusieurs liens d’agrégation de Ward [War63], [Tuf05], que nous avons décrite dans l’annexeC. Le nombre de classes peut-être déterminé a posteriori, à la vue du dendrogramme.

Dans l’annexe C, nous définissons les critères utilisés et donnons plus de détails sur le principe de l’algorithme de la CAH.

Classification par les k-moyennes Cette méthode, encore appelée algorithme des centres

mobiles [Ben73] est simple à appliquer et compréhensible. Elle représente l’une des méthodes de partitionnement les plus réputées [Mac67], [CDG+89]. Son but est de diviser l’ensemble des

individus enk partitions (clusters) dans lesquelles chaque individu appartient à la classe dont le centre de gravité est le plus proche au sens de la distance choisie (en général, euclidienne pour cette méthode). Il s’agit de fixer à l’avance le nombre de classesk où un tirage aléatoire est effectué pour initialiser leskcentres de ces classes. Dans une deuxième étape, une mise à jour des centres de chaque classe est effectuée. Le procédé (affectation de chaque individu à un centre, détermination des centres) est itéré jusqu’à convergence vers un optimum (local) ou un nombre d’itérations maximum fixé. Le principe de l’algorithme des k-moyennes est illustré dans l’annexeC.

nombre cohérent de classes, ni de visualiser la proximité entre les classes ou les objets. Ainsi, nous pouvons dire que la méthodes des k-moyennes et celle de la CAH sont complémentaires. Ayant défini brièvement les méthodes de classification choisies, nous présentons dans ce qui suit les caractéristiques ainsi que la procédure de travail suivi pour la catégorisation des mesures.

3.2.5 Mise en oeuvre de la classification

Nous résumons dans ce qui suit les caractéristiques de la procédure de classification utili- sée. Certaines justifications et définitions ont déjà été présentées ou le seront directement à la suite, et les autres sont données dans les annexesBet C. Nous présentons également notre procédure de travail pour la classification des mesures d’intérêt.

Caractéristiques de la classification Des choix de critères variés sont laissés à notre initia-

tive, tels que :

– le choix des individus et de leurs variables : 61 individus, 19 propriétés (variables). – le format des variables : variables qualitatives nominales (à l’issue d’une évaluation

des mesures selon les propriétés, chapitre2) ;

– Choix de la mesure d’éloignement (dissimilarité, distance) entre individus : distance eu-

clidienne ;

– Choix du critère d’homogénéité des classes à optimiser (généralement inertie) : critère

de Ward [War63] ;

– Choix de la méthode de classification : classification ascendante hiérarchique suivie

des k-moyennes (centre mobile) ;

– Choix du nombre de classes : nous utilisons les deux techniques de classification (CAH et k-moyennes) conjointement.

L’idée est de remédier à l’inconvénient principal de la méthode des k-moyennes, qui est la saisie préalable du nombre de classes. Nous procédons alors dans un premier temps à la classification ascendante hiérarchique, où il s’agit d’identifier le nombre de classes par une coupure du dendrogramme généré à un niveau acceptable pour l’utilisateur. Par la suite, nous procédons à la méthode des k-moyennes et par l’introduction du nombre de classes obtenu à l’issue d’une CAH pour avoir une meilleure qualité de la classification. Puisque nous procédons à la classification des mesures en utilisant des variables quali- tatives, il serait donc usuel d’appliquer la distance euclidienne pour mesurer la dissemblance

entre les individus. Néanmoins, il serait aussi intéressant de tester avec la distance de Manhat- tan et de comparer les deux résultats. La dissemblance entre deux sous-ensembles disjoints est calculée à partir du critère d’agrégation de Ward de perte d’inertie minimum. Notre choix a porté sur ce critère parce qu’il est capable d’optimiser l’homogénéité des classes. En outre, il est basé sur un objectif clairement identifié de minimisation de l’inertie intra-classe, rendant ainsi l’algorithme et les résultats interprétables.

Suite à la sélection des critères de classification, nous pouvons maintenant présenter notre méthodologie de travail.

Processus d’analyse La procédure d’analyse du comportement des mesures d’intérêt est

résumée dans ce qui suit :

Étape 1 : Préparation des données

Cette première étape consiste à traiter les données d’entrée, recueillies dans le cadre de l’étude des mesures d’intérêt selon les propriétés, pour les adapter aux méthodes de classifica- tion non supervisées que nous allons utiliser. Ayant des données qualitatives nominales, nous appliquons la technique la plus connue et la plus simple en analyse données, le codage disjonc- tif complet ou le codage0/1sur la matrice de mesures-propriétés. Le but est de transformer les variables originelles en variables binaires. De ce fait, nous obtenons une nouvelle matrice avec des données binaires, permettant d’étudier toutes les caractéristiques d’une mesure et où au- cune information n’est perdue. Le principe étant que chaque variable (propriété) prend la valeur

1lorsque la modalité (introduite en annexeB) est présente pour un individu (mesure d’intérêt) ,

0sinon.

Étape 2 : Application des méthodes non supervisées

L’étape 2 consiste à appliquer les deux méthodes de classification non supervisée sur la matrice binaire obtenue lors de l’étape 1 : la méthode de CAH dans un premier temps, puis la méthode des k-moyennes. Ces méthodes utilisent les critères choisis précédemment (distance euclidienne, critère de ward) pour donner une nouvelle structure aux données binaires sous forme de catégories de mesures. Chaque méthode propose sa propre classification.

Étape 3 : Classification consensuelle des mesures d’intérêt

L’étape 3consiste à trouver un consensus sur la classification des mesures en confrontant les résultats obtenus par les deux méthodes dans l’étape précédente.

Étape 4 : Interprétation

L’étape4consiste à interpréter les catégories de mesures identifiées afin de comprendre le comportement des mesures d’une même classe.

Étape 5 : Comparaison

obtenue dans l’étape 3, avec ceux des travaux existant dans la littérature.

Nous procédons dans ce qui suit à la classification des mesures d’intérêt en suivant les 3

premières étapes de notre méthodologie de travail.

3.3 Classification des mesures d’intérêt

Cette section s’intéresse à la classification des mesures d’intérêt. Nous analysons dans un premier temps les données d’entrée par la recherche d’une redondance au niveau des lignes/colonnes de la matrice d’évaluation des mesures (décrite dans le chapitre2, pages70et 71). Par la suite, nous appliquons les deux méthodes de classification non supervisée CAH et k-moyennes.

3.3.1 Les données d’entrée

Nous reprenons la matrice d’évaluation des mesures selon les propriétés, qui représente nos données d’entrée, afin de s’assurer qu’il n’y a pas une possibilité de la restreindre. Dans le cas où nous identifions des groupes de mesures aux comportements identiques ou de propriétés redondantes, nous cherchons à réduire les dimensions de cette matrice par la suppression de la redondance. Pour ce faire, nous recherchons tout d’abord l’ensemble des mesures dont les valeurs pour chacune des19propriétés sont identiques. Nous recensons les

7groupes suivants :

Gs1= {Coefficient de corrélation, Nouveauté},

Gs2= {Confiance causale, Confiance-confirmée causale, Fiabilité négative}, – Gs3= {Cosinus, Czekanowski-Dice},

Gs4= {Dépendance causale, Leverage, Spécificité}, – Gs5= {Force collective, Ratio des chances},

Gs6= {Gini, Information mutuelle}, – Gs7= {Jaccard, Kulczynski}.

Suite à la détection de ces7groupes de mesures {Gs1,··· ,Gs7} et afin d’éviter de la redon- dance dans nos données, nous ne gardons qu’une seule mesure par groupe. Nous sommes désormais en présence d’une matrice de52mesures puisque nous ne retenons que7mesures parmi les16citées ci-dessus (une de chaque groupe).

Par la suite, nous vérifions si des propriétés ne sont pas redondantes. Pour cela, nous recherchons si une propriété possède des valeurs identiques pour chacune des52lignes avec une autre propriété. Nous n’avons identifié aucune relation de ce type, ce qui nous révèle qu’il n’y a pas de propriétés identiques.

Par conséquent, nous sommes à présent avec une matrice de52mesures et19propriétés, construite à partir de variables qualitatives nominales (une définition de ces types de variables est présente en annexe B). Nous appliquons un codage disjonctif complet sur l’ensemble de ces variables qui nous conduit à l’obtention de39variables binaires. Une nouvelle structure de notre matrice prend donc forme, avec52mesures× 39variables binaires.

L’étape de préparation des données étant achevée, nous allons maintenant procéder à la deuxième étape de notre processus d’analyse et appliquer les algorithmes de classification sur la nouvelle matrice.

3.3.2 Classification obtenue par une méthode de CAH

Nous effectuons une classification ascendante hiérarchique (CAH) de 52 mesures en par- tant du tableau disjonctif complet. Pour ce faire, nous utilisons le logiciel Matlab, la distance euclidienne entre paires de mesures et la distance de Ward pour la phase d’agrégation. La figure 3.1 restitue cette classification pour la distance de Ward. Comme la perte d’inertie in- terclasse doit être la plus faible possible, nous coupons le dendrogramme à un niveau où la