• Aucun résultat trouvé

Les modèles en grille multivariés sont des modèles génériques simples, basés sur des partitions élémentaires de chaque variable. Du fait de cette généricité, ils sont applicables à de nombreux problèmes de l’analyse des données, pour lesquels des approches comparables ont été étudiées. Dans cette section, nous présentons un éventail de ces méthodes pour les problèmes du regroupement des lignes et colonnes d’un tableau de contingence, et de la discrétisation multivariée étudiée dans plusieurs contextes de l’analyse de données.

5.4.1

Groupement des lignes et colonnes d’un tableau de contin-

gence

Le problème du groupement des lignes et colonnes d’un tableau de contingence vise à constituer un tableau synthétique résumant l’information du tableau initial.

Dans [Ritschard et al., 2001], l’objectif est de maximiser l’association entre les lignes et les colonnes d’un tableau de contingence. Une dizaine de mesures d’association clas- siques sont envisagées, comme par exemple les coefficients φ de Pearson, V de Cramer, T de Tschuprow, τ et γ de Goodman-Kruskal (cf. tableau 5.1). Ces mesures, symétriques ou asymétriques, s’appliquent selon les cas aux paires de variables numériques ou ca- tégorielles. La taille du tableau de contingence final est trouvée automatiquement par maximisation du critère d’association. L’algorithme proposé est une heuristique glou- tonne ascendante de fusion des lignes et des colonnes, similaire aux heuristiques utilisées classiquement dans les cas de la discrétisation et du groupement de valeurs. Le nombre d’évaluations de tableaux de contingence est quadratique ou cubique selon le type des

variables, ce qui donne une complexité algorithmique en O(N4) dans le cas numérique

et O(N5) dans le cas catégoriel. L’heuristique est évaluée dans [Ritschard, 2002] et la

méthode est utilisée dans le cadre des arbres de décision [Zighed et al., 2005] pour parti- tionner simultanément les variables explicatives et à expliquer, ce qui est utile quand la variable à expliquer contient de nombreuses valeurs.

Le problème du coclustering des lignes et des colonnes d’une matrice [Hartigan, 1972] est utilisé pour le groupement simultané des individus et des variables dans [Bock, 1979]. Dans une série d’articles [Govaert and Nadif, 2003, Govaert and Nadif, 2005, Nadif and Govaert, 2005, Govaert and Nadif, 2006], le problème du coclustering est abordé sous la forme d’un modèle de mélange par bloc, ce qui correspond à deux modèles de mélanges sur les individus et les variables s’exprimant l’un sur l’autre. L’algorithme EM (expectation maximisation) nécessite ici des extensions pour traiter efficacement les mélanges par bloc. Dans [Dhillon et al., 2003], le problème du coclustering de deux variables est évalué au moyen d’un critère issue de la théorie de l’information, en minimisant l’information

mutuelle entre les variables initiales et les variables groupées, pour une taille des parti- tions fixée par l’utilisateur. L’algorithme présenté consiste à affecter chaque ligne à son groupe de lignes, puis chaque colonne à son groupe de colonnes, en répétant le proces- sus tant que l’amélioration du critère est non négligeable. Cet algorithme est analogue à l’algorithme des K-moyennes, en alternant l’optimisation des groupes de lignes et de colonnes. Des approches également basées sur des mesures de divergence informationnelle ont notamment été appliquées au bipartitionnement non supervisé des textes et des mots d’une base documentaire [Slonim and Tishby, 2000, El-Yaniv and Souroujon, 2001]. Une extension au cas de plus de deux variables est présentée dans [Bekkerman et al., 2005], en réduisant l’interaction multivariée à l’ensemble des interactions entre paires de variables. L’algorithme d’optimisation proposé intègre des découpages aléatoires de clusters, des fu- sions entre clusters et des déplacements d’individus entre les clusters, pour une complexité algorithmique au moins cubique en le nombre d’individus.

5.4.2

Discrétisation multivariée

Les limites de la discrétisation univariée, aveugle aux interactions entre variables, ont fréquemment suscité des extensions au multivarié. Nous présentons dans cette section un échantillon des méthodes proposées dans la littérature, reflétant la diversité des approches et des domaines d’application.

Préparation des données. Dans [Muhlenbach and Rakotomalala, 2002], un graphe

de voisinage est construit pour identifier des groupes d’individus ayant même valeur à expliquer, puis projeter ces groupes sur les variables explicatives pour obtenir les bornes d’une discrétisation multivariée. Dans [Chao and Li, 2005], chaque variable explicative est discrétisée en prenant en compte ses dépendances avec les autres variables au moyen d’une combinaison du critère d’entropie et du critère Relief [Kira and Rendell, 1992], utilisé classiquement en approche filtre de la sélection de variables.

Réseaux Bayesien. Dans le domaine de l’apprentissage des réseaux Bayesiens, la dis-

crétisation multivariée est appliquée pour étendre l’approche usuelle reposant sur une discrétisation des variables préalable à l’apprentissage de la structure du réseau. Dans [Friedman and Goldszmidt, 1996], la structure du réseau et les discrétisations sont consi- dérés alternativement, en apprenant une discrétisation multivariée localement à chaque noeud du réseau entre les variables connnexes. Le critère utilisé, basé sur une approche MDL [Rissanen, 1978], s’apparente à une extension au cas multivarié de la méthode univa- riée MDLPC [Fayyad and Irani, 1992]. L’approche proposée, validée sur des petites bases, pose des problèmes algorithmiques de tenue de charge selon les auteurs.

Dans [Monti and Cooper, 1999], un modèle de mélange paramétré par un nombre fini de composantes est utilisé en prétraitement pour identifier les corrélations entre variables. Cela permet d’obtenir une variable latente, correspondant aux clusters identifiés par le modèle de mélange. Cette variable latente est ensuite utilisée en tant que variable à expliquer pour discrétiser toutes les variables au moyen de méthodes de discrétisation supervisée classiques.

Règles de décision. Dans le domaine supervisé de l’apprentissage de règles de déci- sion, [Kwedlo and Kretowski, 1999] utilisent un algorithme génétique pour apprendre un ensemble de règles de décision exploitant une discrétisation multivariée pour les variables explicatives numériques. Chaque chromosome encode une base de règles de décision mul- tivariée, et représente une instance de modèle à optimiser. Le critère d’évaluation est établi de façon heuristique par un ratio entre le taux d’erreur du modèle et sa complexité, estimée en fonction du nombre de conditions utilisées dans la base de règles.

Règles d’association. Dans le domaine non supervisé des règles d’association, [Bay,

2001] décrit une méthode de discrétisation multivariée permettant de mettre en évidence les interactions entre variables numériques. L’algorithme est une heuristique gloutonne ascendante, initialisée par une discrétisation élémentaire non supervisée pour chaque va- riable. La finesse des discrétisations initiales élémentaires (en intervalles d’effectif ou de largeur égale) est un paramètre utilisateur, permettant essentiellement de contrôler le

temps de calcul, important en raison de la complexité algorithmique en O(NK) (où K est

le nombre de variables). Chaque fusion d’intervalles est évaluée au moyen d’un test de dif- férence entre les distributions avant et après fusion de l’intervalle, basé sur des "contrast sets" [Bay and Pazzani, 1999].

Classification non supervisée. Dans le domaine de la classification non supervisée,

la méthode CLIQUE [Agrawal et al., 1998] recherche des clusters d’individus denses sur un sous-espace de l’espace initial ("sub-space clustering"). La méthode se base sur l’hypo- thèse que les groupes multivariés denses en dimension K restent denses après projection en dimension K − 1. L’algorithme est initialisé en dimension 1 sur la base de discréti- sations univariées en intervalles de largeur égale. Les clusters candidats en univarié sont alors identifiés, ce qui permet de sélectionner un nombre réduit de variables pertinentes. L’algorithme est ensuite appliqué sur les paires des variables pour identifier les clusters de variables en dimension 2, puis réitéré sur les dimensions supérieures. Le critère d’arrêt est basé sur la complexité des clusters, évaluée selon une approche inspirée du principe MDL [Rissanen, 1978].

La méthode MAFIA [Nagesh et al., 2000] étend la méthode CLIQUE en supprimant la nécessité de paramètres utilisateurs et en recherchant des grilles adaptatives, par fusion d’intervalles adjacents. Une architecture de parallélisation des données et des traitements est également présentée, et évaluée sur des bases de plusieurs millions d’individus.

Complexité algorithmique de la discrétisation multivariée optimale. D’un point

de vue algorithmique, le passage de la discrétisation univariée à la discrétisation multi-

variée est problématique. On passe ainsi d’un algorithme optimal en O(N3) dans le cas

univarié à un problème NP-complet dans le cas multivarié. Dans le cas de la discrétisation supervisée bivariée, la recherche d’une bipartition consistante avec la variable à expliquer est étudiée dans [Chlebus and Nguyen, 1998]. Une bipartition est consistante si toutes ses régions sont pures, ce qui correspond à un taux d’erreur nul. Les auteurs montrent que le problème de la recherche d’une bipartition consistante pour un nombre de régions fixé est NP-complet. Dans [Elomaa et al., 2005], le problème de minimisation du taux d’erreur

empirique sous contrainte de taille maximale des partitions est approximé au moyen d’une approche basée sur la programmation linéaire. La faisabilité en pratique de cette approche est encore à l’étude.

5.4.3

Positionnement de notre approche

Les modèles à base de décision discrète, très utilisés dans les méthodes d’apprentissage à partir des données, reposent sur une discrétisation des variables numériques. La discré- tisation univariée étant par nature limitée, l’extension au multivarié a été étudié dans de nombreux contextes au moyen d’une grande variété d’approches.

Après avoir résumé de façon synthétique les approches décrites à notre connaissance dans la littérature, on présente les principaux apports des modèles en grille.

Synthèse de l’état de l’art

Les modèles de discrétisation ou groupements de valeurs multivariés sont utilisés dans de très nombreux contextes :

– modélisation synthétique des tableaux de contingence, – prétraitements multivariés pour la classification supervisée, – réseaux Bayesiens,

– règles de décision, – règles d’association,

– recherche de clusters dans des sous-espaces pour la classification non supervisée, – ...

Certaines méthodes combinent algorithmes et critères d’évaluation de façon intriquée, ce qui ne permet pas d’évaluer optimalité d’une solution. D’autres approches, plus nom- breuses, explicitent d’une part un critère d’évaluation, d’autre part un algorithme d’opti- misation.

Les critères d’évaluation proviennent d’une large diversité d’approches, plus encore que dans le cas univarié :

– critères basés sur le taux d’erreur, – critères basés sur l’entropie,

– critères exploitant l’approche MDL,

– critères basés sur une mesure de similitude entre les données avant et après prétrai- tement de discrétisation multivariée,

– critères heuristiques, avec ou sans paramètres utilisateurs ou internes, dédiés à un domaine d’application,

– ...

Les algorithmes décrits dans la littérature témoignent de la complexité du problème. Les principales approches peuvent se résumer de la façon suivante :

– recherche de régions denses dans l’espace complet, puis projection de ces régions sur les variables pour obtenir des intervalles,

– recherche d’intervalles denses en univarié, puis reconstruction itérative de régions denses dans l’espace complet,

Apports des modèles en grille

Les modèles en grille, analogues aux tables de décision [Kohavi, 1995], font partie des modèles les plus simples et les plus classiques de l’analyse des données. L’originalité de notre méthode provient non pas de la famille des modèles envisagée, mais de la démarche de modélisation, analysée en section 5.5.

Les apports des modèles en grille peuvent se résumer sur les axes suivants :

– unification de la modélisation des grilles, de l’univarié au multivarié, pour des va- riables numériques ou catégorielles, explicatives ou à expliquer,

– proposition d’un critère d’évaluation fondé théoriquement, ne procédant ni d’une approche heuristique, ni d’une approximation asymptotique,

– proposition d’algorithmes d’optimisation efficaces par rapport aux nombres N d’in- dividus et K de variables, en O(KN log N max(K, log N )) dans le cas numérique et

O(KN√N log N max(K, log N )) dans le cas le plus général.

Ces apports théoriques, évalués dans le chapitre 4, sont confirmés en pratique par une comparaison directe avec des méthodes alternatives dans le cas univarié. La comparaison est indirecte dans le cas de la classification supervisée où les classifieurs en grille sont confrontés à des méthodes alternatives lors de challenges internationaux. Des travaux importants sont nécessaires pour confirmer de façon comparative les apports des modèles en grille multivariée pour d’autres tâches de l’analyse de donnée.