État de l'art sur les méthodes de comptage/groupage de va- va-leurs

Discrétisation et groupage incrémentaux en-ligne

3.2 État de l'art sur les méthodes de comptage/groupage de va- va-leurs

3.2.1 Préambule

Les méthodes de résumé utilisées pour la discrétisation ne peuvent être identiques à celles utilisées pour le groupage. En eet, la discrétisation porte sur une variable continue dont les valeurs sont ordonnées contrairement aux valeurs d'une variable catégorielle. Dans la suite de ce chapitre, une première section présente des méthodes de comptage non supervisées adaptées à une utilisation en-ligne. Une deuxième section s'intéresse aux méthodes de groupage supervisées prévues pour fonctionner hors-ligne.

3.2.2 Méthodes non supervisées 3.2.2.1 Simple comptage

Cette méthode consiste à compter le nombre d'occurrences d'une valeur par variable. Elle peut être susante si le nombre de valeurs est limité et donc que ce comptage exhaustif peut

tenir dans l'espace mémoire accordé pour le comptage. Sa consommation mémoire dépend donc du nombre de valeurs diérentes du ux de données.

3.2.2.2 Count sketch (CS)

Le but du Count Sketch [Cha04] est de trouver les valeurs qui apparaissent le plus souvent dans un ux de données avec une erreur maximale N. Ceci correspond à trouver la liste de d éléments les plus fréquents respectant la contrainte ni > (1− )ndoù ni est le nombre d'appari-tions de l'élément d'indice i dans la liste des éléments triés par fréquence. Ce résumé est stocké sous la forme d'une matrice de comptage de taille t × b. Il utilise t fonctions de hachage si dans

{+1, −1} et t fonctions de hachage hi dans {1, . . . , b}. La matrice est mise à jour à l'arrivée d'un nouvel élément x de la manière suivante :

∀i = 1, . . . , t b[i, hi(x)]← b[i, hi(x)] + si(x)

La fréquence d'un élément est estimée par la médiane de hi(x)×si(x). La matrice ne contient que des comptes, si l'association valeur/compte doit être conservée alors une liste de ceux-ci doit être maintenue en parallèle. Cette liste ne peut être exhaustive et elle ne conserve donc que les couples valeurs/fréquences dont les fréquences sont les plus importantes. La consommation mémoire du count sketch est en O(1/2).

3.2.2.3 Count-min Sketch (CMS)

Le Count-min Sketch [CM05] est similaire au Count sketch vu précédemment mais propose des améliorations sur diérents points :

1. la consommation mémoire est en O(1/)

2. la mise à jour du sketch est de complexité sublinéaire par rapport à la taille du sketch

O(log(1/))

Comme auparavant une matrice de comptage de taille t × b est utilisée pour le stockage. La diérence provient de l'absence des fonctions si qui sont remplacées par une mise à jour par simple incrémentation :

∀i = 1, . . . , t b[i, hi(x)]← b[i, hi(x)] + 1

Le choix de t et b se fait à l'aide de deux paramètres δ et . Si l'on veut que l'estimation du nombre d'apparitions ˆc d'un item n'ait pas une erreur supérieure à n avec une probabilité d'au moins 1 − δ alors il faut que t = ln¹_δ

et b = e

(e = 2, 71828). La fréquence d'un élément x est estimée par le minimum de hi(x).

c = argmin

(b[i, hi(x)])

3.2.2.4 Résumé multi-dimensionel : ASP

Hershberger et al. dans [HSST06] s'intéressent aux résumés de données pour le cas multi-dimensionnel. Ils proposent la méthode ASP (Adaptive Spacial Partitionning) qui peut à la fois travailler sur les variables catégorielles et continues. Dans le cas d'un jeu de données n'ayant qu'une dimension cette méthode se comporte bien et a des résultats assez proches d'autres méthodes comme GK. Par contre son extension au cas multidimensionnel pose problème car il

3.2. État de l'art sur les méthodes de comptage/groupage de valeurs 39 se fait en O(2d) où d est le nombre de dimensions (nombre d'attributs). La complexité de cette méthode devient rapidement trop importante pour les cas multivariés ce qui limite son intérêt. 3.2.3 Méthodes supervisées

Les méthodes supervisées de groupement de valeurs sont nettement moins étudiées dans la littérature que la discrétisation supervisée. Cependant dans le cas de l'apprentissage et plus particulièrement dans le cas des arbres de décision le regroupement cherche à éviter une trop grande fragmentation des données. Pour les méthodes nécessitant une traduction des valeurs en un codage disjonctif complet (réseaux de neurones, réseaux bayésien ou régression logistique) le but est de limiter le nombre de points d'entrée. Cette section présente les principales méthodes de groupement de valeurs dont aucune n'est adaptée à un usage en-ligne.

3.2.3.1 MODL

La méthode MODL [Bou05] pour le groupage de valeurs est similaire à la discrétisation MODL. Cette méthode est basée sur le formalisme bayésien pour trouver le groupage le plus probable par rapport aux données observées. Son but est de trouver les meilleurs paramètres du groupage : nombre de groupes, choix de la partition des valeurs explicatives et la répartition des classes dans les groupes au sens bayésien. L'algorithme MODL utilise une méthode ascendante gloutonne pour optimiser le critère.

3.2.3.2 ChAID

La méthode ChAID (CHi-squared Automatic Interaction Detector) [Kas80] est basée sur l'utilisation du critère du X2 pour établir si deux intervalles sont statistiquement diérents. L'algorithme se réalise en 3 étapes :

1. Calcul pour toutes les paires de groupement possibles de leurs valeurs du X2.

2. On fusionne la paire ayant le plus faible X2 si celui-ci est inférieur au seuil α xé. On retourne à l'étape 1 tant que l'on peut faire des fusions.

3. Une fois toutes les fusions de paires possible réalisées, on essaye de segmenter les groupes créés. Étant donné que l'étape 1 fusionne les groupes 2 par 2, tous les groupements possibles ne sont pas testés. Le but de cette étape est de chercher à diviser un groupement de plus de 2 groupes qui soit supérieur au seuil α.

L'algorithme ChAID s'apparente fortement aux méthodes ascendantes Chi-Merge [Ker92] et Fusinter [ZRR98]. Seule l'étape 3 est spécique à ChAID et l'algorithme eectue rarement un redécoupage (étape 3) après les regroupements (étape 2) [ZR00].

3.2.3.3 CART

Le critère utilisé dans l'approche CART [BFOS84] se base sur l'indice d'impureté de Gini. Pour un problème à deux classes, on ordonne les valeurs par ordre croissant des probabilités d'apparition d'une classe donnée pour tous les groupes. Ensuite on cherche la bipartition qui donne le plus grand gain de l'indice de Gini sur cet ordre pré-établi. Pour un problème multi-classe, on peut utiliser l'indice de Gini pour plusieurs classes mais l'ordonnancement des données n'est plus susant pour garantir la solution optimale. Toutes les bipartitions possibles doivent alors être testées, ce qui n'est pas envisageable si le nombre de valeurs est très important.

3.2.3.4 Gain informationnel

L'algorithme C4.5 [Qui93] utilise la gain informationnel basé sur l'entropie de Shannon pour évaluer les variables catégorielles mais sans réaliser de groupage. Ce critère ayant tendance à favoriser les attributs avec beaucoup de modalités, Quinlan propose dans la méthode C4.5 un correctif qui consiste à diviser le gain informationnel par la quantité d'information contenue dans la variable catégorielle.

3.2.4 Bilan

Un résumé synthétique des méthodes vues précédemment est présenté dans le tableau 3.2. Les critères utilisés sont un sous-ensemble de ceux présentés dans le préambule de ce chapitre (voir section 3.1.1).

Méthodes supervisée paramétrique en-ligne

Comptage non non oui (mais mémoire non limitée)

CS non oui oui

CMS non oui oui

ADP non oui non

MODL oui non non

ChAID oui oui non

Cart oui non non

Gain informationnel oui non non

Table 3.2 Comparaison des méthodes de groupage.

Les références de l'état l'art en matière de comptage/groupage ont été présentées dans cette section. Bien que le nombre de publications relatives à cette thématique soit bien moins important que celles concernant la discrétisation, il n'est pas possible d'être exhaustif dans ce chapitre de thèse. Le choix de la méthode de groupage est indépendant de l'approche à deux niveaux proposée dans la section suivante. Ce choix peut donc se faire selon les contextes d'utilisation. Des études existent pour aider ce choix. On peut par exemple citer, pour le comptage des items fréquents, l'étude de Cormode et al. [CH08] sur divers algorithmes avec plusieurs distributions de données. Comme pour la discrétisation nous pouvons distinguer deux cas d'utilisation. Pour le comp-tage en-ligne d'un nombre important de données nous proposons d'utiliser le résumé CMS. Pour le groupage sur une petite quantité de données, comme par exemple un résumé, notre choix se porte sur la méthode MODL. Celle-ci a été comparée aux méthodes concurrentes ChAID et Gain ratio dans [Bou05] et apparaît comme étant la plus performante en terme de nombre de groupes retrouvés et de robustesse au bruit.

Suite à cet état de l'art nous considérons ultérieurement comme :

Méthodes performantes en-ligne , le Count-min Sketch (CMS) qui possède les meilleures propriétés en termes de consommation mémoire, de temps de calcul et d'erreur. Les approches que nous allons utiliser par la suite ne nécessitent pas de connaître a posteriori les valeurs des variables nominales qui ont servi à construire le résumé. L'utilisation de méthodes basées sur une projection par hachage ne pose donc aucun problème du moment qu'elles permettent de retourner des comptes pour la valeur fournie en entrée.

3.3. Une méthode à deux niveaux 41 Méthodes performantes hors-ligne , le groupage MODL est supervisé, sans paramètre et régularisé. Son utilisation en-ligne n'est envisageable que sur de petites quantités de données ou sur un résumé de petite taille.

3.3 Une méthode à deux niveaux

Dans le document Apprentissage incrémental en ligne sur flux de données (Page 54-58)