• Aucun résultat trouvé

Positionnement de notre méthode de détection

Détection de changement dans un ux de données

5.2 Positionnement de notre méthode de détection

Cette section présente tout d'abord le cadre et les changements que l'on souhaite détecter. Puis les méthodes de l'état de l'art, adaptées à ce cadre, sont décrites. Finalement, les caracté-ristiques des méthodes présentées sont synthétisées dans un tableau. Celui-ci décrit par la même occasion les caractéristiques de la méthode que l'on souhaite développer.

5.2.1 Changement de concept d'un point de vue bayésien 5.2.1.1 Cas général

Dans ce chapitre nous nous intéressons seulement aux méthodes de détection de changement qui sont basées sur l'observation des données X du ux. La détection se fait à partir de l'ob-servation de deux distributions. La première distribution provient du concept de départ et la deuxième du concept actuel. Une détection a lieu si on observe une diérence signicative entre les distributions de ces deux concepts. Si les diérences ne sont pas jugées signicatives alors le ux est considéré comme stationnaire.

Nous choisissons d'observer ces changements d'un point de vue bayésien. D'après la formule de Bayes la probabilité d'une classe C conditionnellement aux données X est la suivante :

P (C|X) = P (C)P (X|C) P (X)

Un changement dans chacun des trois termes peut faire varier P (C|X) au cours du temps : 1. P (C) : correspond à la proportion des classes dans les données. Celle-ci peut évoluer au

cours du temps.

2. P (X) : probabilité des données. Leur distribution peut évoluer dans le temps. On parle alors de covariate shift [QCSSL09].

3. P (X|C) : changement de la probabilité des X connaissant la classe C.

On retrouve une classication similaire (changements 1 et 3) dans [KHA99] ainsi que des ex-périmentations montrant l'impact de chacun des changements. Le but de certain classieur est justement d'essayer d'apprendre P (C|X). Par exemple, un classieur bayésien naïf réalise son apprentissage en estimant au mieux P (C) et P (Xi|C). Des classieurs comme les arbres vont

segmenter l'espace pour réaliser ces estimations dans des sous-espaces (les feuilles de l'arbre). 5.2.1.2 Hypothèse naïve d'indépendance des variables

La probabilité conditionnelle jointe P (X|C) étant dicilement estimable, nous utilisons la version naïve qui a pour hypothèse l'indépendance des variables Xi. Cette hypothèse fait qu'il ne sera pas possible de voir certaines interactions entre les variables pour la détection de changement. Cependant cette hypothèse a montré sur des problématiques réelles qu'elle n'empêchait pas d'avoir de bonnes performances [HY01]. Si nous reprenons la formule de Bayes et que nous faisons l'hypothèse de l'indépendance des variables nous obtenons :

P (C|X) = P (C)

d

i P (Xi|C) P (X)

On s'intéressera donc par la suite à la probabilité P (Xi|C) au lieu de la probabilité P (X|C).

5.2. Positionnement de notre méthode de détection 95 avoir X. Si d est grand il est dicile de trouver des méthodes capables de détecter un changement sur la distribution de X avec une faible complexité. On choisit donc de reprendre l'hypothèse naïve et d'observer les changements variable par variable,c'est-à-dire sur les d probabilités P (Xi). Les changements sur P (C) ne posent pas de problèmes particuliers et peuvent être traités assez simplement avec,par exemple,un test du χ2.

5.2.1.3 Changements sur P (Xi|C)

La détection de changement sur P (Xi|C) implique d'avoir une méthode capable d'observer

une distribution conditionnellement aux classes. On pourrait aussi imaginer observer la distri-bution pour chaque classe k prise indépendamment P (Xi|Ck),mais cette solution pose d'autres problèmes :

1. Les distributions des classes les unes par rapport aux autres ne sont sans doute pas indé-pendantes. La détection sur une classe entrainera sans doute des détections sur les autres classes.

2. Si le nombre de classes est important,alors le nombre de tests de détection va augmenter. Par conséquent le risque de réaliser de fausses détections va aussi augmenter.

3. Si les classes sont déséquilibrées alors certains tests seront basés sur moins de données et seront donc moins robustes et/ou moins sensibles. De plus,si on souhaite avoir une mesure de la quantité de changement,il faudra alors trouver un moyen d'agréger de manière pertinente ces diérentes mesures.

Il paraît donc peu intéressant d'observer les P (Xi|Ck). Une méthode capable d'évaluer un chan-gement sur P (Xi|C) dans sa globalité ne pose pas ces problèmes et semble être plus adéquate. 5.2.2 État de l'art des approches de détection

L'état de l'art sur la détection de changement est abondant. On retrouve dans [Kun11,BK09] de nombreuses références et une présentation des méthodes dédiées à une utilisation sur les ux de données. De nombreux tests statistiques [Kan06] existent aussi pour comparer deux distributions. Nous présentons dans cette section uniquement des méthodes de l'état de l'art qui permettent de détecter des changements sur les probabilités P (Xi). A notre connaissance,aucune méthode de détection sur les probabilités P (Xi|C) adaptée aux ux de données n'existe dans la littérature.

Les méthodes présentées dans cette section ne s'appliquent donc qu'à la détection de changement sur les probabilités P (Xi).

5.2.2.1 CUSUM

L'algorithme CUSUM (CUmulative SUM) a été proposé dans [Pag54] puis réutilisé dans le cadre des ux par Gama dans [GRSR09]. Cet algorithme observe une variable tet déclenche une alerte quand sa moyenne est signicativement diérente de zéro. La variable observée peut être, par exemple,l'écart à la moyenne comme dans [GRSR09]. Son fonctionnement est le suivant : soit S0 = 0 et St+1 = max(0, St+ t− v). Une détection correspond à avoir St > h avec h le seuil de détection.

L'intérêt de ce test est qu'il ne nécessite pas de mémoire. Par contre il nécessite de xer les paramètres v et h.

5.2.2.2 ADWIN

La méthode proposée dans [BG07] se base sur des fenêtres dont la taille s'adapte (ADaptative WINdowing). Cette méthode observe la moyenne des valeurs d'un ux. La taille de la fenêtre est variable et s'adapte de manière à avoir la meilleure estimation de la moyenne qui soit consistante avec l'hypothèse qu'il n'y a pas eu de changement dans la fenêtre. Si aucun changement ne se produit alors la taille de la fenêtre augmente et elle diminue lorsque des changements sont détectés. La méthode possède un paramètre δ qui dénit la conance désirée dans le résultat. 5.2.2.3 Test t de Welch

Le test t de Welch est une adaptation du test t de Student qui s'applique à deux échantillons

X1 et X2 de tailles respectives N1 et N2. Ce test permet de tester statistiquement l'hypothèse d'égalité de deux moyennes (X1 et X2) avec deux échantillons de variances inégales (s2

1 et s2 2). La formule du t est la suivante :

pvalue = X1− X2

s2 1

N1 + s22

N2

On utilise le test t de Welch pour tester l'hypothèse nulle suivante :  les moyennes de deux populations sont égales . Ce test retourne une pvalue qui permet de rejeter ou non l'hypothèse nulle. Ce test a déjà été utilisé dans le cadre des ux de clics pour identier les revisites de pages Web [Yam08].

5.2.2.4 Test de Kolmogorov-Smirnov

Le test d'hypothèse de Kolmogorov-Smirnov est utilisé pour déterminer si un échantillon suit bien une loi donnée ou bien si deux échantillons suivent la même loi. Ce test est basé sur les propriétés des fonctions de répartition empirique. Nous utiliserons ce test pour vérier si deux échantillons suivent la même loi. Soient deux échantillons de tailles N1 et N2 possédant respectivement les fonctions de répartition empirique F1(x)et F2(x). La distance de Kolmogorov-Smirnovest dénie de la manière suivante :

D = max

x |F (x) − F2(x)|

L'hypothèse nulle, stipulant que les deux échantillons proviennent de la même distribution, est rejetée avec une conance α si : 

N1N2 N1+ N2

D > Kα

Kα se retrouve à l'aide des tables de Kolmogorov-Smirnov6.

5.2.2.5 Discrétisation MODL pour la détection des changements de distribution Cette méthode a été proposée par Bondu et Boullé [BB11] pour la détection de changement dans le cadre de l'observation d'une variable numérique. Elle voit le problème de la détection de changement comme un problème d'apprentissage à deux classes. La discrétisation MODL [Bou06a] est utilisée comme méthode de détection de changement.