Concernant le cas non stationnaire, [109] proposent une approche prenant en
compte la dérive du système sous-jacent. Cette approche consiste en deux mécan- ismes, le premier surveille et détecte où et quand le modèle doit être mis à jour, et le second réapprend localement les parties du modèle en conflit avec les nouvelles
données. [16] proposent eux aussi un algorithme adaptatif dans un environnement
non stationnaire.
En conclusion, nous voyons d’un côté que la plupart des méthodes existantes utilisent des méthodes à base de score en traitant différemment l’aspect incrémental. Malheureusement ces méthodes ne passent pas à l’échelle en grande dimension, comme le font les méthodes hybrides. D’un autre côté, les méthodes non stationnaires ont mis en évidence l’efficacité d’une reconstruction locale des parties du modèle ayant évoluées.
Pour cette raison, nous proposons de tirer avantage des approches de recherche locale en proposant l’algorithme iMMPC algorithme incrémentale de recherche
locale pour des problèmes stationnaires de grande dimension dans la sectionB.4. En-
suite l’algorithme incrémentale Max- Min hill climbing (iMMHC) pour obtenir une
structure global de réseau bayésien finale dans la sectionB.5. Enfin, on adapter ces
algorithmes sur les fenêtres glissement et à amortissement pour cas non-stationnaire
dans les sectionB.6et sectionB.7.
B.3
Contexte
B.3.1
MMPC(T): recherche locale pour l’apprentissage de la struc-
ture d’un réseau bayésien
L’algorithme MMPC(T), Max-Min Parent Children [138]) construit progressive-
ment un ensemble CPC(T) (parents-enfants candidats, sans distinction) pour une
variable T . C’est la combinaison de la procédure MMPC(T) (cf. Algo. 4) et d’une
correction additionnelle non décrite ici permettant de conserver la symétrie de la relation parent-enfant.
MMPC(T)se déroule en deux phases. Dans la phase forward il ajoute progres- sivement dans CPC(T) des variables candidates les plus directement liées à T et dans la phase backward il supprime un certain nombre de faux positifs ajoutés dans la première phase. Le cœur de l’algorithme MMPC est ainsi la phase forward de MMPC(T), qui nécessite le plus de calculs de mesures d’association.
La fonction min(Assoc) utilisée dans la phase forward mesure l’association directe entre T et une variable candidate X conditionnellement à un ensemble CPC. Sa valeur est nulle si les deux variables sont indépendantes conditionnellement à au moins un sous ensemble de CPC. Ainsi des variables ayant une mesure d’association nulle pour un ensemble CPC donné ne pourront jamais entrer dans CPC(T) et pourront être supprimées de l’espace de recherche des candidats pour les itérations
suivantes. Le niveau d’association peut être estimé par des mesures comme le χ2 ou
l’information mutuelle (MI), estimées à partir des données. La variable ajoutée à l’ensemble CPC est alors celle qui maximise cette mesure d’association min(Assoc) conditionnellement au CPC courant, d’où le nom de l’heuristique MaxMinHeuristic et de l’algorithme MMPC proposés par [?]. La phase forward s’arrête lorsque il n’y a plus de variable directement dépendante avec T sachant le CPC courant.
B.3.2
Adaptation incrémentale des méthodes d’apprentissage à
base de score
Les travaux de [121] proposent deux heuristiques permettant de transformer un
algorithme classique de recherche gloutonne (HCS, Hill-climbing search) comme
celui proposé par exemple par [26] en un algorithme incrémental. Nous allons
donc décrire tout d’abord l’algorithme HCS non incrémental puis les heuristiques proposées pour la version incrémentale iHCS.
Hill Climbing Search (HCS) L’algorithme HCS (cf. Algo.1) parcourt l’espace
des graphes de manière itérative, de proche en proche, en examinant des changements locaux du graphe et en sélectionnant à chaque étape le graphe qui maximise une fonction de score donnée. Le voisinage d’un modèle M est défini par l’ensemble
B.3. CONTEXTE 151 de tous les graphes voisins générés à l’aide d’opérateurs op et des arguments A associés, où l’opérateur peut être Ajout Arc, Suppression Arc ou Inversion Arc. Une
fonction de score fpM, Dq sert à mesurer la qualité du modèle pour un ensemble
de données fixé.
Soit M0le modèle initial et Mf le modèle final obtenu par l’algorithme HCS avec
Mf opnp...op2ppop1pM0A1q, A2q, ..., Anq où chaque opérateur (et arguments)
mène au modèle ayant le meilleur score dans le voisinage. Le chemin de recherche ou de "traversée" est la séquence d’opérateurs (et d’arguments) utilisés pour constru-
ire le modèle final Mf, Oop tpop1, A1q , pop2, A2q , . . . popn, Anqu utilisée pour
construire Mf. Il permet ainsi de reconstruire la séquence de modèles intermédiaires
ayant mené à ce modèle. Notons que le score des modèles intermédiaires augmente de manière croissante le long de ce chemin.
Incremental Hill Climbing Search (iHCS) Avec l’algorithme iHCS (cf. Algo.6)
Roure propose d’utiliser le chemin de recherche précédemment défini pour dévelop- per deux heuristiques basées sur la stationnarité des données. Le chemin de recherche est supposé ne pas trop changer lorsque de nouvelles données arrivent, ou lorsque ces données s’écartent très peu de la distribution initiale, ce qui permet à la fonction de score d’être continue dans l’espace des ensembles de données.
La première heuristique Traversal Operators in Correct Order (TOCO) vérifie l’adéquation du chemin de recherche existant aux nouvelles données. Si ces données altèrent ce chemin, il est alors nécessaire de mettre à jour le modèle.
La seconde heuristique Reduced search space (RSS) est utilisée pour la mise à jour du modèle. De manière générale, l’algorithme ne stocke pas que le mod- èle intermédiaire optimal obtenu à chaque étape de la recherche gloutonne, mais l’ensemble B des k meilleurs modèles. L’utilisation de cet ensemble B permet de réduire l’espace de recherche en évitant d’explorer des parties de l’espace qui menaient précédemment à des modèles de faible qualité.