• Aucun résultat trouvé

Utilisation de ces nouvelles méthodes

Conclusion et perspectives

6.2 Utilisation de ces nouvelles méthodes

Le classieur bayésien naïf moyenné dière du classieur bayésien naïf par l'ajout d'un poids sur chacune des variables. L'estimation de ces poids se fait habituellement hors-ligne. Nous avons proposé une solution basée sur une descente de gradient stochastique an de réaliser l'optimisation de ces poids en-ligne. Cette nouvelle méthode nécessite beaucoup de données pour converger vers les poids optimaux. Par conséquent son utilisation dépend de la quantité de données disponible et de la rapidité à laquelle les poids peuvent être appris.

Pour les arbres de décision en-ligne, nous avons adapté les arbres de Hoeding an qu'ils puissent utiliser les probabilités conditionnelles aux classes de nos résumés. Notre proposition porte sur les diérents éléments qui les composent : (i) les résumés dans les feuilles, (ii) le critère de coupure, (iii) le modèle local. Sur les jeux de données issus des générateurs nos modica-tions améliorent les résultats. Le classieur bayésien naïf, utilisé comme modèle local, tire tout particulièrement avantage de la robustesse de notre résumé à deux niveaux.

Détection de changement dans un ux de données

Les ux de données peuvent ne pas être stationnaires et comporter des changements de concept. Nous proposons une nouvelle méthode de détection des changements qui est basée sur l'observa-tion du changement des distribul'observa-tions univariées des exemples entre deux fenêtres.

La première fenêtre est placée au début du ux et ne change pas de position. La deuxième est glissante avec l'arrivée de nouveaux exemples. Notre méthode n'a pas d'a priori sur la distribution des données ni sur le type de changement à détecter. Elle est capable de détecter des changements rapides ou lents, que cela soit sur la moyenne, l'écart type ou tout autre changement dans la distribution. Notre nouvelle méthode utilise le critère bivarié MODL qui permet d'observer des changements de distribution sur les données conditionnellement aux classes. Elle est à la fois : (i) robuste dans le cas d'un ux stationnaire, (ii) rapide à détecter tout type de changements dans la distribution des données, (iii) capable d'utiliser l'information de classe. La valeur du critère permet aussi de mesurer la quantité de changement entre les deux concepts observés.

Nous proposons aussi un nouvel algorithme, appelé MDD, basé sur notre méthode de détection permettant de remplacer le classieur. Celle-ci n'utilise pas le classieur pour la détection mais seulement les données du ux. Ses détections sont régulières pour un changement ayant une vitesse constante. Ses performances, en termes de précision, sont bien meilleures et plus constantes que les méthodes de l'état de l'art comme DDM et EDDM.

6.2 Utilisation de ces nouvelles méthodes

Dans de nombreuses grandes entreprises possédant des systèmes d'informations complexes, le processus de mise en production de nouvelles méthodes requiert de nombreuses étapes et nécessite un certain temps. À ce jour, les méthodes décrites dans ce manuscrit n'ont pas encore été industrialisées chez Orange. Cependant les cas d'utilisation présentés ci-dessous pourraient être envisagés par rapport aux apports de cette thèse.

6.2.1 Sélection de variables

Les informations sur les clients d'Orange et les logs d'usage liés aux appels de ceux-ci sont utilisés pour modéliser les prols clients pour des besoins marketing comme le changement d'opé-rateur (churn), l'appétence pour un produit ou la montée en gamme (upselling). La jointure complète entre ces deux tables produirait une quantité de données trop importantes. L'approche utilisée chez Orange consiste à construire de nombreux agrégats sur les logs d'usage. Chaque

agrégat correspond à la création d'une nouvelle variable dans la table client. Des exemples de ces agrégats sont le nombre de communications par jour/semaine/mois, la durée moyenne des communications... L'un des premiers traitements consiste à sélectionner les variables informa-tives parmi toutes ces variables. Cette étape est très coûteuse en ressources pour des bases de données de millions de clients et ne peut être réalisée, pour l'instant, que sur un échantillon de la base. L'idée serait d'utiliser nos résumés qui consomment peu de ressources mémoire et processeur an de pouvoir utiliser toutes les données. Le second niveau de nos résumés utiliserait la discrétisation MODL dont le critère indique l'informativité d'une variable. On pourrait donc adapter la première passe de sélection de variables avec nos résumés an de réduire les besoins en ressources de ce pré-traitement.

6.2.2 Augmentation de la volumétrie traitée

Ce cas d'utilisation est la suite logique de la sélection de variables. Une fois les variables sélectionnées on pourrait utiliser un de nos classieurs : bayésien naïf, bayésien naïf moyenné ou arbres de décision, pour faire de la classication sur la base clients d'Orange. Pour l'ins-tant les algorithmes de classication n'utilisent qu'une partie de la base clients. L'intérêt est ici d'augmenter le volume de données utilisées pour être capable d'avoir de meilleurs modèles. 6.2.3 Mise à jour des modèles

Les modèles de classication utilisés chez Orange se font sur des données qui peuvent évoluer. On peut citer, par exemple, les prols des clients qui changent au cours des mois, les prols de fraude qui évoluent à l'apparition de nouvelles ores commerciales... Pour l'instant ce problème du changement est traité par un ré-apprentissage régulier (tous les semaines, mois...) ou la détection d'une baisse de la performance du modèle. On pourrait utiliser notre méthode de détection de changement pour évaluer si les données sont toujours les mêmes et donc que le modèle actuel est toujours pertinent ou si au contraire les données ont changé et que le modèle doit être ré-appris. Ainsi on serait plus réactifà un changement en ré-apprenant le modèle dès qu'un changement est apparu au lieu d'attendre et on éviterait l'apprentissage du nouveau modèle quand cela n'est pas nécessaire.

6.3 Perspectives

Parmi les diérents travaux futurs qui pourraient être envisagés suite à cette thèse, nous proposons deux pistes. La première est relative au résumé OnLineMODL pour en diminuer sa variance et la deuxième concerne un arbre de décisions en ligne régularisé.

6.3.1 Ensemble de résumés OnLineMODL

Dans le chapitre 3, nous avons vu que le résumé OnLineMODL fonctionnait très bien mais avait une forte variance. Cette forte variance est due à la non remise en question des points de coupure au cours du temps : les intervalles ne peuvent être que fusionnés mais jamais divisés. An d'améliorer ce résumé on peut imaginer d'avoir un ensemble de résumés OnLineMODL construit sur diérentes parties du ux. De cette manière ces résumés ont des points de coupures à diérentes positions. Si un résumé contient un ou des points de coupure à des positions non pertinentes alors le coût de son modèle sera plus élevé que les autres. Cet ensemble peut se combiner par vote selon le coût du modèle pour donner les comptes naux par intervalle. Cette

6.3. Perspectives 125 méthode nécessite le réglage de la taille de l'ensemble, la taille des fenêtres des diérents résumés et la politique de combinaison des votes. L'utilisation d'un ensemble de résumés OnLineMODL devrait diminuer la variance de ce résumé.

6.3.2 Arbre en-ligne avec un critère global MODL

La construction d'un arbre de décision en-ligne, dans un environnement àmémoire limitée, pose la question de savoir quelles parties de l'arbre doivent continuer àse développer ou au contraire quelles parties doivent être élaguées. Le critère MODL est utilisé pour réaliser les cou-pures et il donne, pour une feuille, l'informativité de la variable choisie au moment de la coupure. Le choix de l'expansion de l'arbre est fait localement mais il serait intéressant d'avoir un critère global pour tout l'arbre an de le régulariser. Ce critère global permettrait d'évaluer le coût de l'ajout de nouvelles feuilles et le coût d'un élagage d'une partie de l'arbre. Un arbre utilisant un tel critère (basé sur l'approche MODL) a déjàété proposé mais uniquement dans le cadre de l'apprentissage hors-ligne [VBH09]. L'idée serait d'adapter le critère pour une utilisation en-ligne an de trouver le meilleur modèle, du point de vue du critère, pour une quantité de mémoire donnée.

Annexe A

Classieurs bayésien moyenné