• Aucun résultat trouvé

Etude de la prise en compte de corrections d’anomalies par l’utilisateur pour faire évoluer le modèle

N/A
N/A
Protected

Academic year: 2022

Partager "Etude de la prise en compte de corrections d’anomalies par l’utilisateur pour faire évoluer le modèle"

Copied!
1
0
0

Texte intégral

(1)

Sujet de Master 2 Recherche

Modèles graphiques probabilistes pour la détection d’anomalie Introduction

L'équipe DUKe (Data User Knowledge) du LS2N, UMR CNRS 6004, est l’une des principales équipes du laboratoire dans le thème « science des données et de la décision », forte de ses compétences en manipulation de données, en fouille de données et en interaction. Dans ce cadre, l'équipe a développé de nombreux algorithmes d'apprentissage et de manipulation de modèles graphiques probabilistes (réseaux bayésiens, réseaux bayésiens dynamiques, réseaux bayésiens relationnels).

L'équipe DUKe travaille en collaboration avec Talend, leader mondial des solutions d’intégration big data et cloud, sur l'utilisation de modèles graphiques pour détecter et corriger des anomalies dans les données.

Nous avons ainsi proposé une approche centrée autour de l'apprentissage de réseaux bayésiens permettant de découvrir automatiquement des anomalies dans des données tabulaires mixtes (discrètes et continues) [1].

Objectif du stage

Nous avons proposé une architecture basée sur l’utilisation de réseaux bayésiens pour l’apprentissage de dépendances probabilistes et la prise en compte de dépendances fonctionnelles, et l’identification de valeurs anormales dans un jeu de données. L’objectif du stage est d’étendre l’architecture réalisée dans un contexte incrémental, où les données peuvent arriver par lot, où des variables peuvent être ajoutées et/ou enlevées, et où des propositions de correction d’anomalies par l’utilisateur peuvent faire évoluer le modèle existant.

Travail à réaliser

· Familiarisation avec le formalisme des réseaux bayésiens et avec la librairie C++ PILGRIM General

· Etude de la solution existante proposée dans [1]

· Etude de la prise en compte de corrections d’anomalies par l’utilisateur pour faire évoluer le modèle.

· Implémentation de l’approche avec la librairie PILGRIM

· Illustration des résultats obtenus sur des cas d’utilisations fournis par l’entreprise

· Prise en compte ensuite de l’aspect incrémental où des données peuvent arriver par lor., avec le même cycle : étude, implémentation et tests.

Ce travail sera supervisé par P. Leray (LS2N / DUKe, Nantes). Le stagiaire sera intégré à une équipe de plusieurs stagiaires, doctorants et ingénieur travaillant sur les réseaux bayésiens et PILGRIM, et sera régulièrement en contact avec les experts de Talend.

Période : Février-Juillet 2021

Indemnité de stage : approx. 554 € / mois Compétences

· Concepts de probabilité, statistiques

· Programmation C++

Candidature

CV + lettre de motivation + résultats académiques (format PDF) à philippe.leray@univ-nantes.fr Références

[1] Evan Dufraisse, Philippe Leray, Raphaël Nedellec and Tarek Benkhelif. Interactive Anomaly Detection in Mixed tabular Data using Bayesian Networks, The 10th International Conference on Probabilistic Graphical Models, Aalborg, September 23-25, 2020

Références

Documents relatifs

Furthermore, we also prove that, unlike classical shape optimization, our coercivity norm for the second order shape derivative is the L 2 norm.. 1.4

Dans Twitter, nous avons montré empiriquement que, globalement, les processus appliquant la méthode temporelle proposée (comportant différentes techniques de calcul du poids temporel

Le CD56 ou NCAM (Neural Cell Adhesion Molecule) est une glycoprotéine qui intervient dans l’adhésion intercellulaire des cellules neurales et des cellules neuro-endocrines.

Total Quality Management Quality Assurance Quality Control Inspection صﺣﻔﻟا ﻟا ةرطﯾﺳ ﻰﻠﻋ ةدوﺟﻟا نﺎﻣﺿ ﻰﻠﻋ ةدوﺟﻟا ةرادإ ةدوﺟﻟا ﺔﻠﻣﺎﺷﻟا.. دﯾدﺣﺗ فدﻬﻟا نﻣ

Plus précisément, la synergie positive est caractérisée (cf. Cette inégalité est toutefois difficile à interpréter.. Partant de ce qui se cache sous cette différence

Cette étude est un travail préliminaire avant la prise en compte dans le schéma de sélection caprin des caractères de production de semence qui constituent une des principales

Pour une anomalie récessive (situa- tion la plus fréquente à gérer dans les populations), seuls les homozygotes mutés sont atteints et le coût est le produit de la fréquence

L'écart en pcm (pcm=pour cent mille) de la réactivité du cœur entre ces deux situations est de l'ordre de 1400 pcm, voire 3000 pcm si l'on tient également compte de l'effet