• Aucun résultat trouvé

Classication en présence d'outliers (données aberrantes) avec RMixmod (package de classication par modèles de mélanges)

N/A
N/A
Protected

Academic year: 2021

Partager "Classication en présence d'outliers (données aberrantes) avec RMixmod (package de classication par modèles de mélanges)"

Copied!
3
0
0

Texte intégral

(1)

HAL Id: hal-01355389

https://hal.archives-ouvertes.fr/hal-01355389

Submitted on 23 Aug 2016

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives| 4.0 International License

Classication en présence d’outliers (données aberrantes)

avec RMixmod (package de classication par modèles de

mélanges)

Florent Langrognet

To cite this version:

Florent Langrognet. Classication en présence d’outliers (données aberrantes) avec RMixmod (package de classication par modèles de mélanges). Rencontres R 2016, Juin 2016, , Jun 2016, Toulouse, France. �hal-01355389�

(2)

Classication en présence d'outliers (données aberrantes) avec RMixmod (package de classication par modèles de mélanges)

F. Langrogneta

aLaboratoire de Mathématiques de Besançon

UMR 6623 - Université de Franche-Comté - CNRS 16, route de Gray - 25030 Besançon

orent.langrognet@univ-fcomte.fr Mots clefs : classication, modèles de mélanges, outliers

Les modèles de mélanges orent un cadre probabiliste exible et ecace pour traiter des prob-lématiques de classication supervisée ou non supervisée. L'objectif du projet MIXMOD est de diuser un ensemble logiciel de classication des données par modèles de mélanges à un large spectre d'utilisateurs via plusieurs composants logiciels. La bibliothèque de calcul mixmodLib (C++) en est la pierre angulaire, résultat d'un travail de 15 ans sur la robustesse et la rapidité de calcul. Le package RMixmod, ensemble de fonctions pour R, interfacé avec mixmodLib (grâce à RCPP) est devenu un outil de référence pour la classication des données. Intégrant de nombreuses fonctionnalités (algorithmes de type EM, critères de sélection, modèles parci-monieux, stratégies d'initialisation, ...), cet ensemble logiciel permet de traiter des données quantitatives, qualitatives et mixtes, y compris dans des situations complexes.

Lorsque le jeu de données contient des individus parasites (c'est-à-dire ayant des valeurs aber-rantes, encore appelés outliers) la classication devient alors particulièrement dicile (trouver le bon nombre de classes, aecter le bon label aux vrais individus, ...).

Comment traiter un jeu de données avec des outliers ?

En présence d'outliers, il peut être tentant d'appliquer un pré-traitement pour nettoyer le jeu de données avant de le soumettre à un logiciel de classication. Mais ces méthodes sont généralement peu ecaces.

A l'opposé, on peut considérer que la classication doit s'eectuer sur l'ensemble des individus avec une classe supplémentaire (celle des outliers).

−10 −5 0 5 10 15 20 −5 0 5 10 15 Taux d'outliers : 5% x y −10 −5 0 5 10 15 20 −5 0 5 10 15 Taux d'outliers : 20% x y −10 −5 0 5 10 15 20 −5 0 5 10 15 Taux d'outliers : 50% x y

Figure 1: Jeux de données : 2 classes gaussiennes et des outliers répartis uniformément Capacité de RMixmod à traiter les jeux de données avec des outliers

L'étude consiste à mettre à l'épreuve RMixmod sur ce type de problématique.

(3)

Lorsque la répartition des outliers suit une loi gaussienne, RMixmod la traite comme les autres classes sans diculté. Mais que se passe t-il lorsque les outliers sont répartis selon d'autres lois ? Nous nous intéressons au cas où des outliers, répartis selon une loi uniforme, viennent s'ajouter à des individus issus de 2 lois gaussiennes (Figure 1).

La exibilité des modèles de mélanges (ici gaussiens) permet non seulement de retrouver les classes d'origine (la classe rouge et la classe bleue de la gure 2c représentent bien les classes d'origine (gure 2b)) mais également de faire apparaître une classe contenant les outliers (in-dividus en vert sur la gure 2c). Bien que de distribution uniforme, les outliers ont pu être modélisés ecacement par une gaussienne centrée et de variance susamment grande.

Jeu de données (avec outliers) Individus sans outlier Classication avec RMixmod

−10 −5 0 5 10 15 20 −5 0 5 10 15 Taux d'outliers : 50% x y −10 −5 0 5 10 15 0 5 10 15 data[,1] data[,2] (a) (b) (c)

Figure 2: Classication en présence de 50% d'outliers

La quasi totalité des vrais individus est bien reclassée (voir tableau 1). En revanche, les outliers sont parfois considérés comme des vrais individus (dans 23% des cas). En eet, en simulant selon une loi uniforme, on peut obtenir des individus à l'intérieur des 2 vraies classes. Ce taux correspond d'ailleurs au rapport entre la surface des 2 vraies classes et la surface du support de la loi uniforme. Mais doit-on alors considérer ces individus comme des outliers ?

Classe bleue Classe rouge Classe verte

Classe 1 97% 0% 3%

Classe 2 0% 98% 2%

Outliers 13% 10% 77%

Table 1: Reclassement des individus Références

[1] Lebret R., Iovle S., Langrognet F., C. Biernacki, G. Celeux, G. Govaert (2015). Rmixmod: The R Package of the Model-Based Unsupervised, Supervised and Semi-Supervised Classica-tion Mixmod Library. Journal of Statistical Software, 67(6), 1-29.

[2] Biernacki C., Celeux G., Govaert G., Langrognet F., (2006). Model-Based Cluster and Dis-criminant Analysis with the MIXMOD Software. Computational Statistics and Data Analysis, vol. 51/2, pp. 587-600.

[3] Fraley C., Raftery A.E., (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97, 611-631.

Figure

Figure 1: Jeux de données : 2 classes gaussiennes et des outliers répartis uniformément Capacité de RMixmod à traiter les jeux de données avec des outliers
Figure 2: Classication en présence de 50% d'outliers

Références

Documents relatifs

portementale F91.9 Troubles des conduites, sans précision 3.4 Dépressions liées à une pathologie limite F92.0 Troubles des conduites avec dépression 3.8 Autres pathologies limites

Nous avons examiné de nombreux jeux de données tests pour étudier le comportement de la méthode proposée pour des données aberrantes de différents types : plusieurs modes

La figure 1 indique successivement de haut en bas, pour les 100 premi`eres observations : les mesures de la sortie ˜ y avec les bruits et les valeurs aberrantes, la sortie non

Objectifs : Appréhender comment fut établie historiquement la classication périodique des éléments par Mendeleïev, comprendre la classication actuelle et savoir l'utiliser1.

Le genre Sedum contient un grand nombre de flavonoïdes, qui sont répartis dans 7 groupes comme suit : 72 flavonols et 10 flavones dont la majorité sont glycosylés,

Le traitement des données à des fins archivistiques dans l'intérêt public Michel, Alejandra Published in: DPO news Publication date: 2019 Document Version le PDF de l'éditeur Link

2 Donner les bases géométriques nécessaires à la construction des modèles et à la compréhension de certaines notions en statistiques. 3 Aborder quelques méthodes de

Also, in functional data analysis (FDA) where observed continuous data are measured over a densely sampled grid and then repre- sented by real-valued functions rather than by