• Aucun résultat trouvé

Etude de la robustesse de RMixmod (package de classification par modèles de mélanges) en cas de chevauchement de classes

N/A
N/A
Protected

Academic year: 2021

Partager "Etude de la robustesse de RMixmod (package de classification par modèles de mélanges) en cas de chevauchement de classes"

Copied!
3
0
0

Texte intégral

(1)

HAL Id: hal-01355395

https://hal.archives-ouvertes.fr/hal-01355395

Submitted on 23 Aug 2016

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Etude de la robustesse de RMixmod (package de

classification par modèles de mélanges) en cas de

chevauchement de classes

Florent Langrognet

To cite this version:

Florent Langrognet. Etude de la robustesse de RMixmod (package de classification par modèles de mélanges) en cas de chevauchement de classes. Rencontres R 2015, Jun 2015, Grenoble, France. �hal-01355395�

(2)

Etude de la robustesse de RMixmod (package de classication par modèles de mélanges) en cas de chevauchement de classes

F. Langrogneta

aLaboratoire de Mathématiques de Besançon

UMR 6623 - Université de Franche-Comté - CNRS 16, route de Gray - 25030 Besançon

orent.langrognet@univ-fcomte.fr

Mots clefs : classication, modèles de mélanges, critères de sélection, chevauchement

Les modèles de mélanges orent un cadre probabiliste exible et ecace pour traiter des prob-lématiques de classication supervisée ou non supervisée. L'objectif du projet MIXMOD est de diuser un ensemble logiciel de classication des données par modèles de mélanges à un large spectre d'utilisateurs via plusieurs composants logiciels. La bibliothèque de calcul mixmodLib (C++) en est la pierre angulaire, résultat d'un travail de près de 15 ans sur la robustesse et la rapidité de calcul. Le package RMixmod, ensemble de fonctions pour R, interfacé avec mix-modLib (grâce à RCPP) est devenu un outil de référence pour la classication des données. Intégrant de nombreuses fonctionnalités (algorithmes de type EM, critères de sélection, modèles parcimonieux, stratégies d'initialisation, ...), cet ensemble logiciel permet de traiter des données quantitatives, qualitatives et mixtes, y compris dans des situation complexes.

L'une des dicultés en classication des données réside dans la capacité à donner des bons résultats en cas de chevauchement entre plusieurs classes : trouver le bon nombre de classes, les bons paramètres et les bonnes aectations des individus à ces classes (labels).

L'étude consiste à tester RMixmod sur des jeux de données simulées en contrôlant le degré de chevauchement (ω) entre les classes (grâce au package MixSim) sur des données quantitatives. Capacité de RMixmod à retrouver les paramètres et la classication

Dans un 1er temps, on supposera connus le nombre de classes (2). Il s'agit alors d'analyser

la capacité de RMixmod à retrouver les labels et les paramètres des classes en augmentant le degré de chevauchement.

A titre d'exemple, à partir du jeu de données (Figure 1 (a)) présentant un chevauchement modéré (ω = 0.15), on constate que RMixmod retrouve la classication initiale (Figure 1 (b)) et les paramètres initiaux (Figure 1 (c)) avec une grande précision.

(a) (b) (c)

(3)

Capacité de RMixmod à retrouver le bon nombre de classes (ainsi que les paramètres et la classication)

On se place ici dans une situation avec 6 classes présentant des chevauchements de classes 2 à 2. L'objectif est de répondre à la question cruciale du choix du nombre de classes. Les critères de sélection disponibles dans RMixmod permettent d'y répondre ecacement en tenant compte des objectifs de l'utilisateur.

Ainsi, dans le cas d'un chevauchement (par couple de classes) déni par ω = 0.3 (Figure 2 (a)), le critère BIC (Bayesian Information Criterion) permet de retrouver la classication en 6 com-posants (Figure 2 (b)) alors que le critère ICL (Integrated Completed Likelihood), privilégiant des classes bien séparées permet de choisir une classication en 3 composants (Figure 2 (c)).

(a) (b) (c)

Figure 2: 6 classes avec 3 chevauchements

(a) (b)

Figure 3: Valeurs des critères BIC (a) et ICL (b) en fonction du nombre de classes Références

[1] Lebret R., Iovle S., Langrognet F., C. Biernacki, G. Celeux, G. Govaert (2013). Rmixmod: The R Package of the Model-Based Unsupervised, Supervised and Semi-Supervised Classica-tion Mixmod Library. A paraître dans Journal of Statistical Software.

[2] Biernacki C., Celeux G., Govaert G., Langrognet F., (2006). Model-Based Cluster and Dis-criminant Analysis with the MIXMOD Software. Computational Statistics and Data Analysis, vol. 51/2, pp. 587-600

[3] Ranjan Maitra, Wei-Chen Chen, Volodymyr Melnykov (2012). MixSim: An R Package for Simulating Data to Study Performance of Clustering Algorithms; R. Journal of Statistical Software, Vol. 51, Issue 12, Nov 2012

Figure

Figure 1: 2 classes avec chevauchement modéré
Figure 3: Valeurs des critères BIC (a) et ICL (b) en fonction du nombre de classes Références

Références

Documents relatifs

En faisant passer ia de qa dans qb, pour créer qa' et qb', on a affecté le point ia à un centre duquel il est plus proche que du précédent (à moins que la distance ne soit la

Certaines destructions culturelles intentionnelles dans le cadre de l’éclatement de la Yougoslavie, à Sarajevo, mais aussi à Vukovar, Mostar ou Banja Luka, ont été

This kind of formulation with natural variables and non-overlapping inequalities allows to:. → formulate both UCDDP

،ﱐﺎﻨﻴﻜﻟاو ﺮﻫﺎﻃ ﻲﻠﻋ 2011 ص ، 50 .( ﻲﻠﻣﺎﻌﻟا ﻞﻴﻠﺤﺘﻟا تﻻﺎﻤﻌﺘﺳا ﻦﻣو ﻮﻫ " تﺎﺒﺛ ﻦﻣ ﺔﻳﱰﻣﻮﻜﻴﺴﻟا ﺺﺋﺎﺼﳋا ﺮﻳﺪﻘﺗ Reliability قﺪﺻ و Validity ﻒﻠﺘﳐو

 les chevaux présentés au CIRALE pour un autre motif qu’un traumatisme de la TI (auquel cas : observe-t-on une boiterie du postérieur du côté lésé ou une gêne locomotrice

Démontrons que dans une classe de (R,R’)-différence tout chemin de différence minimal liant les extrémités d’une flèche d’un drapeau tricolore de R ne peut pas être de

Le candidat indiquera sur sa copie le numéro de la question et la lettre correspondante à la réponse choisie. AD et en déduire AE.. 2) Calculer la distance BC. 3) Montrer que

ABCD est un trapèze rectangle en C et D. Donner un encadrement de * d’amplitude 0.5.. a) Déterminer le domaine de définition de. c) La fonction % est-elle prolongeable