dad : package pour l'analyse de données multi-groupes via les densités de probabilité associées

(1)

HAL Id: hal-01843730

https://hal.archives-ouvertes.fr/hal-01843730

Submitted on 18 Jul 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

dad : package pour l’analyse de données multi-groupes via les densités de probabilité associées

Rachid Boumaza, Pierre Santagostini, Smail Yousfi, Sabine Demotes-Mainard

To cite this version:

Rachid Boumaza, Pierre Santagostini, Smail Yousfi, Sabine Demotes-Mainard. dad : package pour

l’analyse de données multi-groupes via les densités de probabilité associées. Septièmes Rencontres R,

Jul 2018, Rennes, France. 2018. �hal-01843730�

(2)

fdiscd.predict et fdiscd.misclass (Analyse discriminante, [1])

Données : 531 feuilles ; 31 rosiers ; 6 variétés. Sur un lot de feuilles par rosier (entre 5

^*

et 47 feuilles par rosier), on a mesuré 4 variables : Nombre de folioles, Longueur du rachis, Longueur et Largeur de la foliole terminale.

Question : Peut-on prédire la variété au vu d’un lot de feuilles ? Résultats : Taux d’erreur : 3.3 % (0 %)

Paramétrage : Estimation des densités par la méthode du noyau (si paramètre de la fenêtre de lissage est égale à 0.35) Densité par classe : moyenne pondérée des densités de la classe

Objectif et type de données

Table 1. Pour chaque groupe (occasion) t dans {1,…,T}, on observe les mêmes p variables quantitatives sur n

_t

individus.

Table 2. La variable qualitative G, définie sur les groupes, est à valeurs dans {1,…,q}. La modalité 1 est prise T

₁

fois…

Etendre des techniques classiques (ACP, MDS –multidimensional scaling– ou positionnement multidimensionnel, classification classification hiérarchique, analyse discriminante) opérant sur des tableaux « individus x variables » à des listes de tableaux ayant les mêmes noms de colonnes :

• Explorer des données multivariées de type numeric (Table 1) sur des individus organisés en groupes.

• Connaissant les mesures de p variables numériques sur T+1 groupes d’individus (Table 2) et la valeur d’une variable G de type factor pour chacun des T premiers groupes, prédire la valeur de G pour le groupe (T+1).

Principe

• A chaque groupe d’individus, on associe une densité de probabilité. La densité est supposée dans L

²

(R

^p

). Elle peut être gaussienne ou non.

Elle peut être estimée par la méthode du noyau ou paramétriquement (si gaussienne).

• On définit une mesure de distance / divergence / dissimilarité entre 2 densités (L2, Hellinger, Jeffreys…).

Présentation des principales fonctions statistiques du package

fmdsd (Positionnement multidimensionnel, MDS) : Calcule la matrice TxT des dissimilarités inter-densités, à laquelle est appliquée la fonction cmdscale du package stats. Retourne les coordonnées des T points représentant les groupes de sorte que les distances 2 à 2 entre points soient d’autant plus grandes que les 2 groupes associés sont éloignés / différents.

fhclustd (Classification hiérarchique) : Calcule la matrice TxT des dissimilarités entre densités prises 2 à 2, à laquelle est appliquée la fonction hclust du package stats . Construit une hiérarchie (suite de partitions) et permet de la visualiser par un dendrogramme.

fpcad (Analyse en composantes principales, ACP, [2]) : Construit une représentation approchée des densités (associées aux groupes) et les aides classiques à l’interprétation. La fonction interpret complète fpcad en fournissant un outil d’interprétation des facteurs principaux en termes de moments.

Données : Chaque rosier est noté à 3 reprises par 16 juges

Descripteurs architecturaux : Port érigé, densité du feuillage, symétrie 10 groupes à 42 lignes et 3 colonnes chacun.

Voir aussi le poster de Thierry et al.illustrant la méthode : « Comparaison de méthodes d’analyses multivariées pour la description de données de germination de semences ».

Bibliographie

[1] Boumaza, R. (2004). Discriminant analysis with independently repeated multivariate measurements: An L² approach. {\it Computational Statistics and Data Analysis}, 47(4), 823-843.

[2] Boumaza, R., Yousfi, S. and Demotes-Mainard, S. (2015). Interpreting the principal component analysis of multivariate density functions. {\it Theory and Methods}, 44(16), 3321-3339.