• Aucun résultat trouvé

Influence des valeurs manquantes sur la sélection de composantes

sélec-tion de composantes en PLS

Nous avons proposé à Titin Agustin Nengsih (étudiante indonésienne qui venait avec une bourse du gouvernement indonésien) un sujet de thèse sur l’influence des valeurs manquantes en régression PLS. Nous avions commencé à nous in-téresser à la manière dont la PLS gérait les valeurs manquantes et s’il était né-cessaire, et si oui dans quels cas, d’utiliser des approches plus sophistiquées. L’arrivée de Titin Agustin Nengsih nous a permis de reprendre ses recherches et de mettre en place une étude par simulation suffisamment conséquente pour aboutir à la rédaction de l’article Nengsih et al. (2019).

Les données manquantes (Little et Rubin (2002)) sont connues pour être un sujet de préoccupation pour la recherche appliquée, en particulier dans le do-maine médical. Plusieurs méthodes ont été développées pour traiter des don-nées incomplètes. La méthode d’imputation est le processus de substitution des données manquantes avant l’estimation des paramètres du modèle.

La régression PLS est un modèle multivarié pour lequel deux algorithmes (SIM-PLS ou NIPALS) peuvent être utilisés pour fournir des estimations des

para-mètres. La régression PLS a été largement utilisée dans le domaine de la re-cherche en santé en raison de son efficacité pour analyser les relations entre la réponse et plusieurs composantes.

Toutefois, la gestion des valeurs manquantes lors de l’utilisation de la régression PLS fait toujours l’objet d’un débat. L’algorithme NIPALS a la propriété intéres-sante de pouvoir fournir des estimations à partir de jeux de données incomplets. La sélection du nombre de composantes pour créer un modèle approprié est une étape clef lors de la régression PLS. Plusieurs approches ont été proposées dans la littérature pour déterminer le nombre de composantes à inclure dans un modèle, tels que le critère Q2, le critère d’information d’Akaike (AIC) ou le cri-tère d’information bayésien (BIC). L’objectif de notre étude de simulations est d’analyser l’impact de la proportion de données manquantes sous l’hypothèse de données manquantes de type MCAR (Missing Completely At Random) et de type MAR (Missing At Random) sur l’estimation du nombre de composantes d’une régression PLS.

Nous avons comparé les critères de sélection du nombre de composantes d’une régression PLS sur des données incomplètes avec l’algorithme NIPALS (NIPALS-PLSR) et la régression PLS sur un jeu de données imputé en utilisant trois mé-thodes d’imputation : l’imputation multiple par des équations enchaînées (MICE,

Multivariate Imputation by Chained Equationsvan Buuren et Groothuis-Oudshoorn (2011)), l’imputation par les k plus proches voisins (KNNimpute, Kowarik et Templ (2016)) et l’imputation basée sur la décomposition en valeurs singulières (SVDimpute, Perry (2015)). Les critères qui ont été comparés sont Q2-LOO, Q2 -10-fold, AIC, AIC-DoF, BIC et BIC-DoF sur différentes proportions (allant de 5% à 50%) de données manquantes et selon le mécanisme MCAR ou MAR.

1. Les données ont été simulées d’après Li et al. (2002b). Le vrai nombre de composantes a été choisi égal à 2, 4 ou 6. Le nombre d’observations n et le nombre de variables p respectent les cinq configurations suivantes :

• n = 100 et p = 20, • n = 80 et p = 25, • n = 60 et p = 33, • n = 40 et p = 50, • n = 20 et p = 100.

2. Les données manquantes sont créées sous l’hypothèse d’un mécanisme MCAR ou d’un mécanisme MAR avec un pourcentage de valeurs man-quantes allant de 5% à 50% par pas de 5%.

3. Les valeurs manquantes sont imputées en utilisant les méthodes MICE,

KNNimputeet SVDimpute.

4. Le nombre de composantes est choisi à l’aide d’une validation croisée LOO (Leave One Out) ou 10-fold calculée sur les données incomplètes à l’aide des deux méthodes standard et adaptative (qui sélectionne la méthode de prédiction en fonction de la présence de valeurs manquantes dans une ligne du tableau de données, Bertrand et Maumy-Bertrand (2020d)). Pour MICE, le nombre de composantes est le mode des nombres de compo-santes obtenus par validation croisée pour chacun des m jeux de données imputées où m est égal à 100 x la proportion de valeurs manquantes, White

et al.(2011).

5. Nous avons aussi fixé à 8 le nombre maximal de composantes pouvant être extraites. Le vrai nombre de composantes est 2, 4 ou 6.

6. Pour chaque combinaison du nombre de vraies composantes, de la pro-portion de valeurs manquantes, de la configuration ligne-colonne et du mécanisme générateur des valeurs manquantes, 1000 réplicats ont été ti-rés.

L’étude par simulations a montré que :

• Le Q2-LOO affiche la meilleure performance quelles que soient les mé-thodes d’imputation. Les performances augmentent lorsque la taille de l’échantillon augmente et diminuent avec une proportion croissante de données manquantes.

• Le nombre de composantes sélectionnées par AIC, AIC-DoF et BIC est presque deux fois plus important que le nombre réel de composants. • Le nombre réel de composantes d’une régression PLS est difficile à

dé-terminer, en particulier pour un échantillon de petite taille et lorsque la proportion de données manquantes est supérieure à 30%.

• L’exécution de MICE a pris beaucoup de temps. Par exemple, lorsque n = 100et que la proportion de données manquantes = 10%, la durée d’exécu-tion de MICE était environ 11 fois plus lente que celle de NIPALS-PLSR. Pour plus de détails, nous invitons le lecteur à consulter l’article Nengsih et al. (2019).

Les recherches présentées dans ce chapitre sont des extensions de la régression des moindres carrés partiels dans deux nouveaux cas :

• les réponses bornées, et dont le support est connu avant que l’expérience ne soit mise en œuvre,

• les données de survie.

Comme pour les contributions proposées au chapitre 3, je me suis intéressée au problème du choix du nombre de composantes ainsi qu’à celui de la sélection des variables.