• Aucun résultat trouvé

Les principales approches de sélection de variables en régression

CHAPITRE 2 REVUE DE LITTÉRATURE

2.3 Modélisation statistique en science des données

2.3.5 Les principales approches de sélection de variables en régression

La réduction de données comprend deux approches : l’extraction de caractéristiques (aussi appelé création de caractéristiques) et la sélection de caractéristiques (aussi appelé sélection

de sous-ensembles). Une caractéristique étant un ensemble de mesures anthropométriques influe sur la surface corporelle totale dans le contexte de l’étude.

Les méthodes d’extraction de caractéristiques se basent principalement sur la projection et compression des données, telles que la régression des moindres carrés partiels (Wold, Ruhe, Wold, & Dunn, 1984; Helland, 1990; Tenenhaus, 1998) ou encore l’analyse en composantes principales (Rawlings et al., 2001). Cependant, ces méthodes ne font que remplacer l’ensemble de données par un plus petit nombre de composantes, lesquelles sont une combinaison de variables non corrélées représentant la plus grande partie possible de l'ensemble des données originales. Utiliser ces méthodes pourrait résoudre le problème de multicolinéarité, mais ne permettrait pas de répondre à l’objectif de l’étude qui est de déterminer un ensemble de mesures anthropométriques réduit qui explique et prédit le mieux la surface corporelle. De plus, on sait que ces méthodes de réductions de données sont insuffisantes lorsque la relation entre les paramètres (mesures anthropométriques) et la surface corporelle est plus complexe (Meunier, Shu, & Xi, 2009).

L’approche de sélection de caractéristiques consiste à sélectionner un sous-ensemble des caractéristiques pertinentes pour la construction d’un modèle de régression. Outre la diminution de la multicolinéarité et l’amélioration de la performance, le principal avantage de cette approche est qu’aucune information liée aux mesures anthropométriques n’est perdue (Saeys et al., 2007). Ce qui n’est pas le cas de l’extraction de caractéristiques, puisque les données sont transformées. De plus, préserver la sémantique des données facilite l’interprétation des résultats par les experts (Saeys et al., 2007). Par la suite, on appellera la sélection de caractéristiques, sélection de variables pour éviter toute confusion par rapport au contexte de l’étude.

Il y a beaucoup de méthodes de sélection de variables aussi bien en statistique qu’en apprentissage machine. Pour un ensemble de variables, le problème de sélection de variables est de trouver le sous-ensemble le plus optimal parmi les possibles variables (De Silva & Leong, 2015). Selon Guyon et Elisseeff, (2003), Saeys et al., (2007) ainsi que De Silva et

Leong, (2015) l’ensemble de ces méthodes peuvent être regroupé en trois catégories : les méthodes filters et wrappers d’abord introduits par John, Kohavi, et Pfleger, (1994) et les méthodes intégrées dites embedded (ou encore built-in). La première (filters) attribue un poids à chaque variable, tandis que les deux dernières (wrappers et embedded) évaluent les combinaisons de variables différentes De Silva et Leong, (2015). Kohavi et John, (1997) et Guyon et Elisseeff, (2003) ont souligné le contraste existant entre une sélection de variables utiles (cas des méthodes wrappers et embedded) et la problématique de trouver et de classer toutes les variables potentielles (cas des méthodes filters). Sélectionner les variables les plus pertinentes est souvent sous optimal, en particulier si les variables sont redondantes. Inversement, un sous-ensemble de variables utiles exclut beaucoup de variables redondantes certes, mais aussi des variables pertinentes.

Les méthodes Filter qui sélectionnent les variables en les classant selon leurs poids attribués sont généralement utilisées en tant que pré-analyse simple et rapide des données afin d’observer/évaluer les corrélations et dépendances individuelles des variables (Guyon & Elisseeff, 2003; Karagiannopoulos et al., 2007). Par conséquent, elles ignorent la multicolinéarité. C’est le cas des méthodes statistiques univarié tel que la corrélation (Pearson/ Spearman), la Cohérence maximale et redondance minimale (mRMR), etc. qui attribuent un score individuel à chaque variable. La sélection de variables est indépendante de toutes analyses de régression statistique ou tout algorithme d’apprentissage machine (voir figure 2.5 ci-dessous).

Figure 2.5 Schéma de fonctionnement des méthodes Filter

Les méthodes filter vont plutôt sélectionner les propriétés intrinsèques des variables et donc leurs pertinences. Une critique majeure de cette approche est qu’elle conduit à la sélection d’un

Ensemble de toutes les variables Sélection du meilleur ensemble Statistique/ Algorithme d’apprentissage Évaluation de la Performance

sous-ensemble de variables redondantes. La même performance peut être atteinte avec des variables complémentaires. Les méthodes filters ont donc peu de chance de déterminer les combinaisons de variables donnant les meilleures performances (Kohavi & John, 1997; Guyon & Elisseeff, 2003).

Les méthodes dites wrappers considèrent la sélection comme un problème de recherche où différentes combinaisons de variables utiles sont préparées, évaluées et comparées à d’autres combinaisons de variables utiles. Un modèle de régression prédictif est construit afin d’évaluer la combinaison de variables et lui attribuer un score basé sur sa précision (voir Figure 2.6 ci- dessous). Cependant, ces méthodes ont plus de risques de surapprentissage et sont des procédures très lourdes (méthodes itératives) (Kohavi & John, 1997; Karagiannopoulos et al., 2007) et sont indépendantes de l’apprentissage (De Silva & Leong, 2015). C’est le cas des analyses de régression pas-à-pas (forward/ backward), régression exhaustive, séquentielle ou par élimination récursive.

Figure 2.6 Schéma de fonctionnement des méthodes Wrapper

Dans bien des cas, utiliser une méthode de sélection de variables Embedded sera plus efficace que les méthodes wrappers. En effet, bien que similaire, la sélection de variables est directement optimisée par une fonction objective comprenant un terme pour la qualité d’ajustement et une pénalité pour le nombre de variables (voir Figure 2.7 ci-dessous) et est donc, dépendante de l’apprentissage (De Silva & Leong, 2015). Le Tableau 2.8 ci-après présente un résumé des inconvénients et avantages de chaque méthode.

Ensemble de toutes les variables

Évaluation de la Performance Sélection du meilleur sous-ensemble

Génère un sous-ensemble

Statistique/ Algorithme d’apprentissage

Figure 2.7 Schéma de fonctionnement des méthodes Embedded

Tableau 2.8 Avantages (+) et inconvénients (-) des différentes méthodes de sélection de variables

Méthodes Critère Recherche Évaluation Résultats

« Filters » Pertinence d’une variable / sous- ensembles variables

Classe par ordre

d’importance Tests statistiques

Robuste surapprentissage (+)

Interactions variables ignorées (-) Échoue à sélectionner les bonnes variables les plus utiles (-)

« Wrappers » Utilité des

sous- ensembles variables Espace de toutes les variables Validation croisée Trouve les variables les plus utiles (+) Tendance à surapprendre (-) Temps de calcul élevés (-)

« Embedded » Guidé par le processus d’apprentissage

Moins coûteux en ressources (+) Moins sensible au surapprentissage (+) Ces méthodes utilisent l’information du modèle construit afin d’inclure la structure des corrélations des variables dans le calcul de leurs importances. C’est le cas de la régression LASSO, Elastic Net ou des algorithmes d’apprentissage machine présentés au chapitre 2.3.9.

2.3.6 Comparaison entre modèles linéaires et modèles d’apprentissage machine