• Aucun résultat trouvé

B Méthodes d’apprentissage supervisé

Nous présentons les principales approches de classification qui sont utilisées pour la prédiction de classe d’appartenance dans les divers chapitres de ce travail. Plus de détails sur les méthodes d’apprentissage peuvent être trouvés dans le livre de Hastie, Tibshirani et Friedman[44].

B1 Arbre de Classification et de Régression (CART)

Il s’agit d’un partitionnement recursif de l’ensemble des attributs (variables de pré-dictions) selon les valeurs qui minimise une fonction de coût, telle que la somme des erreurs quadratiques. Cela a pour objectif de mieux séparer les individus et ainsi, les classer. Il existe plusieurs méthodes dont CART (Classification And Regression Tree) [19] et CHAID (CHi-square Adjusted Interaction Decision), le choix se fait par rapport aux critères de partitionnement voulus. Elles s’appliquent peu importe la nature de la variable à prédire : qualitative (discrète) ou quantitative (continue). Ainsi, il existe deux types d’arbres de décision :

— Arbres de classification : comme leur nom l’indique, il s’agit d’expliquer une variable de type nominal (facteur). L’idée est qu’ à chaque partitionnement, on cherche parmi toutes les coupures possibles celles qui séparent au mieux les classes [18] ; en donnant deux nœuds fils les plus homogènes possibles et en minimisant une certaine fonction d’impureté considérée des deux nœuds fils par rapport au nœud père ;

— Arbres de régression : la variable expliquée est de type numérique et donc conti-nue et l’objectif est de prédire une valeur la plus proche possible de la valeur ob-servée. La construction d’un tel arbre implique la définition d’une suite de nœuds où chacun permettrait de faire une partition des observations en 2 groupes en se basant sur des variables prédictives.

L’approche inclut donc la définition en premier lieu d’un critère pour sélectionner le meilleur nœud possible à une étape donnée, ensuite établit une condition d’arrêt de la phase découpage et donc un nœud terminal (feuille), l’affectation au nœud terminal de la classe ou la valeur la plus probable, l’élagage de l’arbre dans le cas où les nœuds deviennent trop nombreux et cela en procédant à une sélection d’un sous arbre optimal à partir de l’arbre entier, ensuite il est question de valider l’arbre à l’aide d’une des techniques de validation présentées dans le paragraphe 2.

B2 Régression logistique

La régression logistique ou régression binomiale estime la probabilité qu’une caracté-ristique Y (variable à prédire) soit présente (par exemple, la probabilité d’estimation du "succès") étant données les valeurs des variables prédictives (X).

Dans cette partie nous présentons le cas d’une seule variable prédictive catégorielle X.

π = P (Y = 1|X = x) représente la chance d’obtenir une valeur Y = 1 de la variable

à prédire sachant qu’on observe la modalité x de la variable prédictive X.

Bien entendu, en régression logistique les observations utilisées sont supposées indé-pendantes. Bien que n’assumant pas de relation linéaire entre la variable à prédire et les variables prédictives, elle suppose, néanmoins, une relation linéaire entre le logit (cf. plus bas) des variables prédictives et la réponse (la variable à prédire).

Les variables indépendantes utilisées peuvent être des transformations non linéaires des variables indépendantes originales.

Concernant la variable à prédire, il n’est pas impératif qu’elle obéisse à une loi nor-male, mais elle doit plutôt obéir à une distribution exponentielle (binomiale, Poisson, multinomiale, normale).

La régression logistique binaire suppose la distribution binomiale de la réponse (va-riable à prédire), de plus l’homogénéité de la variance n’a pas besoin d’être satisfaite. Elle utilise l’estimation du maximum de vraisemblance (MLE) , comme les modèles linéaires généralisés, plutôt que la méthode des moindres carrés pour estimer les pa-ramètres, et s’appuie donc sur des approximations à grande échelle.

Les modèles logit sont un cas particulier des modèles log-linéaires. Dans le cas où une variable à prédire binaire dans le modèle log-linéaire, il est possible de construire les logits pour aider à l’interprétation du modèle log-linéaire. Certains modèles logit avec seulement des variables catégorielles ont des modèles log-linéaires équivalents. Le modèle Logit modélise comment la variable de réponse binaire dépend d’un en-semble de variables explicatives il partage le même composant aléatoire : Y qui est binomial et la même composante systématique (fonction linéaire des variables expli-catives) avec le modèle Probit, cependant, ils diffèrent dans la fonction de lien. Le modèle de régression logistique en considérant variable prédictive X comme l’un des facteurs de risque pouvant contribuer au phénomène étudié. La probabilité de succès dépendra des niveaux du facteur de risque. le Logit s’écrit donc sur la forme suivante :

logit(πi) = log πi

donc

πi = exp(β0+ β1xi) 1 + exp(β0+ β1xi)

Les valeurs ajustées entre le modèle logit et probit sont souvent très similaires. L’un est rarement mieux adapté (ou pire) que l’autre, bien que l’on puisse observer davantage de différences avec des données faiblement denses.

B3 Méthodes ensemblistes d’apprentissage

Ensemble learning helps improve machine learning results by combining several mo-dels. This approach allows the production of better predictive performance compared to a single model

B3.1 Random Forest

Dans les modèles de forêts d’arbres aléatoires [17], chaque arbre est construit à partir d’un échantillon prélevé avec remise de l’ensemble d’apprentissage. De plus, au lieu d’utiliser toutes les observations, on en sélectionne aléatoirement un sous-ensemble afin de poursuivre la randomisation de l’arbre. En conséquence, le biais de la forêt augmente légèrement, mais en raison de la moyenne d’arbres moins corrélés, sa va-riance diminue, ce qui se traduit par un meilleur modèle global.

Dans un algorithme d’arbres complétement aléatoires, le caractère aléatoire est plus accentué car les seuils de fractionnement sont randomisés : au lieu de rechercher le seuil le plus discriminant, des seuils sont tirés aléatoirement pour chaque caractéris-tique candidate et le meilleur de ces seuils générés aléatoirement est sélectionné en tant que règle de fractionnement. Cela permet généralement de réduire un peu plus la variance du modèle, au détriment d’une augmentation légèrement plus importante du biais.

B3.2 Bagging

La méthode "Bootstrapped Aggregation" (Bagging) [16] est une des méthodes d’en-sembles qui crée plusieurs modèles de même type (utilisant la même méthode de classifiaction) sur différents sous-échantillons du même jeu de données. Les prédic-tions faites sur chaque modèle sont combinées pour proposer un résultat global. Cette approche est particulièrement intéressante pour les méthodes de classification et de régression sensibles à l’échantillonage telles que les arbres de décison.

B3.3 Gradient Boosted Machine

Le boosting est une technique itérative qui ajuste le poids d’une observation en fonc-tion de la dernière classificafonc-tion. Si une observafonc-tion a été mal classée, elle tente d’en

augmenter le poids et inversement. Le boosting réduit en général l’erreur de biais et construit de puissants modèles prédictifs. Cependant, ils peuvent parfois être trop ajustés sur les données de l’échantillon d’apprentissage.

Le "Boosting" a été généralisé et adapté sous la forme de "Gradient Boosted Machine" (GBM) [38] pour être utilisée avec les arbres de décision CART.

C Méthodes de validation d’un modèle de classification