• Aucun résultat trouvé

Cornuéjol [16] et Dreyfus [18] ont proposé une méthodologie de conception d’un modèle d’apprentissage basée sur trois phases :

1. sélection des données d’entrée pour se limiter aux variables pertinentes ;

2. construction des modèles d’apprentissage en estimant les paramètres des algorithmes ; 3. sélection du meilleur modèle et estimation de ses performances.

La suite des travaux présentés dans ce manuscrits s’appuient sur les méthodes présentées dans cette section.

4.5.1 Sélection des données d’entrée

L’ensemble des variables d’entrée doit contenir de manière exhaustive les variables ex- plicatives pertinentes et doit chercher à éviter les variables redondantes ou corrélées. Les variables d’entrées qui ont moins d’influence sur la prédiction que le bruit sont des causes d’erreurs sur le résultat la classification.

Limiter le nombre de données explicatives permet également de rendre la construction des algorithmes et leur exploitation plus rapide et plus robuste. Ceci est particulière- ment vrai pour les réseaux de neurones dont le nombre de variables d’entrées est égal au nombre de neurones.

Le critère d’Akaike permet de comparer plusieurs modèles ayant des vecteurs de variables explicatives différents. Le meilleur modèle est celui dont le critère AIC "Akaike Informa-

tion Criterion" (équation 4.2) est minimal. N est le nombre total d’instances, q le nombre

de variables explicatives, et EQM l’erreur quadratique moyenne sur l’ensemble des don- nées. Si deux modèles ont la même erreur EQM, le modèle retenu sera celui qui aura le moins de variables.

AIC = Nl og (EQM) + 2(q + 1) (4.2)

Il existe plusieurs méthodes de sélection des variables explicatives. Les méthodes les plus simples et largement utilisées dans la pratique sont les méthodes d’élimination (stepwise

backward regression) et de construction (stepwise forward regression).

La méthode stepwise backward regression consiste à éliminer une par une les variables les moins pertinentes. On commence par identifier le meilleur modèle parmi tous les mo- dèles ayant q-1 variables. Si le modèle à q variables n’est pas meilleur que celui qui vient d’être identifié, on sélectionne le meilleur modèle parmi les modèles de q-2 variables aux- quels on a retiré une variable. On réitère l’opération jusqu’à ce que le modèle complet soit

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE le meilleur.

La méthode stepwise forward regression consiste à ajouter une par une les variables les plus pertinentes. On identifie tout d’abord le meilleur modèle parmi les q modèles com- prenant une seule variable. Puis, on créé q-1 modèles en ajoutant une variable au mo- dèle retenu précédemment. On identifie le meilleur modèle parmi les q-1 modèles com- prenant 2 variables. L’opération est réitérée jusqu’à ce que la performance des modèles n’évolue plus.

Une troisième méthode, plus performante est la méthode du descripteur sonde [13]. Les variables d’entrée sont tout d’abord classées par ordre décroissant d’influence sur la sortie en utilisant une orthogonalisation de Gram-Schmidt. On ajoute aux variables candidates, une variable supplémentaire, appelée descripteur sonde, dont les valeurs sont calculées aléatoirement. On procède au classement des variables en incluant le descripteur sonde et on élimine toutes les variables moins bien classées que lui.

4.5.2 Construction des modèles d’apprentissage

La construction des modèles d’apprentissage consiste à définir leur architecture, à nor- maliser les données d’entrée et de sortie puis à estimer les paramètres des algorithmes.

L’architecture du modèle d’apprentissage est définie a priori selon le type d’algorithme (réseau de neurones, SVM, arbre de décision,...).

Un modèle d’apprentissage peut être linéaire ou non linéaire. Nous nous intéressons à ce second type d’apprentissage. La normalisation et le centrage des données d’entrée et de sortie est indispensable avant tout apprentissage. En pratique, on cherche à faire en sorte que la moyenne des variables soit égale à 0 et que son écart type soit égal à 1.

Pour un algorithme défini par un vecteur de paramètres w comme un réseau de neu- rones, l’estimation des paramètres consiste à trouver les composantes de ce vecteur en minimisant la fonction coût J(w ) (équation 4.1 ).

L’apprentissage peut être adaptatif ou non adaptatif et avec ou sans régularisation. G. Dreyfus [18] propose une méthode d’estimation des paramètres des algorithmes en fonc- tion du type de modèle d’apprentissage.

Les méthodes d’apprentissage utilisées pour les modèles linéaires telles que la méthode des moindre carrés ne peuvent être mises en œuvre pour les modèles non linéaires. Une méthode itérative d’évaluation du gradient de la fonction coût et de modification des paramètres en fonction de ce gradient est nécessaire. La méthode proposée par G.

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE Dreyfus [18] consiste à :

— initialiser les paramètres ;

— calculer le gradient de la fonction coût (par exemple, avec la méthode de retropo- gation pour un réseau de neurones [47]) ;

— modifier les paramètres par une méthode de minimisation ;

— arrêter la procédure lorsqu’un nombre maximal d’itération a été atteint ou lorsque la norme du gradient est inférieure à une limite.

Si on souhaite enrichir la base d’apprentissage avec de nouveaux cas, il faut mettre en œuvre un modèle d’apprentissage adaptatif afin de faire évoluer les algorithmes en tenant compte des dérives du processus dues aux nouvelles données. Pour cela, on peut appli- quer une technique de modification adaptative des paramètres telle que celle du gradient stochastique [18].

Lorsque le nombre d’exemples est petit, le risque de sur-apprentissage est grand, on peut alors rencontrer des difficultés pour généraliser le problème. Il est alors possible d’inté- grer une méthode de régularisation qui permet de limiter l’amplitude des paramètres du modèle. Deux modes de régularisation existent :

— l’arrêt prématuré qui consiste à arrêter l’apprentissage avant la convergence ; — la pénalisation qui consiste à ajouter un terme à la fonction de coût ce qui pénalise

les algorithmes ayant des poids élevés (méthode de "modération des poids").

4.5.3 Sélection et évaluation des modèles d’apprentissage

La sélection du "meilleur" modèle d’apprentissage consiste tout d’abord à identifier la meilleure architecture puis le meilleur algorithme et ses paramètres pour cette architec- ture. Le meilleur modèle sera celui dont les performances seront les plus élevées selon les critères définis ci-après (erreur quadratique moyenne, pourcentage d’erreur, surface sous la courbe Receiver Operating Characteristic Curve (ROC).

La construction d’un modèle sur l’ensemble des données d’apprentissage augmente le risque de sur-apprentissage. Pour éviter cela, une méthode de sélection des modèles par validation croisée peut être appliquée. Cette méthode consiste à découper l’ensemble des instances d’apprentissage en deux groupes. L’apprentissage s’effectue sur le premier des deux groupes, puis on teste les résultats des prédictions sur les données du second groupe. On réitère ainsi l’apprentissage sur des groupes différents pour améliorer la gé- néralisation de l’algorithme.

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE Critères d’évaluation des algorithmes

Le choix d’un algorithmes d’apprentissage est basé sur des critères de précision des ré- sultats de prédiction, de robustesse et de coût (durée et facilité de création et d’utilisation des algorithmes).

La précision des résultats de prédiction est évaluée à partir de différents critères :

— l’erreur quadratique moyenne (AQE : Average Quadratic Error) d’un problème de régression (équation 4.3), y(k) étant la valeur réelle de la variable de sortie pour l’exemple k parmi l’ensemble des instances apprises N, et g(k)étant la variable pré- dite ; AQE = v u u t 1 N N X k=1 (y(k)− g(k))2 (4.3)

— le pourcentage d’erreurs de classification et le pourcentage d’erreurs inacceptables. Une erreur sera considérée comme inacceptable lorsqu’elle est optimiste par rap- port à la valeur réelle.

— la surface sous la courbe ROC (Receiver Operating Characteristic Curve) qui donne le taux de résultats « vrais-positifs » par rapport au taux de « faux-positifs ». La sur- face sous la courbe ROC doit être la plus grande possible. Si on obtient une courbe bissectrice telle que la courbe 1 de la figure 4.8, les résultats de la prédiction sont équivalents à des résultats choisis au hasard. Si on compare deux modèles d’ap- prentissage ayant respectivement les courbes ROC 2 et 3, on préférera celui corres- pondant à la courbe 3 dont l’aire est plus proche de 1.

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE

4.6 Positionnement des travaux par rapport à l’utilisation