Utilisation - Cours Apprentissage

On pourra se reporter à l’abondante littérature sur le sujet (Haykin, 1994) pour obtenir des précisions sur les algorithme d’apprentissage et leurs nombreuses variantes. Il est important de rappeler la liste des choix qui sont laissés à l’utilisateur. En effet, même si les logiciels proposent des valeurs par défaut, il est fréquent que cet algorithme connaisse quelques soucis de convergence.

L’utilisateur doit donc d´eterminer

i. les variables d’entrée et la variable de sortie ; leur faire subir comme pour toutes méthodes statistiques, d’éventuelles transformations.

ii. L’architecture du réseau : le nombre de couches cachées (en général une ou deux) qui correspond à une aptitude à traiter des problèmes de non-linéarité, le nombre de neurones par couche cachée. Ces deux choix conditionnent directement le nombre de paramètres (de poids) à estimer. Ils participent à la recherche d’un bon compromis biais/variance c’est-à-dire à l’équilibre entre qualité d’apprentissage et qualité de prévision. À la louche, on considère en pratique qu’il faut un échantillon d’apprentissage au moins dix fois plus grand que le nombre de paramètres à estimer.

4.Exemples 87

iii. Trois autres paramètres interviennent également sur ce compromis : le nombre maximum d’itérations, l’erreur maximum tolérée et un terme éventuel de régularisation (decay). En renforçant ces critères on améliore la qualité de l’apprentissage ce qui peut se faire au détriment de celle de la prévision.

iv. Le taux d’apprentissage ainsi qu’une éventuelle stratégie d’évolution de celui-ci.

En pratique, tous ces paramètres ne sont pas réglés simultanément par l’utilisateur. Celui-ci est confronté

à des choix concernant principalement le contrôle du sur-apprentissage ; choix du paramètre : limiter le nombre de neurones ou la durée d’apprentissage ou encore augmenter le coefficient de pénalisation de la norme des paramètres ; choix du mode d’estimation de l’erreur : échantillon test, validation croisée ou bootstrap. Ces choix sont souvent pris par défaut dans la plupart des logiciels commerciaux. Il est important d’en connaˆıtre les implications.

Le nombre de couches reste restreint. On montre en effet que toute fonction que toute fonction conti-nue d’un compact de IR^P dans IR^q peut être approchée avec une précision arbitraire par un réseau à une couche cachée en adaptant le nombre de neurones. Leccontrôle de la complexité du modèle ou plus généralement d’un sur-apprentissage peut se faire à l’aide de plusieurs paramètres : le nombre de neurones, une pénalisation de la norne du vecteur des poids ou paramètres comme enridge(régularisation) ou encore par la durée de l’apprentissage. Ces paramètres sont optimisés en considérant un échantillon de validation et le plus simple consiste à arrêté l’apprentissage lorsque l’erreur sur l’échantillon de validation commence

à se dégrader tandis que celle sur l’échantillon d’apprentissage ne peut que continuer à décroˆıtre.

Les champs d’application des PMC sont très nombreux : discrimination, prévision d’une série tempo-relle, reconnaissance de forme. . . Ils sont en général bien explicités dans les documentations des logiciels spécialisés.

Les critiques principales énoncées à l’encontre du PMC concernent les difficultés liés à l’apprentis-sage (temps de calcul, taille de l’échantillon, localité de l’optimum obtenu) ainsi que son statut de boˆıte noir. En effet, contrairement à un modèle de discrimination ou un arbre, il est a priori impossible de connaˆıtre l’influence effective d’une entrée (une variable) sur le système dès qu’une couche cachée inter-vient. Néanmoins, des techniques de recherche de sensibilité du système à chacune des entrées permettent de préciser les idées et, éventuellement de simplifier le système en supprimant certaines des entrées.

En revanche, ils possèdent d’indéniables qualités lorsque l’absence de linéarité et/ou le nombre de va-riables explicatives rendent les modèles statistiques traditionnelles inutilisables. Leur flexibilité alliée à une procédure d’apprentissage intégrant la pondération (le choix) des variables comme de leurs interactions peuvent les rendre très efficaces (Besse et col. 2001).

4 Exemples

Les réseaux de neurones étant des boˆıtes noires, les résultats fournis ne sont guère explicites et ne conduisent donc pas à des interprétations peu informatives du modèle. Seule une étude des erreurs de prévisions et, dans le cas d’une régression, une étude des résidus, permet de se faire une idée de la qualité du modèle.

4.1 Cancer du sein

La prévision de l’échantillon test par un réseau de neurones conduit à la matrice de confusion : benign malignant

FALSE 83 1

TRUE 3 50

et donc une erreur estim´ee de 3%.

4.2 Concentration d’ozone

La comparaison des résidus (figure8.3montre que le problème de non-linéarité qui apparaissait sur les modèles simples (MOCAGE, régression linéaire) est bien résolu et que ces résidus sont plutôt moins

étendus, mais le phénomène d’hétéroscédasticité est toujours présent quelque soit le nombre de neurones

0 50 100 200 300

050150250

Valeurs predites

Valeurs observees

0 50 100 200 300

−100−50050100

Valeurs predites

Résidus

FIG. 8.3 – Ozone : Valeurs observées et résidus de l’échantillon test en fonction des valeurs prédites par un réseau de 10 neurones

utilisés. Il a été choisi relativement important (10) et conduit donc à un bon ajustement (R² = 0,77) mais devra être réduit pour optimiser la prévision.

Comme pour les arbres de décision, les réseaux de neurones ne proposent pas de modèles très efficaces sur cet exemple. Les taux d’erreur de prévision du dépassement du seuil sont de 14,4% à partir du modèle quantitatif et de 15,6% avec une prévision qualitative.

4.3 Carte visa

Une fonction de la librairiee1071, pratique mais tr`es consomatrice de calculs, propose une automati-sation de l’optimiautomati-sation des param`etres (decay, nombre de neurones).

plot(tune.nnet(CARVP .,data=visapptq,size=2 :4,decay=0 :2))

Elle produit une carte de type contour permettant d’évaluer ”à l’œil” les valeurs optimales. La prévision de l’échantillon test par ce réseau de neurones conduit à la matrice de confusion :

pred.vistest FALSE TRUE FALSE 110 16

TRUE 27 47

et donc une erreur estim´ee de 21,5%.

Chapitre 9

Agr´egation de mod`eles

1 Introduction

Ce chapitre décrit des algorithmes plus récemment apparus dans la littérature. Ils sont basés sur des stratégies adaptatives (boosting) ou aléatoires (bagging) permettant d’améliorer l’ajustement par une com-binaison ou agrégation d’un grand nombre de modèles tout en évitant un sur-ajustement. Ces algorithmes se sont développés à la frontière entre apprentissage machine (machine learning) et Statistique. De nom-breux articles comparatifs montrent leur efficacité sur des exemples de données simulées et surtout pour des problèmes réels complexes (voir par exemple Ghattas 2000) tandis que leurs propriétés théoriques sont un thème de recherche actif.

Deux types d’algorithmes sont décrits schématiquement dans ce chapitre. Ceux reposants sur une construction aléatoires d’une famille de modèle :baggingpourbootstrap aggregating(Breiman 1996), les forêts aléatoires (random forests) de Breiman (2001) qui propose une amélioration dubaggingspécifique aux modèles définis par des arbres binaires (CART). Ceux basés sur leboosting(Freund et Shapiro,1996), reposent sur une constructionadaptative, déterministe ou aléatoire, d’une famille de modèles.

Les principes du baggingou du boosting s’appliquent à toute méthode de modélisation (régression, CART, réseaux de neurones) mais n’ont d’intérêt, et réduisent sensiblement l’erreur de prévision, que dans le cas de modèlesinstables, donc plutôt non linéaires. Ainsi, l’utilisation de ces algorithmes n’a guère de sens avec la régression multilinéaire ou l’analyse discriminante. Ils sont surtout mis en œuvre en association avec des arbres binaires comme modèles de base.

2 Famille de mod`eles al´eatoires

Dans le document Cours Apprentissage (Page 86-89)