• Aucun résultat trouvé

Utilisation

Dans le document Cours Apprentissage (Page 86-89)

On pourra se reporter `a l’abondante litt´erature sur le sujet (Haykin, 1994) pour obtenir des pr´ecisions sur les algorithme d’apprentissage et leurs nombreuses variantes. Il est important de rappeler la liste des choix qui sont laiss´es `a l’utilisateur. En effet, mˆeme si les logiciels proposent des valeurs par d´efaut, il est fr´equent que cet algorithme connaisse quelques soucis de convergence.

L’utilisateur doit donc d´eterminer

i. les variables d’entr´ee et la variable de sortie ; leur faire subir comme pour toutes m´ethodes statistiques, d’´eventuelles transformations.

ii. L’architecture du r´eseau : le nombre de couches cach´ees (en g´en´eral une ou deux) qui correspond `a une aptitude `a traiter des probl`emes de non-lin´earit´e, le nombre de neurones par couche cach´ee. Ces deux choix conditionnent directement le nombre de param`etres (de poids) `a estimer. Ils participent `a la recherche d’un bon compromis biais/variance c’est-`a-dire `a l’´equilibre entre qualit´e d’apprentissage et qualit´e de pr´evision. `A la louche, on consid`ere en pratique qu’il faut un ´echantillon d’apprentissage au moins dix fois plus grand que le nombre de param`etres `a estimer.

4.Exemples 87

iii. Trois autres param`etres interviennent ´egalement sur ce compromis : le nombre maximum d’it´erations, l’erreur maximum tol´er´ee et un terme ´eventuel de r´egularisation (decay). En renforc¸ant ces crit`eres on am´eliore la qualit´e de l’apprentissage ce qui peut se faire au d´etriment de celle de la pr´evision.

iv. Le taux d’apprentissage ainsi qu’une ´eventuelle strat´egie d’´evolution de celui-ci.

En pratique, tous ces param`etres ne sont pas r´egl´es simultan´ement par l’utilisateur. Celui-ci est confront´e

`a des choix concernant principalement le contrˆole du sur-apprentissage ; choix du param`etre : limiter le nombre de neurones ou la dur´ee d’apprentissage ou encore augmenter le coefficient de p´enalisation de la norme des param`etres ; choix du mode d’estimation de l’erreur : ´echantillon test, validation crois´ee ou bootstrap. Ces choix sont souvent pris par d´efaut dans la plupart des logiciels commerciaux. Il est important d’en connaˆıtre les implications.

Le nombre de couches reste restreint. On montre en effet que toute fonction que toute fonction conti-nue d’un compact de IRP dans IRq peut ˆetre approch´ee avec une pr´ecision arbitraire par un r´eseau `a une couche cach´ee en adaptant le nombre de neurones. Leccontrˆole de la complexit´e du mod`ele ou plus g´en´eralement d’un sur-apprentissage peut se faire `a l’aide de plusieurs param`etres : le nombre de neurones, une p´enalisation de la norne du vecteur des poids ou param`etres comme enridge(r´egularisation) ou encore par la dur´ee de l’apprentissage. Ces param`etres sont optimis´es en consid´erant un ´echantillon de validation et le plus simple consiste `a arrˆet´e l’apprentissage lorsque l’erreur sur l’´echantillon de validation commence

`a se d´egrader tandis que celle sur l’´echantillon d’apprentissage ne peut que continuer `a d´ecroˆıtre.

Les champs d’application des PMC sont tr`es nombreux : discrimination, pr´evision d’une s´erie tempo-relle, reconnaissance de forme. . . Ils sont en g´en´eral bien explicit´es dans les documentations des logiciels sp´ecialis´es.

Les critiques principales ´enonc´ees `a l’encontre du PMC concernent les difficult´es li´es `a l’apprentis-sage (temps de calcul, taille de l’´echantillon, localit´e de l’optimum obtenu) ainsi que son statut de boˆıte noir. En effet, contrairement `a un mod`ele de discrimination ou un arbre, il est a priori impossible de connaˆıtre l’influence effective d’une entr´ee (une variable) sur le syst`eme d`es qu’une couche cach´ee inter-vient. N´eanmoins, des techniques de recherche de sensibilit´e du syst`eme `a chacune des entr´ees permettent de pr´eciser les id´ees et, ´eventuellement de simplifier le syst`eme en supprimant certaines des entr´ees.

En revanche, ils poss`edent d’ind´eniables qualit´es lorsque l’absence de lin´earit´e et/ou le nombre de va-riables explicatives rendent les mod`eles statistiques traditionnelles inutilisables. Leur flexibilit´e alli´ee `a une proc´edure d’apprentissage int´egrant la pond´eration (le choix) des variables comme de leurs interactions peuvent les rendre tr`es efficaces (Besse et col. 2001).

4 Exemples

Les r´eseaux de neurones ´etant des boˆıtes noires, les r´esultats fournis ne sont gu`ere explicites et ne conduisent donc pas `a des interpr´etations peu informatives du mod`ele. Seule une ´etude des erreurs de pr´evisions et, dans le cas d’une r´egression, une ´etude des r´esidus, permet de se faire une id´ee de la qualit´e du mod`ele.

4.1 Cancer du sein

La pr´evision de l’´echantillon test par un r´eseau de neurones conduit `a la matrice de confusion : benign malignant

FALSE 83 1

TRUE 3 50

et donc une erreur estim´ee de 3%.

4.2 Concentration d’ozone

La comparaison des r´esidus (figure8.3montre que le probl`eme de non-lin´earit´e qui apparaissait sur les mod`eles simples (MOCAGE, r´egression lin´eaire) est bien r´esolu et que ces r´esidus sont plutˆot moins

´etendus, mais le ph´enom`ene d’h´et´erosc´edasticit´e est toujours pr´esent quelque soit le nombre de neurones

0 50 100 200 300

050150250

Valeurs predites

Valeurs observees

0 50 100 200 300

−100−50050100

Valeurs predites

Résidus

FIG. 8.3 – Ozone : Valeurs observ´ees et r´esidus de l’´echantillon test en fonction des valeurs pr´edites par un r´eseau de 10 neurones

utilis´es. Il a ´et´e choisi relativement important (10) et conduit donc `a un bon ajustement (R2 = 0,77) mais devra ˆetre r´eduit pour optimiser la pr´evision.

Comme pour les arbres de d´ecision, les r´eseaux de neurones ne proposent pas de mod`eles tr`es efficaces sur cet exemple. Les taux d’erreur de pr´evision du d´epassement du seuil sont de 14,4% `a partir du mod`ele quantitatif et de 15,6% avec une pr´evision qualitative.

4.3 Carte visa

Une fonction de la librairiee1071, pratique mais tr`es consomatrice de calculs, propose une automati-sation de l’optimiautomati-sation des param`etres (decay, nombre de neurones).

plot(tune.nnet(CARVP .,data=visapptq,size=2 :4,decay=0 :2))

Elle produit une carte de type contour permettant d’´evaluer ”`a l’œil” les valeurs optimales. La pr´evision de l’´echantillon test par ce r´eseau de neurones conduit `a la matrice de confusion :

pred.vistest FALSE TRUE FALSE 110 16

TRUE 27 47

et donc une erreur estim´ee de 21,5%.

Chapitre 9

Agr´egation de mod`eles

1 Introduction

Ce chapitre d´ecrit des algorithmes plus r´ecemment apparus dans la litt´erature. Ils sont bas´es sur des strat´egies adaptatives (boosting) ou al´eatoires (bagging) permettant d’am´eliorer l’ajustement par une com-binaison ou agr´egation d’un grand nombre de mod`eles tout en ´evitant un sur-ajustement. Ces algorithmes se sont d´evelopp´es `a la fronti`ere entre apprentissage machine (machine learning) et Statistique. De nom-breux articles comparatifs montrent leur efficacit´e sur des exemples de donn´ees simul´ees et surtout pour des probl`emes r´eels complexes (voir par exemple Ghattas 2000) tandis que leurs propri´et´es th´eoriques sont un th`eme de recherche actif.

Deux types d’algorithmes sont d´ecrits sch´ematiquement dans ce chapitre. Ceux reposants sur une construction al´eatoires d’une famille de mod`ele :baggingpourbootstrap aggregating(Breiman 1996), les forˆets al´eatoires (random forests) de Breiman (2001) qui propose une am´elioration dubaggingsp´ecifique aux mod`eles d´efinis par des arbres binaires (CART). Ceux bas´es sur leboosting(Freund et Shapiro,1996), reposent sur une constructionadaptative, d´eterministe ou al´eatoire, d’une famille de mod`eles.

Les principes du baggingou du boosting s’appliquent `a toute m´ethode de mod´elisation (r´egression, CART, r´eseaux de neurones) mais n’ont d’int´erˆet, et r´eduisent sensiblement l’erreur de pr´evision, que dans le cas de mod`elesinstables, donc plutˆot non lin´eaires. Ainsi, l’utilisation de ces algorithmes n’a gu`ere de sens avec la r´egression multilin´eaire ou l’analyse discriminante. Ils sont surtout mis en œuvre en association avec des arbres binaires comme mod`eles de base.

2 Famille de mod`eles al´eatoires

Dans le document Cours Apprentissage (Page 86-89)

Documents relatifs