• Aucun résultat trouvé

De l’utilit´e du statisticien

Dans le document Cours Apprentissage (Page 113-119)

Le travail demand´e d´eborde souvent du rˆole d’un statisticien car la masse et la complexit´e des donn´ees peuvent n´ecessiter le d´eveloppement d’interfaces et d’outils graphiques sophistiqu´es permettant un acc`es ais´es aux donn´ees, comme `a des r´esultats, par l’utilisateur finale `a l’aide par exemple d’un simple navigateur sur l’intranet de l’entreprise. N´eanmoins, au del`a de ces aspects plus ”informatiques”, l’objectif principal reste une “quˆete de sens” en vue de faciliter les prises de d´ecision tout en en pr´eservant la fiabilit´e. Ainsi, la pr´esence ou le contrˆole d’une expertise statistique reste incontournable car la m´econnaissance des limites et pi`eges des m´ethodes employ´ees peut conduire `a des aberrations discr´editant la d´emarche et rendant caducs les investissements consentis. En effet, il faut bien admettre, et faire admettre, que, mˆeme si un petit quart

FIG. 11.4 – Shadoks : Tant qu’`a pomper, autant que cela serve `a quelque chose !

d’heure suffit pour se familiariser avec une interface graphique conviviale, la bonne compr´ehension des m´ethodes employ´ees n´ecessite plusieurs heures de cours ou r´eflexion `a Bac+5. Il devient tellement simple, avec les outils disponibles, de lancer des calculs, que certains n’h´esitent pas `a comparer prospecteur de donn´ees et chauffeur de voiture en arguant qu’il n’est pas n´ecessaire d’ˆetre un m´ecanicien accompli pour savoir conduire. N´eanmoins, la conduite d’une mod´elisation, d’une segmentation, d’une discrimination, imposent `a son auteur des choix plus ou moins implicites qui sont loin d’ˆetre neutres et qui d´epassent largement en complexit´e celui du choix d’un carburant par le conducteur `a la pompe.

Bibliographie

[1] A. AGRESTI: Categorical data analysis. Wiley, 1990.

[2] A. ANTONIADIS, J. BERRUYERet R. CARMONA: R´egression non lin´eaire et applications. Econo-mica, 1992.

[3] J.-M. AZA¨ISet J.-M. BARDET:Le mod`ele lin´eaire par l’exemple : r´egression, analyse de la variance et plans d’exp´ereinces illustr´es avec R, SAS et Splus. Dunod, 2005.

[4] A. BACCINI et P. BESSE : Data mining : 1. exploration statistique, 2000. www.ups-tlse.fr/Besse/enseignement.html.

[5] A. BACCINI, P. BESSE, S. D ´EJEAN, P. MARTIN, C. ROBERT-GRANIE´ et M. SAN CRISTOBAL : Strat´egies pour l’analyse statistique de donn´ees transcriptomiques.Journal de la Soci´et´e Franc¸aise de Statistique, 146:4–44, 2005.

[6] P.C. BESSE, C. LE GALL, N. RAIMBAULTet S. SARPY: Statistique et data mining. Journal de la Soci´et´e Franc¸aise de Statistique, 142:5–36, 2001.

[7] G. BLANCHARD: Generalization error bounds for aggregate classifiers.In Proceedings of the MSRI international conference on nonparametric estimation and classification, page , 2001.

[8] L. BREIMAN: Bagging predictors. Machine Learning, 26(2):123–140, 1996.

[9] L. BREIMAN: Arcing classifiers. Annals of Statistics, 26:801–849, 1998.

[10] L. BREIMAN: Prediction games and arcing algorithms.Neural Computation, 11:1493–1517, 1999.

[11] L. BREIMAN: Random forests. Machine Learning, 45:5–32, 2001.

[12] L. BREIMAN, J. FRIEDMAN, R. OLSHEN et C. STONE: Classification and regression trees. Wad-sworth & Brooks, 1984.

[13] P.-A. CORNILLONet E. MATZNER-LØ BER:R´egression, Th´eorie et applications. Springer, 2007.

[14] H. DRUCKER: Improving regressors using boosting techniques. InM. KAUFMANN, ´editeur : Pro-ceedings of th 14th International Conference on Machine Learning, pages 107–115, 1997.

[15] B. EFRON:The Jackknife, the Bootstrap and other Resampling Methods. SIAM, 1982.

[16] B. EFRONet R. TIBSHIRANI : Improvements on cross-validation : The .632+ bootstrap method.

Journal of the American Statistical Association, 92(438):548–560, 1997.

[17] B. EFRONet R.J. TIBSHIRANI:An introduction to the bootstrap. Chapman and Hall, 1993.

[18] Y. FREUNDet R.E. SCHAPIRE: Experiments with a new boosting algorithm.In Machine Learning : proceedings of the Thirteenth International Conference, pages 148–156. Morgan Kaufman, 1996. San Francisco.

[19] Y. FREUNDet R.E. SCHAPIRE: Experiments with a new boosting algorithm. Journal of Computer and System Sciences, 55:119–139, 1997.

[20] J. H. FRIEDMAN: Greedy function approximation : a gradient boosting machine.Annals of Statistics, 29:1189–1232., 2001.

[21] J. H. FRIEDMAN: Stochastic gradient boosting. Computational Statisrics and Data Analysis, 38: , 2002.

115

[22] J. H. FRIEDMAN, H. HASTIEet R. TIBSHIRANI: Additive logistic regression : a statistical view of boosting. The Annals of Statistics, 28:337–407, 2000.

[23] S. GEYet J.-M. POGGI: Boosting and instabillity for regression trees. Rapport technique 36, Univer-sit´e de Paris Sud, Math´ematiques, 2002.

[24] B. GHATTAS: Agr´egation d’arbres de classification. Revue de Statistique Appliqu´ee, 48(2):85–98, 2000.

[25] Y. GUERMEURet H. PAUGAM-MOISY: Th´eorie de l’apprentissage de vapnik et svm, support vector machines. InM. SEBBANet G. VENTURINI, ´editeurs :Apprentissage automatique, pages 109–138.

Hermes, 1999.

[26] T. HASTIE, R. TIBSHIRANI et J FRIEDMAN : The elements of statistical learning : data mining, inference, and prediction. Springer, 2001.

[27] T.J. HAYKIN:Neural network, a comprehensive foundation. Prentice-Hall, 1994.

[28] J.D. JOBSON: Applied Multivariate Data Analysis, volume I : Regression and experimental design.

Springer-Verlag, 1991.

[29] G. LUGOSIet N. VAYATIS: On the bayes-risk consistency of boosting methods.Preprint, : , 2001.

[30] P. MCCULLAGHet J.A. NELDER:Generalized Linear Models. Chapman & Hall, 1983.

[31] J.R. QUINLAN:C4.5 – Programs for machine learning. Morgan Kaufmann, 1993.

[32] B.D. RIPLEY: Pattern recognition and neural networks. Cambridge University Press, 1996.

[33] G. SAPORTA:Probabilit´es, Analyse des Donn´ees et Statistique. Technip, deuxi`eme ´edition, 2006.

[34] SAS :SAS/STAT User’s Guide, volume 2. Sas Institute Inc., fourth ´edition, 1989. version 6.

[35] SAS :SAS/INSIGHT User’s Guide. Sas Institute Inc., third ´edition, 1995. version 6.

[36] R. SCHAPIRE: The strength of weak learnability.Machine Learning, 5:197–227, 1990.

[37] R. SCHAPIRE: The boosting approach to machine learning. an overview. In MSRI workshop on non linear estimation and classification, page , 2002.

[38] B SCHOLKOPF¨ et A SMOLA: Learning with Kernels Support Vector Machines, Regularization, Op-timization and Beyond. MIT Press, 2002.

[39] SEM : SAS/ Enterprise Miner User’s Guide. Sas Institute Inc., 2001. version 8.

[40] M. TENENHAUS: Statistique : m´ethodes pour d´ecrire, expliquer et pr´evoir. Dunod, 2007.

[41] S. THIRIA, Y. LECHEVALLIER, O. GASCUELet S. CANU: Statistique et m´ethodes neuronales. Du-nod, 1997.

[42] S. TUFFERY´ : Data Mining et Statistique d´ecisionnelle : l’intelligence des donn´ees. Technip, 2007.

[43] V.N. VAPNIK:Statistical learning theory. Wiley Inter science, 1999.

Annexes

117

Chapitre A

Introduction au bootstrap

1 Introduction

La motivation dubootstrap1(Efron, 1982 ; Efron et Tibshirani, 1993) est d’approcher par simulation (Monte Carlo) la distribution d’un estimateur lorsque l’on ne connaˆıt pas la loi de l’´echantillon ou, plus souvent lorsque l’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de remplacer des hypoth`ess probabilistes pas toujours v´erifi´ees ou mˆeme inv´erifiables par des simulations et donc beaucoup de calcul.

Le principe fondamental de cette technique de r´e´echantillonnage est de substituer `a la distribution de probabilit´e inconnueF, dont est issu l’´echantillon d’apprentissage, la distribution empiriqueFbqui donne un poids1/n`a chaque r´ealisation. Ainsi on obtient un ´echantillon de taillendit´echantillon bootstrapselon la distribution empiriqueFbparntirages al´eatoires avec remise parmi lesnobservations initiales.

Il est facile de construire un grand nombre d’´echantillons bootstrap sur lesquels calculer l’estimateur concern´e. La loi simul´ee de cet estimateur est une approximation asymptotiquement convergente sous des hypoth`eses raisonnables2 de la loi de l’estimateur. Cette approximation fournit ainsi des estimations du biais, de la variance, donc d’un risque quadratique, et mˆeme des intervalles de confiance de l’estimateur sans hypoth`ese (normalit´e) sur la vraie loi.

Dans le document Cours Apprentissage (Page 113-119)

Documents relatifs