• Aucun résultat trouvé

Modélisation de la faillite d'exploitations agricoles : comparaison de méthodes de régression non linéaire avec R

N/A
N/A
Protected

Academic year: 2021

Partager "Modélisation de la faillite d'exploitations agricoles : comparaison de méthodes de régression non linéaire avec R"

Copied!
4
0
0

Texte intégral

(1)

HAL Id: inria-00386674

https://hal.inria.fr/inria-00386674

Submitted on 22 May 2009

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Modélisation de la faillite d’exploitations agricoles : comparaison de méthodes de régression non linéaire avec

R

Thibault Laurent

To cite this version:

Thibault Laurent. Modélisation de la faillite d’exploitations agricoles : comparaison de méthodes de

régression non linéaire avec R. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux,

France, France. �inria-00386674�

(2)

Mod´ elisation de la faillite d’exploitations

agricoles : comparaison de m´ ethodes de r´ egression non lin´ eaire avec R

Thibault Laurent

Toulouse School of Economics (GREMAQ)

R´ esum´ e

L’id´ ee de cet article est d’essayer des m´ ethodes de r´ egression non param´ etriques pour le “scoring” et de v´ erifier leur efficacit´ e en terme de taux de mal class´ es. Les m´ ethodes approch´ ees sont le mod` ele additif g´ en´ eralis´ e introduit par Hastie et Tibshirani (1986), le bagging et les forˆ ets al´ eatoires propos´ es par Breiman (1996, 2001). On essaira ´ egalement les Support Vecteur Machines propos´ es par Vapnik (1999). Nous poursuivons les travaux de Desbois (2008) qui a mod´ elis´ e les probabilit´ es de faillite de 1260 exploitations agricoles issus de quatre d´ epartements fran¸cais (l’Eure, le Nord, l’Orne et la Seine-Maritime) ` a partir de caract´ eristiques de celles-ci observ´ ees entre 1988 et 1994. Les r´ esultats de ces m´ ethodes en terme de mal class´ es sont assez proches, n´ eanmoins le choix des “meilleurs”

variables explicatives peut varier d’une m´ ethode ` a une autre.

Mots cl´ es : ´ etude de cas, m´ ethodes non param´ etriques, mod` ele addititif g´ en´ eralis´ e, vec- teur support machine, bagging, boostrap.

Abstract

The idea of this article is to try methods of nonparametric regression for “scoring” and to verify their effectiveness in terms of rate of misfiled. The approximate methods are the generalized additive model introduced by Hastie and Tibshirani (1986), bagging and random forests proposed by Breiman (1996, 2001). It also will try the Support Vector Machines proposed by Vapnik (1999). We continue the work of Desbois (2008) who mo- deled the probability of bankruptcy of 1260 farms from four French departments (Eure, Nord, Orne and Seine-Maritime) from characteristics of these observed between 1988 and 1994. The results of these methods in terms of misfiled are fairly close, but the choice of

“best”variables can vary from one method to another.

Key Words : non parametric method, generalized additive model, support vector ma- chine, bagging, boostrap.

1

(3)

Un des points forts du logiciel Rest que ses utilisateurs peuvent mettre leurs codes ` a contribution de tous, sous forme de paquetages. Ainsi, on trouve la plupart des outils d’analyse statistique, aussi bien r´ ecents que classiques, appliqu´ es ` a la finance, ` a l’´ ecologie ou ` a la g´ en´ etique, t´ el´ echargeables sur le site du CRAN

1

. On propose ici de comparer plu- sieurs m´ ethodes de r´ egression non param´ etriques disponibles sous R, lorsque la variable ` a expliquer est qualitative ` a deux modalit´ es (´ echec et r´ eussite) et les variables explicatives, quantitatives ou qualitatives.

Nous poursuivons ici les travaux de Desbois (2008) qui a mod´ elis´ e les probabilit´ es de faillite de 1260 exploitations agricoles issus de quatre d´ epartements fran¸cais (l’Eure, le Nord, l’Orne et la Seine-Maritime) ` a partir de caract´ eristiques de celles-ci observ´ ees entre 1988 et 1994. L’auteur propose de comparer les r´ esultats en terme de taux de mal class´ es, de l’analyse discriminante d´ ecisionnelle d’une part et la r´ egression logistique d’autre part.

L’auteur montre ainsi que les deux m´ ethodes fournissent des r´ esultats relativement sem- blables en terme de taux de mal class´ es.

L’id´ ee de cet article est d’essayer d’autres m´ ethodes de r´ egression non param´ etriques pour le “scoring” et de v´ erifier leur efficacit´ e ´ egalement en terme de taux de mal class´ es.

Les m´ ethodes approch´ ees sont le mod` ele additif g´ en´ eralis´ e introduit par Hastie et Tib- shirani (1986), le bagging et les forˆ ets al´ eatoires propos´ es par Breiman (1996, 2001). On essaira ´ egalement les Support Vecteur Machines propos´ es par Vapnik (1999). L’´ echantillon de d´ epart sera divis´ e en deux : un ´ echantillon d’apprentissage sur lequel les mod` eles seront calcul´ es et un ´ echantillon test sur lequel nous effectuerons les pr´ edictions. Par ailleurs, nous pr´ edirons qu’une exploitation agricole tombe en faillite lorsque P r[ˆ y

i

= 1] > c, o` u c sera choisi de fa¸con ` a minimiser le taux de mal class´ e. Nous proc´ ed´ erons ` a 100 r´ eplications pour chaque m´ ethode, pour v´ erifier la robustesse des r´ esultats obtenus.

Dans un premier temps, nous effectuerons une comparaison directe de ces m´ ethodes, ` a savoir que nous utiliserons les mˆ emes r´ egresseurs que ceux de Desbois (2008) pour chaque m´ ethode. Dans un second temps, on effectuera un choix de variables en fonction de la m´ ethode consid´ er´ ee et nous comparerons ainsi les meilleurs mod` eles de chaque m´ ethode.

1

The Comprehensive RArchive Network : http://cran.r-project.org/

2

(4)

Bibliographie

[1] Besse, P. (2008) Apprentissage Statistique et Data Mining, http://www.math.univ-toulouse.

fr/~besse/enseignement.html .

[2] Breiman, L. (1996) Bagging predictors, Machine Learning, 26(2) :123-140.

[3] Breiman, L. (2001) Random Forests, Machine Learning, 45 :5-32.

[4] Desbois, D. (2008) Introduction to Scoring Methods : Financial Problems of Farm Holdings, CS-BIGS, 2(1) : 56-76.

[5] Hastie, T. et Tibshirani, R. (1986) Generalized Additive Models, Statistical Science 1, 297-318.

[6] Saporta, G. (2006) Probabilit´ es, Analyse des donn´ ees et Statistique, Technip, deuxi` eme

´ edition.

[7] Vapnik, V.N. (1999) Statistical learning theory, Wiley Inter science.

[8] Wood, S. (2006) Generalized Additive Models : An Introduction with R . , Chapman &

Hall/CRC.

3

Références

Documents relatifs

Enfin la méthode à double noyau semble plus avantageuse que celle à simple noyau : erreur quadratique plus faible, courbes quantiles plus lisses et ne pouvant pas se croiser.. Elle

La seconde famille est compos´ee de quatre m´ethodes fond´ees sur les k-plus proches voisins qui utilisent la distance adapt´ee aux variables mixtes d´efinie par (7) : il s’agit de

méthode n’a permis d’établir des équations permettant de réaliser des prédictions valables lorsque le nombre de variables explicatives potentielles est supérieur au

L’objectif de l’´ etude est de mettre en place un mod` ele de r´ egression logistique pour pr´ edire la probabilit´ e de que ces patients fassent une apn´ ee du sommeil et

Ainsi après un régime de rotation stationnaire, si le cylindre extérieur est arrêté subitement, le temps d’amortissement du cylindre intérieur est plus court avec l’air

Les ´ echantillons pr´ elev´ es seront dilu´ es afin de rester dans la zone de lin´ earit´ e du spectrophotom` etre, zone pour laquelle la densit´ e optique est proportionnelle ` a

Les ´ echantillons pr´ elev´ es seront dilu´ es afin de rester dans la zone de lin´ earit´ e du spectrophotom` etre, zone pour laquelle la densit´ e optique est proportionnelle ` a

Extension du mod` ele: croissance logistique (prise en compte de toutes les donn´ ees) On ´ etudie toujours la croissance dans un chemostat en batch mais la mod´ elisation qui suit