• Aucun résultat trouvé

Illustration de la mise en oeuvre des arbres E 2 M approximés . 121

III. Expériences et application au caoutchouc 109

8.2. Expériences mettant en oeuvre les arbres de décision E 2 M

8.2.1. Illustration de la mise en oeuvre des arbres E 2 M approximés . 121

mv dans la Section 2.4.1). On aurait probablement obtenu des arbres encore plus efficaces, car l’incertitude des données aurait alors été modélisée à l’aide de leur modèle génératif. Il faut cependant noter que, dans les applications un tel modèle génératif est rarement disponible.

8.2.1. Illustration de la mise en oeuvre des arbresE2M

approximés

De manière à avoir une idée des avantages (en terme de temps de calcul) et des inconvénients (en terme d’efficacité prédictive) de l’utilisation d’arbres E2M

approximés plutôt que de vrais arbres E2M, des expériences sont ici présentées. Le modèle génératif de l’incertitude des données, tout comme les critères d’arrêt utilisés sont exactement les mêmes que précédemment. La table8.11présente donc une comparaison entre les taux d’erreur moyens (et leur intervalles de confiance) obtenus par prédiction naïve, par des arbres C ART (qui ne tiendront donc pas compte de l’incertitude des données), par les arbres E2M et par les arbres E2M

approximés (tels que présentés en Section7.2.5) dans le cas de données (attributs et classe) incertaines. Ils sont obtenus pour quatre validations croisées à 10 couches. La table8.12présente les temps de calcul moyens correspondants (avec leur écarts-type).

nai f C ART E2M E2Mapproximés

données tx er. tx er. IC(95%) tx er. IC(95%) tx er. IC(95%)

iris 0.67 0.45 [0.35 ; 0.54] 0.18 [0.10 ; 0.25] 0.31 [0.22 ; 0.41]

balance 0.54 0.54 [0.44 ; 0.64] 0.37 [0.27 ; 0.46] 0.37 [0.27 ; 0.46]

wine 0.64 0.48 [0.38 ; 0.58] 0.24 [0.15 ; 0.32] 0.28 [0.19 ; 0.36]

glass 0.65 0.65 [0.56 ; 0.75] 0.54 [0.45 ; 0.64] 0.54 [0.44 ; 0.64]

TABLE8.11.:Taux d’erreur moyens obtenus par les arbresE2Mapproximés avec attributs et classe incertains

C ART E2M E2Mapproximés données temps moyen écart-type temps moyen écart-type temps moyen écart-type

iris 72 42 2663 903 403 36

balance 6 1 4548 935 196 47

wine 841 547 13564 4978 2454 200

glass 47 1 23161 7562 1273 736

TABLE8.12.:Temps de calcul moyens obtenus par les arbresE2M approximés avec attributs et classe incertains

un vrai compromis entre efficacité prédictive et temps de calcul. En effet, ils pré-sentent des taux d’erreur généralement supérieurs à ceux des arbresE2M mais tout de même inférieurs à ceux obtenus pour les arbresC ART. De plus, même si ils sont plus longs à construire que les arbres C ART, ils sont quand même bien plus ra-pides à apprendre que les arbresE2M. On pourra donc faire le choix de les utiliser à la place des arbres E2M lorsque les temps de calcul sont trop grands pour une application donnée ou quand l’efficacité prédictive requise n’est pas trop élevée.

Remarque : Ces temps de calcul sont élevés, et ce même pour les arbresC ART. Ceci est en partie dû au fait que les programmes utilisés pour C ART ou pour les arbres E2M sont ici les mêmes, seule la modélisation des données diffère (pré-cise pour C ART, crédibiliste pour les arbres E2M). Même s’il aurait été possible de construire rapidement les arbres de décisionC ART (avec le paquetrpart du lo-giciel R par exemple), le fait que pour chaque nouvelle coupure, les arbres E2M

testent toutes les coupures possibles, associé à un nombre maximale de feuille au-rait rendu une telle comparaison quelque peu biaisée. En effet, les arbres C ART

s’inscrivant dans un cadre de données précises, l’apprentissage peut très bien se faire localement, ce qui réduit considérablement les temps de calcul. Nous avons donc fait le choix d’un apprentissage global, même pour les arbres C ART car le but était ici d’illustrer l’applicabilité des arbres E2M et de montrer que si les don-nées présentent un certain niveau d’incertitude (0.5 ici en moyenne), il est alors important de tenir compte de cette incertitude lors de l’apprentissage.

C

HAPITRE

9

Application : Prédiction de la qualité

du caoutchouc naturel

Nous présentons ici l’application principale de ce travail de thèse.

Sommaire

9.1. Introduction . . . 123 9.2. Description de la problématique . . . 124 9.2.1. Plantation PEM . . . 125

9.2.2. Données . . . 128

9.2.3. Etudes statistiques préliminaires. . . 129

9.3. Etude statistique prédictive sans incertitude sur les données . . . 135 9.4. Etude statistique prédictive avec incertitude sur les données . . . 140 9.4.1. Modèles d’incertitude des données . . . 141

Incertitude des données de pluie. . . 141

Incertitude des données parcellaires du fait des mélanges dans les bennes . . . 143

9.4.2. Expériences . . . 144

9.4.3. Conclusions . . . 147

9.1. Introduction

Il existe aujourd’hui deux types de caoutchouc : le caoutchouc naturel, dérivé dulatex obtenu par saignée du tronc de l’arbreHevea brasiliensis, et le caoutchouc

synthétique d’origine pétro-chimique fabriqué industriellement. Les deux se par-tagent le marché du caoutchouc de façon relativement équitable (42% de naturel contre 10% de synthétique). Le caoutchouc naturel, longtemps négligé par rapport au synthétique, est redevenu un enjeu capital social, environnemental, économique et politique. Le caoutchouc naturel se distingue du caoutchouc synthétique par sa supériorité en terme d’élasticité et de résistance à la chaleur. Ce caoutchouc naturel présente cependant une grande faiblesse : l’irrégularité de sa qualité, encore mal contrôlée par les experts. Le but de cette application est donc de tenter de mettre en évidence certains facteurs pouvant expliquer ou impacter la qualité du caoutchouc. Les données sont issues d’une plantation expérimentale MICHELIN au Brésil, la Plantation Edouard Michelin (PE M) sur laquelle le C I R AD est intervenu au dé-but des années2000de manière à améliorer la qualité du caoutchouc produit. Ces données regroupent des indices de qualité, des valeurs chronologiques de variables météorologiques, ainsi que différentes données culturales.

La problématique de la qualité du caoutchouc naturel et les données issues de la plantation PE M sont tout d’abord présentées en 9.2. Une première étude sta-tistique prédictive est ensuite réalisée en 9.3 dans un cadre classique de données

précises. Enfin, une seconde étude statistique mettant en œuvre lesarbresE2M vient compléter la première en 9.4, tout en proposant deux modèles de représentation d’incertitudes des données à l’aide de fonctions de croyance.

Documents relatifs