• Aucun résultat trouvé

Chapitre III. Application de la méthode de découverte de connaissances contextuelles

2.5 Évaluation et validation des connaissances contextuelles

La validation des connaissances découvertes est effectuée en reprenant les arbres de décision, mais avec une méthode d’échantillonnage. En début d’analyse, les données ont été séparées en deux échantillons, l’échantillon d’apprentissage (60 % des données) et l’échantillon de test (40 % des données). L’échantillon d’apprentissage a été utilisé pour la mise en place des règles de classification de la consommation en carburant dans l’étape précédente. Ces règles sont maintenant évaluées et validées sur l’échantillon de test dans cette étape. Cet échantillon de test est constitué d’éléments n’ayant pas participé à la phase d’apprentissage des règles de classification. Les règles seront validées si les taux de bonne prédiction sur les deux échantillons sont proches : plus ce taux est élevé, plus les règles de classification sont de

Ci- dessous, le tableau de classification de la consommation en carburant avec les paramètres dynamiques de l’activité de conduite, c’est-à-dire les paramètres non contextuels, indique les différents taux de prédiction des deux échantillons (apprentissage et test). Ensuite, les tableaux de toutes les classifications de la consommation en carburant avec les différents paramètres contextuels sont fournis.

Classification

Echantillon Observations

Prévisions

faible moyenne forte Pourcentage correct

Apprentissage faible 245 783 1 23,8% moyenne 118 5347 126 95,6% forte 0 293 811 73,5% Pourcentage global 4,7% 83,2% 12,1% 82,9% Test faible 151 516 1 22,6% moyenne 75 3403 93 95,3% forte 0 199 460 69,8% Pourcentage global 4,6% 84,1% 11,3% 82,0% Méthode de développement : CRT

Variable dépendante : ClasseConsoReco

Tableau III.10 : Classification de la consommation en carburant avec les deux échantillons sans les paramètres contextuels

Ce premier tableau est la classification de la consommation en carburant avec les paramètres non contextuels de l’activité de conduite. L’échantillon d’apprentissage contient 7724 situations de conduite « AllerToutDroit » et celui de l’échantillon de test contient 4898 situations « AllerToutDroit ». Le tableau nous donne les pourcentages globaux de bonne prédiction des deux échantillons (apprentissage et test), ainsi que les pourcentages de bonne prédiction de chacune des modalités du critère Dans ce tableau, les deux échantillons ont presque le même taux de bonne prédiction de 82,9 % pour l’échantillon d’apprentissage et 82,2 % pour l’échantillon de test. Les deux échantillons classifient bien la classe « Moyenne » à plus de 95% de bonnes prédictions. Ils classifient la classe « Forte » à 73,5 % de bonnes prédictions pour l’échantillon d’apprentissage et 69,8 % pour l’échantillon de test. La classe «

Faible » est la moins bien prédite avec 23,8 % pour l’échantillon d’apprentissage et 22,6 %

pour l’échantillon de test.

A partir des éléments mal classés avec les paramètres non contextuels, d’autres classifications ont été effectuées pour bien reclasser les éléments mal prédits. Ces tableaux sont les suivant : Le premier tableau de classification est celui de la classification mettant en évidence l’influence de l’environnement de conduite sur la consommation en carburant à travers les paramètres relatifs au Trafic (PRC_TimeToCollision et TrafficBySpeedLimit).

Classification

Echantillon Observations

Prévisions

faible moyenne forte Pourcentage correct

Apprentissage faible 710 61 13 90,6% moyenne 120 88 36 36,1% forte 169 73 51 17,4% Pourcentage global 75,6% 16,8% 7,6% 64,3% Test faible 476 31 10 92,1% moyenne 95 54 19 32,1% forte 117 43 39 19,6% Pourcentage global 77,8% 14,5% 7,7% 64,4% Méthode de développement : CRT

Variable dépendante : ClasseConsoReco

Tableau III.11 : Classification de la consommation en carburant avec les deux échantillons avec les paramètres contextuels relatifs au trafic

Dans ce tableau, les deux échantillons ont presque le même taux de bonne prédiction de 64,3 % pour l’échantillon d’apprentissage et 64,4 % pour l’échantillon de test sur les éléments mal prédites de la classification avec les paramètres non contextuels. Les deux échantillons classifient la classe « Faible » à plus de 90 % de bonne prédiction. Les classes de prédiction

« Moyenne » et « Forte » ne sont pas très bien prédites par les paramètres décrivant le trafic.

Ils ont respectivement un taux de bonnes prédictions de la classe « Moyenne » de 36,1 % pour l’échantillon d’apprentissage et 32,1 % pour l’échantillon de test. La classe « Forte » est la moins bien prédite avec seulement 17,4 % pour l’échantillon d’apprentissage et 19,6 % pour l’échantillon de test.

Le deuxième tableau de classification est celui de la classification mettant en évidence l’influence du conducteur sur la consommation en carburant à travers les paramètres relatifs au conducteur (NodeID_Trafic et NumDriver).

Classification

Echantillon Observations

Prévisions

faible moyenne forte Pourcentage correct

Apprentissage faible 682 72 30 87,0%

moyenne 110 114 20 46,7%

forte 47 73 173 59,0%

Pourcentage global 63,5% 19,6% 16,9% 73,4% Test faible moyenne 451 79 41 66 25 23 87,2% 39,3%

forte 31 47 121 60,8%

Pourcentage global 63,5% 17,4% 19,1% 72,2% Méthode de développement : CRT

Dans ce tableau, les deux échantillons ont presque le même taux de bonnes prédictions global de 73,4 % pour l’échantillon d’apprentissage et 72,2 % pour l’échantillon de test sur les éléments mal prédites de la classification avec les paramètres non contextuels. Les deux échantillons classifient la classe « Faible » à plus de 87 % de bonne prédiction. Pour les classes de prédiction « Moyenne » et « Forte », par rapport à la classification avec les paramètres décrivant le Trafic, il y a une légère amélioration avec les paramètres décrivant le conducteur avec un taux prédiction à 46,7 % de la classe « Moyenne » pour l’échantillon d’apprentissage et 39,3 % de la classe « Moyenne » l’échantillon de test. Pour la classe

« Forte », une augmentation du taux de classification est aussi observée avec une prédiction

de 59 % pour l’échantillon d’apprentissage et 60,8% pour l’échantillon de test.

La troisième classification est celle qui met en évidence l’influence de l’environnement de conduite sur la consommation en carburant à travers les paramètres relatifs à l’infrastructure (NodeID_Driver, InfraAvant, InfraAprès et nbTrafficLightSansArret).

Classification

Echantillon Observations

Prévisions faible moyenne forte

Pourcentage correct Apprentissage faible 730 32 22 93,1% moyenne 105 109 30 44,7% forte 49 44 200 68,3% Pourcentage global 66,9% 14,0% 19,1% 78,7% Test faible 465 28 24 89,9% moyenne 92 41 35 24,4% forte 44 28 127 63,8% Pourcentage global 68,0% 11,0% 21,0% 71,6% Méthode de développement : CRT

Variable dépendante : ClasseConsoReco

Tableau III.13 : Classification de la consommation en carburant avec les deux échantillons avec les paramètres contextuels relatifs à l’infrastructure

Dans ce tableau, le taux global de bonne prédiction de l’échantillon d’apprentissage est 78,7 % et celui de l’échantillon de test est de 71,6 %. Une petite différence de 7,1 % est constatée entre les deux échantillons sur les éléments mal prédits de la classification avec les paramètres non contextuels. Les deux échantillons classifient bien la classe « Faible » à 93,1 % pour l’échantillon d’apprentissage et 89,9 % pour échantillon de test. La prédiction de la classe « Faible » de la classification avec les paramètres contextuels du conducteur est ainsi améliorée grâce à la classification avec les paramètres contextuels de l’infrastructure de 6,1 %. Les classes de prédiction « Moyenne » et « Forte » sont également améliorées par les paramètres contextuels décrivant l’infrastructure avec un taux de bonne prédiction de la classe

« Moyenne » respectivement de 44,7 % et de 24,4 % pour l’échantillon d’apprentissage et de

l’échantillon d’apprentissage et 63,8 % pour l’échantillon de test au lieu d’un taux de prédiction de 59 % pour l’échantillon d’apprentissage et 60,8 % pour l’échantillon de test. En tout grâce à ces classifications avec les paramètres contextuels 78,7 % des éléments mal classés par la classification avec les paramètres non contextuels sont reclassés correctement, ce qui correspond à 13,45 % sur l’ensemble des données.

En conclusion, le contexte a permis d’identifier des règles qui permettent d’expliquer presque 90 % de la variabilité de la consommation en carburant pour les situations de la classe « Faible », et 70 % de cette variabilité pour les situations de la classe « Forte ». De plus, nous constatons que les règles découvertes sont assez robustes car les taux de prédiction sont semblables sur les deux échantillons d’apprentissage et de test. Par contre, nous n’expliquons pas bien cette variabilité pour les situations de la classe « Moyenne ».

2.6 Itérations entre les différentes phases

Dans l’application de la méthode de découverte de connaissances contextuelles à l’analyse de l’activité de conduite automobile, plusieurs types d’itération ont été nécessaires jusqu’à l’obtention des résultats satisfaisants. Par exemple, une itération « Révision d’observés bruts » de l’étape 4 à l’étape 1 a permis de décrire les paramètres trafic et la présence de feux de signalisation. De même, les types d’infrastructure des situations de conduite juste avant et après une situation de conduite donnée ont permis de décrire les aspects temporels de l’activité de conduite. Un autre exemple de l’itération de ce type (passage de l’étape 2 à l’étape 1) a permis de rajouter le critère de consommation optimisée. Nous avons alors ajouté à chaque fois de nouveaux attributs au composant contexte concerné puis identifié les données à utiliser pour renseigner ces attributs et pour dérouler les étapes 2, 3 et 4. Comme exemple d’itération de type « Révisions d’indicateurs calculés », nous avons la création des indicateurs décrivant les situations de conduite à l’aide des fonctions d’agrégation de paramètres continus telles que le pourcentage de temps d’utilisation d’un rapport de boîte de vitesse ou la densité de feux de signalisation par km sur une séquence de conduite. Dans le cadre de notre application, les itérations de ces deux types sont les plus utilisées car cette analyse avait pour but d’identifier le contexte explicatif de la consommation en carburant de l’activité de conduite. Nous nous sommes donc focalisés sur les paramètres contextuels qui ont été créés au fur et à mesure de l’analyse dans sa globalité et sur la validation de la pertinence des connaissances produites.