Deuxième expérimentation : Performances des autres algorithmes

13. Validation sur la base d’expérimentations utilisateurs en simulation

13.1 Extraction d’indicateurs et caractérisation des situations d’apprentissage

13.2.5 Deuxième expérimentation : Performances des autres algorithmes

Plusieurs algorithmes ont été testés sur ce même jeu de données, afin d’obtenir une estimation plus fine de la qualité des expertises et de la pertinence de l’approche. Tous ces algorithmes ont été implémentés à l’aide de la libraire python Scikit-learn [Pedegrosa et al., 2011]. Ces algorithmes ont été paramétrés de manière empirique, avec pour objectif de maximiser leurs performances, c’est à dire de minimiser l’erreur quadratique moyenne observée lors de la phase de validation.

Arbres de décision

Un arbre de décisions effectue une succession hiérarchisées de tests décisionnels de type SI/ALORS sur les valeurs qui lui sont présentées en entrée (i.e. : les indicateurs). A chaque étape, l’algorithme recherche le test décisionnel le mieux à même de prédire la valeur de sortie (i.e. : la notation de l’expert) d’un ensemble de données. Il s’agit d’un algorithme récursif qui fait appel à lui-même tant qu’il existe des tests susceptibles de mieux prédire les valeurs de sortie, ou tant qu’un nombre fixe de tests n’a pas été réalisé. Plusieurs types de métriques sont disponibles pour effectuer les tests permettant la construction de l’arbre. Dans notre cas, l’algorithme CART (Classification and Regression Trees) est utilisé ; cet algorithme construit les choix binaires de l’arbre en cherchant à sélectionner la valeur d’entrée fournissant le plus d’informations sur la valeur de sortie à chaque étape. Un avantage majeur de cet algorithme est sa facilité d’interprétation : un arbre de décision est en effet une « boite transparente » qu’il est possible d’interpréter.

Arbres de décision avec adaboost

Adaboost [Freund et Schapire, 2007] est un méta-algorithme, pouvant être utilisé sur la base de différents types d’approches de ML pour améliorer leurs performances. Dans notre cas, l’algorithme est utilisé en conjonction avec un arbre de décision. Son fonctionnement se déroule ainsi : (1) un arbre de décision est généré et fonctionne par régression pour prédire des valeurs de sortie, tel qu’indiqué dans la partie précédente. (2) D’autres arbres sont générés sur une version modifiée du jeu de données initial, pour laquelle des poids supplémentaires sont donnés sur les entrées générant l’erreur la plus importante : ainsi, le nouvel arbre aura tendance à se focaliser davantage sur les cas les plus « difficiles ». Le processus se poursuit pour un nombre fixé à l’avance d’arbres. (3) La moyenne pondérée des valeurs obtenues pour chaque entrée, et pour chacun des arbres est calculée ; le résultat de ce calcul correspond à la valeur finale prédite pour l’entrée en question.

Random forest

Cet algorithme [Breiman, 2001], est également un méta-algorithme qui sépare un jeu de données en plusieurs jeux de données de même taille triés aléatoirement avec remise, et applique sur chacun d’entre eux un arbre de décision. Les résultats sont stockés pour chacun des arbres et la valeur prédite en moyenne l’emporte.

158

Support Vector Machine (SVR)

Ce type d’algorithme, proposé par [Cortes et Vapnik, 1995], vise à faire émerger un hyperplan capable de séparer au mieux un jeu de données en deux catégories, c’est-à-dire, l’hyperplan pour lequel la marge entre les points les plus proches de chacune des catégories (les « vecteurs supports ») est la plus importante. Dans le cas d’une tâche de régression, cela revient à rechercher la fonction minimisant l’erreur de ces vecteurs supports par rapport à leurs valeurs « désirées ».

Résultats

Le Tableau 13.4 présente les différentes valeurs d’erreur quadratique moyennes (EQM) obtenues pour chacun des algorithmes testés, sur les trois phases pour lesquels l’analyse de la performance a pu être effectuée. On remarque tout d’abord que ces valeurs sont relativement faibles pour tous les algorithmes, étant donné que les scores prédits vont de 0 à 5 en moyenne. Les scores sont par ailleurs relativement similaires, le RN produisant de manière générale les meilleurs performances et l’arbre de décision non-boosté les résultats les plus faibles. Le SVR l’emporte sur les actions d’une faible marge par rapport au RN. Pour les perceptions, random forest produit les meilleures performances. RN Arbre Décisions Random Forest A.D + Adaboost SVR MOYENNE 0,2854 0,4162 0,2946 0,3498 0,3165 ACTIONS 0,2434 0,4834 0,3575 0,3629 0,2308 PERCEPTIONS 0,3274 0,3491 0,2318 0,3368 0,4023

Tableau 13.4 : les valeurs d’EQM obtenues par chacun des algorithmes pour l’analyse de la performance technique.

Discussion

Cette expérimentation met en évidence deux éléments : le RN et le SVR produisent des meilleures performances lors de l’analyse de la performance d’action, et Random Forest produit de meilleures performances lors de l’analyse de la performance de perception.

Supériorité du RN / SVR pour la performance d’action

Lors de la phase de notation des comportements par l’expert, il est apparu qu’un nombre plus important d’indicateurs étaient utilisés par ces derniers pour l’analyse de la performance gestuelle. De plus, l’expert prenait également en compte des relations entre variables (e.g. : rapidité du freinage relativement à la perception d’un danger par l’apprenant) pour effectuer sa notation. Etant donné ce nombre relativement important de variables « utiles » et les relations non-linéaires présentes entre elles, il semble logique que des algorithmes plus complexes, tels que les RN ou les SVR, produisent les meilleures performances. De manière générale, les SVR sont connus pour obtenir de très bonnes performances face à des jeux de données de taille réduite, comme c’est notre cas. Par ailleurs, il est probable que les performances du SVR puissent être encore supérieures avec davantage d’optimisation des paramètres. Dans notre cas, nous avons utilisé une fonction de kernel linéaire, or il

159

est reconnu que des fonctions de kernel non linéaires telles qu’une fonction à base radiale (RBF), peuvent produire de meilleures performances.

Supériorité du random forest pour la performance perceptuelle

Nous expliquons la supériorité de l’algorithme de type random forest pour la performance perceptuelle par le nombre réduit d’indicateurs effectivement utilisés par les experts pour évaluer cette performance en comparaison aux actions. De manière générale, l’intégration d’une notion de performance duale, séparant perceptions et actions, se justifie par l’intérêt fort qu’il existe à différencier cette information au niveau de la production de rétroactions immédiates et mieux ciblées. Cependant, cette séparation complexifie la tâche demandée à l’expert, la rendant moins intuitive. Il est donc plus difficile pour l’expert de quantifier réellement la « performance perceptuelle » dans les deux situations testées, autrement que par la capacité qu’a montré l’apprenant à repérer rapidement un danger. Cette tâche est nouvelle pour l’expert étant donné l’absence de dispositifs d’eye-tracking durant les formations à la conduite automobile. De fait, il a eu tendance à se rabattre sur un ou deux indicateurs primordiaux, comme l’occurrence de la première perception et la durée moyenne des perceptions. Face au nombre important de features devenues de fait inutiles pour cette notation, nous ferons l’hypothèse que les algorithmes de type SVR et RN sont davantage pénalisés, tandis que des algorithmes basés sur des séparations binaires sont plus efficaces pour extraire les informations issues des rares features pertinentes.

13.2.6 Synthèse

Cette section nous a permis d’évaluer la précision de l’analyse de la performance technique. Elle a montré que le degré de précision obtenu par le RN était bon malgré la faible taille du jeu de données, hormis dans certains cas que nous avons attribué à la présence de faux positifs au niveau des indicateurs de perception. La deuxième expérimentation a montré que des performances similaires, voire supérieures, pouvaient être atteintes via l’utilisation d’autres algorithmes d’apprentissage par régression.

160

13.3 Robustesse du diagnostic des CNT par le réseau

Dans le document Diagnostic et prise de décision pédagogique pour la construction de compétences non-techniques en situation critique (Page 158-161)