• Aucun résultat trouvé

13. Validation sur la base d’expérimentations utilisateurs en simulation

13.3 Robustesse du diagnostic des CNT par le réseau bayésien

13.3.2 Expérimentations

Observations fournies en entrée

Les valeurs obtenues en sortie du module d’analyse de la performance technique sont présentées en entrée du RB à l’intérieur des nœuds « performance technique », en tant que soft

evidence, selon le processus décrit en 10.2.1 (voir page 110), pour chaque itération « statique » du

diagnostic. Les valeurs de performance de référence n’ayant pas pu être obtenues, nous avons considéré que les apprenants possédaient tous le meilleur niveau technique possible en situation non-critique. Les deux nœuds « performance de référence » sont donc renseignés à « forte » : les apprenants ayant déjà obtenu leur permis de conduire, nous les considérerons donc comme a priori techniquement compétents. Etant donné la façon dont le RB a été conçu, cette hypothèse a pour conséquence de rendre les diagnostics plus sévères pour les performances faibles (car ces dernières sont davantage expliquées par une défaillance non-technique que technique) et pour les performances fortes (le RB estimant que la bonne performance observée par un apprenant peut en partie être expliquée par son niveau élevé de CT). Finalement, les nœuds d’observations « dimensions de criticité » sont renseignés à « ambiguïté » pour les deux phases de la situation IND1, et à a « imprévisibilité » pour la situation DIR1. Ces informations sont issues de la construction des scénarios par les psychologues partenaires du projet MacCoy Critical.

Robustesse

Cas général

Nous analyserons d’abord la capacité du RB à compenser le degré d’erreur présent sur les variables fournies en entrée. Pour ce faire, nous avons comparé les valeurs de probabilités des nœuds « CNT » en fonction d’entrées issues du module d’analyse de la performance, ou des notations des experts (et considérés comme justes). La Figure 13.9 présente les résultats de cette comparaison.

162

Figure 13.9 : Comparaison entre les valeurs observées pour les probabilités d’influence positive des CNT dans chacune des phases pour lesquelles nous avons disposé de données réelles.

L’erreur moyenne observée du RB pour les diagnostics de CNT est de 0.046, c’est-à-dire que l’on observe en moyenne un écart d’environ 5% entre la probabilité de bonne mobilisation d’un CNT telle que quantifiée par le RB sur la base du module d’analyse de la performance technique, et la probabilité de bonne mobilisation d’une CNT sur la base des scores produits par les experts. Ce résultat montre que l’erreur observée au niveau du module d’analyse de la performance est suffisamment faible pour permettre une bonne robustesse du diagnostic (quasi-équivalence par rapport à l’expert).

Cas d’une erreur importante en entrée

Malgré la bonne robustesse observée pour la majeure partie des données apprenants, il existe certains cas pour lesquels l’erreur produite par le module d’analyse de la performance technique est forte. Cette erreur se propage dans le RB et entraine des écarts importants de diagnostic. On a vu que le plus « défavorable » se situe dans la première phase « d’approche » du scénario IND1, où l’expert a attribué un score très faible (valeur = 1) aux perceptions d’un apprenant, là où le module d’analyse de la performance a estimé un score intermédiaire (valeur = 2,4), représenté par la Figure 13.10). Cette différence d’évaluation se propage dans le RB et se répercute majoritairement sur la CNT « conscience de la situation », pour deux raisons : (1) il s’agit de la CNT la plus influencée par les scores de performance perceptuelle et (2) la situation IND1 est caractérisée par une dimension de criticité de type « ambiguïté », définie par les experts comme ciblant surtout les sub-skills de conscience de la situation. On observe alors une surestimation du niveau de maîtrise de cette CNT. Il s’agit cependant d’un cas rare, sans doute lié à un faux négatif sur le comportement perceptuel de l’apprenant.

163

Figure 13.10 : Différences de diagnostic lorsqu’une erreur forte sur la performance perceptuelle a été observée, pour le scénario IND1 favorisant le diagnostic de conscience de la situation.

Couverture des diagnostics

Nous avons montré précédemment la robustesse des diagnostics produits par le RB face à l’erreur en entrée. Il existe cependant un risque que le RB « dilue » les informations fournies en entrée en les faisant passer par plusieurs nœuds latents, ce qui expliquerait sa robustesse par l’agglomération des diagnostics autour de valeurs médianes. Pour contrôler cet effet, nous nous intéressons ici à la couverture des diagnostics réalisés par le RB sur la totalité de notre population d’apprenants. La Figure 13.11 montre les valeurs minimales et maximales des diagnostics observés pour chaque situation. On constate une couverture importante du spectre des probabilités.

164

Figure 13.11 : Valeurs minimales et maximales des diagnostics observés pour chaque CNT et chaque scénario. Malgré la faible population d’apprenants, les comportements sont suffisamment disparates

pour permettre au RB de produire des diagnostics très différenciés.

Pour apporter plus de précisions sur la capacité du RB à couvrir un spectre important de valeurs de diagnostics, la Figure 13.12 détaille la totalité des diagnostics obtenus pour la situation DIR1. Les valeurs sont réparties sur la majorité du spectre des probabilités, allant de l’ordre de 20% pour le diagnostic de prise de décision du participant 33, à 80% pour le diagnostic de prise de décision du participant 11. Pour la conscience de la situation, les diagnostics varient de manière moins forte et sont compris entre 35% et 65%.

Figure 13.12 : Probabilités d’influence positive de chaque CNT pour chaque apprenant lors de la situation DIR1.

Les diagnostics produits par le RB sont donc à la fois suffisamment robustes pour couvrir l’erreur présente dans les observations sur l’analyse de la performance en entrée, et suffisamment sensibles pour couvrir un large spectre de valeurs possibles. Cette sensibilité dépend cependant de la dimension de criticité.