Analyse de paramètres supplémentaires - : Diagnosticité en simulation de commandement et contrô

Chapitre 4 : Diagnosticité en simulation de commandement et contrôle (C2)

4.2.6 Analyse de paramètres supplémentaires

Lors de ces analyses, il a été nécessaire de faire certains choix techniques, tels que l’imputation des données et l’utilisation d’échantillons artificiels pour balancer les classes (ADASYN). Étant donné le temps de calcul, il n’est pas possible d’explorer les effets de toutes les combinaisons de paramètres techniques sur la performance en classification. Pour vérifier l’effet de ces paramètres, quelques analyses supplémentaires sont effectuées. Comme première analyse, on vérifie l’effet de l’imputation de données contre quelques classificateurs s’entraînant sur des ensembles sans imputation. Seulement une partie des variables d’intérêt sont retenues pour cette analyse. Ces analyses sont faites en utilisant des époques de 300 secondes avec toutes les métriques physiologiques. Les résultats sont présentés au Tableau 58. Les résultats montrent que les variables qui n’étaient pas possibles de prédire ne le sont toujours pas sans imputation. Une régression logistique multiple, similaire à celle effectuée à la section 4.2.5 (variables indépendantes : difficulté, stress, ordre des conditions, ordre des époques, type de classificateur et imputation), suggère que l’imputation n’a pas eu d’effet sur la performance en classification (p > 0,05).

Comme seconde analyse, on investigue, de manière similaire, l’utilisation d’échantillons synthétiques par ADASYN sur la performance en classification. Pour cette analyse, on retient

145

quatre variables d’intérêt pour lesquels les classes étaient fortement débalancées et pour lesquelles des échantillons synthétiques ont été créés. Ces quatre variables sont celles du repos initial, de l’ordre des époques ainsi que les sous-classificateurs « 1 » et « 3 » de l’ordre des conditions (tel que détaillé à la Figure 21). Les résultats des deux derniers classificateurs n’ont pas été présentés jusqu’à présent puisqu’ils étaient imbriqués dans le classificateur l’ordre des conditions. Ils ont inclus dans cette analyse afin pour ne conserver que les classificateurs fortement débalancés. Les résultats sont présentés au Tableau 59. À première vue, aucune tendance particulière ne saute aux yeux. La régression logistique multiple suggère toutefois que l’utilisation d’échantillons synthétique a eu un effet négatif sur la performance en classification (β = -0,49, p < 0,001). Il est important de noter qu’étant donné qu’aucun niveau de difficulté, de stress, d’ordre de condition et d’ordre d’époque d’est déterminé pour le repos initial, les seules variables indépendantes utilisées dans cette régression sont le type de classificateur et la présence (ou absence) du rééquilibrage des classes.

146 Tableau 58 -

Performance des classificateurs en fonction du type de classificateur et de l’imputation

Classe Classificateur Imputation

Époques de 300 secondes κ p Difficulté SVM Sans 0,0864 0,0134 SVM Avec -0,0043 0,9263 Linéaire Sans -0,0062 0,9115 Linéaire Avec 0,0085 0,8534 Stress SVM Sans 0,2257 < 0,001 SVM Avec 0,1923 < 0,001 Linéaire Sans 0,2346 < 0,001 Linéaire Avec 0,2821 < 0,001 Ordre des conditions SVM Sans 0,3154 < 0,001 SVM Avec 0,2906 < 0,001 Linéaire Sans 0,2667 < 0,001 Linéaire Avec 0,3134 < 0,001 Ordre des époques SVM Sans 0,7597 < 0,001 SVM Avec 0,7094 < 0,001 Linéaire Sans 0,7390 < 0,001 Linéaire Avec 0,7273 < 0,001 Performance (% de vies sauvées) SVM Sans 0,0635 0,2797 SVM Avec 0,0453 0,3397 Linéaire Sans 0,1102 0,0478 Linéaire Avec 0,1200 0,0096 Effort (% de vies sauvées) SVM Sans 0,0714 0,2153 SVM Avec 0,1497 0,0012 Linéaire Sans 0,1102 0,0478 Linéaire Avec 0,1994 < 0,001

Note. Époques de 300 secondes avec toutes les métriques physiologiques, (p < 0,0001 en gras).

147 Tableau 59 -

Performance des classificateurs en fonction du type de classificateur et du rebalancement des données.

Classe Classificateur Rebalancement (ADASYN) Époques de 300 secondes κ p Repos initial SVM Sans 0,8340 < 0,001 SVM Avec 0,7850 < 0,001 Linéaire Sans 0,8000 < 0,001 Linéaire Avec 0,8235 < 0,001 Ordre des époques SVM Sans 0,7352 < 0,001 SVM Avec 0,7094 < 0,001 Linéaire Sans 0,6986 < 0,001 Linéaire Avec 0,7273 < 0,001 Ordre des conditions (1) SVM Sans 0,3231 < 0,001 SVM Avec 0,3781 < 0,001 Linéaire Sans 0,3584 < 0,001 Linéaire Avec 0,3650 < 0,001 Ordre des conditions (3) SVM Sans 0,4855 < 0,001 SVM Avec 0,4424 < 0,001 Linéaire Sans 0,4926 < 0,001 Linéaire Avec 0,4355 < 0,001

Note. Pour l’ordre des conditions, les classificateurs présentés ici sont les sous- classificateurs de l’ordre des conditions utilisée dans les autres analyses. Données présentées avec toutes les métriques physiologiques fournies et des époques de 300 secondes. (p < 0,001 en gras).

4.3 Discussion

4.3.1 Discussion sur les mesures

Cette expérience avait pour but de provoquer diverses formes de charge mentales lors d’une simulation de C2. Malgré le devis expérimental, il est fort possible que la charge mentale réelle des participants ait été différente de ce qui avait été prévu. Cette section détaillera les diverses mesures, subjectives, comportementales et physiologiques, afin de mieux comprendre comment les sous-dimensions de la charge mentale ont évolué au cours de l’expérience.

148 4.3.1.1 Discussion sur les mesures subjectives

Tel qu’il est possible de s’y attendre, l’augmentation de la difficulté a provoqué une augmentation de l’évaluation subjective de l’exigence mentale et temporelle et a provoqué une diminution de la performance subjective. En effet, les scénarios difficiles comptaient presque le double des événements des scénarios faciles et ils devaient être complétés dans le même temps. Ce résultat suggère que la manipulation de la difficulté a bien été conçue. L’augmentation de la difficulté a également augmenté l’évaluation subjective de la frustration et du stress. Ce résultat semble contre-intuitif considérant que ces deux dimensions sont plutôt conceptuellement associées au stress (voir section 1.1.2), d’autant plus que la manipulation du stress n’a que très peu affecté ces dimensions. Il faut cependant garder en-tête qu’il est difficile (voir impossible) d’augmenter l’exigence sans causer une quelconque forme de stress (p.ex. Callister, Suwarno et Seals, 1992; Matthews, Campbell et coll., 2002; Robinson, 2001). Il est intéressant de noter que l’augmentation de la difficulté n’a eu qu’un très faible impact sur la perception de l’effort investi que les participants ont ressenti. Ce résultat peut suggérer que les participants fournissaient déjà un effort maximum dans la condition facile. Ainsi, il est possible que les participants n’aient eu que très peu de ressources supplémentaires à investir lors des conditions difficiles.

En constatant le faible effet du stresseur psychosocial sur les réponses subjectives, il est possible d’envisager que la présence de l’examinateur n’ait tout simplement pas eu l’effet attendu. Bien que la manipulation du stress ait été basée sur un stresseur validé (Kudielka et coll., 2007), l’implémentation de ce stresseur dans cette expérience ne suivait pas à la lettre la procédure déjà établie. Toutefois, d’autres hypothèses peuvent également être retenues. Il est possible que la tâche ait été tellement engageante que les individus ont oublié ou fait abstraction de la présence de l’examinateur. Il est aussi possible de supposer que le stress provoqué par la tâche ait été si important qu’il aurait fait ombre au stress provoqué par la présence de l’examinateur. Bien que la présence du stresseur n’ait pas fait varier les évaluations subjectives du stress et de la frustration, ce dernier a toutefois presque augmenté l’évaluation subjective de l’effort. Ce résultat est intéressant considérant que les participants ne recevaient aucune instruction de travailler plus fort lorsque l’évaluateur les observaient.

149

L’augmentation de la difficulté a également fait augmenter les évaluations subjectives de la fatigue. Il est possible que ce résultat ait été causé par l’interprétation de la question du NASA-TLX. Ainsi, au lieu d’évaluer leur fatigue de manière générale, les participants ont possiblement évalué à quel point la condition expérimentale qu’ils venaient de compléter les avait fatigués. L’analyse des corrélations entre le temps passé sur la tâche et les dimensions du NASA-TLX suggère que la fatigue augmentait bel et bien au fil du temps. Toutefois, le temps semble avoir provoqué une série d’autres changements au niveau subjectif. Plus précisément, les participants ont rapporté ressentir une exigence plus faible, une meilleure performance, une moins grande frustration et un moins grand stress. Ce résultat peut vouloir suggérer un effet d’entraînement important. Malgré le tutoriel, la pratique et la vérification de la part de l’expérimentateur, il est possible que les participants se soient trouvé des stratégies qui ont facilité la réalisation des dernières conditions expérimentales.

4.3.1.2 Discussion sur les mesures comportementales

Dans l’ensemble, un nombre beaucoup plus important de victimes étaient sauvées dans les conditions faciles en comparaison aux conditions difficiles, ce qui suggère une fois de plus que la manipulation était réussie. Malgré qu’il y eût deux fois plus d’incidents dans les conditions difficiles, l’augmentation du nombre d’assignations a été très faible. Ce résultat, et le fait que les participants n’ont pas rapporté avoir investi beaucoup plus d’effort dans les conditions difficiles, peut vouloir suggérer que les participants étaient déjà à capacité presque maximale dans les conditions faciles et que la condition difficile était, en réalité, très difficile. Toutefois, les mesures objectives de l’effort (basée sur le pourcentage de vies sauvées) ont montré une grande sensibilité aux niveaux de difficulté.

La présence de l’évaluateur n’a pas affecté le temps de réponse dans les conditions faciles. Toutefois, la présence d’une interaction sur la performance suggère que les participants diminuaient leur temps de réponse lorsque l’évaluateur était présent (dans les conditions difficiles) et l’augmentaient lorsque l’évaluateur était absent. Cette interaction peut possiblement illustrer la dualité des stratégies court/long termes dans la simulation de C2. Tel qu’introduit dans la section 4.1.2, les scénarios de simulation ont été conçus de manière à forcer les participants à prioriser leurs interventions. Les participants pouvaient choisir des

150

stratégies orientées sur le court terme (p.ex. prioriser les incidents les plus près des unités d’interventions) ou choisir des stratégies orientées sur le long terme (p.ex. concentrer les unités sur des incidents majeurs, même s’ils sont plus distants). Dans les conditions à difficulté faible, il est possible que les participants aient eu suffisamment d’unités pour gérer les incidents sans adopter une stratégie spécifique. Toutefois, lors de la difficulté élevée, ce choix était possiblement plus décisif. Ainsi, il est possible que la présence du stresseur ait poussé les individus à des solutions plus rapides (Keinan, 1987; Starcke et Brand, 2016) et que l’absence du stresseur ait laissé la liberté aux individus de trouver des solutions plus élaborées et orientées vers le long terme. Il est toutefois pertinent de noter que ce choix stratégique n’a pas influencé le nombre de vies sauvées.

Les corrélations effectuées sur les mesures de la performance et de l’effort renforcent la suggestion que les participants devenaient meilleurs avec le temps. En effet, ceux-ci démontraient une meilleure performance et un effort plus faible vers la fin de l’expérience.

4.3.1.3 Discussion sur les mesures physiologiques

Pour toutes les modalités, les métriques physiologiques ont présenté peu de variabilité face aux variations de difficulté, de stress de performance et d’effort. Ce résultat peut sembler étrange considérant que la littérature relève plusieurs effets des métriques cardiaques, électrodermales, respiratoires et pupillaires/oculaires face à ces variables (voir section 1.3.3). Il est possible que les tailles d’effets des métriques pertinentes aient été diluées au travers du grand nombre de métriques utilisées (dont certaines pourraient avoir été impertinentes).

La baisse de la durée entre les battements cardiaque (c.-à-d. l’augmentation du rythme) observée lors du repos initial peut possiblement s’expliquer par le fait que le repos initial a été effectué juste après le tutoriel et la séance d’entraînement, ce qui a pu provoquer une certaine forme activation. Il est intéressant de noter que, malgré l’absence d’effets de la difficulté et du stresseur sur la durée entre les battements, ceux-ci étaient plus courts lorsque l’effort était élevé et plus courts lors des dernières époques des conditions. Rappelons que les dernières époques demandaient un effort considérablement plus élevé que la première époque. Ces indices supportent la proposition que le rythme cardiaque soit associé à l’effort

151

mental (Kennedy et Schooly, 2000). Au niveau de la variabilité cardiaque, celle-ci a augmenté dans les situations plus stressantes et les situations où l’effort requis était plus élevé. Souvent, la variabilité cardiaque diminue en période de stress (Castaldo et coll., 2015). Certains travaux empiriques utilisant un stresseur similaire à de cette expérience observe toutefois une augmentation de la variabilité cardiaque (p.ex. Schubert et coll., 2009). La revue de littérature de cette thèse n’a pas relevé d’études qui suggèrent une augmentation de la variabilité cardiaque avec la fatigue (ou le temps passé à faire la tâche). Il est toutefois possible de faire l’hypothèse que, dû à l’effet d’entraînement, l’effort mental a diminué avec le temps, ce qui a fait augmenter la variabilité cardiaque. Étant donné que le ratio des basses sur les hautes fréquences cardiaques est souvent utilisé en psychophysiologie, il est étonnant de constater qu’aucune variable n’a provoqué de changement sur cette métrique. Il est possible que cette insensibilité soit causée par la méthode de calcul du ratio12. Il est également possible que les changements relativement rapides des sous-composantes de la charge mentale aient empêché la stabilisation du ratio.

La métrique de la durée respiratoire a présenté quelques effets contradictoires avec la littérature. La plus grande durée des respirations observée lors du repos initial ne concorde pas avec le rythme cardiaque plus élevé qui a aussi été observé, ni avec les autres ouvrages de la littérature qui montrent une augmentation de la durée respiratoire lors de la réalisation de tâches mentales (Bernardi et coll., 2000). Ces indices laissent une fois de plus croire que l’activité physiologique prise pendant le repos initial était teintée de la séance d’entraînement qui la précédait. Bien que la diminution de la durée respiratoire associée à la difficulté soit prévisible, l’augmentation de la durée respiratoire lors de la présence du stresseur est aussi contre-intuitive à ce qui est typiquement relevé (Boiten, Frikda et Wientjes, 1994). Il faut toutefois être prudent dans l’interprétation de ces résultats. Tout comme pour d’autres modalités physiologiques, l’activité respiratoire est un système complexe sujet à de nombreuses dynamiques non linéaires (Vlemincx et coll., 2013). Quant à l’amplitude respiratoire, les résultats ont montré que celle-ci diminuait avec le temps passé sur la tâche.

12_{Le code MATLAB utilisé pour calculer les métriques de la variabilité cardiaque offrait 3 méthodes} différentes (Burg, Lomb-Scargle et Ondelettes) pour le ratio des basses sur les hautes fréquences cardiaques.

152

À la lumière de la revue de littérature menée dans cette thèse, peu d’articles détaillent les effets de la fatigue sur l’amplitude respiratoire. Selon Marcora, Staiano & Manning (2009), l’amplitude respiratoire augmente avec la fatigue mentale. Leur étude se limite toutefois à des périodes de 15 minutes. Il est possible qu’après un effort soutenu, l’amplitude respiratoire diminue. Fairclough et Mulder (2011), suggère d’ailleurs que l’effort mental soutenu devrait diminuer l’amplitude respiratoire.

Le niveau électrodermal a tendance à diminuer avec l’inactivité (Boucsein, 2012), ce qui explique les diminutions entre le repos initial et la simulation, entre les conditions et entre la première époque et les époques subséquentes. Le niveau électrodermal n’a pas varié avec la difficulté, mais a diminué avec la performance et a augmenté avec l’effort. Tel que détaillé à la section 1.3.3.1, l’activité électrodermale a tendance à augmenter avec l’exigence mentale (Collet, Salvia et Petit-Boulanger, 2014; Galy, Cariou et Mélan, 2012). Toutefois, Boucsein et Backs (2009) suggèrent que différentes formes d’activation peuvent provoquer différents patrons de réponses électrodermales. Selon eux, les réponses plus affectives (dites fight or flight, possiblement observées lorsque l’effort était élevé) seraient associées à plus de réponses électrodermales de plus grande amplitude alors que l’activation de forme d’effort mental (possiblement observés lorsque la performance était élevée) est associée à des longues pauses entre les réponses (et donc, un niveau électrodermal plus faible). Les plus grandes durées des réponses observées lorsque le stresseur était présent pourraient aussi être expliqués par la plus grande amplitude des réponses électrodermales des réponses fight or flight. Toutefois, ces hypothèses ne pourraient être validées que si toutes les métriques électrodermales étaient analysées en profondeur.

La baisse du diamètre pupillaire observée au fil de l’expérience pourrait être due à la fatigue (Morad, Lemberg, Yofe et Dagan, 2000). Alternativement, cette baisse pourrait aussi avoir été causée par la baisse de l’exigence mentale perçue (Palinko, Kun, Shyrokov et Heeman, 2010). Cette hypothèse pourrait également expliquer pourquoi le diamètre pupillaire augmentait lors des dernières époques des conditions (les époques où l’exigence et l’effort étaient les plus élevés). Quant aux mouvements oculaires, le nombre de fixations semble avoir diminué lorsque l’exigence était plus élevée (dernières époques des conditions, lorsque

153

l’effort était élevé et lorsque la performance était faible). Il est possible que l’exigence élevée ait demandé une meilleure efficacité aux participants, ce qui peut expliquer le nombre inférieur de fixations oculaires (Goldberg & Kotval, 1999). Selon Beck et coll., (2010), un nombre élevé de fixation peut être un indicateur que des informations non nécessaires attirent l’attention. Il est donc possible de faire l’hypothèse que les situations à exigence élevée ont concentré leurs fixations sur l’information nécessairement seulement. L’hypothèse de l’efficacité est également supportée par le temps de saccades plus court observé dans certaines conditions (effort élevé, dernières époques des conditions et présence du stresseur; Goldberg & Kotval, 1999).

4.3.2 Discussion des modèles d’apprentissage automatique

L’analyse des paramètres supplémentaires a permis d’investiguer l’effet de deux techniques qui ont été utilisés dans ce projet de thèse : l’imputation des données et le rééquilibrage des classes. Tel que détaillé à la section 2.6, l’imputation des données permet de conserver les échantillons physiologiques pour lesquels une ou plusieurs métriques ne peuvent être calculées. Malgré l’avantage théorique proposé par l’imputation des données, les résultats suggèrent que celle-ci n’a pas influencé la performance des classificateurs. Quelques raisons peuvent expliquer ce résultat. Tout d’abord, il est possible que la technique utilisée n’ait pas été la plus adaptée pour cette situation. Les travaux de recherches sur l’imputation de données suggèrent plusieurs méthodes différentes et recommandent généralement une analyse approfondie des données avant de choisir une méthode (Schafer et Graham, 2002; Sinharay, Stern et Russell, 2001). Il est également possible que les données manquantes n’aient pas été réparties de manière suffisamment aléatoire, ce qui est requis avec la méthode utilisée dans ce projet (Folch-Fortuny et coll., 2016). Finalement, il est possible que l’imputation ait été majoritairement faite sur les ensembles EDA, PUP et GAZ alors que ceux-ci n’ont pas contribué aussi fortement à la classification que les ensembles RR et RSP. Bien qu’aucune analyse n’ait été effectuée sur l’origine des données manquantes, les rapports des expérimentateurs et l’observation des ensembles de données suggèrent que le groupe RR-RSP (obtenu par le Bioharness 3) était le sous-ensemble le moins affecté par les données manquantes.

154

Le rééquilibrage des classes, tel que détaillé à la section 2.7, permet de créer des échantillons synthétiques. Ces échantillons synthétiques permettent de supporter l’entraînement des classificateurs pour lesquelles les classes sont fortement débalancées. Malgré que plusieurs travaux de recherches montrent les bénéfices de telles pratiques (p.ex Batista, Prati et Monard, 2004; He, Bai, Garcia et Li, 2008), les analyses de ce projet montrent que l’utilisation d’échantillons synthétiques a plutôt été associé à une baisse de performance en classification. Il est possible que ce résultat ait été amplifié par l’absence de nombreux facteurs (comme la difficulté ou le stress) dans la régression logistique multiple.

Dans l’ensemble, l’imputation et le rééquilibrage des classes ont eu des effets moins prometteurs que prévu. Il peut être quand même prudent et avantageux de néanmoins les inclure dans la méthode. Dans un cas particulier de cette expérience, l’imputation a notamment permis de rendre possible la prédiction de l’effort mental. L’inclusion de ces méthodes doit toutefois être bien pesée : bien que les données relatives au temps d’entraînement des classificateurs n’aient pas été présentées, les observations informelles faites lors des analyses suggèrent que l’imputation et le rééquilibrage des classes ont consommé un temps non négligeable lors de l’entraînement des classificateurs.

4.3.2.1 Classificateurs du repos initial

Comme il est observé dans d’autres travaux empiriques (p.ex. Gateau et coll., 2015; Girouard et coll., 2009; Healey et Picard, 2005), la classification du repos initial s’est révélée être très précise. Les métriques les plus pertinentes retenues pour la classification du repos initial était principalement celles associées aux mouvements oculaires. Lors de la prise de mesure du repos initial, les participants étaient invités à simplement attendre devant un écran noir, sans aucune tâche à réaliser. Dans un tel cas, il est attendu que les métriques oculaires soient

Dans le document Diagnosticité des mesures physiologiques périphériques de la charge mentale (Page 158-180)