• Aucun résultat trouvé

Chapitre 5 : Discussion générale

5.3 Contribution méthodologique

5.3.1 Avantage – Grand nombre de métriques physiologiques

Ce projet de thèse a favorisé l’utilisation d’une grande quantité de métriques, lesquelles étaient parfois peu communes dans la littérature. Ce choix méthodologique peut présenter des avantages et des inconvénients. L’utilisation d’un faible nombre de métriques physiologique peut faciliter l’interprétation des résultats et permet de créer des modèles plus parcimonieux. Dans un contexte d’apprentissage automatique, un faible nombre de métriques physiologiques peut également faciliter l’entraînement en évitant les problèmes de haute dimensionnalité (Cornuéjols et Miclet, 2010). À l’inverse, l’utilisation d’un nombre élevé de métriques physiologiques, comme dans ce projet, peut rendre difficile l’interprétation des résultats. Cependant, cette approche peut laisser le champ libre aux techniques d’apprentissage automatiques de déterminer les métriques pertinentes à la classification (à condition que ces techniques gèrent bien la dimensionnalité élevée). Ce choix méthodologique était particulièrement important dans ce projet de thèse. Tel que relevé à la section 1.3.3, un grand nombre d’études psychophysiologiques ont relevé les métriques qui sont sensibles aux sous-dimensions de la charge mentale. Toutefois, ces études ne rapportent que très rarement les combinaisons de métriques qui sont spécifiques aux sous-dimensions. Même si les modalités physiologiques retenues dans ce projet sont toutes déjà largement étudiées, il est difficile de déterminer à priori quelles métriques seront les plus adaptées pour la spécificité. L’analyse des métriques physiologiques effectuée dans les deux expériences de ce projet a d’ailleurs montré que les métriques qui avaient, dans le passé, démontré de la sensibilité aux sous-dimensions de la charge mentale n’ont pas toujours été retenues par les

174

classificateurs. À titre d’exemple, le ratio des basses sur les hautes fréquences cardiaques, souvent associé à la charge mentale (Cinaz et coll., 2013; Fallahi et coll., 2016; Miyake, 1998; Murai, Hayashi, Okazaki et Stone, 2008), n’a pas été retenu par aucun classificateur. Cela ne signifie pas que les sous-dimensions de la charge mentale n’ont pas affecté le ratio des basses sur les hautes fréquences. Il est toutefois possible de faire l’hypothèse que ce ratio était affecté par toutes les sous-dimensions, ce qui le rend peu utile pour distinguer laquelle en est à l’origine.

5.3.2 Avantage – Méthode orientée vers la pratique

La méthode utilisée dans cette thèse avait comme avantage d’être orientée vers les applications pratiques. Ce choix méthodologique fait en sorte que la performance des classificateurs utilisés dans cette étude est possiblement plus rapprochée de ce qu’il est possible de trouver en contexte de travail réel. À titre d’exemple, les signaux physiologiques n’ont pas été soumis à un prétraitement très complexe (voir section 2.3). Ce choix méthodologique est un couteau à double tranchant. Un bon prétraitement des données peut retirer le bruit présent dans les données physiologiques, augmenter la puissance statistique des tests effectués et, comme dans le cas présent, faciliter l’entraînement des techniques d’apprentissage automatique. Toutefois, un bon prétraitement des données peut risquer de diminuer la validité écologique des résultats obtenus. Dans des contextes de travail réels, les signaux physiologiques peuvent facilement être bruités (p.ex. par l’activité physique ou par le déplacement des capteurs). Dans certains cas, il est possible de prévoir le type de bruit et le prétraitement qui peut le contrer (p.ex. l’application d’un filtre passe-bas pour retirer les artéfacts liés au mouvement dans les signaux électrodermaux). Il n’est toutefois pas possible de prévoir toutes les formes de bruit qui peuvent être présentes sur les signaux. Ainsi, l’inspection (visuelle ou analytique) des signaux peut introduire une forme de biais dans les tailles d’effet (ou dans la qualité de classification) car cette inspection ne sera pas toujours possible en contexte de travail réel. De plus, certaines techniques de traitement du signal peuvent être exigeantes en termes de ressources informatiques, ce qui peut provoquer des délais dans l’obtention de la mesure ou une consommation plus sévère de la batterie (dans le cas de systèmes portables). Étant donné que ce projet de thèse visait, entre autres, à investiguer le potentiel diagnostique des mesures physiologiques en contexte de travail réel,

175

il a été choisi de garder un prétraitement des données minimal, représentatif de ce qu’il est possible de rencontrer dans de tels contextes. Malgré la simplicité de ce traitement, les classificateurs sont parvenus à des résultats très satisfaisants.

Comme second argument supportant le côté pratique de la méthode, il est possible de retenir la période de mesure de la charge mentale utilisée dans cette thèse. Dans certains autres travaux de recherche, les sous-composantes de la charge mentale sont mesurées sur des périodes très longues (p.ex. Sano et Picard, 2013). À l’inverse, certains travaux mesurent la charge mentale de manière très instantanée (p.ex Liu et coll., 2017). Les durées trop longues et trop courtes de mesure de la charge mentale peuvent causer des difficultés dans l’implémentation des contre-mesures. Si les mesures sont trop lentes, il peut être difficile de déterminer l’impact des contre-mesures, puisque les états physiologiques pourraient ne pas changer assez rapidement. À l’inverse, si la mesure est trop courte, il devient difficile de déterminer quelle contre-mesure appliquer, puisque l’état physiologique risque déjà d’avoir changé lorsque la contre-mesure sera appliquée. Bien entendu, chaque situation de travail réel est différente. Les mesures lentes et/ou très rapides de la charge mentale peuvent être utiles dans certains cas. Toutefois, il peut être pertinent que la période de mesure utilisée par les classificateurs (2 ou 5 minutes dans cette thèse) soit similaire à ce qui serait typiquement utilisé avec des mesures subjectives ou des tâches secondaires, sans avoir les désavantages des interruptions.

Finalement, la méthode utilisée offre une bonne flexibilité quant au domaine d’application. Bien que les classificateurs des deux expériences n’aient pas été entraînés ensemble, ces derniers ont démontré une certaine similitude au niveau des métriques retenues, ce qui suggère une signature physiologique plus générique et non surspécialisée sur une tâche en particulier. Malgré que la simulation de C2 ait été utilisée pour la 2e expérience, celle-ci était plutôt complexe. Les participants avaient une certaine latitude quant à la manière dont ils pouvaient répondre aux situations (p.ex. planifier la position des unités à l’avance ou attendre les incidents, travailler sur plusieurs incidents à la fois ou les traiter en série, travailler rapidement ou méticuleusement). Ces éléments font en sorte que les classificateurs ont possiblement mieux généraliser au travail de C2 (être assis derrière un écran d’ordinateur à

176

coordonner des unités) plutôt qu’à un aspect précis de ce travail. La transférabilité intertâche n’a pas été formellement testée. Il est donc nécessaire d’être prudent quant au potentiel réel de la généralisation des classificateurs. Toutefois, il est proposé que la méthode employée dans cette thèse était bien adaptée pour capturer les signatures physiologiques génériques des sous-composantes de la charge mentale, plutôt que de se concentrer sur des spécificités précises de certaines tâches. De plus, contrairement à certaines techniques, comme l’analyse des réponses électrodermales spécifiques (Boucsein, 2014), l’analyse des réponses pupillaires (p.ex. Brisson et coll., 2013) ou le technique des potentiels évoqués (Bressler et Ding, 2006; Wang et coll., 2008), la méthode utilisée dans ce projet ne requiert pas de synchronisation avec des événements particuliers de la tâche (mis à part le début et la fin de cette dernière). L’étude des réponses associés à des événements peut offrir un grand potentiel de mesure. Toutefois, ces méthodes ont parfois une validité écologique limitée. À titre d’exemple, il être facile, dans un contexte de laboratoire, de déterminer le moment exact de l’occurrence d’un son stressant (comme celui utilisé dans la première expérience de cette thèse). Il peut toutefois être plus difficile de déterminer le moment exact du début du stresseur dans un contexte réel de C2.

5.3.3 Limites – Fatigue confondue avec d’autres facteurs

Pour développer des modèles diagnostiques de la charge mentale, il est nécessaire que les modèles de chaque sous-dimension considèrent les réactions physiologiques qui sont provoquées par les autres sous-dimensions. Bien que simple à première vue, il peut être très difficile de développer une méthode expérimentale dans laquelle toutes les combinaisons de charge mentale sont explorées. Dans cette thèse, un soin particulier a été dédié afin de générer, au mieux possible, ces combinaisons. Malgré cette attention, certaines combinaisons ont été plus difficiles à cerner que d’autres.

La fatigue est possiblement la sous-dimension de la charge mentale qui a été la plus ambiguë à mesurer objectivement dans cette thèse. Bien que les résultats des deux expériences suggèrent que la fatigue ait bel et bien été présente, il reste difficile de quantifier à quel point elle a contribué réellement. Dans la première expérience, l’absence de contre-balancement a rendu difficile la distinction entre les tâches et la fatigue. De plus, la faible durée des essais

177

expérimentaux ne permet pas de suggérer que les participants ont subi une très grande fatigue. La performance, qui est aussi parfois utilisée pour déduire la fatigue (p.ex. Shen et coll., 2008), n’a pas non plus subi de changement majeur à l’intérieur de chaque tâche. Les mesures subjectives de la seconde expérience suggèrent que la fatigue a cette fois été ressentie. Toutefois, l’augmentation de la performance et la baisse de l’effort laissent croire que l’entraînement a joué un rôle significatif entre les conditions expérimentales, confondant ainsi la fatigue avec la baisse d’effort. En effet, il est difficile de déterminer si chaque participant a fourni moins d’effort parce qu’il était fatigué ou s’il a fourni moins d’effort parce qu’il devenait meilleur.

Au niveau physiologique, il est intéressant de remarquer que malgré l’absence de contre- balancement entre les tâches dans la première expérience, les classificateurs des tâches (n-back vs. recherche visuelle) ont repéré des manifestations physiologiques très similaires au classificateur de l’ordre des conditions de la seconde expérience. Ce résultat peut laisser croire qu’il s’agit des manifestations spécifiques à la fatigue mentale. Toutefois, telle que détaillé à la section 3.3.2.4, il est également possible que ces signes physiologiques ne soient simplement que ceux du temps passé à faire la tâche.

5.3.4 Limite – Pas de comparaison de performance entre les modalités

Comme seconde limite, il est possible de soulever que ce projet de thèse ne compare pas directement les différentes modalités physiologiques entre elles. Cette absence de comparaison résulte du fait qu’il a été choisi de comparer des sous-ensembles d’équipement de mesure plutôt que des sous-ensembles de modalités. Cette limite est partiellement résolue par l’analyse des poids des classificateurs linéaires qui renseigne sur les modalités retenues par les classificateurs dans les situations où toutes les modalités étaient présentes. Toutefois, le projet de thèse ne permet pas, par exemple, de se prononcer sur la diagnosticité d’un système basé uniquement sur la réponse électrodermale ou sur le diamètre pupillaire. Le choix de comparer des sous-ensembles basés sur des équipements, plutôt que des modalités physiologiques, a toutefois été fait de manière consciente lors de l’élaboration de la méthodologie. La comparaison des différentes modalités est un aspect déjà abordé dans d’autres travaux de recherche (p.ex. Banville, 2015; Hogervorst, Brouwer et van Erp, 2014;

178

Liu et coll. 2017). Le fait de comparer des sous-ensembles basés sur des équipements a permis d’explorer des aspects plus pratiques et appliqués de la physiologie.

De plus, même s’il aurait été possible d’utiliser la présente méthode afin de former des sous- ensembles basés sur les modalités, il est important de considérer le temps requis afin d’entraîner les systèmes d’apprentissage automatique. Par souci de parcimonie, les détails sur le temps de calcul d’apprentissage automatique n’ont pas été discutés dans cette thèse. Brièvement, plusieurs mois ont été requis afin d’obtenir les résultats. Ce temps inclut la préparation des données, la coordination de l’apprentissage automatique sur plusieurs processeurs, les bogues informatiques ainsi que les nombreux résultats qui n’ont pas été retenus dans la thèse. Ce temps pourrait être grandement réduit en parallélisant l’entraînement des algorithmes (notamment en utilisant des processeurs graphiques) mais cette optimisation demanderait toutefois aussi un temps de mise en place. Bref, la comparaison des différentes modalités, ou à cet égard, la comparaison d’autres combinaisons de métriques physiologiques reste possible, mais il est nécessaire de considérer à l’avance les hypothèses à tester afin de garder le temps de calcul raisonnable.