• Aucun résultat trouvé

Discussion des modèles d’apprentissage automatique

Chapitre 3 : Diagnosticité dans des tâches simples

3.3 Discussion

3.3.2 Discussion des modèles d’apprentissage automatique

Dans l’ensemble, les modèles d’apprentissage automatique ont atteint des performances très intéressantes. Selon la méta-analyse des classificateurs, les meilleurs résultats ont été obtenus par le sous-ensemble RR-RSP-EDA-PUP. La performance légèrement inférieure de l’ensemble RR-RSP-EDA-PUP-GAZ est peut-être attribuable au fait que les métriques du groupe GAZ n’ont que très peu contribué à la classification.

La méta-analyse des classificateurs a également révélé que lorsque les participants fournissaient un effort élevé, la qualité de classification diminuait (pour tous les classificateurs, pas juste ceux de l’effort). Ce résultat peut vouloir suggérer que la signature physiologique de l’effort mental domine celles des autres dimensions. La revue de littérature effectuée au Chapitre 1 ne permet pas de lier cette hypothèse à des travaux passés. Selon cette revue de littérature, c’est plutôt la fatigue qui aurait une signature physiologique dominante par rapport aux autres. Tel que relevé plus tôt, les résultats subjectifs et la faible durée de l’expérience ne permettent pas de suggérer que la fatigue a eu des effets majeurs dans cette expérience. Il est donc impossible de valider la dominance de la signature physiologique de la fatigue. Mais l’apparence de dominance de la signature physiologique de l’effort, telle que relevée dans cette étude, pourrait répondre à la moitié de la question. Il serait ainsi intéressant, dans une étude subséquente, de vérifier si l’effort élevé et la fatigue élevée diminuent la qualité de la classification. Un tel résultat pourrait peut-être signifier que l’effort mental et la fatigue ne sont pas orthogonaux et qu’ils constituent plutôt un seul et même axe de la charge

97

mentale (c.-à-d. qu’il serait possible de faire un effort, ou d’être fatigué, mais pas de faire les deux en même temps).

La méta-analyse des classificateurs a également révélé qu’aucune des deux méthodes de classification (SVM ou linéaire) n’a permis d’atteindre une meilleure classification. Les classificateurs SVM sont généralement réputés pour être moins tolérants à la haute dimensionnalité (versus les classificateurs linéaires). Étant donné l’absence de différence, on peut faire l’hypothèse que la haute dimensionnalité du présent projet n’a pas été nuisible au classificateur SVM.

Quant au chevauchement des époques, l’analyse a montré que celle-ci n’affecte pas la qualité de classification. L’inclusion du chevauchement dans les mesures physiologiques peut apporter certains bénéfices. Celui-ci permet d’augmenter le nombre d’échantillons disponibles pour l’entraînement, la validation et l’évaluation des classificateurs. Plus le chevauchement est élevé, plus grand est le nombre d’échantillons supplémentaire qu’il est possible d’ajouter. L’ajout du chevauchement permet aussi de capturer des comportements physiologiques qui échappent parfois aux fonctions calculant les métriques. Dans ce projet, il est possible que le nombre élevé de métriques ait déjà capturé l’information suffisante à la classification, ce qui pourrait expliquer pourquoi le chevauchement n’a pas contribué à l’amélioration de la classification.

3.3.2.1 Classificateurs du repos initial

Il était attendu que les classificateurs du repos initial atteignent une performance très élevée (voir par exemple Gateau et coll., 2015; Girouard et coll., 2009; Healey et Picard, 2005). Lors du repos initial, aucune exigence n’est imposée sur les participants et leur effort mental est presque nul. Leurs niveaux de stress et de fatigue, bien que possiblement non nuls au départ, n’ont pas encore été affectés par la tâche. Il est donc probable que l’état du repos initial soit fortement différent de celui des tâches et donc, facilement classifiable.

Bien que le poids de tous les classificateurs n’ait pas été analysé, il semblerait que ce classificateur est celui qui s’est le plus basé sur les mouvements oculaires pour prendre ses

98

décisions. Les résultats suggèrent que, pendant le repos initial, les individus effectuaient beaucoup de saccades et que ces dernières avaient une durée plus variable que lors des tâches. Mis à part de rester assis et au repos, les participants n’ont pas reçu d’instructions (p.ex. regarder une croix de fixation sur l’écran). Il est donc probable que ces saccades soient causées par le vagabondage oculaire des participants. L’écran noir, qui était présent lors du repos initial, pourrait également expliquer l’augmentation du diamètre pupillaire et ses grandes variations en contraste aux tâches. En plus du vagabondage oculaire, le classificateur linéaire du repos initial s’est également basé sur des métriques cardiorespiratoires. Au niveau cardiaque, le classificateur s’est partiellement basé sur une augmentation des très basses fréquences cardiaques pour repérer le repos initial. Le rôle des très basses fréquences cardiaques n’est pas bien cerné dans la littérature. Cette manifestation pourrait avoir été provoquée par l’activité physique (mouvements) que les participants ont faite juste avant le repos initial. Les très basses fréquences cardiaques pourraient, de manière analogue, avoir diminué lors des tâches à cause de l’inactivité physique. Au niveau respiratoire, le classificateur a notamment retenu que le repos initial était associé à une plus grande variabilité dans la durée des respirations, ce qui concorde relativement bien avec la littérature qui suggère que la respiration à une plus haute fréquence lors des périodes non chargées (Bernardi et coll. 2000).

3.3.2.2 Classificateurs de difficulté

Dans le meilleur cas (classificateur : SVM, sous-ensemble : RR-RSP-EDA-PUP-GAZ), le classificateur de la difficulté a atteint une performance qui correspond à une précision d’environ 69%. Ce résultat signifie que les modèles développés dans ce projet atteignent donc une performance similaire à ceux obtenus par des électroencéphalogrammes (71% lors de la classification entre n-back 1 et 2, Liu et coll., 2017; 76% lors de la classification entre n-back 0 et 2, Mühl, Jeunet et Lotte, 2014; bien que certains arrivent à des performances plus élevés, Brouwer et al., 2012) et largement meilleure que les modèles utilisant la spectroscopie proche infrarouge fonctionnelle (59,5% et 58,% lors de la classification entre n-back 1 et 2; Liu et coll., 2017; Herff et coll., 2014; respectivement). Ces résultats sont très satisfaisants considérant que les classificateurs de ce projet : 1) n’utilisent que des capteurs périphériques, 2) classifient la difficulté sans égard à laquelle des deux tâches est effectuée, 3) classifient la

99

difficulté malgré le niveau de stress des participants et 4) se généralisent sur de nouveaux participants (ce qui n’était pas le cas dans Herff et coll. (2014) ni dans Liu et coll. (2017). Un des classificateurs de la difficulté (classificateur : SVM, sous-ensemble : RR-RSP-EDA) a également atteint une performance intéressante, cette fois-ci sans avoir besoin de l’oculométrie (groupes PUP et GAZ). Ce résultat suggère qu’il pourrait être possible de classifier l’exigence mentale à l’aide de systèmes très portables et faciles à implémenter dans des milieux de travail.

La pupille était la modalité physiologique la plus utile pour discriminer les différents niveaux de difficulté. Tout comme le classificateur de la difficulté du présent projet, Peysakhovich et coll. (2015), suggèrent que l’augmentation de la charge mentale provoque une transition vers les hautes fréquences pupillaires. La bande fréquentielle utilisée dans ce projet est plus large dans Peysakhovich et coll. (2015), ce qui empêche de faire une comparaison précise. Le passage vers les hautes fréquences pupillaires observé dans cette étude (175 à 225 mHz) semble toutefois similaire à celui observé dans Murata et Iwase (1998), qui utilisent une bande plus proche de ce projet. Bien que le diamètre pupillaire soit généralement associé à l’exigence mentale (Beatty, 1982; Palinko et coll., 2010), le classificateur de la difficulté de ce projet a plutôt retenu la croissance pupillaire (plutôt que le niveau moyen) comme indicateur de difficulté. Ce résultat est peut être causée par la courte durée des segments de tâches, qui n’a peut-être pas laissé le temps au diamètre de se stabiliser. Certaines métriques cardiaques ont également contribué à la classification de la difficulté. Bien que typiquement non spécifique à l’exigence mentale, la moyenne et médiane de la durée entre les battements cardiaques ont fortement contribué à la classification de la difficulté. Tel qu’il était possible de prévoir en observant la faible variabilité de métriques associées à la variabilité cardiaque, celles-ci ne semblent pas avoir contribué énormément à la classification de la difficulté. Encore une fois, la courte durée des époques est possiblement la cause de cette absence. À l’inverse, malgré que les métriques spectrales de la réponse électrodermale aient présenté très peu de variabilité, une de ces métriques a fortement influencé la classification de la difficulté. Plus spécifiquement, l’augmentions de la difficulté semble avoir été associée à une baisse d’une bande des très basses fréquences électrodermales. Ce résultat ne concorde pas avec la baisse du niveau électrodermale et l’augmentation de la durée des réponses observée lors de

100

l’analyse des métriques physiologiques. En effet, la baisse constante observée pendant les conditions difficiles devrait plutôt être associée à une augmentation des basses fréquences électrodermales. Il est donc possible que la baisse du niveau électrodermale ait été réalisée dans plusieurs bandes spectrales différentes, mais que celle repérée par le classificateur soit un indice spécifique associée à la difficulté. D’autres travaux seront nécessaires pour confirmer ce résultat.

3.3.2.3 Classificateurs de stress

La classification du stress aussi atteint des performances intéressantes. Pour le classificateur SVM, la meilleure performance correspond à environ 65% de précision. Le classificateur linéaire a atteint une performance plus élevée (environ 69%). Dans les deux cas, ces performances ont été atteintes avec le sous-ensemble RR-RSP-EDA-PUP. Ces résultats sont d’un ordre similaire à Parent et coll. (soumis pour publication) dans lequel les classificateurs d’un stresseur similaire (c.-à-d. une punition sonore) ont atteint une performance de 63% en se basant sur la spectroscopie proche infrarouge fonctionnelle. Il est difficile de fournir plus de comparaison puisque de nombreuses études n’utilisent pas une définition de stress tel qu’utilisé dans ce projet, mais plutôt un stress mental, correspondant plutôt à une variation d’exigence (p.ex. Al-Shargie et coll., 2016; Zhai et Barreto, 2006).

Il est intéressant de noter que les sous-ensembles n’ayant pas accès à la pupille ne sont pas parvenus à classifier correctement le stress. L’analyse des poids suggère d’ailleurs que plusieurs métriques de la pupille ont contribué à la classification du stress. Contrairement au classificateur de la difficulté, qui s’est basé sur l’augmentation du diamètre pupillaire, les classificateurs du stress se sont basés sur le niveau moyen du diamètre pupillaire (un résultat allant dans la même lignée que ceux de Pedrotti et coll., 2014). De plus, les résultats suggèrent qu’au lieu d’une transition des basses vers les hautes fréquences pupillaires, le stress était associé à une augmentation de la puissance de plusieurs bandes fréquentielles. Deux hypothèses sont retenues pour expliquer la prévalence et le comportement de la pupille dans la classification du stress. Premièrement, il est possible que les effets de l’exigence et du stress sur la pupille soient sensiblement les mêmes. Tel que montré par Partala et Surakka (2003), la pupille tend effectivement à avoir un plus grand diamètre lors des sons aversifs. Il

101

est donc possible que les classificateurs de la difficulté et du stress se soient basés sur des critères similaires, mais qu’ils aient pu repérer des différences très subtiles (comme la différence entre le niveau moyen et l’augmentation du niveau) afin de séparer les deux concepts. Comme seconde hypothèse, il faut également envisager que la difficulté et le stress, tel qu’induit dans cette expérience, aient tous deux provoqué un état mental similaire. Les instructions données au participant précisaient que l’occurrence du stresseur (la punition sonore) était associée à une mauvaise performance. Il est donc possible que l’augmentation du diamètre pupillaire ait été provoquée par un effort mental plutôt qu’un état de détresse. Finalement, il est également possible que la punition sonore ait provoqué une capture attentionnelle, laquelle est connue pour avoir des effets sur le diamètre pupillaire (Marois, Labonté, Parent et Vachon, 2018).

3.3.2.4 Classificateurs de tâche

Rappelons que dans ce projet, le type de tâche n’a pas été retenu comme dimension de la charge mentale. Tel que décrit dans la section 1.1, certains auteurs suggèrent de diviser la charge mentale selon la modalité de tâche. C’est par exemple le cas de Hoedemaeker (2002) qui sépare entre autres la charge visuelle de la charge mentale. Néanmoins, il a quand même été choisi d’entraîner et tester des classificateurs visant à prédire la tâche effectuée par les participants. Banville (2015) rapporte la performance en classification entre sept différentes tâches mentales à l’aide d’électroencéphalographie et de spectroscopie proche infrarouge fonctionnelle. Selon ses résultats, la performance en classification binaire (c.-à-d. entre deux des sept tâches) varie de κ = 0,40 à κ = 0,82 selon la paire de tâches observées, ce qui signifie que les meilleurs résultats de classification de tâche dans cette expérience (κ = 0,78) sont plutôt élevés, considérant qu’ils n’utilisent que des mesures périphériques. La classification de la tâche est également restée plutôt bonne, même en absence de métriques oculaires.

Les tâches de n-back et de recherche visuelle diffèrent largement en termes d’exigence visuelle. Le n-back ne requiert que peu de mouvements oculaires, puisque tous les stimuli sont placés au même endroit, au centre de l’écran. À l’inverse, la tâche de recherche visuelle demande un balayage visuel sur toute la surface de l’écran. Malgré cette différence majeure, l’ajout du sous-ensemble de métrique GAZ, lequel regroupant les métriques relatives aux

102

fixations et saccades, n’a que peu contribué à la qualité de classification de la tâche. Dans le cas du classificateur linéaire, la performance en classification est même moins bonne en présence du sous-ensemble GAZ (en comparaison avec le sous-ensemble RR-RSP-EDA-PUP). En analysant les poids des métriques du classificateur linéaire, on confirme également que les métriques du groupe GAZ n’ont que très peu contribué à la qualité de classification de la tâche. Bien qu’optimale avec le sous-ensemble RR-RSP-EDA-PUP, la classification de la tâche a été quand même possible jusqu’avec le plus petit sous-ensemble (RR-RSP). Ce résultat peut paraître étonnant vu les différences importantes en termes d’exigence visuelle entre les tâches. Il est donc clair que des manifestations cardiorespiratoires ont été suffisantes pour distinguer les deux tâches. Quelques hypothèses peuvent être retenues pour expliquer ce résultat. Tout d’abord, l’ordre des tâches n’étant pas contrebalancé, il est possible que le classificateur de tâche ait plutôt regardé des marqueurs associés au temps passé à faire l’expérience. Lorsqu’on observe les métriques ayant eu la plus grande importance pour ce classificateur, on remarque d’ailleurs qu’elles correspondent aux manifestations de la détente et la relaxation, comme une baisse du rythme cardiaque (Vuksanović et Gal, 2007) et baisse du niveau électrodermal dans la tâche de recherche visuelle (Kappeler-Setz et coll., 2013). Il est également possible que le classificateur de tâche ait plutôt été un autre classificateur d’effort mental. En effet, les analyses subjectives et comportementales, ainsi que l’analyse de l’indépendance des classes objectives, suggèrent toutes que la tâche de recherche visuelle était associée à une performance et un effort mental plus faible, ce qui pourrait suggérer que les classificateurs ont plutôt repéré des manifestations d’effort mental plutôt que de la tâche ou du temps passé à faire la tâche.

3.3.2.5 Classificateurs de performance

L’analyse de l’indépendance des classes suggère une association très forte entre la difficulté et la performance. Cette association est attendue puisque la normalisation de la difficulté s’est faite de manière intraindividuelle. Il a donc été très fréquent que les conditions faciles correspondent aussi aux performances qui étaient supérieures à la moyenne personnelle des individus et que les conditions difficiles correspondent aux performances inférieures à leur moyenne. Malgré cette association, les classificateurs de la difficulté et de la performance

103

semblent être très différents. Tout d’abord, les classificateurs de la performance ont obtenu une performance en classification généralement plus élevée que les classificateurs de la difficulté. Le meilleur classificateur de la performance a obtenu une performance de κ = 0,51 versus un κ = 0,30 pour l’équivalent en difficulté. Cette meilleure performance en classification pourrait suggérer que les mesures physiologiques sont plus facilement influencées par l’état réel de l’individu que dans la condition dans laquelle il se trouve.

Les classificateurs de performance et de difficulté ne se sont pas non plus basés sur les mêmes métriques physiologiques pour établir leurs prédictions. Le classificateur de performance est celui qui semble s’être le plus fortement basé sur la réponse électrodermale. Dans l’ensemble, une performance élevée a été associée à une augmentation globale du niveau électrodermal et une augmentation du nombre de réponses électrodermales. Ce résultat est attendu puisque lorsque la difficulté est élevée (donc la performance souvent faible), on observe un patron électrodermal inverse. Au niveau pupillaire, une performance élevée a été associée à une diminution du diamètre pupillaire ainsi qu’une apparence de transition des hautes vers les moyennes fréquences pupillaires, ce qui s’oppose encore une fois aux métriques retenues par le classificateur de la difficulté.

3.3.2.6 Classificateurs d’effort

Les classificateurs d’effort ont été entraînés de manière à repérer les essais expérimentaux pour lesquels les individus percevaient une exigence élevée et performaient quand même bien. Contrairement à la performance, l’analyse de l’indépendance des classes a suggéré que l’effort était très différent de la difficulté. C’est également le seul des trois classificateurs qui a pu atteindre une performance significative avec le groupe de métrique RR-RSP, ce qui suggère l’identification de métriques cardiorespiratoires associées à l’effort mental. Il est difficile de comparer la performance des classificateurs d’effort avec d’autres travaux puisque celui-ci est rarement défini de manière séparée à la difficulté dans la littérature. La performance des classificateurs d’efforts a toutefois atteint des niveaux similaires aux classificateurs de la difficulté; et ces derniers atteignent des performances similaires à des systèmes n’utilisant que l’électroencéphalographie.

104

L’analyse des métriques montre que l’effort élevé était associé à un diamètre pupillaire plus élevé. Ce comportement est similaire au classificateur du stress et renforce l’idée que les deux classificateurs ont, en réalité, repéré la signature de l’effort mental plutôt que du stress. Toutefois, les deux classificateurs n’ont pas retenu les mêmes bandes fréquentielles de l’analyse pupillaire pour effectuer leur classification. Ces résultats pourraient avoir été causés par la présence ou l’absence des punitions sonores. Au niveau cardiaque, l’effort mental était associé à une augmentation de la bande des basses fréquences, ce qui concorde avec la littérature qui suggère une augmentation de la bande des basses fréquences (Vuksanović et Gal, 2007), et, indirectement, une augmentation du ratio des basses sur les hautes fréquences (Cinaz et coll., 2013). L’effort élevé était également associé à des saccades oculaires plus courtes. Cet indice renforce une fois de plus la validité du classificateur puisque des courtes saccades oculaires sont parfois associées à une plus grande difficulté (Nakayama Takahashi et Shimizu, 2002) et une plus grande efficacité (Ellis, 2009)

3.3.2.7 Classificateurs subjectifs

À la lumière de la revue de littérature effectuée dans ce projet, très peu de travaux de recherche ont tenté de prédire la charge mentale subjective à l’aide de marqueurs physiologiques. Bien que la majorité des dimensions du NASA-TLX n’ait pas pu être prédite, les dimensions de l’exigence temporelle et du stress ont été prédites avec une performance plutôt satisfaisante (κ > 0,2). L’analyse de l’indépendance des classes suggère aussi que ces deux dimensions n’étaient pas fortement associées, ni entre elles ni avec les dimensions objectives (voir Tableau 16 et Tableau 17). On peut donc suggérer que l’exigence temporelle et le stress sont deux états mentaux que les individus sont capables d’évaluer de manière consistante avec leurs réactions physiologiques.