• Aucun résultat trouvé

Chapitre IV. Réalisation d’une base de données de scènes émotionnelles

2. Pré-test expérimental : contraintes de sélection des scènes liée aux filtrages

scènes liée aux filtrages fréquentiels

Suite à l’évaluation des scènes sur la base de nos trois dimensions émotionnelles (valence, intensité, tendance à l’action), 374 images parmi les 1100 testées ont été sélectionnées de manière (1) à obtenir une distinction maximale entre les valences sur les trois dimensions émotionnelles (valence, intensité et tendance à l’action) et (2) à former des catégories sémantiques les plus équivalentes possibles aux trois valences de stimuli (e.i., des scènes d’animaux, des scènes sociales, et des scènes d’environnements).

Parmi ces 374 scènes : (1) 134 étaient de valence déplaisante (moyenne : -6 ;10 et ET = ± 1,33), caractérisées par des niveaux élevés d’intensité émotionnelle (moyenne = 5,36 et ET = ± 0,91) et de recul (tendance à l’action : moyenne = -7,13 et ET = ± 1,14) ; (2) 124 étaient de valence plaisante (moyenne = 5,07 et ET = ± 1,01), caractérisées par des niveaux élevés d’intensité émotionnelle (moyenne = 4,57 et ET = ± 0,78) et d’approche (tendance à l’action : moyenne = 5,09 et ET = ± 1,23); et (3) 116 étaient de valence neutre (moyenne = 0,00 et ET = ± 1,27) et caractérisées par des niveaux faible ou nulle d’intensité émotionnelle (moyenne = 1,80 et ET = ± 0,97) et de tendance à l’action (moyenne = -0,44 et ET = ± 1,63) (Tableau 2).

Tableau 2. Tableau récapitulatif du nombre de scènes par valence et catégorie pour les 374 scènes sélectionnées.

L’objectif de ce travail de thèse étant d’explorer le rôle du contenu fréquentiel dans différents types de traitement émotionnels (perception passive et évaluations affectives explicites), les images présélectionnées ont été filtrées en fréquences spatiales

111

pour ensuite être testées sur une échelle de niveau d’identification. Le but de ce dernier pré-test était de sélectionner, pour les différentes études de cette thèse, des scènes bien identifiables une fois filtrées en fréquences spatiales.

2. 1. Méthodes

2. 1. 1. Paramètres de filtrage des stimuli

Ces 374 scènes ont tout d’abord été converties en noir et blanc (256 niveaux de gris). Ensuite, pour chacune de ces scènes, un stimulus en basses fréquences spatiales (BFS ; 24 cycles par image ; fréquences spatiales inférieures à 1,5 cycles/degré d’angle visuel) et en hautes fréquences spatiales (HFS ; 72 cycles par image ; fréquences spatiales supérieures à 4,5 cycles/degré d’angle visuel) a été créé (voir Annexe A pour plus de détails sur les modalités de calcul des paramètres de filtrage) (Figure 25). Les images filtrées ont été générées en utilisant une boite de traitement d’image sous MATLAB (Mathworks Inc., Sherborn, MA, USA).

Figure 25. Illustration du filtrage en fréquences spatiales.

La scène composée de toutes les fréquences spatiales (non-filtrées, à gauche) a été filtrée afin de ne garder que les fréquences spatiales basses (< à 1,5 cycles par degré d’angle visuel, au milieu) et les fréquences spatiales hautes (> à 4,5 cycle par degré d’angle visuel, à droite). La perception des fréquences spatiales étant dépendante de la taille de l’image et de la distance à l’écran (voir Annexe A pour plus de détails), les paramètres de filtrage en cycle par image ont été adaptés à la taille angulaire de la scène présentée ici de manière à obtenir un rendu perceptif équivalent à celui du pré-test lorsque cette figure est regardée à une distance de 40cm.

A l’issue du filtrage, le contraste des scènes en HFS étant fortement réduit par rapport aux scènes en BFS et non-filtrées (NF), nous avons égalisé la luminance moyenne et le contraste (i.e., ‘root mean square’ [RMS]; voir Bex et Makous, 2002) de chaque image en BFS et en HFS (luminance moyenne = 128 sur une échelle de 256 niveaux de gris ; déviation standard = 25.6) (Figure 26). Ce contrôle permet d’éviter

112

d’induire des biais entre les conditions de filtrage liés à une différence de luminance ou de contraste entre les catégories de scènes (déplaisant, plaisant et neutre).

Figure 26. Illustration des filtrages en fréquences spatiales (en BFS en haut, en HFS en bas) avant (à gauche) et après (à droite) égalisation de la luminance moyenne et du contraste.

2. 1. 2. Participants

Huit volontaires ont participé à l’identification de ces scènes naturelles en noir et blanc filtrées en BFS et en HFS. Tous les participants étaient droitiers, de culture et de langue française, et avait une vue normale ou corrigée à la normale. Les volontaires présentant des troubles psychiatriques ou neurologiques, ou sous médication n’ont pas été inclus.

2. 1. 3. Protocole et mesures

Les scènes ont été affichées sur un fond noir en utilisant le logiciel de présentation E-prime (E-prime Psychology Software Tolls, Inc. Pittsburgh, USA) et un écran de 19 pouces d’une résolution de 1024 x 768 pixels distant de 85 cm des participants. Les scènes en BFS et en HFS étaient présentées de manière pseudo-aléatoire. Chaque essai débutait par l’affichage d’une croix de fixation pendant une durée d’une seconde suivie de la présentation de l’image pendant une seconde. Les

113

participants devaient ensuite réaliser deux évaluations sur une échelle continue à l’aide d’un joystick, dans un délai de deux secondes. La première évaluation consistait à évaluer le niveau d’identification de la scène et la seconde, à déterminer si un être vivant était présent ou non sur la scène (catégorisation de type vivant/non-vivant). Etant donné le grand nombre de scènes à évaluer pour un même participant, nous avons divisé notre ensemble de 374 images en deux. La moitié des participants ont vu 50% des scènes en BFS et les autres 50%, en HFS. Le contenu fréquentiel des scènes a été contrebalancé entre les deux groupes de participants. Au final, chaque participant a donc jugé 374 scènes dont 187 en BFS et 187 en HFS. Une répartition équivalente en nombre a également été respectée au niveau de la valence des scènes (déplaisantes, plaisantes et neutres), i.e. un participant a jugé autant de scènes de chaque valence en BFS qu’en HFS soit 67 scènes déplaisantes en BFS et en HFS, 62 scènes plaisantes en BFS et HFS, 58 scènes neutres en BFS et en HFS.

D’un point de vue pratique, les participants devaient, tout d’abord, déterminer leur niveau subjectif d’identification de la scène en positionnant un curseur le long d’une ligne à l’aide du joystick. Le niveau d’identification était évalué sur une échelle continue allant du label « 0 », correspondant à une mauvaise identification perceptive de la scène (position par défaut du curseur, valeur d’identification égale à 0) au label « Max », correspondant à une identification perceptive parfaite (valeur d’identification égale à 10) (Figure 27 a). De manière à confirmer objectivement cette première mesure, les participants devaient ensuite déterminer si la scène présentée contenait ou non un être-vivant. A cet effet, l'échelle comprenait à ses extrémités les labels verbaux « vivant » et « non vivant », vers lesquels les participants devaient diriger le curseur, initialement positionné au centre de l’échelle (Fugure 27 b). Toutes les réponses comprises entre le centre de l’échelle et le label « vivant » étaient considérées comme des réponses « vivant », alors que toutes les réponses comprises entre le centre de l’échelle et le label « non-vivant » étaient considérées comme des réponses « non-vivant ». Au total, 216 scènes sur les 374 présentées contenaient un être vivant (soit 57,75%).

114

Figure 27. Illustration des jugements réalisés lors de la phase de pré-test des stimuli : (a) jugement de niveau d’identification ; (b) catégorisation vivant/non-vivant.

2. 2. Résultats et sélection des scènes filtrées

Pour chaque scène, la valeur moyenne du pourcentage de bonnes catégorisations (vivant versus non-vivant) et celle du niveau subjectif d’identification ont été calculées pour chaque fréquence spatiale (BFS et HFS).

2. 2. 1. Analyses descriptives du pourcentage de bonnes catégorisations « vivant/non-vivant »

L’analyse descriptive du jugement de catégorisation vivant/non-vivant met en évidence des taux de bonnes réponses plafonnant autour de 100% pour les trois catégories de scènes (déplaisante, plaisante et neutre) dans les deux types de filtrage fréquentiel (en BFS et en HFS) (Figure 28). Les résultats de cette évaluation suggèrent, par conséquent, que le niveau de perception des scènes, après filtrage, était suffisant pour une identification de l’information principale qu’elles contenaient.

115

Figure 28. Pourcentage de bonnes catégorisations « vivant » versus « non-vivant » pour les 374 scènes sélectionnées en fonction de leur valence (déplaisant, plaisant et neutre) et du type de filtrage en fréquence spatiale (BFS et HFS).

2. 2. 2. Analyses descriptives du niveau d'identification des scènes filtrées

Bien que les scènes aient été parfaitement catégorisées pour les trois valences (déplaisant, plaisant et neutre) et les deux filtrages (BFS et HFS) (le pourcentage minimum de bonnes catégorisations étant de 99,4%), les mesures obtenues quant au niveau d’identification ont révélé un niveau de perception subjective des scènes variable selon les valences mais relativement stable pour les deux filtrages fréquentiels.

Afin de faciliter la lisibilité de la représentation graphique de ces résultats, nous avons regroupé les scènes en 4 sous-ensembles discrets selon leur niveau d’identification sur l’échelle d’identification allant de 0 (mauvaise identification) à 10 (identification parfaite): (1) les scènes dont le score d’identification était inférieur à une valeur de 2,5 (< 2,5) ;(2) celles pour lesquelles le score était compris entre 2,5 et 5 (≥2,5 et <5) ; (3) celles pour lesquelles le score était compris entre 5 et 7,5 (≥5 et <7,5) ; et (4) les scènes pour lesquelles le score d’identification était supérieur ou égal à 7,5 (≥7,5) (Figure 29).

116

Figure 29. Répartition des scores d’identification pour les 374 scènes sélectionnées en fonction de leur valence (déplaisante, plaisante et neutre) et du type de filtrage en fréquences spatiales (BFS et HFS).

De manière à faciliter la lecture graphique des résultats, les scènes ont été regroupés selon quatre sous-ensembles discrets : (1) les scènes dont le score d’identification était inférieur à 2,5 (<2,5) ; (2) les scènes dont le score était compris entre 2,5 et 5 (≥2,5 et <5) ; (3) les scènes dont le score était compris entre 5 et 7,5 (≥5 et <7,5) ; et (4) les scènes dont le score était supérieur ou égal à 7,5 (≥7,5).

2. 3. Discussion

Ce pré-test nous a permis de mettre en évidence que nos scènes sont très bien catégorisées sur la base d’une classification de type vivant/non-vivant, ce qui nous permet de suggérer que l’essentiel de leur contenu sémantique est identifiable lorsqu’elles sont présentées filtrées en BFS ou en HFS. Toutefois, la mesure plus fine du niveau d’identification rend compte d’une certaine variabilité dans la facilité ou la difficulté à identifier les scènes lorsqu’elles sont filtrées en fréquences spatiales. En effet, les résultats de ce pré-test semblent montrer, en particulier, que parmi les scènes que nous avons sélectionnées, les scènes déplaisantes semblent plus facilement identifiables que les scènes plaisantes et neutres. Dans ces conditions, il est difficile de savoir si c’est le caractère émotionnel négatif de ces scènes qui les rend plus facilement identifiables ou si cet effet est liée à la composition spatiale des scènes sélectionnées dans cette catégorie par rapport aux autres catégories.

Ce pré-test, nous a permis de sélectionner notre matériel émotionnel pour les études de la thèse qui suivent, en optimisant à la fois (1) la qualité émotionnelle de nos scènes sur la base de trois jugements émotionnels (valence, intensité, tendance à l’action ; voir partie précédente pour la sélection des images) et (2) la qualité

117

d’identification subjectif des scènes une fois filtrées en fréquences spatiales ; tout en essayant de conserver un ensemble de catégories d’images relativement variées sur le plan sémantique et équilibrées entre les valences. Notons que, puisque nous souhaitions qu’une même image puisse être perceptible pour les deux types de filtrages, nous avons spécifiquement sélectionné des scènes qui étaient identifiées à la fois lorsqu’elles étaient filtrées en BFS et en HFS