• Aucun résultat trouvé

Cette section présente les différentes méthodes statistiques que nous avons retenues pour analyser les résultats de l’expérience d’indexation d’une part, et pour mesurer les per-formances du panel au cours de l’entraînement d’autre part. Nous avons suivi les re-commandations de Varela et Ares (2012) et Meyners et al. (2013) pour le traitement des données et l’interprétation des résultats d’une épreuve CATA. Dans les paragraphes suivants, nous rappelons le type de données que nous avons collectées à l’issue de l’ex-périence, et nous présentons les différents critères que nous avons retenus pour analyser les résultats. Les différentes méthodes que nous avons utilisées pour mesurer ces critères sont résumées dans le tableau 7.3 Le principe de chacune de ces méthodes est détaillé dans l’annexe Ade ce manuscrit.

7.3.1 Format des données recueillies

Les données recueillies à l’issue de l’épreuve d’évaluation (et des entraînements) prennent la forme d’une matrice [Sons x Attributs] pour chaque participant, dont les éléments prennent la valeur δik = 1 lorsque le participant a sélectionné l’attribut i pour décrire le son k, et 0 sinon (voir table 7.1). Ces matrices seront appelées « matrices d’indexation individuelles » dans la suite du document.

Auditeur j Aigu Grave Ascendant ... Strident

Son 1 1 1 0 ... 1

Son 2 0 1 1 ... 0

Son 3 0 1 0 ... 0

... ... ... ... ... ...

Son nK 1 0 0 ... 1

Tab. 7.1: Matrice d’indexation individuelle issue de l’épreuve CATA pour un partici-pant. Les données recueillies sont des données binaires (présence/absence).

En additionnant les matrices d’indexation individuelles, nous obtenons la matrice des fréquences (qui est elle aussi une matrice [Sons x Attributs]), chacune des cases Xkj représentant le nombre de fois que l’attribut j a été sélectionné pour décrire le son k (voir table 7.2).

P Auditeurs Aigu Grave Ascendant ... Strident

Son 1 17 1 0 ... 10

Son 2 4 11 16 ... 0

Son 3 5 5 0 ... 2

... ... ... ... ... ...

Son nK 20 0 0 ... 18

Tab. 7.2: Matrice totale des fréquences observées pour la description des sons par l’ensemble des attributs, sur laquelle l’analyse des correspondances est réalisée.

Dans la suite du chapitre (ainsi que dans l’annexe A qui s’y rapporte), nous parlons d’attributs pour désigner les 35 mots du lexique. Nous utiliserons les indices i, j, et k pour faire référence respectivement aux attributs, aux participants et aux sons du corpus.

Critère Méthode statistique Référence Pouvoir discriminant

Construction de l’espace sensoriel Analyse des Correspondances AnnexeA.1.1

Stabilité de l’espace sensoriel Bootstrap du RV coefficient AnnexeA.1.2

Pouvoir discriminant d’un attribut Test Q de Cochran AnnexeA.1.2.1

Consensus

Consensus du panel sur les attributs Kappa de Fleiss AnnexeA.1.2.2

Consensus du panel sur les sons Kappa de Fleiss AnnexeA.1.2.2

Consensus individuel F-score AnnexeA.1.2.2

Répétabilité

Répétabilité individuelle Indice global de reproductibilité (RIj) AnnexeA.1.2.3

Répétabilité du panel Indice de stabilité de sélection d’un attribut

(SSIi)

AnnexeA.1.2.3

Tab. 7.3: Résumé des différents critères d’évaluation et des différentes méthodes sta-tistiques employées pour les mesurer. Le détail de chacune de ces méthodes est présenté

en annexe Ade ce manuscrit.

7.3.2 Objectifs de l’analyse

L’objectif principal de cette expérience est de montrer que notre lexique permet bien de différencier les sons. Nous cherchons en effet à l’utiliser pour spécifier des directions de design identitaire. Nous avons fait l’hypothèse (H2) que l’on pouvait décrire les sons des produits de manière suffisamment exhaustive (pour les différencier) à partir d’un ensemble fini de termes liés au mode d’écoute réduite. Nous avons proposé un ensemble de 35 termes susceptibles de correspondre à ces attentes ; nous devons vérifier que ce lexique constitue un outil pertinent pour indiquer des directions de différenciation. De plus, notre lexique a été construit dans le but de faciliter la communication au sein des projets de design sonore : nous cherchons également à vérifier si les 35 termes que nous avons retenus constituent un support pertinent pour la communication. Dans cette optique, nous nous intéresserons aux performances du panel sensoriel. Nous avons volontairement choisi des participants non-experts, afin d’évaluer leur capacité à apprendre le vocabulaire et les paramètres du son qu’il décrit. Nous proposons différentes méthodes d’analyses afin d’évaluer les performances du panel sensoriel. Ces performances sont évaluées selon trois critères (voir chapitre 3, § 3.1.2.1page49) que nous rappelons ici :

 Le pouvoir discriminant : les différences entre les sons sont-elles bien décrites par le lexique ?

 Le consensus : un son est-il décrit de la même façon par les différents juges du panel ?

 La répétabilité : le même son est-il décrit de la même façon par le panel d’une session à l’autre ?

7.3.2.1 Pouvoir discriminant

Nous cherchons à mesurer la capacité du lexique à différencier les sons selon les attri-buts. Le pouvoir discriminant de la méthode sera dépendant à la fois de la pertinence du lexique et des membres du panel. La méthode utilisée pour représenter les données d’une expérience de type CATA est l’analyse des correspondances (Meyners et al. 2013,Varela et Ares 2012). Le principe de cette méthode est détaillée dans l’annexe A.1.1de ce ma-nuscrit. L’analyse des correspondances permet de visualiser les relations de dépendance entre les sons et les attributs. Le résultat de cette analyse est une configuration des sons et des attributs dans un espace multidimensionnel (l’espace sensoriel). La stabilité de cet espace peut s’estimer par une technique de bootstrap du coefficient RV (Ares et al. 2014b), dont le principe est détaillé en annexeA.1.2. Un coefficient RVbootstrapsupérieur à 0,95 est recommandé par (Ares et al. 2014b) pour considérer qu’un espace sensoriel est stable. Nous évaluerons d’une part la stabilité de la configuration relative à la tâche d’indexation principale, et d’autre part celle des configurations issues des sessions d’en-traînement. Dans le deuxième cas, cela nous permettra de juger l’amélioration du pouvoir discriminant du panel au cours de la phase d’entraînement. Dans le premier cas, si les auditeurs sont suffisamment entraînés, cela nous permettra de juger du pouvoir discrimi-nant du lexique vis-à-vis de notre corpus. Nous complèterons ces analyses par un test Q de Cochran (voir annexe A.1.2.1) qui nous permettra de juger du pouvoir discriminant de chaque attribut.

7.3.2.2 Consensus

Le lexique sonore a été créé dans l’objectif de faciliter la communication en permettant aux différents acteurs d’un processus de design de s’entendre autour de concepts partagés. Nous cherchons donc à vérifier que notre lexique crée du consensus : Un son va-t-il être décrit de la même façon par les différents membres du panel ? Un mot va-t-il être associé aux mêmes sons par les différents membres du panel ? A notre connaissance, seulsWorch

et Piqueras-Fiszman (2015) proposent une mesure du consensus entre les participants

pour les données CATA. Cette technique, reposant sur l’analyse factorielle multiple des matrices individuelles, ne peut s’appliquer à notre cas car elle suppose que chaque par-ticipant utilise au moins une fois chaque terme. Plutôt que de nous inspirer de mesures de consensus traditionnellement utilisées en analyse sensorielle sur des données quanti-tatives, nous avons choisi d’adapter des mesures de reliability (ou inter-rater agreement ) utilisées pour traiter des données binaires lors d’une annotation d’un ensemble d’objets par deux ou plusieurs juges. Nous proposons d’utiliser deux mesures de consensus, une globale et une individuelle : le kappa de Fleiss et le F-score. Ces indicateurs sont pré-sentés en annexe A.1.2.2. De la même manière que pour le pouvoir discriminant, nous

évaluerons le consensus sur l’indexation du corpus de 240 sons, mais aussi l’évolution du consensus au cours de l’entraînement. Le F-score sera également utilisé à titre explora-toire pour comparer les données de la tâche d’indexation avec les résultats obtenus par l’expérimentateur sur la même tâche. Cette comparaison (voir § 7.4.4) nous permettra en particulier de déterminer un seuil optimal pour transformer les données CATA en données binaires (présence/absence de l’attribut pour un son donné).

7.3.2.3 Répétabilité

Le critère de répétabilité permet d’évaluer dans quelle mesure les participants utilisent les mêmes mots pour décrire le même son lors de deux sessions différentes. Des indices de répétabilité spécifiques aux données CATA ont été développés dans plusieurs études (Campo et al. 2008,Jaeger et al. 2013,Worch et Piqueras-Fiszman 2015). Ces indices sont présentés dans l’annexe A.1.2.3 de ce manuscrit. Nous utiliserons deux de ces indices : le premier, l’Indice global de reproductibilité (RIj), nous permettra de juger la repro-ductibilité individuelle des réponses pour chacun des participants. Le second, l’Indice de stabilité de sélection d’un attribut (SSIi), nous permettra d’évaluer la reproductibi-lité du panel pour chacun des attributs. L’évaluation du critère de répétabireproductibi-lité nécessite que les participants indexent le même corpus de sons à deux reprises. Nous effectuerons deux analyses de répétabilité. La première sera effectuée sur les sessions d’entraînement à l’indexation : les membres du panel ont en effet indexé le même corpus de 35 sons à trois reprises. Nous pourrons donc évaluer le critère de répétabilité entre les sessions #1 et #2, et entre les sessions #2 et #3. La phase d’entraînement se situe principalement entre les sessions #1 et #2. Les sessions #2 et #3 sont séparés par plusieurs heures (et même une nuit, voir figure7.2). Si l’entraînement est efficace, la répétabilité devrait être faible entre les sessions #1 et #2 et plus élevée entre les sessions #2 et #3. La deuxième analyse de répétabilité sera effectuée lors de la tâche d’indexation principale, sur les 30 sons que nous avons introduits en deux exemplaires dans le corpus (voir § 7.2.2). Cette mesure nous permettra de juger la pertinence de la procédure CATA pour la description d’un son. Enfin, nous comparerons les configurations obtenues entre les différentes ses-sions d’indexation d’un même corpus (#1, #2, #3 et l’indexation répétée) à l’aide du RV coefficient (voir annexeA.1.2).