• Aucun résultat trouvé

4.1 Niveaux de retour d’information sonore

4.1.4 Résultats / analyse statistique

A l’issue de l’expérimentation, il a été demandé aux utilisateurs combien de sons différents ils pensaient avoir entendu. 25% ont répondu 4, 8.5% ont répondu 5, 33% ont répondu 6, 8.5% ont répondu 7 et 25% ont répondu 8 ou plus. Seulement 8.33% ont donné une réponse correcte, 66.67% ont entendu moins de sons que ceux qui leur avait été annoncés et 25% en ont entendu plus.

4.1.4.1 Choix des tests statistiques

Les échantillons de données sont indépendants étant donné que les utilisateurs n’ont participé qu’à une seule condition expérimentale. Les données recueillies auprès des utilisateurs sont le temps de réponse aux questions et les réponses elles-mêmes. Seules les réponses ont été analysées, en effet le temps de réponse n’a pas pu être pris en compte étant donné que la consigne de répondre le plus rapidement possible n’a pas été donnée. La variable réponse est de type qualitatif, elle peut être analysée de deux points de vue différents.

Premièrement, elle peut être considérée comme binomiale, c'est-à-dire que ses deux modalités (juste ou faux par rapport à la demande qui a été faite) sont mutuellement exclusives. Dans ce cas-là les tests qui peuvent être appliqués sont :

 le test binomial qui effectue, pour un échantillon donné, une comparaison à une distance théorique

 Le test de Fisher qui effectue, pour deux échantillons indépendants, une comparaison entre eux

 Le test du chi2

de Pearson qui effectue, pour plus de deux échantillons indépendants, une comparaison entre eux

Deuxièmement, elle peut être considérée comme ordinale dans la mesure où il existe une certaine relation entre les objets du type plus grand que, supérieur à, etc. En l’occurrence les réponses correspondent à des notes qui ont une relation entre-elles de type plus aigüe que. Dans ce cas-là les tests qui peuvent être appliqués sont :

 le test du chi2

de Pearson qui effectue, pour un échantillon donné, une comparaison à une distance théorique

 Le test de Mann & Whitney qui effectue, pour deux échantillons indépendants, une comparaison entre eux

 Le test de Kruskal & Wallis qui effectue, pour plus de deux échantillons indépendants, une comparaison entre eux (pour des comparaisons multiples voir le npmc)

Le logiciel R version 3.0.2 a été utilisé pour tous les tests statistiques et la majorité des représentations graphiques.

Pour mémoire, les notes 1 à 7 sont décrites dans le Tableau 2, page 108, la note 4 correspond à l’accord de DO majeur, soit la note de référence. La note 4 est reconnue à 90%. Pour les notes suivantes ayant le meilleur coefficient de réussite (5 et 6), leur taux de reconnaissance est proche de 50% c'est-à-dire que les utilisateurs ont une chance sur deux de les reconnaitre. Concernant les notes 2, 3 et 7, les utilisateurs ont autour d’une chance sur trois de les reconnaitre. Enfin, ils ont moins d’une chance sur 4 de reconnaitre la demande 1.

Cette variabilité importante peut être mise sur le compte d’un jeu de données trop faible, en effet l’utilisation des statistiques nous montre que :

 les réponses à une demande sont significativement différentes des réponses à une autre demande (Wilcoxon, p.value <0.01), les réponses sont significativement différentes (voir Test de Mann Whitney Wilcoxon)

 les deux tests précédents coïncidents dans l’indication que les demandes 1,2 et 6,7 sont confondues deux à deux

Sur la base de ces résultats on peut conclure que les accords 3,4 et 5 sont significativement discriminés et que les accords 1,2 et 6,7 sont confondus deux à deux mais quand même significativement discriminés des autres. En conséquence s’il ne faut garder qu’un accord de chaque,

ce sera le 2 et le 6 étant donné que les utilisateurs, dans leur confusion, les indiquent majoritairement au 1 et 7 respectivement.

Tableau 3 : Test de Mann Whitney Wilcoxon, valeurs significatives

demande VSdemande W p.value Hypothèse

1 2 12849 0.1366 acceptée

2 1 15375 0.1366 acceptée

6 7 13424 0.4146 acceptée

7 6 14800 0.4146 acceptée

Les utilisateurs confondent les demandes 1,2 et 6,7 de façon significative.

Les utilisateurs confondent les demandes 6 et 7 de façon significative.

Sur la base de ce test on peut conclure que les utilisateurs discriminent bien les différents accords entendus (p<0.01) et qu’ils confondent les accords 1 avec 2 et les accords 6 avec 7

Remarque : il n’a pas été trouvé d’explication sur la variabilité de W selon les comparaisons effectuées ni sur sa valeur aussi élevée.

Tableau 4 : Données des réponses par demande, tous utilisateurs confondus. L’erreur standard est quatre fois moins importante pour la demande 4 que pour les autres demandes

demande moyenne variance écart-type erreur-standard

1 2.86 2.61 1.62 0.12 2 2.99 2.22 1.49 0.11 3 3.74 2.53 1.59 0.12 4 4.1 0.22 0.47 0.04 5 4.47 1.83 1.35 0.1 6 5.54 1.65 1.29 0.1 7 5.56 2.03 1.43 0.11 4.1.4.2 Discussion

Il ressort de l’analyse statistique que les utilisateurs sont capables de discriminer seulement 3 accords de façon significative. Ce résultat nous semble faible : en réfléchissant à la cause de cela nous nous apercevons qu’un ou plusieurs biais existent dans notre protocole de tests.

Premièrement, les utilisateurs n’ont pas été invités à répondre le plus rapidement possible. La grande majorité a appliqué ce comportement de façon tacite, en répondant au stimulus de façon réflexe, voire quasi immédiate (t<4s). Par contre, certains ont adopté un comportement beaucoup plus cérébral, laissant aller leur réflexion au-delà de 20 secondes, ce qui les éloignait énormément du stimulus initial et de la sensation associée.

Deuxièmement, il ressort de l’étude des réponses que certains utilisateurs ont interprété les sons à l’inverse de la grande majorité des autres. Si cette majorité a considéré que les accords plus aigus devaient être placés au-dessus de l’accord de référence, les autres ont réagi de façon opposée, cela bien entendu a une incidence sur le résultat final. Mais, étant donné que la consigne ne donnait pas d’indication à ce niveau, il n’est pas possible d’éliminer une partie de l’échantillon ou d’inverser leurs résultats de façon symétrique à l’accord de référence. Quoi qu’il en soit, nous retrouvons ici, une manifestation du concept évoqué à la section 2.3.2.1, page 44 à propos de la polarité dans la sonification par association de paramètres.

Troisièmement, le fait de demander de positionner un accord toujours par rapport à l’accord de référence provoque deux phénomènes :

Primo, cet accord est plus souvent entendu que les autres, ce qui provoque un apprentissage différent par rapport aux autres.

Secundo, la distance de l’accord de référence par rapport à l’accord à positionner va de zéro à 2 demi-tons dans le sens positif et idem dans le sens négatif. Un protocole correct aurait dû maintenir cet écart constant. Ainsi l’ensemble des accords aurait été référence chacun à son tour.

4.1.4.3 Conclusion

Il ressort de cette expérimentation que les utilisateurs sont capables de discriminer et de positionner 3 accords différents de façon significative sous la condition expérimentale que la fondamentale de cet accord ne soit pas modifiée.

Nous restons persuadés que ce seul de discrimination peut être augmenté dans la mesure où le protocole d’expérimentation comporterait moins de biais. Nous envisageons par ailleurs de reproduire cette expérimentation en modifiant le protocole en accord avec les constatations réalisées.

Il faut néanmoins remarquer que dans la faible littérature qui traite de ce type d’expérimentation, (Kuusi, 2015) montre dans ses résultats que l’entrainement est très important car seul le groupe des personnes les plus expérimentées au niveau musical obtient des résultats corrects. L’augmentation du seuil de discrimination est peut-être liée à un apprentissage nécessaire.

Comme indiqué en début de chapitre, l’objectif de cette expérimentation était de fixer le combien, c'est-à-dire le nombre d’accords différents que des utilisateurs sont capables de déterminer. Il était indiqué que la suite de nos travaux se focaliserait sur le comment, c'est- à-dire la façon de présenter ces trois seuils à l’utilisateur.

4.2 Étude de différents types de retour d’informations appliqués à la baropodométrie