• Aucun résultat trouvé

3.3 Première étude perceptive lors de l’évaluation HASR

3.3.2 Performance et confiance dans le panel d’auditeurs

Performances

Le taux de réponses correctes des trois auditeurs est de 59%. Ce taux est significa-tivement légèrement différent du hasard (test binomial : p < 0.05). La moyenne des scores de confiance indiqués par les auditeurs sur l’ensemble des stimuli est de 2.2 sur une échelle de 0 (pas du tout confiant dans la réponse) à 5 (très confiant dans la réponse). Ce score de confiance indique que les auditeurs ont une confiance assez moyenne en leur réponse. Il retranscrit bien la performance globale des auditeurs qui est légèrement meilleure que le hasard mais qui n’est pas très élevée.

Les auditeurs ont répondu correctement à 65% des comparaisons cible (soit un taux de FR de 35%) et à 56% des comparaisons imposteur (soit un taux de FA de 44%). Si le taux de FR est significativement différent du hasard (p<0.05), le taux de FA est équivalent à celui obtenu par le hasard (p =0.3149). Le score de confiance moyen est de 2.0 pour les comparaisons cible et de 2.3 pour les comparaisons imposteur. Il est surprenant que le score de confiance des auditeurs soit plus élevé lorsque leurs réponses ne sont pas dif-férentes du hasard (cas des comparaisons imposteur) que lorsque leur taux de réponses correctes atteint 65% (cas des comparaisons cible). Est-il sûr de prendre en compte le ressenti des auditeurs sur leur propre décision ?

Confiance dans le score de confiance

Si les auditeurs ont confiance en leur jugement (moyenne du score de confiance supérieure à 2.5),leur taux de réussite est-il plus élevé que lorsqu’ils sont peu confi-ants(moyenne du score de confiance inférieure à 2.5) dans leur réponse ?

Pour cette analyse, nous avons séparé les comparaisons en fonction de leur score de confiance : d’un côté nous retrouvons toutes les comparaisons où la moyenne des scores de confiance est inférieure à 2.5 (cohortefaible confiance) et de l’autre toutes les compara-isons où le moyenne des scores de confiance est supérieure à 2.5 (cohorteconfiance plus haute).

Dans ce cas, une claire asymétrie est observée dans la répartition des comparaisons cible et imposteur comme résumé par le tableau3.2.

score de confiance Nombre de

TABLE3.2 –Répartition des comparaisons pour les cohortes faible confiance et confiance plus haute.

Si 61% des comparaisons se retrouvent dans la cohortefaible confiance, les proportions sont bien plus importantes pour les comparaisons cible que pour les comparaisons im-posteur (72.5% vs 55.5%).

Les performances globales se montrent légèrement meilleures pour la cohorteconfiance plus hauteque pour la cohortefaible confiance. Le taux de réponses correctes est de 62%

pour la cohorteconfiance plus hautecontre 57% pour la cohortefaible confiance. Le taux de FR de la cohorte faible confianceest de 32% tandis que celui de la cohorte confiance plus haute est de 43%. En comparaisons cible, le score de confiance des auditeurs en leur réponse n’est pas un gage de qualité de la réponse car ils se trompent plus souvent quand ils ont confiance dans leur réponse.

Le taux de FA de la cohortefaible confianceest de 51% tandis que celui de la cohorte con-fiance plus hauteest de 36%. En comparaison imposteur, le ressenti des auditeurs semble

Faible confiance Confiance plus haute

Cible FR=32% FR=43%

Imposteur FA=51% FA=36%

Taux de réussite global 59% 59%

TABLE3.3 –Performance pour la cohorte où les auditeurs sont confiants dans leur réponse et celle où ils ne sont pas confiants dans leur réponse.

être plus indicatif. Le tableau3.3retranscrit ces résultats.

Au vu de ces résultats, il semble qu’il existe un lien entre la confiance des audi-teurs et le type de comparaisons auxquelles ils sont confrontés. Ils sont plus confiants lorsqu’ils affirment qu’il s’agit de deux locuteurs différents. Étant donné que le type de comparaison n’est pas connu à l’avance, le score de confiance des auditeurs en leur réponse n’est pas un bon prédiction de réponses correctes.

Confiance dans l’unanimité

Un autre indicateur de confiance repose surle nombre de réponses semblables at-tribuées par les auditeurs. Plus les auditeurs sont d’accord, plus le score de confiance attribué à la réponse est grand.

Les trois auditeurs ont pris la même décision dans 51% des cas (coefficient Kappa=0.345).

Ce taux est supérieur à celui obtenu par le hasard6. Les auditeurs sont donc unanimes plus souvent que si les trois réponses étaient tirées au hasard.Pouvons-nous avoir plus confiance dans les réponses unanimes que dans les autres réponses ?

Pour vérifier cette hypothèse nous pouvons comparer les taux de réussite (et les taux de FA et FR) de l’ensemble des comparaisons où les trois auditeurs sont unanimes à celui de l’ensemble des comparaisons où un des auditeurs n’a pas répondu comme les deux autres. La cohorteunanimesse compose de 23 comparaisons cible et de 53

compara-5. Dans notre cas (3 annotateurs, 150 comparaisons, 213 réponses positives), si les auditeurs donnent systématiquement la même réponse le coefficient Kappa aurait été de 1. Dans le pire des cas (où ils n’au-raient jamais répondu la même chose), le coefficient Kappa aurait été de -0.33. Si les auditeurs avaient répondu au hasard, le coefficient Kappa=0)

6. Sachant qu’il y a trois auditeurs, la probabilité que les trois auditeurs soient d’accord est la somme de la probabilité qu’ils répondent tous « oui » et de la probabilité qu’ils répondent tous « non ». Soit une probabilité de 0.35. D’après (Wonnacott et Wonnacott,1991), ce taux peut varier de 0.07. Ainsi, le hasard est compris entre 28% et 42% d’accord.

isons imposteur tandis que la cohortedésaccordse compose de 28 comparaisons cible et 46 comparaisons imposteur. Les résultats sont résumés par le tableau3.4.

Accord Désaccord

Cible (FR) 35% 36%

Imposteur (FA) 30% 61%

Taux de réussite global 49% 68%

TABLE3.4 –Performances en fonction de l’unanimité des auditeurs.

Le taux de réussite global de la cohorteunanimesest de 49% (p = 0.9076) tandis que celui de la cohortedésaccordest de 68% (p<0.01). Le taux de FR de la cohorteunanimes est de 35% (p=0.1849) et celui de la cohortedésaccordest de 36% (p= 0.2100). Le taux de FA pour la cohorteunanimesest de 30% (p = 0.1839) tandis que celui de la cohorte désaccordest de 61% (p<0.01).

Contrairement à notre hypothèse, les auditeurs ont une meilleure performance globale lorsqu’ils ne sont pas d’accord. Nous ne pouvons a priori pas utiliser l’unanimité des auditeurs pour prédire la performance globale des auditeurs. En comparaisons cible, il n’y a pas de différence de performance si les auditeurs sont unanimes ou non. En com-paraison imposteur, l’unanimité des auditeurs ne rend pas les performances meilleures que le hasard ; en revanche, lorsqu’ils sont en désaccord, la performance est pire que le hasard.

L’unanimité n’est donc pas un bon indicateur pour prédire la confiance à accorder à la réponse donnée. Ici encore, nous pouvons nous interroger sur l’influence des dif-férences de modes d’enregistrement sur l’unanimité.

Comme l’illustre la figure3.4, nous observons en comparaison imposteur, un nombre de réponses unanimes correctes plus important que de réponses non-unanimes cor-rectes (36 vs 17).

A l’inverse, en comparaison cible (figure 3.5), le nombre de réponses correctes non-unanimes sont plus importantes que le nombre de réponses correctes non-unanimes (18 vs 15).

Ainsi,lorsqu’ils ont raison, les auditeurs sont unanimes en comparaison imposteur mais pas en comparaison cible.

FIGURE3.4 –Nombre de réponses en fonction du nombre d’auditeurs en comparaison imposteur

FIGURE3.5 –Nombre de réponses en fonction du nombre d’auditeurs en comparaison cible.

Le fait que les modes d’enregistrement des personnes soient systématiquement dif-férents pourrait expliquer ce phénomène. En effet, en comparaison imposteur, la dis-tance entres les indices idiosynchratiques des deux locuteurs peut être renforcée par la différence de canal. Au contraire, en comparaison cible, cette dernière peut créer l’impression de personnes distinctes alors qu’il n’en est rien.Cette explication peut justifier que les auditeurs soient plus confiants en comparaison imposteur qu’en

com-paraison cible et que la majorité soit plus importante en comcom-paraison imposteur qu’en comparaison cible.

Les performances de ce panel d’auditeurs très restreint ne sont pas très élevées. La tâche proposée est bien une tâche difficile. L’unanimité et les taux de confiance qui auraient pu être utilisés comme critère de confiance dans les réponses données sem-blent biaisés par le type de comparaisons à effectuer. Ce biais peut être expliqué par les différences de mode d’enregistrement systématiquement présentes dans les com-paraisons. Il s’agit maintenant de savoir si les auditeurs ont tous des performances équivalentes ou si certains sont meilleurs que d’autres pour cette tâche de discrimi-nation.