• Aucun résultat trouvé

3.3 Première étude perceptive lors de l’évaluation HASR

3.3.1 Méthodologie adoptée

L’obligation, dans le cadre de la participation à HASR, de fournir une réponse à la comparaison précédente pour avoir accès à une autre comparaison, implique que tous les auditeurs de notre panel doivent répondre en même temps. En effet, l’avis de l’ensemble des participants nous est nécessaire pour soumettre la décision finale. Ceci nécessite une grande coordination entre les différents auditeurs et c’est pour cette rai-son que notre premierpanel est assez restreint.

Trois auditeurs (un homme âgé de 31 ans et deux femmes âgées de 25 et 36 ans)natifs du françaisont participé à cette première expérience. Tous ces auditeurs ont l’habi-tude d’analyser du signal de parole et n’ont pas de problème d’audition connu. Ils pratiquent l’anglais dans le cadre de leurs activités professionnelles mais n’ont jamais séjourné plus d’un an dans un pays anglophone.

Avec un panel aussi petit, il ne nous est pas possible d’étudier l’influence du stimulus.

Cette question sera abordée dans une étude post-campagne, une fois le panel d’audi-teurs élargi.

Manipulation de stimuli

Chaque paire de comparaison fournie par NIST se compose de deux enregistrements d’une durée d’environ2 minutes 30 secondeschacun. Cette durée ne permet pas

d’-effectuer un apprentissage préalable des locuteurs par les auditeurs3et dans le même temps elle est beaucoup plus longue que celle habituellement utilisée en test per-ceptif4. Nous avons donc décidé de ne pas présenter aux auditeurs les deux enreg-istrements tels quels, ce qui les auraient conduit à écouter pendant environ 2 minutes 30 secondes un premier locuteur puis d’entendre le second locuteur pour enfin prendre une décision.

Notre choix a été le suivant : les auditeurs entendent des extraits plus courts de chaque enregistrement en alternant les enregistrements toutes les six secondes afin de con-fronter les auditeurs à chacun des deux enregistrements.

FIGURE3.1 –Un stimulus est la concaténation d’extraits de 6 secondes de chacun des deux enreg-istrements séparés par un bip.

Pour chaque enregistrement de 2 minutes 30 secondes, nous sélectionnons des por-tions de 6 secondes qui contiennentle plus d’énergieà l’aide de l’outil EnergyDetector d’ALIZE/SpkDet (Matrouf et al.,2008b) afin de conserver des zones de parole. Nous concaténons alternativement un extrait de 6 secondes du premier enregistrement et un extrait de 6 secondes du second enregistrement en séparant chaque extrait d’un bip jusqu’à obtenirun stimuli d’une durée d’environ 1 minute. Ainsi, si les auditeurs écoutent les enregistrements jusqu’au bout, ils ont accès à 30 secondes de parole issues

3. cf note de base de page numéro2de ce chapitre

4. (Lavner et al., 2000) effectue l’identification acoustique des auditeurs sur les voyelles isolées.

(Schlichting et Sullivan,1998) présente des phrases courtes d’une durée de 6 secondes environ. (Saslove et Yarmey,1980) utilisent des stimuli de 11 secondes. (Legge et al.,1984) utilisent des stimuli entre 6 et 60 secondes. Les stimuli présentés par (Papcun et al.,1989) ont une durée moyenne de 1.58 minutes

du premier enregistrement et 30 secondes du second enregistrement. Lebip permet aux auditeurs de savoir qu’ils ont changé d’enregistrement. La figure3.2présente un stimulus ainsi construit.

Les auditeurs peuvent prendre leur décision dès qu’ils ont entendu un extrait de chaque enregistrement soit au bout de 12 secondes, il peuvent attendre la fin du stimulus et sont autorisés à réécouter le stimuli autant de fois qu’ils le souhaitent. Nous autorisons également les auditeurs à filtrer le signal audio afin de diminuer l’effet de certaines fréquences, certaines conditions d’enregistrement étant extrêmement bruitées comme illustré par la figure3.2. L’écoute est faite à l’aide du logiciel Praat (Boersma et Weenink, 2009) et les filtrages ont également été réalisés avec les filtres de ce logiciel.

FIGURE3.2 – Différence de qualité d’enregistrement entre 2 extraits de parole pour une même locutrice.

Prise de décision et score de confiance

Comme imposé par le protocole HASR (3.1), tous les auditeurs ont écouté les stim-uli dans le même ordre. Chaque locuteur, indépendamment des autres, indique si les deux enregistrements qui lui sont présentés ont été produits par le même locuteur. Sa réponse est de type binaire : oui ou non. Il indique, par la suite, la confiance qu’il a dans sa réponse à l’aide d’une échelle de 0 à 5, 0 signifiant qu’il n’a pas du tout confiance en sa réponse et 5 qu’il est très confiant. Ce score de confiance n’a pas été soumis à NIST mais il permet de rendre compte de l’impression des auditeurs quant à leurs réponses.

Il s’agit par la suite d’établir la pertinence de ce score de confiance comme prédiction de réponses correctes.

La réponse soumise aux organisateurs de HASR correspond au vote majoritaire des trois auditeurs. Ainsi, si au moins deux auditeurs répondent qu’il ne s’agit pas du

même locuteur, la réponse soumise est « non ». Au contraire, si au moins deux audi-teurs répondent qu’il s’agit du même locuteur alors la réponse soumise est « oui ».

Afin d’effectuer, par la suite, des fusions de scores avec un système automatique, nous avons décidé d’utiliser les distributions de scores obtenus par le système ALIZE/SpkDet (Matrouf et al.,2008b) lors de NIST-SRE 2008 pour définir les scores de confiance soumis à HASR. Ce score n’est qu’une correspondance entre le nombre de réponses positives et les distributions de scores du système. Le calcul du score de confiance demandé par les organisateurs est défini à partir du nombre de locuteurs ayant pris la même décision comme illustré par la figure3.3.

Quatre scores de confiance sont attribués en fonction de l’accord entre les auditeurs.

Les écarts entre les scores ont été choisis afin de permettre, lors de la fusion avec un système automatique, d’avoir des écarts importants si les auditeurs sont unanimes.

– Si les trois auditeurs ont tous décidé que les deux enregistrements ont été produits par le même locuteur, le score soumis à HASR correspond à la moyenne des scores issus de comparaisons imposteur de NIST-SRE 2008 moins deux fois l’écart type de cette distribution.

– Si deux auditeurs affirment qu’il s’agit de deux locuteurs différents, le score soumis correspond à la moyenne des scores issus de comparaisons imposteur de NIST-SRE 2008.

– Si seulement deux auditeurs sur trois décident qu’il s’agit du même locuteur, le score de confiance soumis correspond à la moyenne des scores issus des compara-isons cible de NIST-SRE 2008.

– Si les trois auditeurs sont d’accord pour dire qu’il s’agit du même locuteur, alors le score soumis correspond à la moyenne des scores issus de comparaisons cible de NIST-SRE 2008 plus deux fois l’écart type de cette distribution.

Système automatique pour la comparaison

Les résultats obtenus par les trois auditeurs sont comparés avec ceux obtenus par le système basé sur la technique du SVM (Chang et Lin,2011) issu des outils libres ALIZE/SpkDet(Matrouf et al.,2008b) en appliquant les techniques du Factor Analysis (Matrouf et al.,2007). Le seuil choisi pour évaluer le système est celui utilisé pour NIST-SRE 2010 (Larcher et al.,2010).

FIGURE3.3 –Choix des valeurs des scores de confiance soumis à HASR en fonction des distribu-tions de scores de ALIZE/SpkDet sur les cohortes de NIST-SRE 2008.