• Aucun résultat trouvé

3.4 Extension du protocole HASR

3.4.5 Complémentarité entre les réponses automatiques et celles obtenues

Dans le même esprit que celui de l’évaluation HASR proposé par NIST, nous avons voulu étudierla possible complémentarité entre les systèmes de RAL et les auditeurs.

Le taux de réussite sur le panel HASR-2 du système SVM est de 63% avec un taux de FA de 39% et un taux de FR de 35%. Ce taux global est significativement différent du hasard (p< 0.05). Si le taux de FR est significativement différent du hasard (p< 0.05), le taux de FA ne l’est pas (p=0.1608). Ces résultats sont en deçà de ceux habituellement obtenus par ce système, la cohorte étant particulièrement difficile.

Les erreurs effectuées par le système automatique et par le panel d’auditeurs ne se situent pas au niveau des mêmes comparaisons comme l’illustre la figure3.13.

En comparaisons cible, seules 41% des paires sont discriminées correctement à la fois par le système automatique et par le panel d’auditeurs. 20% des paires ne sont correcte-ment discriminées que par les humains et 25% des paires ne le sont que par le système.

Enfin 16% des paires ne sont discriminées correctement ni par le système automatique ni par la cohorte d’humains.

Des résultats similaires sont observés en comparaison imposteur, 35% des paires sont

FIGURE3.13 –Évaluation de la complémentarité des réponses entre la cohorte des auditeurs inex-périmentés et ALIZE/SpkDet

correctement caractérisées à la fois par le système et la cohorte d’auditeurs. 22% des paires ne sont correctement discriminées que par les humains et 25% des paires ne le sont que par le système. Enfin 18% des paires ne sont discriminées correctement ni par le système automatique ni par le panel d’humains.

Une certaine complémentarité est observée entre la cohorte humaine et le sys-tème automatique. Cette complémentarité peut être exploitée en donnant un poids à chacune décision prise à l’aide d’une régression logistique (Wonnacott et Wonnacott, 1991) par exemple, mais étant donné que les réponses sont pour une grande majorité des stimuli, peu différentes du hasard, les désaccords entre système automatique et panel d’auditeurs peuvent être attribués à cette part d’aléa des réponses.

Synthèse du chapitre

Nous avons cherché à évaluerla capacité d’auditeurs natifs du français à discrim-iner les locuteursissus du corpus HASR2 et àcomparer les réponses des auditeurs avec celles d’un système automatiqueclassiquement utilisé en vérification du locu-teur. Cette tâche se présente commeune tâche difficilepour les raisons suivantes.

– Les auditeurs ne sont pas natifs de la langue parlée par les locuteurs à discriminer.

– Les auditeurs ne connaissent pas les locuteurs qu’ils vont devoir discriminer et la

durée d’enregistrement (2 minutes 30 secondes) accessible ne permet pas de faire un apprentissage préalable des locuteurs par les auditeurs (Saslove et Yarmey, 1980).

– Les conditions d’enregistrement des deux extraits à comparer sont systématique-ment différentes.

Sur l’ensemble des comparaisons proposées,les résultats par vote majoritaire ne sont pas meilleurs que les performances qu’il est possible d’obtenir en tirant au hasard les réponses fournies. D’ailleurs, seuls quatre auditeurs obtiennent une performance meilleure que celle obtenue par le hasard. La tâche proposée est donc très difficile pour les auditeurs, qui ne présentent pas d’aptitude particulière qu’ils soient expérimen-tés ou non. Certains auditeurs montrent desstratégies de réponsesen répondant plutôt

« oui » ou plutôt « non ». Ces stratégies globales se retrouvent pour les autres partici-pants à HASR.

Les performances des auditeurs varient drastiquement en fonction des stimuli. Toutes les paires ne sont donc pas équivalentes pour les auditeurs. Il est important de prendre ce qui différencie les paires qui font l’unanimité pour les auditeurs des com-paraisons pour lesquelles ils répondent au hasard : des indices propres au locuteur sont peut-être très présents dans les premiers et moins présents dans les seconds.

Ce genre de procédures est tout de même très long, les tests perceptifs prenant beau-coup de temps pour finalement n’avoir accès qu’à peu de données par rapport au nom-bre de comparaisons auxquelles nous pouvons avoir accès en n’utilisant que des sys-tèmes automatiques. Les signaux de parole de HASR sont très bruités et empêchent une analyse des possibles indices propres au locuteur. Ne serait-il pas possible de repérer les enregistrements pour lesquels les systèmes automatiques obtiennent de bonnes per-formances et ceux pour lesquels les perper-formances sont moins bonnes afin d’établir par la suite quelles différences de contenus ont ces enregistrements ?

Chapitre 4

Sensibilité des systèmes

Résumé:Les métriques actuellement utilisées pour évaluer la performance d’un système de RAL sont fondées sur une mesure moyenne des erreurs sur un très grand nombre de comparaisons. Quelques études se sont attachées à étudier l’influence du locuteur sur les performances de systèmes (Doddington et al., 1998) démontrant que certains locuteurs entraînent plus d’erreurs que d’autres. Dans ce chapitre nous nous interrogeons sur l’influence sur les performances de systèmes de l’enregistrement de parole utilisé en apprentissage pour modéliser le locuteur. Notre méthode consiste, dans un premier temps, à tester sur les mêmes données de nombreux enregistrements produits par le même locuteur. Nous sélectionnons, dans un second temps, pour chaque locuteur le fichier qui minimise le taux FA+FR au seuil de l’EER et le fichier qui le maximise. Enfin, nous comparons les performances obtenus par ces fichiers sur une cohorte identique. Cette méthode est appliquée sur deux bases de données (NIST-SRE 2008 (Martin et Greenberg,2009) et BREF 120 (Lamel et al.,1991)), et pour deux systèmes (ALIZE/SpkDet (Bonastre et al.,2008) et Idento (Scheffer et al.,2011)). Les taux de variation relative observés sont de 1.4 pour NIST et de 2.6 pour les locuteurs de BREF.

Sommaire

4.1 Hypothèses d’étude . . . 106 4.2 Bases de données . . . 107 4.2.1 NIST 08 : téléphone, conversationnel, multilingue . . . 107 4.2.2 BREF 120 : microphone, parole lue, français natif. . . 110 4.3 Systèmes utilisés . . . 112 4.3.1 ALIZE/SpkDet . . . 112 4.3.2 Idento . . . 113 4.4 Performances par locuteur : à la recherche des agneaux et des chèvres113 4.4.1 Calcul de la performance . . . 113 4.4.2 M-08 . . . 114

4.4.3 BREF . . . 116

Dans ce chapitre nous souhaitons étayer les hypothèses suivantes.

– S’il existe bien des profils de locuteur qui influencent les performances des sys-tèmes de vérification du locuteur (Doddington et al., 1998), les indices idiosyn-chratiques issus de la parole sont des paramètres qui sont également utilisés pour décrire d’autres fonctions de la parole.Les indices dépendent donc non seule-ment du locuteur mais égaleseule-ment du contexte d’énonciationqui est notamment dépendant de l’interaction entre les locuteurs, ou du contenu sémantique délivré.

Les techniques d’enregistrement ou la durée des signaux, très étudiés pour les systèmes automatiques, sont des éléments de variation importants. Dans ces con-ditions,tous les enregistrements d’un même locuteur ne sont pas équivalents pour le modéliser et nous devrions même à durée d’enregistrement équivalente observer des écarts de performances.

– Cette variation de performance étant due à lanature même des données, nous devrions observer des variations de performancesquelque soit le systèmeutilisé.

Plus une base de données est variable(parole conversationnelle vs parole lue), plus la variation de performanceen fonction des extraits de parole sélectionnés doit être importante.

– Plus la durée des enregistrements est longue, moins la variation de performance est importante.

Pour apporter des éléments de réponse à ces hypothèses, nous devons, avant toute chose,disposer de nombreux enregistrements d’un même locuteur et comparer les performances obtenues pour chacun des modèles. Nous commencerons d’abord par

présenter les bases de données et les systèmes avec lesquels nous avons travaillé puis nous nous interrogerons sur les possibles méthodes pour mesurer la sensibilité des sys-tèmes à cette variabilité. Enfin, nous présenterons les résultats que nous avons obtenus.