• Aucun résultat trouvé

2.3 A la recherche d’indices idiosynchratiques

2.3.5 Les autres niveaux du langage

D’autres niveaux ont également été identifiés. (Butcher,2002) souligne l’intérêt de décrire le style employé par le locuteur d’après la classification de (Mitchell et Del-bridge,1965). Ce style peut être en partie décrit à l’aide dulexique. Lesaccents sem-blent pertinents pour (Schwartz et al.,2009) comme moyen d’identifier les locuteurs. Ils

3. Le centre de gravité est la valeur fréquentielle pour laquelle, dans le spectre, autant d’énergie se situe au-dessous et au-dessus de cette fréquence.

proposent une méthodes de reconnaissance des locuteurs où ils comparent notamment la similarités des systèmes phonologiques et de la fréquence fondamentale.

Synthèse du chapitre

Les auditeurs sont capables de reconnaître des personnes à partir d’enregistrements de parole.Cette capacité dépend de la connaissance qu’a l’auditeur du locuteur, de la langue dans laquelle parle le locuteur et de la durée des enregistrements.

Ladiversité des protocoles d’évaluationutilisés pour estimer les capacités humaines à reconnaître un interlocuteur a pour conséquence que certaines conclusions peuvent sembler contradictoires. Cette diversité rend difficiles les comparaisons des résultats obtenus.Une évaluation commune avec une explication du protocole comme cela est fait en informatique apporterait sans doute une amélioration de nos connaissances.

Les modèles cognitifs proposés pour expliquer comment l’auditeur mémorise les lo-cuteurs, notamment le modèle de prototype, rejoignent des approches proposées en RAL.

L’étude de la phonoagnosie nous conduit à conclure que le processus de reconnais-sance des personnes à partir d’un enregistrement de parole n’est pas le même que le processus de reconnaissance du message transmis.

Les paramètres qui permettent de reconnaître un locuteur à partir d’un signal de parole se situent à différents niveaux du langage : si la phonation, la prosodie ou l’articulation sont étudiées plus particulièrement par la phonétique, la phonologie ou la lexicologie ont aussi un rôle à jouer dans l’identification du locuteur. Un indice à lui seul ne permet pas de reconnaître une personne. C’est la combinaisons des in-dices qui semble la solution la plus pertinente. Dans ce chapitre, nous avons également montré quel’information idiosynchratique n’est pas uniquement contenue dans les sons voisésoù la voix, c’est-à-dire le résultat de la phonation, peut être entendue. En ce sens,notre travail ne consiste pas uniquement à faire une reconnaissance du locuteur à l’aide de sa voix mais à l’aide de l’ensemble de la parole enregistrée.

Parole, voix et locuteur

Les mesures de performance adoptées en vérification du locuteur sont moyennées sur un grand nombre de comparaisons cible et imposteur. Ces mesures peuvent per-mettre de rendre compte de la variabilité des performances en fonction de données contrôlées qui se différencient par un facteur dont l’impact peut être étudié. La notion de locuteur est parfois réduite dans ce type d’évaluation, par une confusion courante entre locuteur et enregistrement. En effet, dans NIST-SRE, toutes les comparaisons sont considérées comme équivalentes, la mention du locuteur n’étant pas utilisée pour éval-uer la performance. Or, la parole est non seulement incarnée mais également soumise à d’autres contraintes qui interfèrent sur les indices idiosyncratiques. Nous voulons re-connaître le locuteur à partir de sa voix mais la parole s’en mèle.

Nous faisons le choix, dans ce manuscrit, de limiter l’utilisation du terme de voix. En effet, dans leurs ouvrages, (Garde, 1954) et (Cornut, 2009), tous les deux intitulés la voix, les auteurs décrivent principalement le phénomène de phonation, c’est-à-dire la création d’une onde périodique complexe (bourdonnement) par la vibration des plis vocaux. Nous emploierons donc, dans ce travail, la terminologie suivante.

Parole: onde dynamique produite par le conduit vocal et qui répond à des con-traintes d’ordre biomécanique, linguistique, sociologique, psychologique et per-formatif. La parole est motivée, produite pour être entendue.

Enregistrement ou Extrait de parole: support par lequel nous pouvons avoir ac-cès à la parole d’un locuteur. Un locuteur peut, heureusement, produire plusieurs enregistrements ou extraits de parole.

Locuteur: personne qui parle, il s’agit de l’objet d’étude de cette thèse.

Dans cette thèse, nous cherchons, tout d’abord, àproposer des méthodologies perme-ttant de rendre compte de la variabilité des performances en vérification du locu-teur.Nous établissons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d’un extrait de parole. Cette évaluation

est accompagnée d’une estimation de la confiance en la réponse des auditeurs. Nous souhaitons, dans un second temps, quantifier l’influence du choix d’un extrait de pa-role sur la performance des systèmes automatiques. Ce plan d’évaluation doit donc quantifier l’impact d’un changement d’extrait de parole pour représenter le locuteur, en tenant compte du fait que tous les locuteurs ne sont peut-être pas aussi aisément reconnus.

Il s’agit, par la suite, d’établir quels sont les indices les plus pertinents pour dis-tinguer les locuteurs de nos corpus. Pour répondre à cette question, nous nous ap-puyons sur les indices qui ont déjà été identifiés par les linguistes, les informaticiens et les psychologues comme porteurs d’informations idiosyncratiques. Si les techniques du RAL utilisent dans leur grande majorité des paramètres rendant compte de l’ensem-ble du signal de parole, les indices mis en évidence par les tests perceptifs ou les études acoustiques caractérisent aussi bien la phonation que l’articulation de la parole. Cette étude sera l’occasion d’établir si ces indices nous permettent dedifférencier les extraits de parolepertinents pour les systèmes de RAL de ceux qui obtiennent de moins bons résultats.

Deuxième partie

Quantifier la possibilité de

reconnaître un locuteur

Chapitre 3

Évaluation perceptive dans le cadre du Human Assisted Speaker

Recognition de NIST

Résumé:En 2010, pour la première fois, le NIST proposait une évaluation où les humains pouvaient intervenir dans le processus de décision. Nous avons profité de ce protocole commun pour évaluer la capacité humaine à discriminer des locuteurs et estimer la confiance que nous pouvons avoir dans la réponse des auditeurs. Nous montrons que la tâche ainsi posée est difficile pour nos auditeurs, qu’ils soient naïfs ou plus expérimentés. Ce résultat est également valable pour les autres participants à HASR, un seul ayant réussi à faire mieux que le hasard sur cette tâche. Nous montrons par ailleurs que la quasi unanimité des auditeurs dans une réponse ou l’auto-évaluation ne sont pas des gages de confiance dans la réponse soumise. Enfin, nous mettons en évidence que toutes les paires de signaux n’ont pas toutes la même difficulté.

Sommaire

3.1 Protocole HASR défini par NIST. . . . 78 3.2 Évaluation de la performance. . . . 80 3.3 Première étude perceptive lors de l’évaluation HASR . . . . 81 3.3.1 Méthodologie adoptée . . . . 81 3.3.2 Performance et confiance dans le panel d’auditeurs . . . . 85 3.3.3 Performance par auditeur . . . . 90 3.3.4 Comparaisons avec les autres propositions à HASR . . . . 91 3.3.5 Limites du protocole HASR et de notre soumission . . . . 93 3.4 Extension du protocole HASR . . . . 94

3.4.1 Quelques changements méthodologiques . . . . 94 3.4.2 Performance globale . . . . 96 3.4.3 Performance par auditeur . . . . 97 3.4.4 Performance par stimuli . . . 100 3.4.5 Complémentarité entre les réponses automatiques et celles obtenues

par tests perceptifs . . . 102

3.1 Protocole HASR défini par NIST

En 2010, pour la première fois,le NIST a proposé une tâche, nomméeHuman As-sisted Speaker Recognition(HASR), dont le but est d’« évaluer la complémentarité qu’il peut exister entre expertise humaine et traitement automatique » (Greenberg et al.,2011b). L’introduction d’une évaluation humaine dans cette tâche de vérification est un moyen d’établir une référence pour mesurer la capacité des humains à discrim-iner des personnes à partir d’extraits de parole. En participant à cette campagne, nous avons accès à un nombre important de données qui correspondent à celles utilisées lors des campagnes d’évaluation des systèmes automatiques. Le contexte de l’évaluation nous autorise une comparaison avec d’autres sites qui participent également à cette évaluation.

Dans le cadre de la tâche HASR, les participants peuventcombiner des solutions im-pliquant des humains et des systèmes de vérification du locuteur. Ils sont donc au-torisés à écouter les signaux et/ou à leur appliquer différents traitements pour améliorer l’intelligibilité du signal, contrairement aux autres tâches pour lesquelles l’écoute des signaux est interdite.

Pour chaque comparaison, les participants doivent fournir une réponse composée d’une décision(Oui/Non1) et d’un score de confiance dans cette décision. Il est important de souligner que lors de cette évaluation, les participants n’ont pas accès directement à l’ensemble de la cohorte de comparaisons. Ils doiventfournir une réponse à la pre-mière comparaison pour avoir accès à la secondeet ainsi de suite jusqu’à la dernière paire.

L’ensemble des paires est issu de l’évaluation NIST-SRE 2010 Mixer 6 (?), elles sont donc enlangue anglaiseet chaque enregistrement a une durée d’environ2 minutes 30

sec-1. Oui : les deux enregistrements ont été prononcés par le même locuteur, Non : il s’agit de deux per-sonnes différentes

ondes. Il est à noter que les fichiers qui composent une paire ont toujours été enregistrés dans desconditions différentes l’un par rapport à l’autre. L’un est toujours issu des données interview tandis que l’autre provient de données téléphoniques. Les micro-phones et les télémicro-phones utilisés varient également d’une paire à l’autre. Des paires avec différents efforts vocaux (cf.1.2.3) ont également été incluses dans cette tâche.

Les paires d’enregistrements ont été sélectionnées par NIST en fonction de leur diffi-culté évaluée par le système de vérification automatique du locuteur de ICSI-Berkeley (Morgan, 2010). Les comparaisons cible sélectionnées sont celles qui obtiennent les scores les plus bas tandis que les comparaisons imposteur choisies correspondent à celles qui donnent lieu aux scores les plus élevés.

Nous avons décidé d’évaluer la capacité humaine à distinguer les paires d’enregistrements proposées dans le cadre de l’évaluation HASR2 soit sur les150 comparaisonsde pa-role afin d’avoir accès à un nombre important de stimuli. En participant à cette éval-uation, nous souhaitonsconnaître la confiance qui peut être attribuée à la réponse (oui/non) fournie. Pour répondre à cette question,deux pistes sont explorées. La pre-mière consiste àquantifier la confiance que chaque auditeur attribue à sa réponsesur une échelle de 0 (pas confiant dans sa réponse) à 5 (très confiant dans sa réponse). La seconde approche consiste à faire appel à un panel d’auditeurs (avec un nombre im-pair). Dans ce cas,le taux de confiance correspond à l’accord inter-juges, c’est-à-dire au nombre d’auditeurs qui ont donné la même réponse.

Par ailleurs, nous ne nous attendons pas à ce que notre panel d’auditeurs soit spéci-fiquement performant pour discriminer les personnes car la tâche proposée est une tâche difficile. D’une part, les auditeurs auxquels nous avons fait appel ne sont pas natifs de l’Anglais. D’autre part, ils ne connaissent pas les locuteurs qu’ils vont de-voir discriminer et la durée d’enregistrement accessible (2 minutes 30 secondes) ne permet pas de faire un apprentissage préalable des locuteurs par les auditeurs2. Enfin, les conditions d’enregistrement des deux extraits à comparer sont systématiquement différentes.

2. A titre d’exemple, (Legge et al.,1984) utilise, pour « apprendre une voix non familière », des enreg-istrements dont la durée varie entre 10 minutes et plus de 2h20. (Papcun et al.,1989) utilisent, quant à eux, des enregistrements de plus de 5 minutes pour la phase d’apprentissage des nouveaux locuteurs.