Bases de données - Parole de locuteur : performance et confiance en identification biométrique

Nous avons travaillé avec deux bases de données, NIST 08 et BREF 120 qui sont deux bases fournies lors d’évaluation de technologies de la parole dont nous disposons au LIA.

4.2.1 NIST 08 : téléphone, conversationnel, multilingue

La première base de données est issue du corpus NIST 2008 (Martin et Greenberg, 2009). Nous nous sommes centré sur la partietéléphonique.

Dans ce cadre, des locuteurs, vivants aux États-Unis et qui ne se connaissent pas, sont mis en relation deux à deux et aléatoirement.Les locuteurs sont enregistrés une ou plusieurs fois mais dans le second cas, ils changent d’interlocuteur. Aucune consigne ne leur est donnée sur les thèmes à aborder ni sur la langue à utiliser dans la commu-nication.

Une conversation dure en moyenne 311 secondes (environ 5 minutes). Chaque lo-cuteur est enregistré sur une piste différente. Ainsi il estpossible d’extraire l’enreg-istrement d’un seul locuteur.

Les téléphones à partir desquels les locuteurs communiquent sont dedifférents types (cellulaire, filaire...) et les signaux sont échantillonnés à 8000 Hz.

221 locuteurs-homme ont été enregistrés lors de ces conversations téléphoniques. Les enregistrements ainsi recueillis ont permis de générer les 11 636 comparaisons impos-teur et les 874 comparaisons cible qui constituent l’évaluation NIST 08 pour cette tâche téléphonique.

Lors de ces conversations,dix-huit langues sont parlées par ces locuteurs comme ré-sumé par le tableau4.1.

Les langues présentes appartiennent à des familles de langues différentes (6 indo-européennes, 1 austronésienne, 5 sino-tibétaines, 3 altaïques, 1 chamito-sémitique, 1 tai-Kadaï et 1

TABLE4.1 –Langues présentes dans la base données dans M-08

Langues Nombre de fichiers Nombre de locuteurs

Arabe Égyptien 3 1

Bengali 8 5

Chinois Min Nan 6 1

Chinois Min Nan et Mandarin 1 1

Mandarin 12 10

austroasiatique). La localisation de ces langues, illustrée par la figure4.1, montre qu’une grande proportion d’entre elles sont d’Asie du sud-est.

La langue majoritairement utilisée reste l’anglais (seulement 4% des locuteurs n’ont aucun enregistrement en anglais). 55% des locuteurs parlent deux langues. Cependant, 35% des locuteurs n’ont des enregistrements que dans une seule langue, l’anglais, tan-dis que 10% des locuteurs parlent 3 langues (cf tableau4.2).

TABLE4.2 –Nombre de locuteurs en fonction du nombre de langues parlées dans M-08 Nombre de langues parlées par locuteur 1 2 3

Nombre de locuteurs 60 95 16

Ce corpus contient donc de nombreuses langues avec des locuteurs plurilingues. Il est vraisemblable que les performances du système de RAL soient sensibles à cette

diver-FIGURE4.1 –Localisation des langues présentes dans M-08, fond de carte de Vallée et Arnal 2000

sité linguistique.

L’objectif de notre étude étant d’analyser l’influence du choix du signal d’apprentis-sage sur les performances d’un système de RAL, nous n’avons conservé que les171 locuteurs ayant au moins 3 enregistrements différents.

Afin de profiter de l’ensemble des fichiers présents dans la base de données pour mener notre étude, nous avons utilisé uneprocédure deLeave-one-out, c’est-à-dire que chaque fichier a été utilisé pour construire un modèle de locuteur puis a été testé avec l’ensem-ble des fichiers présents dans la base de données exceptés celui qui a servi à l’appren-tissage du modèle. L’ensemble des comparaisons créé par cette procédure est appelé dans notre document M-08. Cette cohorte se compose de 3 624 comparaisons cibles et de 661 416 comparaisons imposteur. Dans ces comparaisons cible et imposteur, 816

en-registrements différents sont exploités. Le nombre de modèles par locuteur varie entre 3 et 20. Les caractéristiques de NIST 08 et de M-08 sont résumées dans le tableau4.3.

Base Locuteurs Modèles Comparaisons de fichiers Imposteurs Cibles

NIST 2008 221 648 11 636 874

M-08 171 816 661 416 3 624

TABLE4.3 –Locuteurs et Modèles pour NIST 08 et M-08.

En utilisant les mêmes enregistrements de 2.5 minutes élaborés dans le cadre de la campagne NIST-SRE 08, nous avons construit une cohorte de comparaisons cible et imposteur, M-08, qui permet d’étudier les variations de performances dues à des en-registrements de diverses conversations (types de téléphone, langues, distribution phonétique, nombre de trames sélectionnées par le système de RAL, hésitations, rire et bruit de bouches dues au mode conversationnel...). Il est à noter que si la durée moyenne des enregistrements est de 2 minutes 30 secondes, cela ne signifie pas que le système utilise les 15 000 trames du signal pour construire le modèle. En effet, comme nous l’indiquions en1.4.1une sélection de trames est toujours effectuée par le système.

Ainsi en moyenne, ALIZE/SpkDet sélectionne 73 secondes de signal utilisé. Cette sélec-tion peut varier de façon importante en foncsélec-tion des enregistrements (sur M-08, entre 45 secondes et 1.8 minutes de paroles sélectionnées).

Il nous semble intéressant de travailler également avec une base de données où les différentes sources de variabilité sont mieux contrôlées notamment en vérifiant que le nombre de trames sélectionnées est stable.

4.2.2 BREF 120 : microphone, parole lue, français natif

La base de données BREF 120 (Lamel et al.,1991) a été constituée à l’origine pour construire un système de reconnaissance de la parole grand vocabulaire pour le français.

Elle comporte 120 locuteurs qui ont lu des phrases issues du journalLe Monde. Tous les locuteurs ne lisaient pas exactement les mêmes phrases. Il est toutefois à noter que l’ensemble des phrases prononcées par un locuteur comportaient tous les phonèmes du français distribués comme dans la langue française.Tous les locuteurs ont été en-registrés en une seule session avec le même matériel d’enregistrement.

Pour notre étude, les enregistrements des 9 locuteurs francophones non-natifs ont été

écartés.Nous n’avons conservé que les locuteurs natifs du français, soit 64 femmes et 47 hommes. Nous appellerons cette base de données dans notre manuscrit BREF.

Pour chaque locuteur, nous avons concaténé des enregistrements de phrases qu’il avait prononcées de manière à obtenir 39 fichiers pour lesquels environ 30 secondes de trames avaient été sélectionnées par le système de RAL. Contrairement à M-08, nous avons ici contrôlé le nombre de trames sélectionnées par le système. Les enregistrements ont une durée moyenne de 42 secondes.

Nous avons un nombre de fichiers par locuteur qui est beaucoup plus important que pour NIST-08, nous ne sommes pas obligé d’utiliser une procédure de Leave-on-out.

Ainsi, pour constituer notre panel de comparaisons, 18 fichiers ont été sélectionnés aléatoirement comme fichiers d’apprentissage tandis que les 21 autres ont été util-isés comme signaux de test. Ainsi, ont été réalisées, pour chaque locuteur homme, 17 766 comparaisons (378 (1×21×18) comparaisons cible et 17 388 (46×21×18) comparaisons imposteur) et, pour chaque locuteur femme 24 192 comparaisons (378 (1×21×18) comparaisons cible contre 23 814 (63×21×18) comparaisons imposteur) ; soit au total, 835 002 tests pour les hommes et 1 548 288 tests pour les femmes.

Dans un second temps, lorsque nous avons voulu observer l’influence de la durée d’enregistrement sur les écarts de performance d’un système de RAL, nous avons concaténé les fichiers d’apprentissage précédemment décrits de manière à obtenir des enregistrements où plus de 2 minutes 30 secondes de trames sont sélectionnées. Nous avons comparé ces nouveaux modèles avec les fichiers test utilisés précédemment.

Dans ces conditions, pour chaque locuteur, seuls 3 fichiers sont disponibles en appren-tissage. Ainsi, 4 032 et 2 961 comparaisons cible et 254 016 et 136 206 comparaisons imposteur ont été réalisées respectivement pour les femmes et les hommes dans cette condition appelée BREF-2min30svs30s. Il est à noter que pour un modèle donné, le nombre de comparaisons est le même dans les conditions BREF et BREF-2min30svs30s.

Le tableau4.4résume le nombre de comparaisons pour chaque condition.

Base Locuteurs Modèles Comparaisons de fichiers Imposteurs Cibles

BREF Femmes 30s 64 1 152 1 524 096 24 192

BREF Hommes 30s 47 846 817 236 17 776

BREF Femmes 2min30svs30s 64 192 1 524 096 24 192

BREF Hommes 2min30svs30s 47 141 817 236 17 776

TABLE4.4 –Nombre de comparaisons pour le corpus BREF selon les durées d’enregistrement et le genre des locuteurs.

Dans le document Parole de locuteur : performance et confiance en identification biométrique vocale ~ Association Francophone de la Communication Parlée (Page 107-112)