Généralités - RECONNAISSANCE DU LOCUTEUR - 2014 — Amélioration de la robustesse des systèmes de

CHAPITRE 1 RECONNAISSANCE DU LOCUTEUR

1.1 Généralités

La reconnaissance du locuteur est la tâche d’authentification de l’identité d’une personne en analysant uniquement sa voix. La reconnaissance du locuteur est une activité qui exploite les techniques du traitement automatique de la parole et de la reconnaissance des formes pour accomplir le but ultime de la biométrie, à savoir, l’authentification des personnes. Outre que la reconnaissance du locuteur, la discipline du traitement automatique de la parole recouvre également une vaste panoplie d'activités (voir Figure 1.1), tels que : le codage, la compression, la synthèse et la reconnaissance de la parole, la reconnaissance de la langue et du dialecte, la reconnaissance des émotions et l’estimation de l’âge, etc. Tout comme les autres activités de la reconnaissance automatique de la parole, la reconnaissance du locuteur est quasi contemporaine ; sa première apparition remonte au début des années 1960 (Furui, 2005). Cependant, cet axe de recherche est devenu très actif notamment dans les deux dernières décennies où le besoin de ce genre d’applications ne cesse de croitre. Les champs d’application de la reconnaissance du locuteur sont assez larges et mosaïques allant des applications de nature individuelle et domestique jusqu’à la sécurité en passant par l’indexation, la structuration et la recherche dans des bases de données multimédia. Il faut noter que la voix n’est pas d’une nature purement biométrique, raison pour laquelle son application reste limitée pour des fins juridiques (Bimbot, et al., 2005).

À son tour, la reconnaissance du locuteur se divise essentiellement en quatre axes de recherche (voir Figure 1.1), à savoir, la vérification du locuteur, l’identification du locuteur, le regroupement en locuteurs (Speaker Clustering) et la structuration en tours de parole (Speaker Diarization).

En présence d’un segment vocal, la vérification du locuteur est la procédure d’authentification de l’identité d’une personne prétendant être l’émetteur (le locuteur) de ce

segment (Campbell, 1997)(Furui, 2008)(Kinnunen, et al., 2010). Pour pouvoir accomplir cette tâche de vérification, le système doit avoir préalablement construit un modèle de la parole du locuteur en question, c’est ce qu’on nomme dans le jargon de la reconnaissance du locuteur la phase d’enrôlement d’un locuteur (voir Figure 1.2). Bien que le concept de la vérification du locuteur paraisse simple, l’implémentation d’un tel système est assez complexe. La communauté de recherche rassemblée par l’institut américain NIST1 a accordé plus d’intérêt à la vérification du locuteur qu’au reste des tâches de la reconnaissance automatique du locuteur (voir ces tâches sur la Figure 1.1) de fait qu’elle en constitue l’unité de base.

L’identification du locuteur, quant à elle, consiste à sélectionner l’identité la plus probable parmi un ensemble déjà connu par le système et l’attribuer à un segment vocal (Campbell, 1997)(Furui, 2008)(Kinnunen, et al., 2010). L’identification peut être vue également comme

1_{National Institute of Standards and Technology : http://www.itl.nist.gov/iad/mig/tests/sre/}

Identification du locuteur Vérification du locuteur Regroupement en locuteurs Structuration en tours de parole Traitement automatique de la parole Reconnaissance du locuteur Codage et compression Synthèse de la parole Reconnaissance de la parole Reconnaissance de la langue/du dialecte Estimation d’âge Sujets de notre recherche Reconnaissance des émotions

Figure 1.1 Arbre du traitement automatique de la parole avec une focalisation (en Gras) sur les sujets traités dans cette thèse.

une succession d’exécutions de la tâche de vérification du locuteur entre le segment en question et l’ensemble des locuteurs clients déjà enrôlés par le système. Dans le cas des systèmes d’identification dits à ensemble ouvert (open-set systems), la réponse du système peut être aussi un rejet d’identité si ce dernier a conclu que la voix du segment de parole ne correspond à aucun de ses clients.

L’identification et la vérification du locuteur peuvent être accomplies toutes les deux dans un mode dépendant ou indépendant du texte (Campbell, 1997)(Furui, 2008)(Kinnunen, et al., 2010). Dans le premier mode, le locuteur est prié d’être coopératif dans le sens où il doit prononcer un texte dicté par le système (texte prompt) ou bien le fixer antérieurement, par exemple un mot de passe. Quant au mode indépendant du texte, le contenu linguistique du segment vocal n’est pas imposé et il est souvent considéré comme une source supplémentaire de variabilité indésirable pour la distinction des locuteurs.

La classification et le regroupement automatiques des données non étiquetées pour déterminer leur structure intrinsèque est un problème traditionnel dans le domaine de la reconnaissance des formes et l’apprentissage-machine. Étant donné un corpus de données de segments vocaux où chaque segment est prononcé par un seul locuteur et chaque locuteur a au moins un segment, le processus du regroupement de cette base de données en considérant le locuteur comme étant la classe d’intérêt est nommé le regroupement en locuteurs (Speaker

Clustering)(Kotti, et al., 2008)(Van Leeuwen, 2010)(Senoussaoui, et al., 2013b).

Le problème du regroupement en locuteurs est souvent confondu avec le problème de la structuration en tours de parole (Speaker Diarization). Contrairement au problème du regroupement en locuteurs qui cherche à regrouper des segments vocaux enregistrés sur différents fichiers, la structuration en tours de parole consiste à segmenter et regrouper un seul flux audio en régions homogènes correspondantes à la parole des locuteurs participants. Généralement la structuration en tours de parole est caractérisée par sa capacité de répondre aux questions : « Qui parle ? Quand ?» (Tranter, et al., 2006).

Les recherches abordées dans cette thèse se focalisent sur trois des quatre problèmes de la reconnaissance du locuteur: la vérification du locuteur, le regroupement en locuteurs et la

structuration en tours de paroles. Dans ce chapitre, nous détaillerons davantage ces trois tâches tout en nous appuyant sur la vérification du locuteur vu son importance pour le reste des tâches.

1.1.1 Types de la variabilité de la parole

Avant d’entamer les sections qui fournissent plus de détails sur les sous-disciplines de la reconnaissance du locuteur, il est important d’introduire les types de variabilités de la parole. En plus du contenu linguistique, le signal vocal véhicule aussi des informations sur : l’identité du locuteur, son genre, son état émotionnel, son état de santé, sa tranche d’âge, etc. Dans une base de données de plusieurs locuteurs où chaque locuteur a au moins un enregistrement2, les enregistrements d’un même locuteur peuvent être effectués dans différents lieux (par exemple : au bureau, à la maison, à l’extérieur, dans une chambre insonorisée, etc.) et en utilisant différents types de canaux (par exemple : téléphone fixe, téléphone portable, microphone, etc.). Usuellement, nous pouvons limiter toute cette gamme d’informations ou de variabilités dans ces trois catégories suivantes :

− La variabilité intrasession : il s’agit de la variabilité perçue au cours d’un même enregistrement et qui peut être causée par un changement de l’état émotionnel, de lieu, d’emplacement par rapport au microphone ou bien du microphone lui-même, etc.

− La variabilité intersessions : il s’agit de la variabilité perçue entre l’ensemble des enregistrements d’un même locuteur, elle est ainsi due aux mêmes causes que l’intrasession, mais elle est susceptible d’être plus importante vu les différences possibles entre les dates et les circonstances d’enregistrement.

− La variabilité interlocuteurs : il s’agit de la variabilité perçue entre les distincts locuteurs et due principalement à la différence d’anatomie des cordes vocales, ça pourrait être aussi due au genre, à l'âge, à la langue, etc.

Selon l’application du traitement de la parole, l’utilité/nuisibilité de ces variabilités restera toujours à déterminer. Par exemple, les traits caractérisant un locuteur sont assez importants et utiles pour une application de la reconnaissance du locuteur en même temps qu’ils sont très nuisibles à une application de reconnaissance de la parole ou de la langue. Il est à noter que dans le cas de la vérification du locuteur, la variabilité interlocuteur constitue l’unique information utile pour la distinction des locuteurs. De plus, toute variabilité outre que l’interlocuteur est considérée comme nuisible et souvent nommée effet du canal.

Dans le document 2014 — Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs (Page 31-35)