• Aucun résultat trouvé

Reconnaissance Automatique du Locuteur à Travers les Canaux Digitaux

N/A
N/A
Protected

Academic year: 2021

Partager "Reconnaissance Automatique du Locuteur à Travers les Canaux Digitaux"

Copied!
164
0
0

Texte intégral

(1)

ﻲﻤﻠﻌﻟا ﺚﺤﺒﻟا و ﻲﻟﺎﻌﻟا ﻢﯿﻠﻌﺘﻟا ةرازو

Ministère de l’enseignement supérieur et de la recherche scientifique

Université Mohamed Khider – Biskra

Faculté des Sciences et de la Technologie Département: Génie Electrique

Ref /03/G.E/2016

ةﺮﻜﺴﺑ ﺮﻀﯿﺧ ﷴ ﺔﻌﻣﺎﺟ ﺎﯿﺟﻮﻟﻮﻨﻜﺘﻟا و مﻮﻠﻌﻟا ﺔﯿﻠﻛ

ﻢﺴﻗ : ﺔﯿﺋﺎﺑﺮﮭﻜﻟا ﺔﺳﺪﻨﮭﻟا

ﻊﺟﺮﻤﻟا

Ref/03/G.E/2016.:

Thèse présentée en vue de l’obtention du diplôme de

Doctorat en Sciences Spécialité: Génie électrique

Option: Electronique

Reconnaissance Automatique du Locuteur à Travers les Canaux Digitaux

Présentée par :

AJGOU Riadh

Soutenue publiquement le 14/02/2016

Devant le jury composé de :

Dr. Okba KAZAR Professeur Président Université de Biskra

Dr. Salim SBAA Maitre de conférences ‘A’ Rapporteur Université de Biskra Dr. Abdelmalik TALEB AHMED Professeur Examinateur Université de Valenciennes- France Dr. Zine-Eddine BAARIR Professeur Examinateur Université de Biskra

Dr. Nabil BENOUDJIT Professeur Examinateur Université de Batna

Dr. Moussa BENYOUCEF Professeur Examinateur Université de Batna

(2)

Remerciements

Une thèse n’est pas seulement l’aboutissement d’un travail du doctorant, c’est également une charge pour le jury et les proches. Cette courte page de remerciements leurs est dédiée.

C’est avec émotion que je tiens à remercier tous ceux qui m’ont aidé à élaborer ce travail.

Je tiens tout d’abord à remercier tous les membres de mon jury pour leur présence et leur participation à la soutenance de cette thèse. Mes premiers remerciements à Monsieur Okba KAZAR, Professeur à l'Université de Biskra, qui m'a fait l'honneur de présider la commission d'examen.

Toute ma gratitude à Monsieur Nabil BENOUDJIT et Monsieur Moussa BENYOUCEF Professeurs à l’Université de Batna, tous sont venus de loin juste pour le plaisir de participer à cette journée et acceptent la charge d’être examinateurs de ce travail, j'étais très honoré par leurs présence et d'avoir jugé sans hésitation ce travail ainsi pour ses précieux conseils

Un grand merci à Monsieur Zine-Eddine BAARIR, professeur au sein de département de génie électrique de l’Université de Biskra qui trouve mes profondes gratitudes pour ses conseils et d’avoir accepté de juger ce travail.

Je voudrais également remercier le Professeur Abdelmalik TALEB AHMED le Co- directeur de cette thèse mais aussi et surtout pour sa gentillesse à toute épreuve, et de m’avoir accueilli au sein du Laboratoire LAMIH de l’Université de Valenciennes pendant neuf mois, un plaisir de travailler avec lui.

Enfin, bien sure, je dois exprimer mes plus grands remerciements à Monsieur Salim SBAA le Directeur de thèse de m’avoir supporté et de m’encourager (à tous les sens du terme) à fond durant toutes ces années et m'avoir permis d'améliorer mes capacités scientifiques et m'a introduit au domaine du traitement de la parole ainsi que de m’avoir donné un bon état d’esprit pour la recherche et de dépasser tous les obstacles mais aussi pour n’avoir cessé de m’assurer son assistance tout au long de ma thèse, en me poussant à continuer dans les moments difficiles. Pour cela, il a toute ma gratitude Merci Dr SBAA Salim.

(3)

Dédicace

JE dédiE cE TrAvAiL à

mA GrAndE fAmiLLE, mES pArEnTS, mES frèrES, mES SœUrS

LA mémoirE dE mES GrAndS pArEnTS

LA mémoirE dE mon bEAU pèrE AbbES GUETTAL

mA pETiTE fAmiLLE, à mon époUSE dE m’Avoir SUpporTé pEndAnTS ToUTE cES AnnéES d’éTUdE ET Enfin à mon pETiT

GArçon AhmEd SAri

(4)

Résumé

Notre travail appartient au domaine du traitement de la parole, précisément la Reconnaissance Automatique du Locuteur (RAL) à travers les canaux digitaux motivé par le développement diligent des réseaux dans le sens large. La reconnaissance automatique du locuteur regroupe les problèmes relatifs à l’identification et la vérification du locuteur sur la base de l’information contenu dans le signal acoustique. À travers la recherche s’est avéré être que l'étape d'identification est l’étape essentielle dans la reconnaissance du locuteur, nous sommes devenus donc plus intéressés à identifier le locuteur que la vérification dans ce travail.

L'objectif final d'un système de RAL est la communication homme-machine. Ce moyen naturel d'interaction a trouvé de nombreuses applications en raison du développement rapide des différents matériels et logicielles, les plus importants sont l'accès aux systèmes d'information, d'aide aux handicapés, ou le contrôle de système à distance.

Ce travail s’agit de reconnaître une personne à partir de sa voix à distance (remote speaker recognition RSR). Ce type d'applications (RSR) a été renforcé clairement par le développement rapide des réseaux numériques (cellulaire et internet) et concentré sur une classe large d'applications qui impliquent l'accès à travers la parole aux systèmes de l'information éloignés c'est à dire à travers IP (Internet Protocol) et les réseaux cellulaires (GSM, UMTS, LTE….). Dans ce sens, on a estimé un système de reconnaissance du locuteur à distance suffisamment robuste en développant un algorithme d'extraction des paramètres (basé sur les paramètres autorégressive (AR) et les coefficients cepstraux (MFCC)) et un algorithme de détection Parole/Silence. D’autre part, on tient compte des effets des problèmes que peut subir les canaux de transmission dans un environnement bruité sur les systèmes de reconnaissance à distance.

Mots clés : reconnaissance automatique du locuteur à distance, réseau internet, réseau mobile, VQ, GMM, MFCCAR, SAD.

(5)

Abstract

Our work is in the field of speech processing, specifically the automatic speaker recognition (ASR) through digital channels motivated by the rapid development of networks in the the broad sense. Automatic speaker recognition includes issues related to the identification and speaker verification on the basis of information contained in the acoustic signal. Through research turned out to be that the identification step is the essential step in speaker recognition, we have become thus more interested in identifying the speaker in this work. The ultimate goal of a ASR system is the human-machine communication. This natural way of interaction has found many applications due to the rapid development of various hardware and software, the most important are the access to information systems for the disabled, or control of remote system.

This work is about recognizing a person from its remote voice (remote speaker recognition RSR), this type of application was clearly boosted by the rapid development of digital networks (mobile and internet).The present work is focused on a wide class of applications that require access through the voice to the remote information systems, it means through Internet Protocol (IP) and cellular networks (GSM, UMTS, LTE….)……. Where, we have developped a sufficiently robust remote speaker recognition system by developing a feauture extraction algorithm (based on autoregressive model (AR) and mel-fréquency cepstral coefficients (MFCC)) and a speech activity detection algorithm (SAD). Otherwise, taking into account the problems that can occur transmission channels in a noisy environment and its affects on RSR systems.

Mots clés : Remote speaker recognition (RSR), réseau internet, réseau mobile, VQ, GMM, MFCCAR, SAD.

(6)

ﺺﺨﻠﻣ

لﺎﺠﻣ ﻲﻓ ﻮھ ﺎﻨﻠﻤﻋ ﺔﺠﻟﺎﻌﻣ

اﺪﯾﺪﺤﺗو ،مﻼﻜﻟا فﺮﻌﺘﻟا

ﻲﺋﺎﻘﻠﺘﻟا ثﺪﺤﺘﻤﻟا ﻰﻠﻋ

ﺔﯿﻤﻗر تاﻮﻨﻗ لﻼﺧ ﻦﻣ ﻊﻓاﺪﺑ

ﻊﺳاﻮﻟا ﻰﻨﻌﻤﻟﺎﺑ تﺎﻜﺒﺸﻠﻟ ﻊﯾﺮﺴﻟا رﻮﻄﺘﻟا ﻦﻣ .

ﺪﯾﺪﺤﺗ ةﻮﻄﺧ نأ ﺢﻀﺗا ﺚﺤﺒﻟا لﻼﺧ ﻦﻣ ةﻮﻄﺧ ﻲھ ﻢﻠﻜﺘﻤﻟا

ﻲﻓ ﺔﯿﺳﺎﺳأ اﺬھ ﻲﻓ ﻢﻠﻜﺘﻤﻟا ﺪﯾﺪﺤﺘﺑ ﺮﺜﻛا ﻦﯿﻤﺘﮭﻣ ﺎﻨﺤﺒﺻﺄﻓ ﻦﯿﻤﻠﻜﺘﻤﻟا ﻰﻠﻋ فﺮﻌﺘﻟا

ﻞﻤﻌﻟا . ﻲﺋﺎﮭﻨﻟا فﺪﮭﻟا

مﺎﻈﻨﻟ فﺮﻌﺘﻟا ﻲﺋﺎﻘﻠﺘﻟا

ثﺪﺤﺘﻤﻟا ﻰﻠﻋ ﺔﻟﻵاو نﺎﺴﻧﻹا ﻦﯿﺑ ﻞﺻاﻮﺘﻟا ﻮھ

ﺔﺠﻣﺮﺒﻤﻟا ﺔﻘﯾﺮﻄﻟا هﺬھ تﺪﺟو ﺪﻗو

ﻦﻣ ﺪﯾﺪﻌﻟا ﻰﻟإ لﻮﺻﻮﻟا ﺎﮭﻤھأو ،تﺎﯿﺠﻣﺮﺒﻟاو ةﺰﮭﺟﻷا ﻒﻠﺘﺨﻣ ﻲﻓ ﻊﯾﺮﺴﻟا رﻮﻄﺘﻟا ﺐﺒﺴﺑ ﻚﻟذو تﺎﻘﯿﺒﻄﺘﻟا

ﻈﻨﻟا ﻰﻠﻋ ةﺮﻄﯿﺴﻟا وأ ،ﺔﺻﺎﺨﻟا تﺎﺟﺎﯿﺘﺣﻻا يوﺬﻟ تﺎﻣﻮﻠﻌﻤﻟا ﻢﻈﻧ مﺎ

ﺪﻌﺑ ﻦﻋ . فﺮﻌﺘﻟا ﻦﻋ ﻮھ ﻞﻤﻌﻟا اﺬھ

صﺎﺨﺷﻷا ﻰﻠﻋ ﺪﻌﺑ ﻦﻋ

تﻮﺼﻟا لﻼﺧ ﻦﻣ ,

ﺐﻠﻄﺘﺗ ﻲﺘﻟا تﺎﻘﯿﺒﻄﺘﻟا ﻦﻣ ﺔﻌﺳاو ﺔﺌﻓ ﻰﻠﻋ ﻲﻟﺎﺤﻟا ﻞﻤﻌﻟا ﺰﻛﺮﯾ

ﺖﻧﺮﺘﻧﻹا لﻮﻛﻮﺗوﺮﺑ لﻼﺧ ﻦﻣ ﺪﻌﺑ ﻦﻋ تﺎﻣﻮﻠﻌﻤﻟا ﻢﻈﻨﻟ ﺔﻤﻠﻜﻟا لﻼﺧ ﻦﻣ لﻮﺻﻮﻟا ﺔﯾﻮﻠﺨﻟا تﺎﻜﺒﺸﻟاو

. اﺬھ

رﻮﻄﺗ لﻼﺧ ﻦﻣ حﻮﺿﻮﺑ زﺰﻌﺗ ﻖﯿﺒﻄﺘﻟا ﻦﻣ عﻮﻨﻟا تﺎﻜﺒﺸﻟا

ﺔﯿﻤﻗﺮﻟا )

لﺎﻘﻨﻟا ﻒﺗﺎﮭﻟا و ﺖﻧﺮﺘﻧﻹا (

. اﺬھ ﻲﻓ

ثﺪﺤﺘﻤﻟا ﻰﻠﻋ فﺮﻌﺘﻟا مﺎﻈﻧ ﻞﻤﻋ ﻢﺗ،ﻞﻤﻌﻟا ﺪﻌﺑ ﻦﻋ

ﻦﻣ ﺔﯾﺎﻔﻜﻟا ﮫﯿﻓ ﺎﻤﺑ يﻮﻗ ةﺪﯾﺪﺟ ﺔﯿﻣزراﻮﺧ ﻊﺿو لﻼﺧ

ﻒﺸﻛ ﺔﯿﻣزراﻮﺧو ﻖطﺎﻨﻟا ﺺﺋﺎﺼﺧ جاﺮﺨﺘﺳﻻ مﻼﻜﻟا

/ تﻮﻜﺴﻟا رﺎﺒﺘﻋﻻا ﻦﯿﻌﺑ ﺬﺧﻷا ﻊﻣ

ﻲﺘﻟا ﻞﻛﺎﺸﻤﻟا

نأ ﻦﻜﻤﯾ ﺎﮭﺛﺪﺤﺗ

ﺞﯿﺠﺿ ﺔﺌﯿﺑ ﻲﻓ ﺚﺒﻟا تاﻮﻨﻗ ﺪﻌﺑ ﻦﻋ ﻢﻠﻜﺘﻤﻟا ﻰﻠﻋ فﺮﻌﺘﻟا مﺎﻈﻧ ﻰﻠﻋ

.

تﺎﻤﻠﻜﻟا ﺔﻌﺋﺎﺸﻟا

: ﺪﯾﺪﺤﺗ ﺔﯾﻮھ ﻖطﺎﻨﻟا ﻦﻋ ﺪﻌﺑ ، ﺖﻧﺮﺘﻧﻻا

لﻮﻤﺤﻤﻟا ﻒﺗﺎﮭﻠﻟ ﺔﻜﺒﺷ ، ،

GMM

،

، VQ

MFCCAR

، .SAD

(7)

Table des matières

Liste des figures……….………...

Liste des tableaux………....….

Liste des symboles et abréviations……….………..……..….

Introduction Générale………..

CHAPITRE I: Reconnaissance automatique du locuteur

I.1 Introduction……….

I.2 Différentes Tâches en RAL et ses applications ……...…………...

I.2.1 Identification automatique du locuteur...

I.2.2 Vérification Automatique du Locuteur ………....

I.2.3 Détection de locuteur dans un flux multi-locuteurs ………...………...

I.2.4 Suivi de locuteur ……...…………...………

I.2.5 Segmentation en locuteurs ………...………...

I.3 Mise en place d'un système de RAL………...…...

I.4 Problèmes rencontrés en RAL...

I.4.1 Variabilité due au locuteur…………...…...

I.4.2 Variabilité due au matériel...

I.4.3 Robustesse en environnements et tentatives d'imposture...

I.5 System dépendance et indépendant du texte...

I.6 Les outils de la reconnaissance automatique du locuteur...

I.6.1 Extraction de paramètres...

I.6.2 Modèles de reconnaissance...

I.6.3 Normalisation des scores...

I.7 Décision et mesure des performances...

I.7.1 Distances et mesures de distance...

I.8 Conclusion...

CHAPITRE II: Réseaux et dégradations

II.1 Introduction………

II.2 RSR sur les canaux numériques ………..

II.3 Les réseaux et dégradations ………..…

II.3.1 Le mobile et le réseau sans fil………..…

II.3.2 Le réseau IP……….

II.4 Environnement Acoustique ………...…

II.4.1 Bruit additive……….

II.4.2 Distorsion de Canal……….……

II.4.3 Modèle de l'environnement acoustique………...…..…..

II.5 Robustesse Contre les Erreurs de Canal de Transmission……….……

II.5.1 Techniques de codage de canal……….…………..

II.6 Conclusion……….

2 3 3 4 5 5 6 6 7 7 7 7 7 8 9 17 26 27 28 28

30 30 31 31 39 43 43 46 47 49 51 52 IX XII XIII XVI

(8)

CHAPITRE III : Codage de la parole et les effets sur le system de RSR.

III.1 Introduction……….………..

III.2 Techniques de codage de signal parole………..………..

III.2.1 Codeurs de la forme d'onde………..……….

III.2.2 Codeurs paramétriques………...……….

III.2.3 La fréquence fondamentale (Pitch)………..……….

III.2.4 Codeurs Hybrides……….……….………..

III.3 Effets de codecs sur un système de RSR en utilisant un nouveau SAD………

III.3.1 Introduction………..…………....

III.3.2 Configuration du système proposé………..…………..

III.3.3 Extraction des paramètres……….…………..

III.3.4 Algorithme de la détection parole/non-parole (SAD)……..…….………

III.3.5 Les resultants de simulation et discussions………..

III.4 Conclusion………..………..

CHAPITRE IV : Développement et évaluation d’un système de RSR.

IV.1 Introduction……….

IV.2 RSR basée sur une nouvelle approche d’extraction des paramètres (MFCCAR)………..

IV.2.1 Configuration du système proposé……….………..

IV.2.2 Technique proposée d’extraction des paramètres (MFCCAR)…….………

IV.2.3 Modélisation des locuteurs par GMM………..………

IV.2.4 Phase de teste…………..……….………..

IV.2.5 Phase de décision (Identification, vérification)……….

IV.2.6 Algorithme de détection parole/non-parole……….………

IV.3. Comparant CDMA et OFDMA sur la performance de notre système RSR……..……...

IV.3.1 OFDMA (Orthogonal Frequency Division Multiple Access)…………..…….

IV.3.2 CDMA (Code division multiple Access)……….……..

IV.4 Étude de différentes techniques d'élimination de bruit additive au signal parole ………

IV.5 Résultats et discussion……….…...

IV.5.1 Démontrer la performance de l'algorithme SAD………..…….

IV.5.2 Impact de l’ordre du modèle sur le taux de reconnaissance et le taux d’erreur moyen (HTER)………..………

IV.5.3 RAL par: MFCCAR, MFCC, ΔMFCC et PLP en présence de différentes natures de bruits (WGN, rose, bleu et violet)…….……… ………….

IV.5.4 RAL à travers le canal AWGN par MFCCAR versus MFCC, ΔMFCC et PLP versus SNR………..………

IV.5.5 Simulation des effets des techniques OFDMA et DS-CDMA sur RSR……...

IV.5.6 Comparaison des méthodes de rehaussement de la parole et leurs effets sur notre système de RAL………

IV.6 Conclusion………

Conclusion générale et perspectives.……….……..

Annexes……….………...….

Annexe A : Liste des contributions scientifiques………

Annexe B : OFDM………...……….

Annexe C : DS-CDMA……….………...……….

Bibliographie………….………..………...……….……….

60 62

67 68 68

72 72 75 79

82 82 83 85 89 89 89 93 97 97 97 99 102 102

103 103 104 104 105 118

120 124 124 126 130 136 54 54 55 59

(9)

Liste des figures

I.1 Différentes taches du traitement de la parole ………...

I.2 Principe de base de l’identification du locuteur...

I.3 Vérification Automatique du locuteur...

I.4 Tâche de suivi de locuteurs...

I.5 Schéma typique d’un système de RAL (Identification et Vérification)...

I.6 Fréquence fondamentale...

I.7 Rapport entre l'échelle de fréquence réelle et son échelle de Mel-fréquence………..

I.8 Banc de filtres dans l'échelle de Mel-fréquence.1 dans l'axe X correspond à fs/2:

(8000 Hz)………

I.9 Calcul des coefficients MFCC avec une échelle Mel……….

I.10 Méthode de calcul des coefficients PLP………

I.11 Spectrogramme de mot « Bonjour », réalisé avec le logiciel WinPitchPro……….

I.12 Diagramme conceptuel illustrant un dictionnaire de codes pour le Vecteur de Quantification(VQ). Un locuteur peut être discriminé sur la base d'une autre de l'emplacement des centroide………..………

I.13 Diagramme de LBG……….

I.14 Description de modèle à mélange gaussiennes p(x )……….

II.1 Schéma d'un système de reconnaissance du locuteur/speech dans le réseau (NSR)……….

II.2 Schéma d'un système de reconnaissance du locuteur/speech distribué(DSR)……….

II.3 Schéma général d'un système d'informations parole / locuteur à travers le réseau (IP, Mobile)………

II.4 Illustration du phénomène multi trajet……….

II.5 Diagramme général pour la transmission sans fil………...………

II.6 Format de paquet en utilisant RTP……….

II.7 Schéma d'un dispositif routeur………...

II.8 Différentes natures de bruits (rose, rouge, bleu et violet)……….

II.9 Situation schématique causant la réverbération en chambre mentionnant le chemin direct d0, deux chemins indirects d1 et d2………

II.10 Modèle de l'environnement acoustique………

II.11 Schéma général de tout système de transmission numérique destine au RSR…………

3 4 5 6 8 10 13 13 14 14 16 19 20 22 31 31 33 34 36 41 43 45 47 48 51

(10)

III.1 Codeur et décodeur DPCM……….

III.2 Avant et en arrière des codeurs ADPCM………..

III.3 Schéma général d’un codeur sous-bande………..

III.4 Modèle du conduit vocal (V=Voisé, NV=Non-voisé)………

III.5 Procédure d'analyse par synthèse ABS……….

III.6 Excitation de codeur à impulsion multiple………..

III.7 Schéma général de codeur CELP………..

III.8 Diagramme de décodeur GSM-EFR………..

III.9 Schéma du système RSR proposé………..

III.10 Codeur à convolutif avec ½, où D représente le retard (Delay)……….

III.11 Illustration d’énergie pour un signal parole, f0 exprime la fréquence fondamentale du signal, 2f0….nf0 exprimes les formants……….

III.12 Procédure de calcul de seuil de décision parole/non-parole, par estimations d’EZR pour chaque trame………

III.13 Algorithme général de détection parole/non-parole……….

III.14 Signal originale………

III.15 Signal parole après avoir été passé à travers l'algorithme SAD (α =0.35)………….

III.16 Signal parole (sans bruit) et son contour d’activité vocale (en bas)……….

III.17 Signal parole (sans bruit) et son contour d’activité vocale (en bas) à 15dB…………..

III.18 Signal parole (sans bruit) et son contour d’activité vocale (en bas) à SNR=5dB……….

III.19 Signal parole (sans bruit) et son contour d’activité vocale (en bas) à SNR=0dB……..

III.20 Taux d'identification avec et sans algorithme de détection d’activité vocale (SAD) vis-à-vis SNR………

III.21 Effet de PCM, DPCM, et ADPCM sur le taux d’identification vs SNR………

III.22 Étude comparative des techniques de codage: code convolutif, Reed Solomon et Hamming en matière de BER versus SNR………

III.23 Taux d’identification avec et sans code convolutif……….………...

IV.1 Schéma du système RSR proposé basé sur MFCCAR………

IV.2 Procédure d’extraction des paramètres MFCCAR. («MFCC_1, AR_1», « MFCC_2, AR_2 », « MFCC_3, AR_3 », «MFCC_4, AR_4 » et «MFCC_5, AR_5 » sont les paramètres de : trame1, trame 2, trame 3, trame 4, trame 5 respectivement)………

IV.3 Evolution des taux FA et FR………

IV.4 Algorithme proposé de détection parole/non-parole……….

56 57 58 60 63 64 65 67 69 71 73 74 75 77 77 78 78 78 78 78 78 79 79 84

88 92 96

(11)

IV.5 Schéma général de transmission de signal parole par OFDMA et DS-CDMA………….

IV.6 Signal parole de la base de données NOI ZEUS sans bruit (en bleue) et son contour d’activité de la parole ………….………..………

IV.7 Signal parole de la base de données NOIZEUS émergé dans un bruit de bavardage (en bleue) et son contour d’SAD pour SNR =15………..….

IV.8 Signal parole de la base de données NOIZEUS émergé dans un bruit de bavardage et son contour d’SAD pour SNR =10…..……….……….…

IV.9 Signal parole de la base de données NOIZEUS émergé dans un bruit de bavardage et son contour d’SAD pour SNR =5………..……….………..

IV.10 Signal parole de la base de données NOIZEUS émergé dans un bruit de bavardage et son contour d’ SAD pour SNR = 0.……….……….……….

IV.11 Taux d’identification d’ MFCCAR, MFCC, PLP et ΔMFCC versus SNR à travers le canal AWGN………

IV.12 Comparaison des performances en termes de PESQ en présence du bruit blanc (SNR =-5 à 30 dB par pas de 5 dB) ………

IV.13 Comparaison des performances en termes de PESQ en présence du bruit de bavardage.

(SNR=0 dB à 15 dB par pas de 5 dB)………….………..

IV.14 Comparaison des performances en termes de PESQ en présence de bruit d’aéroport.

(SNR=0 dB à 15 dB par pas de 5 dB)………..

IV.15 Comparaison des performances en termes de PESQ en présence de bruit de voiture.

(SNR= 0 dB à 15 dB par pas de 5 dB)……….

IV.16 Comparaison des performances en termes de PESQ en présence de bruit de la rue.

(SNR= 0 dB à 15 dB par pas de 5 dB). ………

IV.17 Comparaison des performances en termes de PESQ en présence de bruit du restaurant (SNR= 0 dB à 15 dB par pas de 5 dB)………

IV.18 Comparaison des performances en termes de PESQ en présence de bruit du salle d’exposition……….…….

IV.19 Comparaison des performances en termes de PESQ en présence de bruit rose………

IV.20 Comparaison des performances en termes de PESQ en présence de bruit violet………

IV.21 Comparaison des performances en termes de PESQ en présence de bruit bleu………

IV.22 Comparaison des performances en termes de PESQ en présence de bruit rouge…….

98

115 115 115

115 115

115 116 116 116 116 116 116

117 117 117 117 117

(12)

Liste des tableaux

II.1 Représente la structure de couche TCP/IP et les protocoles communs.…...

III.1 Résultats de simulation du taux d'identification à l'aide des signaux parole original et synthétisé après transmission à travers le canal AWGN ………

III.2 Temps d’exécution de : PCM, DPCM and ADPCM………..…….

IV.1 Valeurs de “α” versus SNR en termes de meilleur taux d’identification..………...……

IV.2 Taux d’identification, HTER et temps d’exécution moyen en fonction de l’ordre de modèle. (TE Moy = Temps d’exécution moyenne)………

IV.3 Taux de d’identification par ; MFCCAR, MFCC, ΔMFCC, PLP en présence de différentes natures de bruit: WGN, Rose, Bleu et Violet (sans canal AWGN)…………

IV.4 Taux de d’identification moyenne par; MFCCAR, MFCC, ΔMFCC, PLP en présence de différentes natures de bruit: WGN, rose, bleu et violet……….

IV.5 Paramètres de simulation de DS-CDMA……….

IV.6 Paramètres de simulation d’OFDMA……….

IV.7 BER et identification du locuteur à travers OFDMA et DS-CDMA………

IV.8 Mesures moyennes de PESQ pour les méthodes mentionnées précédemment pour la parole contaminée par les bruit de: bavardage, l'aéroport, la voiture et la restaurant…

IV.9 Résultats de simulation en termes de temps d’exécution………..…

IV.10 Comparaison des taux d’identification moyens en utilisant les différentes méthodes de rehaussement de signal parole (élimination de bruit)………..

41 79 79 107 108

109 110 110 111 111

112 113 113

(13)

Liste des symboles et abréviations

RAL Reconnaissance Automatique du Locuteur IAL Identification Automatique du Locuteur

RAP Reconnaissance Automatique de la Parole (RAP) VAL Vérification Automatique du Locuteur

UBM Universal Background Model FFT Fast Fourier Transforme DCT Discret Cosin Transform

MFCC Mel Frequency Cepstral Coefficient PLP Perceptual Linear Prediction

AR Autoregressive

SAD Speech Activity Detection VAD Voice Activity Detection

CMVN Cepstral Mean and Variance Normalization CMS Cepstral Mean Subtraction

DTW Dynamic Time Warping VQ Vector Quantisation HMM Hidden Markov Models SVM Support Vector Machine GMM Gaussian Mixture Models UBM Universel Background Model EM Expectation-Maximisation MAP Maximum A Posteriori RSR Remote Speaker Recognition

NSR Network Speaker/speech Recognition DSR Distributed Speech Recognition -DSR VoIP Voice over Internet protocol

QoS Quality of Services

CEPT Conférence européenne des postes et télécommunications

(14)

GSM Global System of Mobile communication

ETSI European Telecommunications Standards Institute IMT International Mobile Telecommunications

CDMA Code Division Multiple Access UMTS Universal Mobile Telephone System UTRA UMTS Terrestrial Radio Access FDD Frequency Division Duplex W-CDMA Wideband CDMA

TDMA Time Division Multiple Accès

ITU-T International Telecommunications Union - Telecoms DSSS Direct Sequence Spread Spectrum

OFDMA Orthogonal Frequency Division Multiple Access AMRF Accès Multiple par Répartition en Fréquence AMRT Accès Multiple à Répartition dans le Temps

SC-FDMA Single-Carrier Frequency Division Multiple Access LTE Long Term Evolution

AWGN Additive White Gaussian Noise LOS Line-Of-Sight

SNR Signal to Noise Ratio

ML Maximum Likelihood Decoding BPSK Binary phase shift keying

QPSK Quadrature Phase Shift Keying GMSK Gaussian minimum-shift keying

ARPANET Advanced Research Projects Agency Network DARPA Defense Advanced Research Projects Agency IETF Internet Engineering Task Force

RTP Real Time Protocol

PAPS Premier Arrivé Premier Servi FCFS First Come First-Serve

WFQ Weighted Fair Queuing DCT Discret Cosinus Transform FEC Forward error correction CE Error Concealment MOS Mean Opinion Score

(15)

PESQ Perceptual Estimation of Speech Quality SAD Speech Activity Detection

MIC Modulation par Impulsions Codées PCM Pulse Code Modulation

MICD Modulation par Impulsion Codée Différentielle DPCM Differential pulse-code modulation

ADPCM Adaptive Differential Pulse Code Modulation QMF Quadrature Mirror Filters

MELP Mixed Excitation Linear Prediction AMDF Average Magnitude Difference Function ASDF Average Square Difference Function SIFT Simplified Inverse Filtering

HPS Harmonic Product Spectrum CELP Code Excited Linear Prediction ACELP Algébrique CELP

VSELP Vector Sum Excited Linear Prediction MMSE Minimum Mean Square Error

MSE Mean Square Error RPE Regular Pulse Excitation EVRC Enhanced Variable Rate Coder GSM-HR GSM-Half Rate

GSM-EFR GSM-Enhanced Full Rate GSM-AMR Adaptive Multirate STP Short Term Predictor LTP Long Term Predictor

QCELP Qualcomm Code Excited Linear Prediction EZR Energy and Zero crossing Rate

EER Taux d'Egal Erreur

DCF Fonction de coût de décision DET Evolution des deux types d'erreur

DS-CDMA L’étalement de spectre en séquence directe.

(16)

Introduction générale

Ce travail de thèse s’intéresse à la reconnaissance automatique du locuteur (RAL) dans les réseaux de communication (internet, mobiles, …). Plus précisément, nous nous intéressons la reconnaissance du locuteur à travers les canaux digitaux, ce sujet est très vaste, et nécessite plusieurs études et conceptions, c’est-à-dire le traitement de la parole (extraction des caractéristiques, prétraitement, codage…) et télécommunication (réseaux mobiles, réseaux de communication…), dont on a essayé de donner le mieux à travers ce travail.

Le développement rapide des réseaux numériques au cours des dernières années a ouvert un nouveau champ d'expansion pour les techniques vocales. L'objectif final d'un système de RAL est la communication homme-machine. Ce moyen naturel d'interaction a trouvé de nombreuses applications en raison du développement rapide des différents matériels et logicielles. Les plus importants sont l'accès aux systèmes d'information, d'aide aux handicapés, ou le contrôle du système à distance, c’est-à-dire la reconnaissance automatique du locuteur à distance (Remote Speaker Recognition - RSR). La principale différence entre les systèmes RAL et RSR est que RSR implique un réseau numérique placé entre l'utilisateur et le moteur de reconnaissance. En ce sens, on peut considérer que le réseau tels que les téléphonies mobiles, devient une étape supplémentaire du système de RAL.

Problématique et motivation

Le système implique, à son tour, que l'utilisateur peut accéder au système de reconnaissance (RSR) dans un environnement défavorable où le bruit acoustique peut dégrader sérieusement les performances du système. En effet, ce travail a été motivé clairement par le développement rapide des réseaux numériques (cellulaire et Internet), il regroupe les problèmes relatifs à l’identification et la vérification du locuteur et les effets des problèmes que peut subir un canal de transmission sur un système de reconnaissance, dont le thème, c'est la reconnaissance du locuteur à distance. Il est intéressant d’éclairer que les systèmes RSR dépendent de certaines taches indispensables : techniques d’extraction des paramètres et un algorithme de détection parole /silence.

(17)

Afin de faciliter ces conceptions globales, cette thèse fournit les notions de base nécessaires à la reconnaissance du locuteur, le codage et la transmission à travers les canaux numériques.

Notre principale motivation était d'organiser et de présenter au lecteur les concepts essentiels et contributions liées à la reconnaissance automatique du locuteur à distance.

Objectif

Les systèmes de RSR dont nous nous occupons exigeant un réseau numérique pour leur déploiement. D'habitude, cela sera un réseau de téléphonie mobile ou un réseau IP (Internet protocole). Nous introduisons les traits fondamentaux de ces réseaux qui sont essentiels pour le développement de RSR. Les caractéristiques de reconnaissance (extraction des paramètres de signal parole) sont extraites des signaux reconstruits après avoir été transmis à travers le réseau. Notre objectif dans ce travail est de développer un système de reconnaissance automatique du locuteur à distance (RSR). Bien que le défi majeur en RAL réside dans les taches d’extraction des paramètres, et la détection des zones d’activité vocales, dans ce travail et pour augmenter le taux de reconnaissance, une amélioration d’algorithmes de détection d'activité vocale sera notre cible. Il est ainsi nécessaire de développer une technique d’extraction des caractéristiques de signal parole assez efficace et robuste.

Comme mentionné précédemment, un système de RSR diffère d'un système classique de RAL, les systèmes de RSR sont mis en œuvre sur les réseaux numériques. On se concentre alors sur les architectures de RSR à travers les réseaux numériques. Dont, nous nous focalisons sur les dégradations des systèmes de reconnaissance RSR dues au codage de la parole, la transmission (en tenant compte des dégradations que peuvent subir les canaux de transmissions) et la prise de son (bruits ambiants ou réverbérations).

Contribution

Dans ce travail, nous proposons un système de reconnaissance automatique du locuteur à distance (RSR), dont il y a deux schémas principaux, l’un est un «schéma d'un système de reconnaissance du locuteur dans le réseau» et l’autre est «un schéma d'un système de reconnaissance du locuteur distribué». Nous avons adopté le schéma qui correspond au système RSR dans le réseau. Les thèmes majeurs développés à travers cette thèse sont :

(18)

une étude comparative des codeurs/décodeurs de la parole suivant leurs effets sur le taux de reconnaissance sur le système RSR. Cette contribution a fait l’objet d’une communication internationale et un article (annexe A).

- un développement d’un algorithme de détection parole/silence et étudiant leur robustesse en présence du bruit. Cette contribution a fait l’objet d’une communication internationale et un article (annexe A).

- développement d’une nouvelle technique d’extraction des paramètres basant sur les paramètres MFCC et autorégressif (AR). Cette contribution a fait l’objet d’une communication internationale et un article (annexe A).

- une étude comparative des approches de rehaussement de signal parole dégradée par les bruits ambiants ou réverbérations et leurs effets sur notre système RSR.

Organisation de la thèse

La reconnaissance automatique du locuteur regroupe les problèmes relatifs à l’identification et la vérification du locuteur sur la base de l'information contenue dans le signal acoustique. À travers la recherche, il s’est avéré que l'étape d'identification est l’étape essentielle dans la reconnaissance du locuteur. Nous sommes devenus donc plus intéressés à identifier le locuteur dans ce travail.

Cette thèse est constituée d’une introduction générale, quatre chapitres et une conclusion générale et perspectives. Les deux premiers chapitres sont des chapitres d’état de l’art alors que les deux derniers chapitres sont des contributions. La thèse est donc, organisée comme suit :

Le premier chapitre est consacré à la présentation des caractéristiques et modélisations du signal parole ainsi que l’exploration des techniques de reconnaissance automatique du locuteur. On explore alors les outils nécessaires à la reconnaissance automatique du locuteur comme le prétraitement, les techniques d'extraction des paramètres et les différents modèles à savoir : QV, GMM, HMM, GMMHMM, SVM.

Bien que, les systèmes de RSR dont nous nous occupons exigent un réseau numérique pour leur déploiement. Dans le deuxième chapitre, on se concentre sur une large étude des réseaux sans-fil, mobile et Internet. On introduit les traits fondamentaux de ces réseaux qui sont essentiels pour le développement de RSR. On donne un aperçu aux canaux de transmission

(19)

utilisés par ces réseaux et la dégradation qu'ils habituellement subissent, et cela pour un objectif d'extraction des paramètres de signal parole après avoir été transmis. D’autre part, on explore les différentes architectures de RSR disponibles dans la littérature.

Dans le troisième chapitre, on parcourt les différentes techniques de codage du signal parole et le codage de source. Ainsi, on propose notre architecture de RSR et étudiant les effets des codecs, en tenant compte de trois types de codec de la parole : PCM, DPCM et ADPCM conformément à la norme de ITU-T (International Telecommunications Union - Telecoms) utilisés en téléphonie et VoIP (Voice over Internet Protocol). Afin d’améliorer les performances de la reconnaissance du locuteur dans un environnement bruité, nous proposons un nouvel algorithme de détection d'activité de la parole (Speech Activity Detection-SAD).

Les résultats de ce chapitre ont fait l’objet d’une communication internationale et un article (annexe A).

Dans le quatrième chapitre, nous avons développé un système de reconnaissance du locuteur à distance (RSR) à travers le canal AWGN fondé sur une nouvelle technique d'extraction des paramètres. Cette dernière repose sur la combinaison des paramètres d’autorégressive (AR) et les coefficients cepstraux (MFCC) qui s'avère plus robuste en milieu bruité. Pour améliorer le taux de reconnaissance, une amélioration d’algorithmes de détection d'activité vocale (SAD) vue dans le chapitre III est alors faite en tenant en compte d’estimation du bruit avant (Prior SNR estimation) la décision de parole/non-parole. Ces résultats ont fait l’objet de deux communications internationales et un article (annexe A). En d'autres termes, on a étudié l’effet de deux techniques d'accès multiple nécessaire aux réseaux mobiles et IP à savoir OFDM (multiplexage par répartition orthogonale de la fréquence), DS- CDMA (L’étalement de spectre en séquence directe) sur notre système de RAL à distance.

Afin d'améliorer au mieux le taux de reconnaissance en présence du bruit, on a fait une étude comparative des techniques de rehaussement de signal parole et de les appliquer sur notre système de reconnaissance.

On termine ce travail par une conclusion générale et perspectives. Une phase de validation en conditions réelles de fonctionnement est encore nécessaire. Le domaine des techniques d’extraction des paramètres du signal parole reste un sujet important pour les chercheurs.

Dans le domaine du taux de reconnaissance, des techniques de rehaussement du signal parole sont nécessaires à utiliser donc nous proposons de développer d’autres techniques de rehaussement.

(20)

Reconnaissance automatique du locuteur

Sommaire

I.1 Introduction……….

I.2 Différentes Tâches en RAL et ses applications ……...…………...

I.2.1 Identification automatique du locuteur...

I.2.2 Vérification Automatique du Locuteur ………....

I.2.3 Détection de locuteur dans un flux multi-locuteurs ………...………...

I.2.4 Suivi de locuteur ……...…………...………

I.2.5 Segmentation en locuteurs ………...………...

I.3 Mise en place d'un système de RAL………...…...

I.4 Problèmes rencontrés en RAL...

I.4.1 Variabilité due au locuteur…………...…...

I.4.2 Variabilité due au matériel...

I.4.3 Robustesse en environnements et tentatives d'imposture...

I.5 System dépendance et indépendant du texte...

I.6 Les outils de la reconnaissance automatique du locuteur...

I.6.1 Extraction de paramètres...

I.6.2 Modèles de reconnaissance...

I.6.3 Normalisation des scores...

I.7 Décision et mesure des performances...

I.7.1 Distances et mesures de distance...

I.8 Conclusion...

2 3 3 4 5 5 6 6 7 7 7 7 7 8 9 17 26 27 28 28

(21)

I.1 Introduction :

La reconnaissance automatique du Locuteur – RAL - s’inscrit dans le domaine du traitement de la parole [1] dont, la figure I.1 présente les différentes taches du traitement de la parole. La reconnaissance automatique du locuteur (RAL) consiste à reconnaitre l’identité d’une personne par l’analyse de sa voix [2]. Objet d’un intérêt accru depuis quelque temps au même titre que l’ensemble des méthodes d’authentification dites biométriques, elle ne figure pas parmi les plus fiables de ces techniques, au premier rang desquelles on retrouve l’analyse des empreintes digitales et génétiques. Cependant la RAL présente un certain nombre de qualité qui la distingue de ces dernières notamment en matière de facilité de déploiement. Tout d’abord, le mode opératoire, un simple enregistrement audio, permet une acceptation plus aisée de la part des utilisateurs par rapport à d’autres techniques d'identifications plus intrusives (notamment du fait que la reconnaissance du locuteur ne requiert aucun contact physique). De même le cout du matériel impliqué est plus réduit [3]. Enfin, la RAL offre l’unique avantage d’être utilisable à distance, sans nécessiter d’autre terminal qu’un simple téléphone [3]. Les caractéristiques de la reconnaissance du locuteur lui ouvrent d’autres champs applicatifs que la simple authentification d’utilisateurs, c'est l'accès à certaines applications à distance qui sera le sujet de notre thèse.

Cependant, le principe de la RAL induit un certain nombre de difficultés auxquelles il faut faire face lors de la mise en œuvre d’un système de reconnaissance du locuteur. En effet la capacité à identifier les locuteurs repose sur les différences entre les voix de divers locuteurs.

Mais cette variabilité interlocuteurs se retrouve en concurrence avec la variabilité intra-locuteur (changement de la voix d’un même locuteur entre deux enregistrements), la variabilité de l’environnement d’opération (bruit, niveau d’enregistrement) et du canal de transmission du signal de parole (par exemple lors d’une transmission par téléphone) [3].

Dans ce premier chapitre on explore les outils nécessaires à la reconnaissance automatique du locuteur dans le sens large, ses outils comme le prétraitement de signal parole et techniques d'extraction de paramètres et un état de l’art des différents modèles utilisés dans la littérature (QV, GMM, HMM, GMMHMM, SVM).

(22)

Figure I.1 Différentes taches du traitement de la parole.

I.2 Différentes Tâches en RAL et ses applications

Le plus évident type d’application qui apparaît pour la reconnaissance automatique du locuteur est l’authentification de l’utilisateur au sein d’un système de sécurité comme le cas du contrôle d’accès à un bâtiment, un réseau ou toute autre ressource sensible. Ainsi des applications policières telles que l’automatisation d'écoute téléphonique. L'identification automatique du locuteur [4] et la vérification automatique du locuteur [5] sont les tâches essentielles de la RAL. Plus récemment, les besoins applicatifs ont fait naître de nouvelles tâches comme l'indexation par locuteur [6] de flux audio ou le suivi du locuteur (Speaker Tracking) [7] ou de nouvelles variantes telles que la détection de l’interaction d'un locuteur dans une conversation

I.2.1 Identification automatique du locuteur

Le principe de l’identification automatique du locuteur l’IAL, illustré par la figure I.2, consiste à retrouver l’identité du locuteur associé parmi une population de locuteurs connus.

D'un point de vue schématique, une séquence de parole est donnée en entrée du système d'IAL.

Pour chaque locuteur connu du système, la séquence de parole est " comparée " à une référence caractéristique du locuteur. L'identité du locuteur dont la référence est la plus "proche" de la

Reconnaissance du locuteur

Traitement de la parole

Analyse/

Synthèse Reconnaissance Codage

Reconnaissance

de la parole Identification

de la langue

Identification

du locuteur Vérification

du locuteur Autres tâches

………

(23)

séquence de parole est donnée en sortie du système d'IAL [8]. Deux modes sont proposés en IAL : l'identification en ensemble fermé, dont on suppose que la séquence de parole est effectivement prononcée par un locuteur connu et l'identification en ensemble ouvert pour lequel le locuteur peut ne pas être connu. En mode "ensemble ouvert", le système doit décider de la fiabilité de son jugement en acceptant ou rejetant l'identité qu'il a trouvée [8]. De par son principe - déterminer une identité parmi des identités potentielles – les performances des systèmes d'IAL se dégradent à mesure que la population de locuteurs augmente [9,10].

I.2.1.1 Applications

En IAL, les applications sont peu nombreuses. On peut retenir, par exemple, l'utilisation d'un système d'IAL en vue de faciliter l'adaptation au locuteur des systèmes de reconnaissance automatique de la parole (RAP). Par ailleurs, il peut être intéressant pour des applications commerciales d'associer un même mot de passe pour une petite population de locuteurs (membres d'une famille, d'une société). Dans une telle situation, un système d'IAL en ensemble ouvert et dépendant du texte peut être utilisé pour contrôler l'accès à des données sensibles [8].

Figure I.2 Principe de base de l’identification du locuteur [8]

I.2.2 Vérification Automatique du Locuteur

La Vérification Automatique du Locuteur (VAL) est le processus décisionnel permettant de déterminer, au moyen d'un message vocal, la véracité de l'identité revendiquée par un individu dont la figure I.3 représente le principe de VAL [11, 12]. L'identité ainsi que le message vocal

Signal de parole x

Système d’identification

Identité associée à x Référence

Locuteur 1

Référence Locuteur 2

Référence Locuteur N Identification du locuteur

(24)

constituent les deux entrées du système de VAL. L'identité, nécessairement connue du système, désigne automatiquement la référence caractéristique d'un locuteur. Une mesure de similarité basée sur le rapport de vraisemblance est calculée entre cette référence et le message vocal puis comparée à un seuil de décision. Dans le cas où la mesure de similarité est supérieure au seuil, l'individu est accepté. Dans le cas contraire, l'individu est considéré comme un imposteur et sera rejeté [11, 12].

I.2.2.1 Applications

Les applications de VAL sont multiples et principalement commerciales :

Serrures vocales pour le contrôle d'accès à des locaux.

Authentification pour l'accès à distance.

Protection de matériel contre le vol (téléphones portables, voitures, etc.) ;

Figure I.3 Vérification Automatique du locuteur [12].

I.2.3 Détection de locuteur dans un flux multi-locuteurs.

Il s’agit d’une extension de la VAL à un test en environnement multi-locuteurs. Le principe est, à partir de l’enregistrement de référence d’un locuteur, de déterminer si ce locuteur est présent au sein d’un enregistrement multi-locuteurs, par exemple une conversation [12].

I.2.4 Suivi de locuteur

Le suivi de locuteur consiste à trouver les limites des interventions du locuteur qu'on a recherché au sein du document multilocuteurs. Il s’agit donc de déterminer si ce locuteur intervient et si oui, quand. La figure I.4 donne une illustration de ce principe.

Paramètres de sortie (décision) Identité

recherchée

Signal de parole x Référence

locuteur S Acceptation /rejet

Paramètres

d’entrée Système de

vérification Vérification du locuteur

(25)

Figure I.4 Tâche de suivi de locuteurs.

I.2.5 Segmentation en locuteurs

C'est la détermination du nombre de locuteurs présents dans un document audio tout en délimitant leurs interventions. La complication de cette tache résulte du traitement de documents pour lesquels peu ou pas d’informations sont connues a priori. Notamment, pas d'information n’est disponible à la primitive concernant les locuteurs participant dans le document : ni leur nombre, ni leur identité, ni aucun échantillon de leur voix permettant d’avoir une référence. Toutes ces informations doivent être extraites du document étudié [3].

I.2.5.1 Applications

Le domaine d'application est la segmentation automatique d’échanges radio entre pilotes et contrôleurs aériens. Depuis, le champ d’application de la segmentation en locuteurs s’est étendu et cette tache se retrouve intégrée dans le cadre plus vaste de l’indexation en locuteurs de bases de données de documents multimédia. Le spectre des types de documents traités s’en trouve élargi : conversations téléphoniques, enregistrement de journaux télévisés ou radiophoniques, films, enregistrements de réunions [3]. Le type de conditions rejointes (parole plus ou moins spontanée, conditions d’enregistrement variables, nombre d’intervenants....) contribue à faire de la segmentation en locuteurs une tache très complexe.

I.3 Mise en place d'un système de RAL

Un système de RAL pour une application donnée se décompose en deux phases distinctes. La première phase est nécessaire à la construction des références ou modèles de chaque locuteur connu du système de chaque client de l'application. Elle consiste à collecter, auprès de ses

Intervention locuteur 3 Identité

locuteur 3

Signal de parole x Référence associée à l’identité 3

Paramètres

d’entrée Système de suivi de locuteur

Suivi du locuteur

(26)

clients, des signaux de parole dits d'apprentissage, lors de sessions d'enrôlement. La seconde phase est la phase de reconnaissance à proprement parler qui consiste, pour un client, à se présenter devant le système de RAL (phase de test) [13].

I.4 Problèmes rencontrés en RAL

Les systèmes de RAL souffert des difficultés liées au domaine applicatif, comme l'utilisation des systèmes dans des conditions difficiles, les tentatives d'imposture, etc;

I.4.1 Variabilité due au locuteur

Le signal parole varie pour un même individu parce que la voix d'une personne peut évoluer entre le début et la fin de la journée. Cette variabilité intra-locuteur est induite par l'évolution naturelle ou volontaire de la voix d'une personne.

I.4.2 Variabilité due au matériel

Cette variabilité est due aux: microphone, combiné téléphonique, ligne de transmission (ex : lignes téléphoniques), convertisseurs. Ces informations apparaissent le plus souvent sous la forme de déformations/dégradations du signal de parole.

I.4.3 Robustesse en environnements et tentatives d'imposture

Les systèmes de RAL doivent être robuste face au bruit ambiant et les environnements des canaux digitaux (téléphone, réseaux mobile, internet...). Dans le chapitre suivant on évoquera les réseaux et ses dégradations pour un objectif de développer un system de RAL à travers les canaux de transmission. Un système de RAL peut faire l'objet d'attaques d'individus envahissant l'identité de quelqu'un d'autre. Ces attaques peuvent, par exemple, avoir pour dessein des transactions frauduleuses sur le compte bancaire d'un client ou l'accès à des données confidentielles. Un système de RAL doit par conséquent être robuste.

I.5 System dépendance et indépendant du texte

Diverses applications reposant sur une même tache peuvent se différencier entre autres par leur degré de dépendance au texte. Les systèmes de RAL dits indépendants du texte si ne tiennent aucun compte du contenu linguistique du signal de parole. À l'opposé, les systèmes

(27)

dits dépendants du texte s’ils utilisent la connaissance de tout ou partie de ce contenu linguistique pour affiner la reconnaissance du locuteur.

I.6 Les outils de la reconnaissance automatique du locuteur

Un système d’IAL est basé sur la connaissance de "N" clients d'un système, montrés chacun par un modèle. À l'arrivée d’un signal de parole, le système doit déterminer l’identité de la personne qui parle, parmi les N connut. Un système de vérification répond à une autre question, en se basant sur la connaissance du modèle d’une identité clamée "l'et d’un modèle du monde (UBM- Universal background Model), qui représente en réalité l’hypothèse opposée de production. Le système amène si le locuteur "I" parle ou non dans l’enregistrement actuel.

La majorité des systèmes de reconnaissance du locuteur que ce soit dans les taches d’identification ou de vérification, utilisent les modèles de mélange de lois Gaussiennes (Gaussian Mixture Models - GMM) dans la modélisation des locuteurs, que ce soit exclusivement ou en combinaison avec d’autres techniques comme HMM (Hidden Markov Model) ou SVM (Support Vecteur Machine).

Un système de reconnaissance (identification ou vérification) comporte plusieurs composantes : un module d’extraction de paramètres, un bloc d’appariement, un module de normalisation des scores d’appariement et un module de décision. La figure I.5 donne l’architecture d’un système de RAL comprenant l’identification et la vérification.

Figure I.5 Schéma typique d’un système de RAL (Identification et Vérification).

model client 2 du

... model du

client N

Extraction

de paramètres Appariement Normalisation

du score Décision Identité Signal

model client 1 du

Extraction

de paramètres Appariement Normalisation

du score Décision Accepter/rejeter

Appariement

model monde du

model client i du Identité clamée

Références

Documents relatifs

Dans une première partie, nous avons dressé un bilan des principales approches permet- tant d'améliorer la robustesse au bruit des systèmes de RAP, et identifié trois grandes

Wright, c’est une figure nouvelle qui prend naissance dans Ie roman noir américain : Ie Nouveau Noir, bardé d’une cuirasse intellectuelle qui en fait l’égal du Blanc, iI se

Abstract : Dans le cadre de ce travail de thèse, nous nous intéressons au problème d’amélioration des performances de reconnaissance automatique de locuteur en mode indépendant

Les Mod`eles de M´elange de lois Gaussiennes Gaussian Mixture Models GMM [Reynolds and Rose, 1995], [Reynolds et al., 2000], un HMM `a un seul ´etat, restent les mod`eles ´etat de

Although this study clarifies the nature and composition of the fluid phase present in subducted sediments, clearly more experiments are needed to constrain the interaction of

ﺔﯿﺟرﺎﺨﻟا ةرﺎﺠﺘﻠﻟ يﺮﻈﻨﻟا رﺎطﻹا :لوﻷا ﻞﺼﻔﻟا 7 - لﻘﻨﻟا تﺎﻘﻔﻨ مادﻌﻨا ﺔﯿرظﻨﻟا ضرﺘﻔﺘ ﻔﻨﻟا ﻩذﻫ نﺄﺒ ﺎﻤﻠﻋ ﺔﯿﻛرﻤﺠﻟا ﺔﻔﯿرﻌﺘﻟاو ﻠﻛﺘ نﻤﻀ بﺴﺤﺘ تﺎﻘ ﺔﻔ ﺔﻌﻠﺴﻟا جﺎﺘﻨإ ؛

Cette deuxième partie de notre corpus nous a permis d’utiliser un questionnaire adressé aux enseignants de la 1ére année moyenne avec des questions qui se situent au niveau de

De plus, nous tirons avantage de certaines caractéristiques linguistiques comme la morphologie riche de la langue ou la part de vocabulaire partagée avec l’anglais, afin