• Aucun résultat trouvé

Evaluation automatique de la prononciation en apprentissage de langues

N/A
N/A
Protected

Academic year: 2021

Partager "Evaluation automatique de la prononciation en apprentissage de langues"

Copied!
117
0
0

Texte intégral

(1) 

(2) ‫وزارة ا

(3)  ا

(4) 

(5) و ا

(6)  ا‬.  - ‫    ر‬. BADJI MOKHTAR-ANNABA UNIVERSITY UNIVERSITE BADJI MOKHTAR-ANNABA. Faculté des sciences de l’ingénieur. Année : 2011. Département d’informatique MEMOIRE Présenté en vue de l’obtention du diplôme de MAGISTER. Evaluation Automatique de la Prononciation en Apprentissage de Langues. Option TIC & Ingénierie du document. Par Mme Aouidi Samira. DIRECTEUR DE MEMOIRE : Halima ABIDET-BAHI. MC Université de Annaba. DEVANT LE JURY PRESIDENTE :. Habiba BELLILI. MC. Université de Annaba. EXAMINATRICES: Hassina SERIDI. MC. Université de Annaba. Yamina MOHAMED BENALI MC. Université de Annaba.

(7) ‫ ـ ـ ـ ‬ ‫ ا ت  ة ا 

(8) ب ه

(9)  "ر  ا اآ  ة ا

(10) ‪ .‬وه

(11) ‪  &%‬ة ‪$ %‬ت ))

(12) ا ‬ ‫ا"

(13) ‪ ،‬ا‪, -‬ء‪ ،(...،‬و ا‪ 12 %‬ا

(14) ‪ 0‬اي و ‪  0‬و أ  ‪ ،‬ه

(15) ا"‪ 34‬و‪ 5 6

(16) 78‬ا"‪ .34‬و & ذ‪=> :‬ن ها‬ ‫ا‪G  ,D H5 12 %‬ف "‪ %‬ت آ‪E‬ة ‪D‬ا اض و ذ‪ ?

(17) 6 1 :‬ا

(18) ‪ @A B‬ا‪ I  & . D ?5‬ا‪ "5‬ت‬ ‫ا  ‪ L2 H‬اف ا‪ H O‬ا‪,‬م ‪ ،‬ا‪ ?L2M‬ا‪ > ?7K‬ر‪ J‬ا"‪  34‬أن 

(19) > ‪, Q‬ت ودة ‪:‬‬ ‫ا

(20)  ‪ 48 DQ‬ب ا و‪ 1%‬و>‪  ? S" T" ، : 5‬أآ‪ E‬وا)? ‪ ،‬و

(21) > ا

(22) ت اة >‬ ‫ا

(23) )‪ U‬ا‪ 342 ?

(24) 2 H 35‬ا‪ .‬آ‪W%‬ء  " ‪ ،‬اي ‪ > IE‬و‪ L2 &V‬م ‪ 5‬ا‪ 34" O‬ا ت ا?‬ ‫ا‪W‬و? ‪ Y2 > ،‬ا? ا‪ H ?5‬ا‪ > ،‬إ‪ G‬ر  ا ت  ة ا 

(25) ب و‪ 6

(26) 78‬ا? ا?‪  .‬ا‪5‬‬ ‫> ا"‪ L‬م ا‪5‬ح ‪

(27)  H‬ى ا? ‪ ،‬و ‪

(28) 5‬م ‪ H‬أ اف ا‪ H O‬ا‪,‬م‪.‬‬ ‫‪ 5‬ا‪

(29) 5. L2 28‬م ‪ H‬أ س ‪ : 5 5G‬ا‪M‬و‪ H H‬أ س ‪ 2‬ذج رآ

(30) ف ا‪) ?QK‬اش ^م ^م( ا أ‪DB‬وا‬ ‫‪ 5‬آا > ها ا‪ %‬ل ‪ ،‬وا‪ H ?2 E‬أ س ا ل ا‪4‬ق ا"‪ ?54‬ا`? و ذ‪ 34 :‬ا‪ ?"5‬ا ة )>(‬ ‫‪،‬وه ‪ ?"5‬آ‪E‬ة ا‪ $‬ل‪ H  ،‬ا"‪ 34‬ا‪ ، D‬واوف  آ‪ Q‬ء‪ D‬و  ‪. D2‬‬ ‫‪ ?5G‬ا‪ 5‬ا‪ 0 > IE ?05‬ب ا` ‪  S‬ا? و ا"

(31) ذج‪ ،‬وا ‪ c‬ا‪ 0‬ل ا` ‪ " S‬ا‪K‬ام‬ ‫‪ 2‬ذج رآ

(32) ف ا‪) ?QK‬اش ^م ^م( ‪ ،‬و‪ 0 > H%‬ب ا >?  ا? وا"

(33) ذج " ا‪K‬ام )>(‪  d0 .‬ه ‬ ‫‪ 5‬ر‪ 5G TA 2 ?2‬ا‪ 5‬و ‪ &c‬ا"‪ ?%‬ا‪. Q"7 H M‬‬. ‫آ ت ا

(34)  ‪  :‬ا ت ‪،‬ر‪ J‬ا"‪ ، 34‬اف ‪ H‬ا‪,‬م ‪ 2 ،‬ذج رآ

(35) ف ا‪ ، ?QK‬ا‪.5‬‬. ‫‪i‬‬.

(36) ABSTRACT Computer Assisted Language Learning (CALL) is a discipline which comes from teaching intelligently computer-assisted. It brings together several areas (grammar, orthography ...), but one aspect that seems crucial is the pronunciation, and particularly the assessment of this pronunciation. However, this aspect is neglected by many products intended for this purpose, and those facing the difficulty of the attached tasks. With the integration of techniques that are based on automatic speech recognition (ASR).Systems for teaching pronunciation can provide limited interactions: the computer understands speech of the learner, and responds accordingly, what results a learning process more realistic, providing feedbacks on real-time measuring the quality of the pronunciation of the learner. As part of our work, which involves developing a system for automatic evaluation pronunciation, of Arabic isolated words, on speaker-independent mode, in the context of Computer-Assisted Language Learning, and particularly the Arabic language. The assessment in the proposed system is made at a word level, and it’s based on the principle of speech recognition. We chose a system based on two evaluation methods: one based on hidden Markov Models (HMM), who have shown considerable progress in the domain, and a second based on techniques of fuzzy logic, applying the algorithm of Fuzzy C-Means (FCM ). A very popular algorithm based on fuzzy logic, known for its efficiency and robustness. The proposed assessment is to calculate the similarity between the word test and its model, which is translated as a likelihood probability using the HMMs, and in terms of distance between the word and its prototype using FCM. The results of both methods are compared and the highest rating score is returned to the learner.. KEYWORDS: language learning, teaching pronunciation, speech recognition, Hidden Markov models, FCM, evaluation.. ii.

(37) RESUME L’apprentissage des langues assisté par ordinateur (CALL pour Computer Assisted Language Learning) est une discipline issue de l’enseignement intelligemment assisté par ordinateur (EIAO). Elle regroupe plusieurs axes (grammaire, orthographe, …), mais l’un des aspects qui semble primordial est la prononciation et particulièrement l’évaluation de cette prononciation. Toutefois, cet aspect reste délaissé par les nombreux produits destinés à cette fin, et ceux en regard de la difficulté des tâches afférentes. Avec l’intégration des techniques qui sont basées sur la reconnaissance automatique de la parole (RAP), les systèmes d’enseignement de la prononciation peuvent fournir des interactions limitées : l’ordinateur comprend la parole de l’apprenant, et réagit en conséquence, ce qui en résulte un processus d’apprentissage plus réaliste, en fournissant des feedbacks en temps réel sur la qualité de la prononciation de l’apprenant. Dans le cadre de notre travail, qui consiste à développer un système d’évaluation automatique de la prononciation de mots arabes isolés, en mode indépendant du locuteur, dans le contexte de l’apprentissage de langues assisté par ordinateur et particulièrement de la langue arabe. L’évaluation dans le système proposé est faite au niveau d’un mot et se base sur le principe de la reconnaissance de la parole. Notre choix s’est porté sur un système qui se base sur deux méthodes d’évaluation : une première basée sur les modèles de Markov cachés HMM (pour Hidden Markov Model) qui ont montrés des progrès considérables dans le domaine, et une deuxième basée sur les techniques de la logique floue, en appliquant l’algorithme de C-Moyennes Flous (FCMFuzzy C-Means). Un algorithme très populaire, basé sur la logique floue, connu pour son efficacité et sa robustesse. L’évaluation proposée consiste à calculer la similarité entre le mot test et son modèle, qui est traduite sous forme de probabilité de vraisemblance en utilisant les HMMs, et en terme de distance entre le mot et son prototype en appliquant FCM. Les résultats des deux méthodes sont comparés, et la meilleure note d’évaluation est retournée à l’apprenant.. MOTS-CLÉS : apprentissage des langues, enseignement de la prononciation, reconnaissance de la parole, modèles de Markov cachés, FCM, évaluation.. iii.

(38) DEDICACES A mon mari Fares, pour son soutien moral, son aide, sa présence qui est toujours une lumière qui me guide. Que Dieu me le garde !. A mon petit ange adoré Zeid Mouhib….. A ceux qui me sont chers…. iv.

(39) REMERCIEMENTS Au terme de ce travail je voudrais tout d’abord exprimer ma profonde gratitude envers DIEU tout puissant qui, grâce à son aide, j’ai pu finir ce travail.. Après Dieu, je tiens à exprimer toute ma reconnaissance et mon profond respect à mon encadreur madame H.Bahi, maître de conférences à l’université d’Annaba, d’avoir accepté de diriger mon travail, de m’avoir fait confiance et de m’avoir encouragée, je lui serai toujours reconnaissante d’avoir guidé mes premiers pas de recherche.. Je voudrais remercier Madame Bellili Habiba, maître de conférence à l’Université de Annaba de m’avoir fait l’honneur de présider mon jury.. Je souhaite également exprimer toute ma gratitude à Madame Seridi Hassina et à Madame Mohamed Benali Yamina, maîtres de conférences à l’université de Annaba qui ont eu la grande gentillesse de mettre leur savoir au service de mon travail en acceptant d'en être les rapporteurs.. Ma gratitude s’adresse aussi à tous les enseignants qui ont assuré ma formation du primaire jusqu’à l’université.. Je réserve mes derniers remerciements à toute ma famille, ma belle famille, particulièrement à mes parents, pour leur dévouement et leurs sacrifices, mes soeurs pour leur encouragement et leur aide.. Merci à tous ceux qui ont contribué de près ou de loin à l’élaboration de ce travail.. v.

(40) Liste des Tableaux Tableau 1.1. Comparaison des performances d'un système de RAP anglaise entre la parole native et non-native (les taux d'erreurs sont exprimés en %)…………………….....31. Tableau 3.1. Vocabulaire utilisé………………………………………………………….... 71 Tableau 3.2. Comparaison entre DHMM et CHMM……………………………………… 77 Tableau 3.3. Estimation de la qualité de prononciation selon P et N…………………….. 88 Tableau 3.4. Performance du système d’évaluation en utilisant HMM…………………… 90 Tableau 3.5. Performance du système d’évaluation en utilisant FCM……………………. 91. vi.

(41) Liste des Figures Figure 1.1. Phase d’apprentissage……………….……………………………………….. 17 Figure 1.2. Phase de Test…………..……………………………………………............... 19 Figure 1.3. Procédure générale pour la reconnaissance de la parole basé HMM……...… 21 Figure 1.4. Paramètrisation MFCC………………………………………………………. 21 Figure 1.5. Exemple de modèle HMM à topologie « gauche-droite »………………….…. 24 Figure 2.1. Diagramme schématique d'un système de RAP [NER 07]……………..……... 46 Figure 2.2. Exemple de représentation graphique proposée dans le logiciel SARP…...….. 59 Figure 2.3. Proposition de feedback par affichage de l’oscillogramme………………..…. 60 Figure 2.4. Proposition de feedback par affichage de la courbe d'amplitude……….…… 61 Figure 2.5. Exemple de feedback visuel du logiciel Winpitch LTL…………...…………… 62 Figure 2.6. Architecture d’IELS…….……………………………………………………... 63 Figure 2.7. Les composants du système HAFFS……………...…………………………… 63 Figure 2.8. Les composants du système CHELSEA………………………….……………. 64 Figure 3.1. Architecture générale du système proposé…………………………….……... 69 Figure 3.2. Analyse de la parole…………………………………………………………... 70 Figure 3.3. Prétraitements généralement réalisés en traitement de la parole…………….. 72 Figure 3.4. Extraction de paramètres dans le cadre du traitement de la parole………..… 72 Figure 3.5. Procédé d’extraction de coefficients MFCC……………………….…………. 74 Figure 3.6. HMM ergodique……………….………………………………………………. 78 Figure 3.7. Exemple de HMM de Bakis……..…………………………………………….. 78 Figure 3.8. Modèle HMM du mot « MAKTAB »…………………………………………. 79. Figure 3.9. L’algorithme de Viterbi………………………………………………............. 80 Figure 3.10. L’algorithme Baum-Welch………..…………………………………………. 81 Figure 3.11. Procédure d’apprentissage d’un modèle HMM dans le système proposé….... 83 Figure 3.12. Algorithme FCM………………….………………………………………….. 85 Figure 3.13. Validation de performance du système propos……………………………… 87 Figure 3.14.Signal du mot [1‫ ……………………………………………………………]آ‬92 Figure 3.15. Paramètrisation du fichier son [1‫ …………………………………………]آ‬93. vii.

(42) Table des matières e‫ـ‬K‫ ــ‬......................................................................................................................................... i ABSTRACT ............................................................................................................................... ii DEDICACES ............................................................................................................................ iv REMERCIEMENTS .................................................................................................................. v Liste des Tableaux ..................................................................................................................... vi Liste des Figures....................................................................................................................... vii Table des matières ................................................................................................................... viii Introduction générale.................................................................................................................. 1. Chapitre 1: Reconnaissance Automatique de la Parole(RAP). ........................................ 7 1.1. Introduction ..................................................................................................................... 8 1.2. Définitions ....................................................................................................................... 9 1.2.1. Parole ........................................................................................................................ 9 1.2.2. Signal de la parole ................................................................................................... 10 1.2.3. Reconnaissance automatique de la parole............................................................... 10 1.3. Historique ...................................................................................................................... 12 1.4. Dates clés ...................................................................................................................... 15 1.5. Traitement de la parole .................................................................................................. 16 1.5.1. Méthodes temporelles ............................................................................................. 16 1.5.2. Méthodes fréquentielles .......................................................................................... 16 1.6. Architecture d’un système de reconnaissance automatique de la parole....................... 17 1.6.1. La Numérisation..................................................................................................... 17 1.6.2. L’analyse Acoustique............................................................................................. 18 1.6.3. L’apprentissage ....................................................................................................... 18 1.6.4. La Reconnaissance ................................................................................................ 19 1.7. Méthodes de Reconnaissance ........................................................................................ 20 1.8. Reconnaissance analytique de la parole ........................................................................ 20 1.8.1. Paramétrisation ....................................................................................................... 21 1.8.2. Modèles de langage statistiques .............................................................................. 22 1.8.3. Modèle de prononciation ........................................................................................ 23. viii.

(43) 1.8.4. Modèles acoustiques ............................................................................................... 23 1.8.5. Décodage avec l'algorithme de Viterbi ................................................................... 24 1.9. Les principes de fonctionnement de la RAP ................................................................. 25 1.9.1. Niveaux de complexité ........................................................................................... 25 1.9.2. Les types de systèmes de RAP.............................................................................. 27 1.9.3. Fonctionnement....................................................................................................... 28 1.10. Reconnaissance de la parole non-native ...................................................................... 30 1.10.1. Définition .............................................................................................................. 30 1.10.2. Spécificités de la parole non-native ...................................................................... 30 1.10.3. Impacts de la parole non-native sur les performances de la reconnaissance automatique ....................................................................................................................... 31 1.10.4. Notions de confusions phonétiques ...................................................................... 32 1.10.5. Modélisation acoustique de l'accent non-natif ...................................................... 32 1.10.6. Modélisation de la prononciation non-native ....................................................... 34 1.11. Conclusion ................................................................................................................... 36. Chapitre 2: Apprentissage de la Prononciation basé RAP. ......................................... 37 2.1. Introduction .................................................................................................................. 38 2.2. L’enseignement de la prononciation assistée par ordinateur (EPAO) ........................... 39 2.2.1. Qu’est ce que la prononciation? .............................................................................. 39 2.2.2. Prononciation «Correcte» ....................................................................................... 39 2.2.3. Les Composants de la prononciation ...................................................................... 40 2.2.4. Aspects d'enseignement de la prononciation .......................................................... 41 2.2.5. Objectifs de l’enseignement de la prononciation .................................................... 42 2.2.6. Les systèmes d’enseignement de la prononciation assistés par ordinateur (EPAO) ........................................................................................................................................... 42 2.2.7. Les Inputs et outputs des systèmes d’EPAO.......................................................... 43 2.2.8. Les défis de l’enseignement de prononciation assisté par ordinateur ..................... 44 2.3. Pourquoi utiliser la reconnaissance automatique de la parole (RAP) dans l’EPAO ..... 45 2.4. Le fonctionnement des systèmes CAPT basés sur la RAP ........................................... 45 2.4.1. Comment fonctionne la RAP ................................................................................. 46 2.4.2. Comment fonctionne la technologie d'EPAO basé-RAP ........................................ 46 2.5. Comment utiliser efficacement la RAP dans l’enseignement de prononciation d’une seconde langue (L2).............................................................................................................. 48. ix.

(44) 1) la reconnaissance de la parole non-native, ....................................................................... 48 2) l'évaluation de la prononciation ....................................................................................... 48 3) le feedback........................................................................................................................ 48 2.5.1. La reconnaissance de la parole non-native ............................................................. 48 2.5.2. Les modèles acoustiques ......................................................................................... 49 2.5.3. Le Lexicon ............................................................................................................. 49 2.5.4. Le modèle de langue ............................................................................................... 50 2.6. L'évaluation de la prononciation ................................................................................... 50 2.7. Le feedback.................................................................................................................... 51 2.7.1. L’affichage visuel .................................................................................................. 52 2.7.2. L’évaluation automatique ....................................................................................... 53 2.8. L'efficacité des systèmes EPAO basés sur la RAP ........................................................ 55 2.9. L’évolution de logiciels en apprentissage des langues .................................................. 56 2.9.1. Introduction ............................................................................................................. 56 2.9.2. Historique sommaire de l’évolution de logiciels en apprentissage des langues ..... 57 2.10. Conclusion ................................................................................................................... 64. Chapitre 3: Proposition. .............................................................................................. 66 3.1. Introduction ................................................................................................................... 67 3.2. Evaluation de la prononciation ...................................................................................... 67 3.3. Système d’évaluation automatique de la prononciation proposé .................................. 68 3.4. Architecture générale du système proposé .................................................................... 69 3.5. Etape 1 : Paramétrisation du signal vocal ...................................................................... 69 3.5.1. Analyse du signal .................................................................................................... 70 3.5.2. Le corpus utilisé ...................................................................................................... 70 3.5.3. Prétraitements ......................................................................................................... 71 3.5.4. Extraction de caractéristiques ................................................................................. 72 3.5.5. Extraction de caractéristiques utilisée dans le système proposé ............................. 73 3.6. Etape 2 : Apprentissage ................................................................................................. 74 3.6.1. Apprentissage en utilisant les Modèles de Markov Cachés (HMM) ...................... 75 3.6.2. Apprentissage en utilisant la méthode C-Moyenne Floue (FCM) .......................... 84 3.7. Etape 3 : Evaluation ....................................................................................................... 86 3.7.1. Evaluation en utilisant HMM.................................................................................. 87. x.

(45) 3.7.2. Evaluation en utilisant FCM ................................................................................... 89 3.8. Expériences et résultats ................................................................................................. 89 3.8.1. Résultats du système d’évaluation basé HMM........................................................... 90 3.8.2. Résultats du système d’évaluation basé FCM ............................................................ 90 3.8.3. Discussion des résultats .............................................................................................. 91 3.9. Exemple illustratif ......................................................................................................... 91 3.10. Conclusion ................................................................................................................... 94 Conclusion Générale et Perspectives. ...................................................................................... 95 1. Conclusion générale ............................................................................................................. 96 2. Perspectives .......................................................................................................................... 97 Références bibliographiques. ................................................................................................... 98. xi.

(46) Introduction générale..

(47) Introduction générale. 1. Contexte et problématique Le développement de la coopération socio-écono-culturelle entre des pays pousse l’accroissement de la communication interindividuelle face à face. On constate en fait une augmentation de l’exigence de la qualité de l’expression. Dans la communication orale, il faut, parallèlement avec un bon choix des éléments lexico-syntaxiques, la maîtrise de la forme sonore des énoncés. Cela explique en partie la réintégration de la composante phonétique dans l’enseignement/ apprentissage des langues. D’une part, les nombreuses recherches sur les relations entre perception et production montrent le rôle primordial que jouent les faits prosodiques dans la cohérence d’un discours. De l’autre, la parole naturelle est produite et perçue comme un tout, intégrant les deux dimensions segmentale et suprasegmentale. L’enseignement des langues étrangères est devenu indis pensable dans les pays multilingues comme la France, le Canada, la Suisse …etc. Ce qui a nécessité l’enseignement de ces langues même dans les écoles primaires. C’est pour ça, il y eu des différentes initiatives visant à introduire des programmes d’enseignement précoce de langues : quelques unes de ces initiatives étaient basées sur la pédagogie tandis que d’autres étaient motivées par l’hypothèse de l’âge optimale, par la recherche ou par la politique comme par exemple le programme d’échange d’éducateurs/éducatrices de jardins d’enfants entre l’Allemagne et la France. [EDE 06] L’ingénierie de la langue a également fait de gros progrès, notamment grâce à la montée en puissance des ordinateurs. Aujourd’hui, dans de nombreuses applications, on trouve des analyseurs syntaxiques, des outils de synthèse et de reconnaissance de la parole, des traducteurs automatiques etc. Le résultat n’est pas toujours probant, mais la technique a atteint une fiabilité acceptable. Malgré les efforts de recherche considérables qui ont été investis dans le développement de systèmes d’enseignement de langues étrangères assisté par ordinateur, peu d'attention a été accordée à l'enseignement de la prononciation. Cette composante de l'enseignement des langues a l'inconvénient que ce n'est pas possible de traiter et d'évaluer toute réponse orale d'un élève en utilisant les moyens standards d'interaction, tels que le clavier et la souris. En outre, contrairement aux exercices de grammaire ou de vocabulaire où il existe clairement de bonnes ou de mauvaises réponses définies, dans les exercices de prononciation il n'existe pas de bonne ou de mauvaise réponse claire. Un grand nombre de différents facteurs contribuent à. 2.

(48) Introduction générale la qualité globale de prononciation et ils sont également difficiles à mesurer. Ainsi, la transition de la mauvaise vers la bonne prononciation est progressive, et toute évaluation doit être également présentée sur une échelle graduée. Cependant même à la présence de différents programmes et méthodes, le résultat n’est pas toujours satisfaisant pour tous les apprenants, cela est due à plusieurs facteurs tel que la vie sociale (exposition de la langue, implication de la famille), les facteurs personnels (âge et les origines) et le facteur scolaire (continuité de l’enseignement). [WIT 97] Certains chercheurs maintenant pensent que le facteur clef pour aider les apprenants à être conscients de leurs erreurs durant l’apprentissage d’une seconde langue (L2) est un feedback correctif externe, une information sur la qualité de production d’un apprenant. Le feedback correctif fourni par des enseignants ou par des parleurs natifs (ceux qui parlent leur langue maternelle) pour aider les apprenants à remarquer les divergences entre leur production et la prononciation correcte. Cependant, les contextes d’enseignement en classe traditionnelle permettent rarement à l’enseignant de rencontrer ces exigences : les enseignants peuvent ne pas toujours vouloir corriger la même erreur, avec la même fréquence, pour chaque apprenant individuel. Ils peuvent ne pas vouloir toujours interrompre le courant de parole d’un apprenant pour lui indiquer ses erreurs de prononciation. En effet, les enseignants parfois préfèrent ne pas corriger ces erreurs de prononciation, dans le but de ne pas décourager les apprenants pour parler la seconde langue. Mais le problème le plus important est probablement que les enseignants n’ont pas généralement assez de temps pour corriger aux apprenants, ni pour les laisser reformuler leurs prononciations défectueuses. Les chercheurs, éducateurs, et apprenants sont ainsi devenus intéressés par les programmes de l’« enseignement de prononciation assisté par ordinateur » (EPAO) fournissant un feedback automatique sur la qualité de la prononciation. Ces programmes offrent un environnement privé et sans stress, dans lequel les apprenants peuvent s’entrainer dans leurs places préférées et reçoivent un feedback immédiat et individualisé [NER 07]. Mais même avec tous les avantages des systèmes d’EPAO, ces derniers avaient encore quelques autres problèmes concernant l’accent du parler de l’étudiant, qui peut influencer la prononciation de certains mots, et les empêcher d’être intelligibles par rapport aux parleurs natifs, en plus les feedbacks fournis par ces systèmes peuvent être complexes, et parfois difficiles à interpréter. 3.

(49) Introduction générale par l’étudiant ou son enseignant. Donc, les recherches ont été dirigées vers l’utilisation de la reconnaissance automatique de la parole (RAP) pour aider les systèmes d’EPAO à fournir des feedbacks plus efficaces. Aidée par les avancées technologiques, la reconnaissance automatique de la parole est de plus en plus performante. Elle consiste à interpréter le langage parlé humain par une machine. Les applications de cette technologie sont vastes et variées. La RAP peut servir à dicter un texte à un ordinateur, commander vocalement un équipement automatique, utiliser des services d'informations ou de réservations par téléphone, permettre à des personnes handicapées d'utiliser un ordinateur ou tout autre appareillage ... Le traitement automatique de la parole est au carrefour de plusieurs disciplines dont l'informatique, la linguistique, la phonétique et la psychologie. Avec l'augmentation des performances de la reconnaissance de la parole, ces dernières années, l'évaluation automatique de la prononciation est maintenant possible.. 2. Contribution Notre travail s’intéresse à la conception et au développement d’un système d’évaluation automatique de la prononciation de mots arabes isolés, en mode indépendant du locuteur, dans le contexte de l’apprentissage de langues assisté par ordinateur et particulièrement de la langue arabe. L’évaluation dans le système proposé se fait au niveau d’un mot et se base sur le principe de la reconnaissance automatique de la parole. Le système proposé se compose de trois étapes : extraction de caractéristiques, apprentissage des mots pour déduire les modèles, qui seront utilisés dans la troisième étape d’évaluation. Le système proposé s’intéresse à l’évaluation de mots arabes isolés, pour ce faire il utilise deux paradigmes : les modèles de Markov cachées (HMM), qui sont capables de modéliser simultanément les caractéristiques fréquentielles et temporelles du signal vocal, et qui présentent à l’heure actuelle des progrès énormes. Et une deuxième évaluation basée sur les techniques de la logique floue, en appliquant l’algorithme de C-moyennes Flous (FCMFuzzy C-Means). Un algorithme très populaire, basé sur la logique floue, connu pour son efficacité et sa robustesse. Ce travail décrit les techniques que nous avons développées pour construire un système d’évaluation automatique de la prononciation en apprentissage des langues. Ce système implémente tous les niveaux du traitement, à partir de l’extraction des caractéristiques du signal de la parole du mot prononcé, l’évaluation automatique de cette. 4.

(50) Introduction générale prononciation en utilisant les deux méthodes décrites précédemment, et jusqu’à l’obtention d’une note accompagnée d’une appréciation mesurant la qualité de la prononciation de l’apprenant. Pour se faire, différents traitements au niveau de la mise en forme du signal d’un mot sont développés: prétraitements, extraction de caractéristiques, ainsi que les algorithmes d’apprentissage et d’évaluation utilisés à savoir Baum Welch , Viterbi et FCM.. 3. Organisation du mémoire Ce mémoire est organisé autour de quatre chapitres, dans ce qui suit nous donnons une brève description de leurs contenus respectifs.. Chapitre 1 : La Reconnaissance Automatique de la Parole (RAP) Ce chapitre présente l’état de l’art dans le domaine de la reconnaissance automatique de la parole où nous décrivons les étapes nécessaire au développement d’un système de reconnaissance vocale. Une revue de littérature sur les différentes méthodes de reconnaissance est élaborée, ainsi que les techniques d’analyse du signal vocal afin d’extraire des paramètres pertinents qui nous servirons de données pour la reconnaissance. Enfin nous aborderons les spécificités de la parole non native, sa modélisation acoustique ainsi que son impact sur les performances du système de reconnaissance automatique de la parole.. Chapitre 2 : L’enseignement de la Prononciation basé sur la RAP Dans ce chapitre on va discuter le principe des systèmes d’enseignement de la prononciation assistés par ordinateur (EPAO), Les aspects et objectifs de l’enseignement de la prononciation, ainsi que les limitations qu’ils peuvent rencontrer. Nous expliquerons ensuite la raison pour laquelle on a besoin d’implémenter la technologie de la RAP dans les systèmes d’EPAO,. et comment peut-on faire cette implémentation. On. présentera. brièvement. comment fonctionnent les systèmes d’EPAO basés sur la RAP, en décrivant leur efficacité et on finira par un état de l’art dans le domaine de l’enseignement de la prononciation assisté par ordinateur, en représentant quelques modèles de ces systèmes.. 5.

(51) Introduction générale Chapitre 3 : Proposition Dans ce chapitre, nous détaillons la méthodologie adoptée pour la conception d’un système d’évaluation automatique de la prononciation en apprentissage des langues. Nous décrivons dans un premier lieu en détail les différentes phases intervenantes dans le système, ainsi que les algorithmes utilisés lors de l’apprentissage et l’évaluation selon la modélisation choisie. Dans la dernière section, nous présentons les résultats obtenus ainsi que les discussions de ces résultats, dans le but d’évaluer les performances du système proposé. Nous achèverons ce mémoire par une conclusion et quelques perspectives.. 6.

(52) Chapitre 1. Reconnaissance Automatique de la Parole(RAP)..

(53) Chapitre 1-Reconnaissance Automatique de la Parole. 1.1. Introduction La reconnaissance automatique de la parole(RAP) est un domaine de la science ayant toujours eu un grand attrait auprès des chercheurs comme auprès du grand public. En effet, qui n’a jamais rêvé de pouvoir parler avec une machine ou, du moins, piloter un appareil ou un ordinateur par la voix. Ne plus avoir à se lever pour allumer ou éteindre tel ou tel appareil électrique, ne plus avoir à taper pendant des heures sur un clavier pour rédiger un rapport (par exemple). L’homme étant par nature paresseux, une telle technologie a toujours suscité chez lui une part d’envie et d’intérêt, ce que peu d’autres technologies ont réussi à faire. [ALL 03] La reconnaissance automatique de la parole est une branche de la reconnaissance des formes. Grâce à cette technologie, on peut communiquer oralement avec la machine au lieu d’utiliser les gestes ou les commandes des automatismes, ce qui facilite considérablement l’interaction homme/ machine. La reconnaissance automatique de la parole (RAP) consiste à reconnaître la suite de mots qui a été prononcée dans un enregistrement de parole par un dispositif automatique. Les recherches conduites ces deux dernières décennies ont permis l'essor de la RAP, et de plus en plus de technologies intègrent la RAP comme une interface alternative aux claviers et autres dispositifs de contrôle. La dictée de textes sur ordinateur, les services de billetteries et de réservations par téléphone, les serveurs vocaux en sont des exemples courants, la commande vocale d'appareillages, l'indexation de documents audio et le sous-titrage d'enregistrements vidéo en sont des exemples courants. [BOU 08] Le traitement automatique de la parole est un vaste domaine de recherche très complexe qui nécessite la collaboration des spécialistes dans de nombreux domaines : traitement du signal, théorie de l’information, linguistique, phonétique, acoustique, biologique, etc. Le signal vocal véhicule des informations de différentes natures (phonèmes, mots, langue, accent, identité du locuteur, etc.) et présente une grande variabilité. Pour extraire les différentes informations à partir d’un signal de parole, le traitement du signal reste un outil fondamental et indispensable. Il existe des théories et des techniques très sophistiquées et complexes en traitement du signal mais la spécificité de la parole exige des traitements bien adaptés à sa nature et aux objectifs visés. En fait, au cours des dernières années, beaucoup de recherche ont été faites afin d'améliorer les performances des systèmes de reconnaissance de la parole. [ELA 09]. 8.

(54) Chapitre 1-Reconnaissance Automatique de la Parole. Toutefois, les systèmes de RAP souffrent d'une chute de performances importante face à la parole non-native. La parole non-native est la parole de locuteurs ne s'exprimant pas dans leur langue maternelle. La parole non-native peut différer de la parole native sur plusieurs points. Selon leurs maîtrise de la langue qu'ils parlent (langue cible), les locuteurs non-natifs peuvent formuler des constructions grammaticales incohérentes, mal utiliser des connecteurs lexicaux, commettre des erreurs d'accord en genre et en nombre des articles et adjectifs. Les locuteurs non-natifs peuvent également utiliser des mots inexistants dans la langue cible, ou mal utiliser des mots par manque de maîtrise de la langue cible. Par ailleurs, l'accent des locuteurs nonnatifs peut être influencé par les mécanismes de prononciation de leur langue maternelle. Ainsi, ces locuteurs peuvent prononcer les phonèmes d'une manière similaire à leur langue maternelle. Ils peuvent également prononcer d'une même manière des phonèmes différents dans la langue cible, ou encore remplacer des phonèmes par d'autres phonèmes de leur langue d'origine. Ces erreurs de prononciation nuisent fortement à la précision des modèles statistiques utilisés dans la RAP, et il en résulte la chute de performance des systèmes de RAP face à la parole non-native. [BOU 08]. 1.2. Définitions 1.2.1. Parole Le signal de parole appartient à la classe des signaux acoustiques produits par des vibrations des couches d’air. Les variations de ce signal reflètent les fluctuations de la pression de l’air. La parole est une suite de sons produits soit par des vibrations des cordes vocales (source quasi périodique de voisement), soit par une turbulence créée par l’air s’écoulant dans le conduit vocal, lors du relâchement d’une occlusion ou d’une forte constriction de ce conduit (sources de bruit non voisées). La durée d’un son est de l’ordre de 60 à 100 ms. La parole est formée de phonèmes et de transitions entre ces phonèmes. Plusieurs types de phonèmes existent : les voyelles, les consonnes fricatives, les consonnes plosives, les nasales et les liquides. Les transitions acoustiques correspondent à des transitions dans l’appareil de production de l’état correspondant au premier phonème à l’état correspondant au suivant. Les voyelles, sons voisés par excellence, sont les « piliers » de la parole ; leur présence est révélée fréquentiellement par les formants qui correspondent aux fréquences de résonance du. 9.

(55) Chapitre 1-Reconnaissance Automatique de la Parole. conduit vocal. La fréquence d’apparition des voyelles correspond au rythme syllabique. [OZE 03]. 1.2.2. Signal de la parole C’est un phénomène physique de nature acoustique porteur d’un message. Il est caractérisé par la fréquence fondamentale, l’intensité et le timbre. Sa structure est un signal réel, continu d’énergie finie, non stationnaire dans le temps (tantôt périodique pour les sons voisés, tantôt aléatoire pour les sons non voisés, tantôt impulsionnel pour les plosives). Le signal de parole est caractérisé par trois paramètres : [KUN 80]. 1.2.2.1. L'intensité Elle correspond à l’amplitude des vibrations sonores. Elle est exprimée en (db). Notons aussi, que l’intensité de la voix peut atteindre des valeurs difficilement tolérables par l’oreille (de l’ordre de 100 db).. 1.2.2.2. La hauteur Elle est dite aussi « fréquence fondamentale » ou pitch. Elle correspond à la fréquence des sons, elle est liée aux caractéristiques des cordes vocales. Cette fréquence peut varier suivant l’âge et le sexe du locuteur -. Chez l’homme : de 80 à 200Hz.. -. Chez la femme : de 150 à 450 Hz.. -. Chez l’enfant : de 200 à 600 Hz.. 1.2.3.3. Le timbre C’est la qualité qui distingue un son parmi d’autres de même intensité et de même hauteur. Il représente la résultante de la transformation du son laryngé par les cavités de résonance.. 1.2.3. Reconnaissance automatique de la parole La reconnaissance automatique de la parole est l’un des deux domaines du traitement automatique de la parole, l’autre étant la synthèse vocale. La reconnaissance automatique de la parole permet à la machine de comprendre et de traiter des informations fournies oralement par un utilisateur humain. Elle consiste à employer des techniques d'appariement afin de. 10.

(56) Chapitre 1-Reconnaissance Automatique de la Parole. comparer une onde sonore à un ensemble d'échantillons, composés généralement de mots mais aussi, plus récemment, de phonèmes (unité sonore minimale). En revanche, le système de synthèse de la parole permet de reproduire d’une manière sonore un texte qui lui est soumis, comme un humain le ferait. Ces deux domaines et notamment la reconnaissance vocale, font appel aux connaissances de plusieurs sciences : l'anatomie (les fonctions de l'appareil phonatoire et de l'oreille), les signaux émis par la parole, la phonétique, le traitement du signal, la linguistique, l'informatique, l'intelligence artificielle et les statistiques. Il faut bien distinguer ces deux mondes : un système de synthèse vocale peut très bien fonctionner sans qu’un module de reconnaissance n’y soit rattaché. Evidemment le contraire est également tout à fait possible. Par contre, dans certains domaines bien précis, l’un ne va pas sans l’autre. [ALL 03] Les systèmes de RAP sont basés sur des paradigmes statistiques permettant de modéliser les différents aspects du langage humain. D'une manière générale, ces systèmes de RAP sont composés de trois parties principales. La première partie est le modèle de langage, ou grammaire, dont la finalité est de représenter la structure des phrases d'une langue particulière. La grammaire est un modèle statistique contenant les suites de mots qui peuvent être prononcées dans la langue. Ce modèle est entraîné à l'aide de corpus textuels, tels que des archives de journaux. La deuxième partie composant les systèmes de RAP est le modèle de prononciation qui détermine la manière dont les mots de la langue sont prononcés. A chaque mot est associée une ou plusieurs suites de sons, phonèmes, définissant chacune une manière de prononciation de ce mot. Le modèle de prononciation peut être construit manuellement ou d'une manière automatique basée sur les propriétés phono-morphologiques de la langue. Enfin, l'ensemble des modèles acoustiques représente la troisième partie dont se compose les systèmes de RAP. Les modèles acoustiques sont des modèles stochastiques (généralement des modèles de Markov cachés, Hidden Markov Model - HMM) représentant les différents sons de la langue. Ces modèles sont entraînés à l'aide de corpus audio. Ces différents modèles sont utilisés par le moteur de reconnaissance afin de déterminer la suite de mots la plus probable correspondant à un enregistrement de parole. [BOU 08] La technologie de RAP est de plus en plus fiable à mesure que les systèmes informatiques sur lesquels elle repose évoluent. Le développement de la puissance de calcul et des capacités de stockage des ordinateurs actuels ont été des facteurs déterminants pour le développement de la RAP. Ces capacités accrues permettent la gestion de corpus textuels et de parole de grande. 11.

(57) Chapitre 1-Reconnaissance Automatique de la Parole. taille. De plus, la puissance des équipements informatiques actuels autorisent l'utilisation de modèles acoustiques et de langage de plus en plus complexes et précis. Les performances des systèmes de RAP s'en trouvent consolidées et les taux d'erreurs réduits. [BOU 08]. 1.3. Historique La conception d'une machine capable de mimer la capacité humaine à communiquer par le biais de la parole a attiré l'attention des scientifiques et chercheurs depuis quelques siècles. L'une des premières tentatives concernait la production de la parole avec les travaux du professeur en psychologie Ch. G Kratzenstein en 1782. Kratzenstein a réussi à approximer le fonctionnement du conduit vocal humain en utilisant des tubes métalliques interconnectés. [KRA 1782] Le procédé de Kratzenstein reproduit des sons vocalises : des voyelles. Différentes machines de production de sons ont été développées à la fin du 19eme siècle, notamment grâce aux travaux de Wolfgang Von Kempelen et Charles Wheatstone [DUD 50]. Le développement de ces inventions mécaniques repose sur la compréhension des mécanismes de production de la parole chez l'homme, et notamment les résonances ayant lieu dans différentes parties du conduit vocal. L'une des premières tentatives d'enregistrement et reproduction de la voix humaine date de 1881 avec les travaux d'Alexandre Graham Bell et ses collaborateurs [THO 02]. Ils ont inventé une machine capable d'enregistrer la voix humaine sur un cylindre de cire et de la restituer ultérieurement. En 1888, l'entreprise Volta Graphophone, fondée par Bell et al., commercialise cette machine qui sera nommée « Dictaphone » en 1907. Le dictaphone a été concurrencé par une version de Thomas Edison, appelée "phonographK''. Dans les années 1920, le physicien américain Harvey Fletcher ainsi que d'autres chercheurs de Bell Labs., étudient les caractéristiques de la parole humaine. Fletcher étudie en outre la relation entre le spectre fréquentiel d'un signal de parole et les caractéristiques du son ainsi que la perception de l'oreille humaine et l'intelligibilité de la parole [FLE 22]. Les travaux de Fletcher ont influencé l'ingénieur Homer Dudley, travaillant au sein de Bell Labs.. Dans les années 1930, Dudley développe le VODER {Voice Operating Demonstrator) [DUD 39] qui est un dispositif électronique permettant la synthèse de parole continue.. 12.

(58) Chapitre 1-Reconnaissance Automatique de la Parole. Les travaux de Fletcher et Dudley ont été précurseurs pour la reconnaissance automatique de la parole , dans le sens où ils ont établi le lien entre la composition fréquentielle de la parole (spectre) et les caractéristiques des sons et leur perception. Les premiers travaux concernant la RAP datent du début des années 1950 avec un premier dispositif électronique permettant de reconnaître des chiffres isolés. Ce dispositif, développé par Bell Labs [DAV 52], est basé sur l'analyse des deux premiers formants de la voix. Les formants sont définis comme les fréquences de résonance du conduit vocal. Durant les années 1950, divers appareillages électroniques on été développés pour la reconnaissance de syllabes, chiffres et lettres isolés. Ce n'est qu'aux alentours de 1960 que les premières tentatives d'utilisation de méthodes numériques pour la reconnaissance de la parole ont vu le jour. A la fin des années 1960, Atal et Itakura ont formalisé le codage linéaire prédictif (LPC, Linear Prédictive Coding) [ATA 71], [ITA 70]. Alternativement aux approches analytiques précédentes, la reconnaissance de la parole "par l'exemple" a pris un nouvel essort avec l'introduction de l'alignement avec la programmation dynamique (DTW, Dynamic Time Warping), a été développé par Tom Martin [MAR 64] et Vintsyuk [VIN 68]. Il s'agit de comparer le signal de parole à des signaux de paroles préenregistrés pour des mots ou des phrases donnés. L'alignement avec échelle de temps nonuniforme. Différentes méthodes basées sur le concept de la programmation dynamique ont été développées à la fin des années 1960. Ces méthodes de reconnaissances donnent des précisions très élevées pour des vocabulaires de taille réduite (moins de 100 mots). Parmi ces méthodes, l'algorithme de décodage de Viterbi a constitué une grande avancée pour la reconnaissance de la parole [VIT 71]. Cet algorithme a trouvé son utilité dans diverses applications de reconnaissance de suites temporelles et est aujourd'hui au cœur de la plupart des systèmes de reconnaissance. Les premiers travaux concernant la modélisation du langage ont été développés dans les laboratoires d’IBM avec une machine à écrire basée sur la dictée vocale [JEL 75]. Le système de reconnaissance, appelée Tangora, est un système mono-utilisateur nécessitant un apprentissage de la voix à reconnaître. Ce système utilise un ensemble de règles syntaxiques qui permettent d'évaluer, a priori, la probabilité d'observer toute suite de mots. Plusieurs variantes de la modélisation de langage précédente ont été développées. La plus répandue de ces variantes est la structure appelée n-gram qui modélise la probabilité des suites de n mots.. 13.

(59) Chapitre 1-Reconnaissance Automatique de la Parole. La représentation des règles syntaxiques d'un langage par une structure n-gram est aujourd'hui la plus répandue des méthodes de modélisation linguistique dans les systèmes de reconnaissance de la parole. Au début des années 1980, les recherches des laboratoires AT&T se sont concentrés sur le développement de services téléphoniques basées sur des procédés automatiques et destinés au grand public. La difficulté majeure était le caractère mono-locuteur des systèmes de reconnaissance vocale. Les laboratoires AT&T se sont focalisés sur le développement de méthodes permettant aux systèmes de reconnaissances de gérer plusieurs locuteurs, accents régionaux et manières d'élocution. Les travaux des laboratoires AT&T ont conduit à plusieurs approches de classification et de regroupement pour des mots et des enregistrements de référence dans le cadre de la reconnaissance de parole "par l'exemple". Une seconde voie de recherche entreprise par AT&T a conduit à l'utilisation de modèles statistiques pour la représentation d'une grande variété de prononciations. [JUA 85], [JUA 86] Durant la décennie 1975-1985, les travaux entrepris par les laboratoires de AT&T et IBM ont contribué à des avancements considérables dans le domaine de la reconnaissance automatique de la parole. L'utilisation des modélisations statistiques pour représenter les règles syntaxiques de la langue ainsi que pour modéliser la variabilité acoustique constitue un tournant pour la reconnaissance vocale. La modélisation statistique (du langage ou du signal acoustique) offre une plus grande robustesse pour la représentation des phénomènes considérés. En particulier, les chaînes de Markov sont un procédé doublement stochastique dans le sens où il permet de gérer la succession dans le temps de suites d'observations et donne également une estimation de la probabilité que ces observations correspondent à un modèle particulier (un mot ou un phonème). La formalisation des méthodes d'apprentissage des modèles de Markov a été établie par Léonard E. Baum et Lloyd R. Welch qui ont développé l'algorithme portant leurs noms (algorithme d'apprentissage Baum-Welch) [BAU 72]. Ces approches de modélisation stochastique sont aujourd'hui les plus utilisées dans le domaine de la reconnaissance vocale, et ce grâce aux améliorations continues dont elles ont bénéficié ces deux dernières décennies. Il est intéressant de noter que d'autres méthodes de classification ont été utilisées dans le domaine de la reconnaissance automatique de la parole. Dans les années 1940, les premiers travaux utilisant les réseaux de neurones pour la reconnaissance de la parole n'ont pas abouti à. 14.

(60) Chapitre 1-Reconnaissance Automatique de la Parole. des résultats concluant [MCC 43]. A la fin des années 1980, les réseaux de neurones artificiels ont été utilisés avec succès pour la reconnaissance de phonèmes et de mots isolés [LIP 90]. Toutefois, les réseaux de neurones classiques ne sont pas adaptés à la reconnaissance de la parole puisqu'ils ne permettent pas de gérer l'aspect temporel de la voix.. 1.4. Dates clés On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole [ALL 03] : •. 1952 : reconnaissance des 10 chiffres, par un dispositif électronique câblé, pour monolocuteur.. •. 1960 : utilisation des méthodes numériques.. •. 1965 : reconnaissance de phonèmes en parole continue.. •. 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu'à 500 mots).. •. 1969 : utilisation d'informations linguistiques.. •. 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables.. •. 1972 : premier appareil commercialisé de reconnaissance de mots.. •. 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM.. •. 1978 : commercialisation d'un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés.. •. 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration spécifiques du traitement de la parole.. •. 1981 : système de reconnaissance de mots sur un circuit VLSI.. •. 1983 : première mondiale de commande vocale à bord d'un avion de chasse en France.. •. 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots. •. 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel.. •. 1988 : apparition des premières machines à dicter par mots isolés.. 15.

(61) Chapitre 1-Reconnaissance Automatique de la Parole. •. 1989 : recrudescence des modèles connexionnistes neuromimétiques.. •. 1990 : premières véritables applications de dialogue oral homme/machine.. •. 1994 : IBM lance son premier système de reconnaissance vocale sur PC.. •. 1997 : lancement de la dictée vocale en continu par IBM.. 1.5. Traitement de la parole On entend par traitement de la parole, le traitement de l’information contenue dans le signal vocal. L’analyse représente une opération de paramétrisation de la parole. Elle consiste à minimiser l’information nécessaire à la distinction des éléments constitutifs du vocabulaire considérer dans un système de synthèse ou de reconnaissance de la parole. Elle permet ainsi d’estimer les paramètres du modèle de production. Il existe différentes techniques d’analyse vocale, chacune d’elle est basée sur une forme particulière du signal vocal. Elles peuvent être classées en deux grandes catégories : •. L’analyse temporelle.. •. L’analyse fréquentielle. 1.5.1. Méthodes temporelles Les méthodes de type temporel, permettent d’extraire des informations du signal issu directement du microphone. Parmi les techniques utilisées pour l’aspect temporel du signal vocal afin de déduire ces paramètres, nous distinguons les méthodes suivantes : [CAL 89] •. Analyse par prédiction linéaire (LPC).. •. Analyse par passage par zéros du signal.. •. Analyse par la fonction d’autocorrélation.. 1.5.2. Méthodes fréquentielles Il est intéressant d’étudier le signal vocal dans le domaine fréquentiel car l’étude dans ce domaine permet de détecter les différentes zones formantiques des phonèmes qui sont difficiles à observer dans le domaine temporel. Parmi les différentes techniques d’analyse fréquentielle on peut citer: [BOI 87]. 16.

(62) Chapitre 1-Reconnaissance Automatique de la Parole. •. Traitement par banc de filtres.. •. Analyse par transformée de fourrier court terme.. •. Analyse cepstrale.. 1.6. Architecture d’un système de reconnaissance automatique de la parole Un système de RAP est construit en deux phases : - L’Apprentissage - Le Test Modèle acoustique Numérisation. Analyse Acoustique. Apprentissage Modèle de langage et lexicaux. Figure 1.1. Phase d’apprentissage. 1.6.1. La Numérisation Pour être utilisable par un ordinateur, un signal doit tout d'abord être numérisé. Cette opération tend à transformer un phénomène temporel analogique. La numérisation sonore repose sur deux paramètres : la quantification et la fréquence d'échantillonnage. La quantification définit le nombre de bits sur lesquels on veut réaliser la numérisation. Elle permet de mesurer l'amplitude de l'onde sonore à chaque pas de L'échantillonnage. De plus, cette quantification peut suivre une échelle linéaire ou logarithmique, cette dernière privilégiant la résolution de la quantification pour les niveaux faibles au détriment des niveaux forts. Le choix de la fréquence d'échantillonnage est aussi déterminant pour la définition de la bande passante représentée dans le signal numérisé. Le théorème de Shannon nous indique que la fréquence maximale fmax présente dans un signal échantillonné à une fréquence fe est égale à. 17.

(63) Chapitre 1-Reconnaissance Automatique de la Parole. la moitié de fe. Un signal échantillonné à 16000 Hertz contient donc une bande de fréquences allant de 0 à 8000 Hertz.. 1.6.2. L’analyse Acoustique Ce module permet d’extraire les paramètres pertinents pour la reconnaissance de la parole. Cette extraction d’indices du signal de parole (signal électrique issu du microphone) a pour objectif de minimiser l’information du signal vocal en quantité et en redondance tout en augmentant la discrimination nécessaire à la séparation des éléments du vocabulaire. En sortie, le signal est représenté par un ensemble de vecteurs coefficients. Ainsi, à partir d'un signal numérisé, nous devons extraire un nombre limité de paramètres décrivant le signal, et qui conviennent au traitement automatique de la parole. Ces paramètres peuvent être : • Coefficients de prédiction linéaire (LPC) (de 8 à 14 coefficients suivant l’ordre du modèle) • Energies dans différentes bandes de fréquence (de 8 à 32 canaux allant de 100 à 7000 Hz) • Coefficients cepstraux obtenus à partir d’une distribution spectrale de l’énergie sur une échelle Mel, les MFCCs Mel Frequency Cepstral Coefficients (de 6 à 12 coefficients), ces coefficients procurent de bonnes performance dans des conditions propres mais pas dans des conditions de bruits.. 1.6.3. L’apprentissage Dans cette étape, il est nécessaire de faire l’entrainement à partir de la base de données enregistré en procédant au préalable à la réalisation de : • Modèles acoustiques, qui sont des modèles statistiques (selon le modèle choisi: HMM, RNA, DTW, etc. exemple des HMMs de Phonèmes ou mots). Ces modèles sont entraînées à partir d'une grande quantité de données de parole (par exemple, enregistrement de nombreuses phrases) contenant plusieurs fois les différentes unités de parole dans plusieurs contextes phonétiques différentes. Les techniques stochastiques sont actuellement les plus utilisées pour la modélisation acoustique de la parole. En effet, ce sont celles qui ont permis d'obtenir les meilleurs. 18.

(64) Chapitre 1-Reconnaissance Automatique de la Parole. résultats en reconnaissance de mots isolés, mots enchaînés et parole continue dans des conditions de laboratoire ou en environnement non bruité. En revanche, dans des conditions réelles de traitement de la parole (milieu bruité, parole spontanée, prononciations diverses et variées ...), les performances obtenues par ces techniques sont fortement dégradées. •. Modèles lexicaux, qui sont des modèles des mots de la langue. Les modèles les plus simples sont fournis par un dictionnaire phonétique; les plus complexes sont des véritables automates probabilistes, capables d'associer une probabilité à chaque prononciation possible d'un mot. Ces modèles possèdent toutes les prononciations possibles de chaque mot du dictionnaire.. •. Un modèle de langage, qui associe une probabilité à toute suite de mots présents dans le lexique. Ce modèle est entraîné sur une base de texte.. 1.6.4. La Reconnaissance Dans cette phase l’objectif est de décoder le signal de test et de déterminer les unités lexicales prononcées, mots, phrase ou autres correspondant le mieux à la phrase prononcée parmi toutes les phrases possibles, de ce fait elle devra faire appel au modèle acoustique et de langage et des modèles lexicaux afin de prendre une décision. Par exemple dans le cas de la modélisation avec les HMMs, la reconnaissance se fait en faisant appel à l’algorithme de Viterbi qui donne pendant la phase de reconnaissance le chemin le plus probable des états et donc les classes sonores à chaque instant. Modèle de langage et Lexicaux. Numérisation. Analyse Acoustique. Modèle acoustique. Reconnaissance Séquence de mots reconnus. Figure 1.2. Phase de Test. Ainsi la méthode d’estimation des performances de reconnaissance consiste à comparer la phrase reconnue à la phrase de référence sachant que :. 19.

Références

Documents relatifs

I L’´ etape suivante consiste ` a mettre ces mots dans une matrice carr´ ee de taille m × m, dans l’ordre dans lequel on les a trouv´ es, en effectuant ce qu’on appellera

Pour cela les signaux EEG sont filtr´es dans une bande de fr´equence de 2 Hz autour de chaque fr´equence consid´er´ee, et un mod`ele inverse est utilis´e pour calculer

Ainsi, ces observations montrent un avantage de l’extraction de caract´eristiques bas´ee sur les mod`eles inverses, et donc un avantage de FuRIA : les caract´eristiques extraites

[r]

Pour calculer la matrice de confusion → nous avons besoin d’avoir un ensemble de prédictions afin de les comparer aux labels actuels. On peut faire les prédictions sur le test_set

• biais important: hommes petits et femmes grandes (erreur d'approximation). • variance faible: seuil de taille

• biais important: hommes petits et femmes grandes (erreur d'approximation). • variance faible: seuil de taille

Paradoxalement, ce type de démarche pédagogique n’enlève rien à l’autorité de l’enseignant, c’est plutôt même exigeant envers les apprenants, tout le