• Aucun résultat trouvé

Reconnaissance automatique de la parole

1. La reconnaissance de la parole

1. 1. Introduction à la RAP

La reconnaissance automatique de la parole (RAP) est le processus par lequel la machine tente de « décoder » le signal de la parole qui lui est destiné. Les recherches relatives à la RAP débutèrent dans les années 1950, dans une conjoncture optimiste, car on pensait que les avancées technologiques des ordinateurs rendraient la RAP une tâche aisée. Quelques dizaines d’années plus tard, on se rendait compte que c’était faux, et que la RAP, demeure un problème difficile. Aujourd’hui encore nombre de questions restent posées, les difficultés majeures étant associées à la taille du vocabulaire à reconnaître, la reconnaissance de la parole spontanée, à la reconnaissance indépendamment du locuteur, la parole bruitée, …

La reconnaissance automatique de la parole est très souvent basée sur une représentation paramétrique du signal, son but étant la communication en langue naturel avec une machine. Il s’agit là de deux objectifs différents que l’on peut assigner à un système : la reconnaissance conduisant à une application du type dictée vocale, et la compréhension, qui consiste à accéder à la signification de l’énoncé parlé.

1. 2. Concepts de base

La démarche classique suivie lors du processus de reconnaissance automatique de la parole est illustré par la figure II.1, ce schéma fait ressortir les étapes principales dans un tel processus. Extraction de caractéristiques Comparaison Décision Pré- traitement Capteur Post- traitement Formes de références Mot (s) reconnu(s) Figure II.1. Organigramme d’un système de R.A.P

Ainsi, étant donné un signal en entrée du système, celui-ci va subir un pré- traitement qui consiste généralement en un filtrage et un échantillonnage qui permet de passer d’un signal continu à des valeurs discrètes, de ces valeurs dont le nombre est important seront extraites des caractéristiques qui permettent de représenter de façon compacte et pertinente le signal originel. Cette étape permet d’avoir une première représentation du signal, ensuite et selon l’approche adoptée par le système de reconnaissance, ce modèle représentatif du signal sera comparé à des formes d’autres signaux que le système « connaît ». Sur la base du résultat de cette comparaison une décision quant au mot reconnu sera prise, celle-ci sera éventuellement validée en considérant les connaissances du domaine.

1. 3. Quelques systèmes de RAP

Les programmes de reconnaissances de la parole ont été développés principalement aux Etats-Unis dans le cadre du projet ARPA. Quatre programmes principaux sont opérationnels : Il s’agit de HARPY et HEARSAY II de CMU qui sont des programmes de reconnaissance de la parole continue, le système de BBN (Bolt, Berenek and Newman) comprend un analyseur phonétique basé sur un treillis phonétique, l’analyse syntaxique étant réalisé grâce aux ATN, et le système SDC (systems development corporation) où l’analyseur est basé sur le treillis probabilisé des syllabes.

D’autres systèmes sont apparus par la suite, en particulier : Tangora qui est un système multi-locuteurs développé par IBM. Il fonctionne en temps réel suivant une approche globale en utilisant les modèles de Markov cachés (HMM). Le logiciel DragonNaturally Speaking est un produit compétitif sur le marché, il utilise aussi une approche globale par les HMMs.

1. 4. Reconnaissance de la parole arabe

1. 4. 1. Problèmes rencontrés en reconnaissance de l’Arabe

De nombreux aspects de l’Arabe tels que la phonologie ou la syntaxe ne posent pas de problèmes particuliers en reconnaissance automatique de la parole [Kirshhoff, 02]. Les techniques standards de la modélisation acoustique et de la prononciation

indépendamment du langage peuvent tout à fait être appliquées pour la modélisation acoustique et phonétique de l’Arabe. D’autres aspects pour l’apprentissage du système de reconnaissance sont mêmes plus faciles que pour d’autres langages, en particulier la construction du lexique car il y’a une quasi correspondance un-à-un entre lettre et phonème.

Les difficultés majeures rencontrées lors de développement de systèmes performants de reconnaissance pour l’Arabe sont la prédominance de textes non voyellés, d’énormes variétés dialectales, et une complexité morphologique.

En particulier, la complexité de la morphologie de l’Arabe est bien connue pour présenter d’énormes problèmes lors de la modélisation linguistique, ceci en raison d’un nombre élevé de préfixes et de suffixes que l’on peut greffer à une racine ce qui conduit à une explosion des formes que l’on peut associer à un mot [Mrayati, 84].

1. 4. 2. Travaux antérieurs

Les travaux en RAP de l’Arabe se sont exclusivement intéressés à la reconnaissance de l’Arabe standard (MSA). On soulignera en particulier les travaux de El-Ani [El Ani, 70], qui portent sur des investigations acoustiques et structurelles des sons arabes, et ceux de Mrayati [Mrayati, 84] qui eux se penchent plus sur l’aspect syntaxique. On trouve aussi les travaux de M. Djoudi [Djoudi, 91], qui ont permis la réalisation du système de reconnaissance MARS réalisé à l'Université de Poitiers. Il s'agit d'une reconnaissance multilocuteur. Le système se compose de deux parties, un décodeur acoustico-phonétique (SAPHA) et un décodeur linguistique (SALAM), ce dernier traite les aspects morphologiques, syntaxico-sémantique et la prosodie propre à la langue arabe.

De nombreux autres travaux de moindre ampleur se penchent sur des aspects précis de la parole mais leur nombre qui augmente permettra certainement d’enrichir la littérature dans ce cadre de reconnaissance et aidera à la construction de systèmes de plus en plus robustes et performants.