• Aucun résultat trouvé

Le but d'un système de reconnaissance automatique de la parole est de fournir la transcription textuelle d'un signal audio d'entrée contenant de la parole. Dans le cadre de la modélisation statistique de la parole, cette tâche équivaut à rechercher parmi l'ensemble des séquences de mots possibles à partir d'un vocabulaire xé la séquence la plus probableW étant donnée une séquence Y de caractéristiques acoustiques observées à partir du signal d'entrée. Mathématiquement, cela s'écrit sous la forme de la maximisation a posteriori suivante :

W= arg max

W P[W|Y]. (1.1)

FIGURE1.1 Vue schématique d'un système de reconnaissance automatique de la parole.

où W parcourt l'ensemble des séquences de mots possibles à partir du vocabulaire du système. Par application de la règle de Bayes, cette formule est décomposée en :

W= arg max

W

p(Y|W)×P[W]

p(Y) (1.2)

où p(Y|W) est la vraisemblance des observations acoustiques sachant une séquence de mots testée, P[W] est la probabilité a priori de cette séquence de mots et p(Y) est la vraisemblance a priori de la réalisation acoustique. Puisque la vraisemblance p(Y) est la même quelque soit la séquenceW, la recherche deW peut se simplier en :

W= arg max

W p(Y|W)×P[W]. (1.3)

En pratique, la formule (1.3) subit quelques aménagements. D'une part, les scores p(Y|W) et P[W] ne sont pas du même ordre de grandeur car ils ne sont pas calculés sur le même type de données. Par conséquent, un facteur d'échelle ψ est introduit pour pondérer les probabilités linguistiques P[W]. D'autre part, il s'avère nécessaire d'ajouter un terme permettant de jouer sur la longueur des séquences de mots souhaitée en sortie. Ce coecient, notéI, est appelé pénalité d'insertion. La recherche de la séquence optimaleW s'appuie alors sur le calcul d'un score global pour chaque hypothèse de transcription W, soit :

W = arg max

W p(Y|W)×P[W]ψ×I|W|

| {z } score(W)

, (1.4)

où |W|est le nombre de mots de la séquence W.

Cette dernière formule met en évidence diérents composants (gure1.1) : un module de caractérisation du signal permet de transformer le signal audio en une séquence Y de

Principes généraux

Orthographe→ Prononciation clans→ k l a

clans→ k l a z clef→ k l e

clé→ k l e être→ E t R @ être→ E t R être→ E t

TABLE1.1 Aperçu du contenu du vocabulaire.

vecteurs numériques ; un modèle acoustique calcule la vraisemblance p(Y|W); un modèle de langue se charge de la probabilité P[W], alors que le lien entre les représentations sur lesquelles se fondent ces deux derniers modèles se fait par l'entremise d'un lexique phonétisé qui associe à chaque mot du vocabulaire une ou plusieurs prononciations possibles. Nous décrivons brièvement chacun de ces quatre composants.

1.1.1 Caractérisation du signal

La représentation adoptée d'un signal de parole consiste en une séquence de vecteurs nu-mériquesY =y1...yT où chaque vecteuryi représente quelques millisecondes (typiquement 10ms) du signal d'entrée. De ces tranches de signal, appelées trames, des caractéris-tiques relatives à l'énergie et aux gammes de fréquences vocales sont extraites. En incluant les variations du premier, voire du second ordre, de ces paramètres, les vecteurs de carac-téristiques sont typiquement de dimension 40.

1.1.2 Vocabulaire et lexique phonétisé

Le vocabulaire dénit l'ensemble des mots qu'est capable de manipuler le système de reconnaissance. En cela, cet ensemble est un élément déterminant car il restreint les sorties du système aux seuls mots qu'il contient. Typiquement, dans un système dit à grand voca-bulaire , le vocavoca-bulaire répertorie plusieurs dizaines de milliers de mots. En pratique, pour faire le lien entre modélisations acoustique et linguistique, ce vocabulaire est transformé en un lexique phonétisé (ou dictionnaire de prononciation, ou dictionnaire phonétique) où chaque mot est associé à une liste de prononciations possibles. Ces prononciations sont représentées sous la forme de séquences de phonèmes, unités représentant les sons élémen-taires d'une langue et utilisant un alphabet propre.

La table1.1donne un aperçu du contenu potentiel d'un lexique phonétisé. Cet exemple nous ore l'occasion de quelques précisions. Tout d'abord, les mots du vocabulaire ne sont symbolisés que par une chaîne graphique représentant leur orthographe, c'est-à-dire qu'aucune information sémantique ne leur est attachée. Ainsi, du point de vue du système de reconnaissance, deux mots seront acoustiquement et linguistiquement modélisés de la même manière s'ils partagent la même orthographe, quand bien même cette orthographe puisse confondre diérentes acceptions. Par exemple, le motêtrepeut référer à l'auxiliaire tout comme au nom commun. À l'inverse, les mots clé et clef seront considérés comme deux mots distincts. Ces problèmes peuvent être levés au moment de la construction du vocabulaire ou par l'adoption de modèles de langues particuliers comme nous le verrons au

FIGURE1.2 Représentation du lexique phonétisé sous la forme d'un arbre lexical. Cerclés de gras, les n÷uds correspondant à la n de transcription phonétique d'un mot.

chapitre 2. Ensuite, au sein du lexique phonétisé, les variantes de prononciation d'un mot peuvent permettre de modéliser les prononciations résultant d'éventuelles liaisons avec les mots qui pourraient les précéder ou leur succéder. Comme la multiplication des variantes de prononciation dans un lexique tend toutefois à ajouter de l'ambiguïté lors du processus de transcription (Rosenfeld, 1995), certains systèmes proposent de contextualiser certaines d'entre elles. Par exemple, il est possible de préciser que la variante de prononciation clans → k l a z , où le s nal est prononcé, n'est valable que dans un contexte où clans est suivi d'un mot commençant par une voyelle. Outre cette contextualisation, il est également possible d'attacher à chaque variante de prononciation une probabilité de telle sorte que la somme de toutes les variantes d'un même mot vale 1. Lorsque ramenée à l'échelle d'une séquence de mot, cette probabilité de prononciation s'intègre alors comme un nouveau terme dans l'équation (1.4). Enn, pour des raison d'ecacité algorithmique, un lexique phonétisé est communément compilé sous la forme d'un arbre lexical dont un exemple est donné par la gure 1.2. À l'exception de la racine, chaque n÷ud de cet arbre représente un phonème et les arcs entre ces n÷uds correspondent aux transitions entre phonèmes répertoriées dans le lexique phonétisé. En outre, les feuilles et certains autres n÷uds de cet arbre correspondent à des ns de prononciations de certains mots. À chacun de ces n÷uds est associée la liste des mots qui reconnaissent la séquence de phonèmes parcourue à partir de la racine comme une de leurs transcriptions phonétiques. Cette représentation est notamment utile pour le décodage acoustique du signal.

1.1.3 Modèle acoustique

D'après l'équation (1.3), le rôle du modèle acoustique est de calculer la vraisemblance p(Y|W) du signal représenté par la séquence d'observations Y sachant une séquence de mots W. En pratique, ce calcul s'eectue via plusieurs décompositions s'appuyant sur un même formalisme, celui des modèles de Markov cachés. Cette décomposition est illustrée sur un exemple en gure 1.3.

À un premier niveau, la séquence de mots W se décompose en plusieurs séquences de phonèmes, concaténations des prononciations possibles de chacun de ses mots. Ces séquences sont représentées sous la forme d'un modèle de Markov caché où chaque état désigne la réalisation éventuelle d'un phonème et où les probabilités d'émission sont des fonctions de vraisemblance d'un phonème sachant le signal observé à un instant donné.

À un niveau plus n, chaque phonème est généralement modélisé par un modèle de Markov caché à trois états qui modélisent respectivement le début, le milieu et la n du

Principes généraux

FIGURE1.3Représentation d'une séquence de motsW sous la forme de modèles de Markov cachés pour le calcul de la vraisemblance p(Y|W)du signal de parole Y.

phonème. Les probabilités d'émission de chacun de ces états sont généralement données par des mélanges de gaussiennes appartenant au même espace que les vecteurs acoustiques de Y.

La topologie de ces modèles étant xée à l'avance, l'ensemble de ces probabilités d'émis-sion et de transition ainsi que l'ensemble des gaussiennes peuvent être estimés à partir d'un corpus oral aligné avec sa transcription phonétique. Pour plus de détails sur la modélisation acoustique, le lecteur est invité à se référer à (Rabiner, 1989).

1.1.4 Modèle de langue

Le modèle de langue permet de calculer la probabilité a priori de séquences de mots.

Dans le cadre qui nous intéresse des modèles de langue statistiques, cette probabilité est décomposée en probabilités conditionnelles, où la probabilité de chaque mot wi de W est calculée sachant l'historique des mots w1...wi−1 supposés le précéder. Ceci s'exprime comme :

P[w1, w2, ...wN] =P[w1

N

Y

i=2

P[wi|w1...wi−1]. (1.5) Typiquement, chacune de ces probabilités conditionnelles est estimée à partir d'un vaste corpus textuel d'apprentissage. Cependant, de manière évidente, cette estimation devient vite impossible ou beaucoup trop peu able lorsque le nombre de mots dans l'historique commence à être trop grand. Pour pallier ce problème, la stratégie la plus répandue consiste

à poser comme hypothèse que la prédiction d'un mot se fait indépendemment des mots qui lui sont les plus en amont dans la séquence considérée et à ainsi tronquer à gauche tout historique de manière à n'en conserver que les quelques mots les plus récents. La probabilité d'un mot wi sachant ceux qui le précèdent s'approxime alors de la manière suivante :

P[wi|w1, ...wi−1]≈P[wi|wi−n+1...wi−1)], (1.6) oùnest noté comme étant l'ordre du modèle et vaut typiquement entre 2 et 5. Les séquences de nmots wi−n+1...wi sont appelées n-grammes et, par extension, on parle de probabilités n-grammes et de modèles de langue n-grammes. Plus communément, pour les cas où n vaut 1, 2, 3 ou 4, on emploie respectivement les termes unigramme, bigramme, trigramme et quadrigramme. Bien que, comme nous le verrons au chapitre 2, d'autres modélisations linguistiques soient possibles, les modèles n-grammes sont les plus répandus au sein des systèmes de reconnaissance automatique de la parole actuels.

Maintenant que nous avons posé les bases théoriques de la reconnaissance automatique de la parole, nous pouvons aborder la manière dont ces principes sont concrêtement mis en place au sein d'un système.