• Aucun résultat trouvé

3.3 Adaptation du vocabulaire

3.3.1 Recherche de mots-candidats

La recherche de mots-candidats consiste à dresser une liste de mots actuellement absents du vocabulaire du système qui seraient susceptibles d'être prononcés dans un document à transcrire. En pratique, cette recherche consiste à sélectionner les mots jugés les plus pertinents pour la tâche considérée parmi l'ensemble des mots hors vocabulaire présents dans des données d'adaptation (section3.1).

Selon l'origine de ces ressources, cette sélection est d'ailleurs plus ou moins cruciale.

FIGURE3.2 Schéma de la recherche des mots à ajouter au vocabulaire.

Dans (Schwarm et al., 2004), les auteurs décident par exemple d'exclure tout texte prove-nant d'Internet pour l'adaptation d'un vocabulaire car ils estiment que la qualité ortho-graphique moyenne de ces textes conduirait à ajouter beaucoup de mots erronés dans le système. À l'inverse, le travail de (Kemp et Waibel, 1998), qui se base sur des articles de journaux électroniques à l'orthographe plus able, n'utilise aucun critère de sélection et inclut l'ensemble des mots hors vocabulaire rencontrés dans ces textes. Ni l'une ni l'autre de ces solutions n'est cependant réaliste : alors que la première position est relativement excessive, la seconde a l'inconvénient de sélectionner beaucoup trop de mots. Une solution intermédiaire consiste alors à recourir à un ou plusieurs critères de sélection pour ltrer l'ensemble des mots-candidats selon un schéma décrit par la gure 3.2. Nous en donnons ici une liste parmi la multitude de ceux relevés dans la littérature.

Critère phonétique. En considérant l'adaptation du vocabulaire d'un système comme la recherche de mots qui pourraient être prononcés, le critère de sélection le plus immédiat est de rechercher phonétiquement la présence éventuelle de certains mots-candidats dans le ou les documents à transcrire. En générant des phonétisations de chaque mot-candidat, (Geutner et al., 1998b ; Palmer et Ostendorf, 2005) proposent d'aligner chacune de ces phonétisations avec des séquences de phonèmes correspondant à des mots ou séquences de mots d'une transcription automatique. Remarquons que ce critère de sélection s'apparente alors à une tâche de détection de mots-clés (keyword spotting) (Cardillo et al., 2002) bien que, à notre connaissance, aucun travail de ce dernier domaine n'ait visé le problème de l'adaptation du vocabulaire d'un système de reconnaissance automatique de la parole.

Contexte linguistique. D'autres travaux se fondent sur le postulat selon lequel l'appari-tion de mots donnés dépend de celle d'autres mots ou séquences de mots déclencheurs . Cette contrainte s'exprime à deux niveaux : au niveau syntaxique puisqu'il existe des règles plus ou moins gées pour la construction des syntagmes d'une langue ; et au niveau paradig-matique puisque, dans un discours cohérent, le choix des mots fait par un locuteur dépend de multiples facteurs contextuels tels le thème abordé, le style oral ou encore l'époque facteurs qui permettent implicitement à l'humain de lever des ambiguïtés d'interprétation.

Dans (Oger et al., 2008), ne sont retenus que les mots-candidats qui apparaissent dans des séquences à trous que l'on retrouve dans une transcription automatique d'un docu-ment audio. Dans (Ohtsuki et al., 2005 ; Tam et Schultz, 2006), une technique d'analyse sémantique latente permet de calculer des vecteurs de concepts pour chaque mot-candidat.

Adaptation du vocabulaire

Un mot-candidat est alors conservé si son vecteur est susamment proche du vecteur de concepts moyen calculés à partir des mots d'une transcription automatique.

Critère fréquentiel. Le vocabulaire de départ d'un système de reconnaissance étant principalement construit d'après un critère de fréquence d'apparition, certains travaux reprennent directement ce principe en ne sélectionnant que les quelques mots-candidats les plus fréquents dans les données d'adaptation (Auzanne et al., 2000 ;Bertoldi et Fede-rico, 2001). Plus élégamment, dans (Allauzen et Gauvain, 2005b), les comptes des corpora d'adaptation et du corpus d'apprentissage sont interpolés avant de déterminer un nouveau vocabulaire complet. Cette interpolation se fait sous la contrainte que le vecteur interpolé doit être le plus proche possible du vecteur mesuré sur un corpus cible représentatif de la tâche à modéliser.

Critère morphologique. Pour des mots peu fréquents partageant une même racine mor-phologique, il n'est pas rare que seules certaines exions soient présentes dans un corpus.

Par exemple, rares sont les verbes dont toutes les formes conjuguées sont répertoriées dans le vocabulaire19. Diérents travaux proposent alors de sélectionner les mots-candidats dont une forme échie ou morphologiquement proche est présente dans une transcription auto-matique (Geutner et al., 1998a ;Arsoy et Saraçlar, 2009). Pour aller plus loin, (Martins et al., 2006) propose de générer automatiquement des variantes de verbes. Dans l'idéal, cette approche devrait être étendue à toutes les catégories et aux transformations mor-phologiques dérivationnelles (préxation, suxation. . .). Cependant, cette généralisation est une tâche complexe, qui plus est pour les langues comme le français qui présentent un grand nombre d'exceptions. Par ailleurs, on pourrait craindre de ce genre de techniques qu'il génère trop de mots erronés et que le nombre de mots à ajouter augmente trop vite.

Critère thématique. Dans l'ensemble, on note que peu de travaux prennent en compte des connaissances liées au thème d'un document. À notre connaissance, seul le travail présenté dans (Marin et al., 2009) cherche à évaluer l'importance thématique de mots-candidats par le calcul de multiples variantes du scores tf-idf , scores visant à évaluer le pouvoir discriminant d'un mot pour distinguer le texte auquel il appartient par rapport à un ensemble d'autres textes traitant de sujets diérents. Cette unique tentative s'avère toutefois sans succès pour sélectionner ecacement de nouvaux mots. Malgré tout, il nous semble que des eorts devraient être poursuivis dans cette voie, étant donné que, au sein d'un thème, l'emploi de mots techniques est relativement fréquent.

La sélection de mots hors vocabulaire à ajouter à un vocabulaire est une étape primor-diale dans l'adaptation d'un vocabulaire. En pratique, l'ecacité des diérentes techniques proposées pour ce problème dépend largement de la langue considérée, le taux de mots hors vocabulaire d'un vocabulaire initial atteignant facilement10 %pour des langues très exionnelles ou agglutinantes alors qu'il est plus généralement autour de 1 ou 2 % pour des langues proches du français. Dans ce dernier cas, les meilleures techniques d'adaptation arrivent généralement à diviser ce taux par deux. Dans le cadre d'un système de reconnais-sance automatique de la parole, le travail ne s'arrête cependant pas là. Il reste encore à

19Ce constat est encore plus agrant pour des langues agglutinantes ou fortement exionnelles, où le nombre de variantes d'une même racine est très grand.

intégrer au mieux les mots sélectionnés dans le modèle de langue an que leur présence se fasse ressentir en terme de gain sur le taux de reconnaissance.