Modèles de langage structurés - Autres modèles de langage

2.4 Modélisation statistique du langage

2.4.7 Autres modèles de langage

2.4.7.7 Modèles de langage structurés

Les modèles de langage structurés [CJ00, Cha01] sont basés sur des grammaires lexicali-sées. Dans ce type de grammaire, un mot joue le rôle de tête, pour chaque constituant détecté.

L’exemple illustré par la figure 2.4 donne l’arbre de la dérivation partielle de la phrase

« des enfants construisent un bonhomme de neige dans le jardin pendant que la radio passe ta chanson préférée ».

GN jardin NN jardin VP construisent pendant P DT le dans P dans GP GN bonhomme GP de P de NN neige NN bonhomme GN bonhomme DT un GN bonhomme GV construisent NNS enfants GN enfants DTS des constituant 1 constituant 2

FIG. 2.4 – Arbre de dérivation partielle, pour la phrase « des enfants construisent un bonhomme

de neige dans le jardin pendant que la radio passe ta chanson préférée ».

Dans cette dérivation, les mots associés aux feuilles sont accompagnés de leur étiquette

POS et les nœuds sont annotés avec la tête et le type (groupe nominal, groupe verbal. . .) du

constituant auquel ils sont associés. Par exemple, pour le premier constituant, des est un déter-minant pluriel, enfants est un nom pluriel et la tête de ce constituant est enfants, ce constituant étant un groupe nominal (noté GN dans le type associé à la tête enfants).

Le mot pendant est alors prédit à partir des têtes des deux constituants qui le précèdent, c’est-à-dire enfants et construisent, et non à partir des mots le et jardin, comme ce serait le cas si un modèle trigramme était utilisé.

Le calcul des probabilités, dans ce type de modèle, est ainsi conditionné par les têtes des constituants. La probabilitéP(w_i|Φ(h_i))est ainsi donnée par

P_MLS(wi|w₁ⁱ⁻¹) = P d∈wi 1 P(wi, h₋₁_,d, h₀_,d)×P(d) P d∈wⁱ−1 1 P(d) ^(2.60)

avecdla dérivation associée àw₁ⁱ eth₋₁_,deth₀_,dles têtes des deux derniers constituants de la dérivationd.

Les modèles de langages structurés permettent de prendre en compte des dépendances à longue distance. Néanmoins, ces modèles de langage sont aujourd’hui encore trop coûteux en termes de temps de calcul pour qu’ils puissent être utilisés de manière efficace dans un système de reconnaissance.

2.5 Bilan

Nous avons présenté quelques unes des techniques principales de modélisation du lan-gage parmi les nombreuses techniques existantes. Cependant, comparativement aux modèles

n-grammes qui sont les modèles de langage standards de la littérature, la plupart des autres techniques ne permettent d’obtenir que peu d’amélioration des performances. De plus, cette relative amélioration s’accompagne généralement d’une augmentation considérable de la com-plexité du modèle de langage ou encore du temps de calcul nécessaire pour son utilisation.

Dans notre système de reconnaissance d’écriture manuscrite, pour l’informatique nomade, nous souhaitons utiliser des modèles de langage peu coûteux aussi bien en termes de temps de calcul qu’au niveau de leur complexité (qui peut s’exprimer par leur nombre de paramètres, notamment). C’est pourquoi, dans le cadre de cette thèse, nous avons choisi de nous focaliser sur les modèlesn-grammes ainsi que sur les modèlesn-classes, ceux-ci permettant d’obtenir un compromis intéressant entre les performances obtenues et la taille du modèle de langage.

Dans la suite, nous étudierons la manière de coupler ces modèles de langage le plus ef-ficacement possible avec le système de reconnaissance, en considérant également des com-binaisons de ces modèles de langage afin de tirer partie de leurs spécificités, tout en tenant compte de l’intégration la plus pertinente avec le système de reconnaissance. Nous les utilise-rons également en association avec d’autres informations, dans le cadre de premiers travaux sur la vérification de la validité des résultats de reconnaissance et la correction éventuelle de ceux-ci, en se basant sur une nouvelle représentation des hypothèses de reconnaissance, sous la forme de réseaux de confusion.

Utilisation de graphes de mots pour la

reconnaissance de phrases

Dans cette partie, nous nous intéressons au développement d’un système de reconnaissance de phrases manuscrites. Cette reconnaissance se décompose en deux étapes : la segmentation de la phrase en mots puis la reconnaissance, à partir des segmentations proposées et en utilisant des connaissances linguistiques pour prendre en compte le contexte de la phrase. Ces connaissances linguistiques sont représentées par des modèles de langage.

Pour pouvoir, d’une part, représenter l’ensemble des segmentations possibles et, d’autre part, exploiter au mieux ces différentes alternatives, nous utilisons des graphes de mots [ONA97]. Ces graphes permettent de représenter, de façon compacte, les différentes hypothèses de seg-mentation qui correspondent également aux différentes hypothèses de mots. La reconnaissance de phrase consistera alors à trouver le meilleur chemin, dans ce graphe (chacun des chemins correspond à une phrase possible). Cette approche est appelée Maximum A Posteriori (MAP) car elle cherche à maximiser la probabilité de la phrase résultat.

Pour pouvoir exploiter au mieux cette représentation, il faut veiller à ce que le graphe conserve une taille raisonnable. En effet, des graphes de mots de trop grande taille occuperont une place trop importante en mémoire et, de plus, leur exploitation sera également plus coû-teuse en terme de temps de calcul. Nous nous attacherons à prendre en compte la combinatoire liée à la taille des graphes de mots, dans les approches que nous proposerons.

Cette partie est composée de deux chapitres.

Nous présentons tout d’abord notre approche de segmentation des phrases en mots, dans le chapitre 3. Elle se base sur la caractérisation des espaces entre les différentes parties du tracé manuscrit. Pour pouvoir permettre la proposition d’hypothèses de segmentation alternatives, nous ajoutons également un indice de confiance sur le résultat de la caractérisation des espaces. Nous proposons alors d’étendre l’approche précédente, en utilisant cet indice de confiance pour ajouter des hypothèses supplémentaires de segmentation, dans le graphe de mots généré. Cet ajout est réalisé en prenant en compte la combinatoire liée à la taille du graphe.

Dans le chapitre 4, nous présentons l’intégration de modèles de langage, dans le cadre d’une reconnaissance basée sur l’approche Maximum A Posteriori (MAP). Pour cela, nous utilisons des connaissances sur la forme graphique des mots, ainsi que des informations lexicales et syntaxiques. Nous détaillons deux approches permettant d’intégrer, de manière efficace, des modèles de langage, pour apporter des informations syntaxiques lors de la reconnaissance de phrases. La première approche proposée intègre les modèles de langage directement lors de l’exploration du graphe de mots, en prenant en compte son importance vis-à-vis des autres informations utilisées (graphiques et lexicales) et en considérant les éventuels problèmes de

segmentation. Dans la deuxième approche proposée, des modèles de langage sont combinés et utilisés à la fois pendant l’exploration du graphe de mots et pour réordonner les hypothèses de phrases produites par cette exploration. Cela permet de tirer partie des spécificités des différents modèles (plus grande précision de la modélisation, connaissances différentes modélisées, par exemple). Nous étudions enfin l’intégration de différents modèles de langage, pour chacune des deux approches d’intégration, afin de trouver le meilleur tant au point de vue des performances obtenues que de la place mémoire occupée.

Extraction automatique des mots

3.1 Introduction

La reconnaissance de phrases manuscrites se déroule généralement en deux étapes. La première étape consiste en l’extraction de ses mots (ou segmentation de la phrase en ses mots) de manière automatique : celle-ci peut être effectuée implicitement ou explicitement.

L’objectif de l’extraction explicite des mots, proposée dans ce chapitre, est d’extraire les mots manuscrits, du signal correspondant à la phrase manuscrite à reconnaître. Nous souhaitons également proposer plusieurs hypothèses de segmentation de la phrase, pour s’assurer de la présence de la bonne segmentation. Cet ajout devra se faire en contrôlant la combinatoire liée au nombre d’hypothèses de segmentation. De plus, notre stratégie d’extraction de mots est définie de manière à pouvoir être facilement étendue pour une utilisation « à la volée ».

La figure 3.1 illustre ces deux étapes. Le graphe de mots permet de représenter les diffé-rentes hypothèses de segmentation proposées.

signal

en−ligne des mots

Extraction graphe de mots extraction simple des mots génération d’hypothèses de mots additionnelles

FIG. 3.1 – Principe de l’extraction de mots proposée.

Les travaux, présentés dans ce chapitre, ont été réalisés en collaboration avec François Bouteruche, de l’équipe IMADOC [QBA07].

Dans ce chapitre, nous présentons notre méthode d’extraction explicite des mots. Dans la section 3.2, nous détaillons son principe, qui se base sur la caractérisation des espaces inter-traces. Nous présentons ensuite la construction du graphe de mots permettant de représenter

les différentes hypothèses de mots ainsi extraites. Dans la section 3.3, nous étendons notre méthode pour pouvoir traiter d’éventuelles sur- et sous-segmentations, en remettant en cause la classification de certains espaces inter-traces, tout en contrôlant la complexité du graphe de mots. Enfin, dans la section 3.4, nous présentons les résultats des expérimentations menées.

Dans le document Intégration de connaissances linguistiques pour la reconnaissance de textes manuscrits en-ligne (Page 61-69)