• Aucun résultat trouvé

La représentation de la syntaxe des langues en dépendances découle de différentes théories syn- taxiques privilégiant la description de liens entre les mots d’une phrase plutôt que leur regrou- pement en syntagme. Néanmoins il n’existe pas une unique manière de représenter les dépen- dances. Une représentation standard, fréquemment employée et communément désignée par le terme d’arbre de dépendances admet des propriétés de base généralement partagées dans le do- maine de l’analyse en dépendances. Elle permet en particulier de prendre en compte la notion de non-projectivité qui nous intéresse notablement dans nos travaux car elle permet de décrire l’ensemble des phénomènes syntaxiques des langues.

Avec l’avènement de l’informatique sont arrivées des méthodes d’analyse en dépendances per- mettant de produire automatiquement de telles représentations en dépendances pour des phrases du langage naturel. Les méthodes basées sur les grammaires furent beaucoup étudiées dans le domaine de l’analyse syntaxique en constituants mais également pour l’analyse en dépendances. Les méthodes dites dirigées par les données sont plus récentes mais jouissent d’une popularité grandissante dans le domaine du traitement automatique de la langue. Ces méthodes ont chacune leurs inconvénients et leurs avantages et continuent d’être largement étudiées. Nous nous intéres- sons à chacune de ces méthodes dans le cadre de nos travaux, d’une part pour le développement de corpus en dépendances non-projectifs et d’autres part pour l’amélioration de la prédiction des dépendances non-projectives dans le cadre de l’analyse en dépendances.

En outre, nous avons vu qu’il existe des corpus en dépendances disponibles pour le français mais que ceux-ci ne prennent pas ou peu en compte les phénomènes discontinus de la langue fran- çaise par des dépendances non-projectives. Néanmoins, il existe des corpus en dépendances pour d’autres langues comportant des dépendances non-projectives en nombre suffisant pour s’attarder sur le cas de ces dépendances à travers les méthodes d’analyse en dépendances.

3

Les méthodes dirigées par les données dans

les processus d’analyse syntaxique

3.1

Introduction

L’analyse syntaxique, en tant que problème informatique à résoudre, consiste à annoter automa- tiquement et syntaxiquement les phrases des langues naturelles. De multiples travaux dans le domaine ont proposé des méthodes permettant de résoudre ce problème. Il est courant de voir ces méthodes catégorisées soit dans le champ des méthodes basées sur des règles soit dans le champ des méthodes dirigées par les données (bien que la combinaison des deux soit également possible). Les méthodes basées sur des règles utilisent des règles syntaxiques manuellement ou automatique-

ment créées, décrivant la syntaxe des langues, pour diriger les analyses. Les méthodes dirigées

par les données sont des méthodes qui exploitent les informations provenant d’ensemble de don- nées annotés (grammaticalement, syntaxiquement, etc) pour annoter de nouvelles données. En particulier, ces méthodes exploitent les outils provenant de l’apprentissage automatique supervisé pour effectuer certaines étapes des analyses syntaxiques. Alors, avec la production et la disponibi- lité grandissante de larges corpus annotés dans de multiples langues il est de plus en plus commode d’utiliser des méthodes dirigées par les données dans le domaine de l’analyse en dépendances car plus les données à exploiter sont importantes (en terme de taille) et variées (i.e. venant de sources différentes), plus les méthodes dirigées par les données permettent d’atteindre des performances intéressantes en terme de précision.

L’apprentissage automatique fait partie intégrante des méthodes dirigées par les données. Les outils d’apprentissage automatique sont généralement utilisés dans le contexte de l’apprentissage et de la prédiction d’étiquettes. Le terme d’étiquette englobe différents éléments. Dans le domaine du traitement automatique des langues, les étiquettes peuvent indiquer par exemple des noms de catégories (grammaticales, syntaxiques) ou des opérations à effectuer (e.g. ajout d’un arc dans un système par transition). Une prédiction juste de ces étiquettes est donc particulièrement im- portante dans le traitements de multiples tâches. Dans la première section de ce chapitre, nous présentons les notions générales de l’apprentissage automatique, puis nous révélons ensuite com- ment l’apprentissage automatique est intégré aux différents processus nécessaires à l’analyse en dépendances et à l’analyse syntaxique de manière générale.

Notons que les évaluations des méthodes d’analyse syntaxique ne se font plus seulement sur l’étape d’analyse uniquement. En effet, les analyses réalisées à partir de données correctement pré- annotées (i.e. dont la segmentation et l’étiquetage grammatical ont été certifiés par au moins un annotateur) ne présentent pas des scores correspondant à une évaluation dans une situation réelle (i.e. analyse à partir d’une phrase brute). Ainsi, les évaluations incluent maintenant couramment les performances des pré-traitements nécessaires dans l’évaluation de l’analyse. Ces différentes étapes de pré-traitement ont elles-mêmes été beaucoup étudiées et sont impliquées dans le déve- loppement de diverses méthodes dont une part significative de méthodes dirigées par les données. Nous présentons donc, dans la seconde section de ce chapitre, les différentes tâches faisant office d’étapes de pré-traitement à l’analyse en dépendances et les différentes manières de les aborder.

Dans la troisième section, nous revenons sur les différentes méthodes d’analyse en dépendances

majoritairement étudiées (voir la section 2.3 du chapitre 2) pour présenter la façon dont elles

sont modifiées ou combinées avec des méthodes dirigées par les données. Dans le domaine de l’analyse en dépendances et globalement dans le domaine de l’analyse syntaxique, les méthodes dirigées par les données ont d’une part été intégrées aux méthodes existantes basées sur les gram- maires et d’autre part ont donné naissance à des systèmes entièrement dirigés par les données. Nous observons donc, dans un premier temps, que les méthodes semi-dirigées par les données ont été largement étudiées à travers les grammaires probabilistes et sont également souvent as- sociées à des étapes de pré-traitement tel que le supertagging ou de post-traitement tel que le ré-ordonnancement des analyses. Puis, les méthodes intégralement dirigées par les données telles que l’analyse par satisfaction de contraintes et l’analyse par transition sont apparues plus récem- ment et ont pris une part importante dans le domaine de l’analyse en dépendances.