Méthodes dirigées par les données

3.3 Pré-traitements

3.4.2 Méthodes dirigées par les données

Les méthodes totalement dirigées par les données ont pris une grande importance parmi les travaux récents, en particulier dans le domaine de l’analyse en dépendances. Les formalismes d’analyse

présentés dans la section 2.3 du chapitre2 associés à des méthodes d’apprentissage automatique

permettent d’effectuer des analyses déterministes et efficaces. Les temps d’analyse sont réduits et les évaluations de ces analyseurs révèlent des scores très intéressants si des corpus correctement annotés et suffisamment grands sont disponibles pour l’entraînement.

Nous avons pu voir que le principe d’une analyse en dépendances par satisfaction de contraintes est de trouver l’arbre couvrant maximal d’un graphe pour une phrase donnée. La méthode d’analyse permettant de trouver cet arbre est donnée par l’algorithme Chu-Liu-Edmonds qui fait disparaître les cycles du graphe en sauvegardant uniquement les dépendances favorisant le score de l’arbre couvrant. Il est donc nécessaire de fournir un graphe pondéré en entrée de l’algorithme. La pre- mière étape de l’analyse en dépendances par satisfaction de contraintes est donc la construction d’un graphe connexe potentiellement complet dont chaque arc est valué par un poids représentant la probabilité que les mots formant les sommets de l’arc soient engagés dans une relation de dé- pendance (étiquetée ou non). Le poids d’un arc est calculé à partir du produit entre un vecteur de

traits f (wi,l,wj)pour une dépendance (i,l,j) et un vecteur de poids fixé. Le vecteur de traits décrit

les caractéristiques (il s’agit habituellement de traits binaires) de la dépendance tandis que le vecteur de poids définit l’importance de chacun des traits à partir de l’apprentissage sur un ensemble

de données correctement annotées. Dans les travaux de Mcdonald et al. (2005), le vecteur de

poids est appris grâce à une adaptation de l’algorithme MIRA (Margin Infused Relaxed Algorithm) (Crammer et Singer,2003) , une méthode de classification linéaire multi-classes incrémentale (i.e. le vecteur de poids est recalculé par l’algorithme après le traitement de chaque phrase/graphe de dépendances de l’ensemble d’apprentissage).

D’autre part, l’analyse par transition déterministe consiste à rechercher la séquence de transitions permettant de construire une structure de dépendances correcte pour une phrase donnée en optimisant localement la prédiction des transitions. C’est à dire que pour chaque nouvelle configuration le système doit être capable de prédire la transition la plus probable. Un tel système, utilisant les transitions du formalisme projectif d’origine, permet de construire une structure de

dépendances en 2n-1 étapes pour une phrase donnée de taille n (Nivre, 2010). Le déterminisme

du système résulte de l’emploi de méthodes de classification pour la prédiction des transitions. Pour chaque nouvelle configuration créée, une et une seule transition est prédite. À chaque couple configuration/transition doit donc pouvoir être associé un poids représentant la probabilité que la transition soit appliquée à la configuration courante (l’état courant de l’automate). Un poids est calculé à partir d’un vecteur de traits décrivant la configuration (comprenant des informations sur les mots traités, les dépendances déjà assignées, etc.). L’apprentissage des poids se fait alors généralement grâce à une méthode de classification et à partir d’ensembles de données (graphes de dépendances) préalablement traduits en séquences de transitions. Ainsi, pour chaque configuration, la transition la plus probable est prédite. À travers les multiples travaux sur l’analyse par transition, on constate que les classificateurs linéaires on été largement exploités. On trouve ainsi

des travaux utilisant par exemple les SVM (Kudo et Matsumoto, 2002; Yamada et Matsumoto,

2003;Nivre et al.,2006b), la méthode MaxEnt (Cheng et al.,2005b) ou la méthode Memory-based

learning (Nivre et al.,2004;Attardi,2006).

Les méthodes d’analyse par satisfaction de contraintes et par transitions sont déterministes de part leur objectif qui est de trouver une seule structure de dépendances de plus haut score pour une phrase donnée. Cependant, tout comme les analyses basées sur les grammaires, ces méthodes peuvent être employées pour produire la liste des structures de dépendances les plus probables pour la phrase. Cet axe de recherche a fait l’objet d’études récentes, en particulier à travers des travaux manipulant la recherche en faisceau (beam-search). La recherche en faisceau

est une optimisation de l’algorithme de parcours en profondeur dans un graphe, conservant un nombre prédéterminé de solutions. Ce nombre est désigné comme étant la largeur du faisceau. Les méthodes déterministes vues précédemment peuvent alors être vues comme des méthodes pour lesquelles une largeur de faisceau de 1 fut appliquée. La recherche en faisceau permet de réduire l’espace de recherche dans le graphe en éliminant les chemins les moins probables. Par conséquent, cette technique doit être combinée à une méthode permettant d’évaluer les scores de probabilités des chemins possibles dans le graphe. Les classificateurs sont encore une fois très appréciés pour

effectuer ce genre de tâche. Par exemple, Zhang et Clark (2008, 2011) intègrent la recherche en

faisceau combinée au Perceptron dans les méthodes d’analyse par satisfaction de contraintes et

par transition. En ce qui concerne le français,Urieli (2013) propose à travers l’outil Talisman une

chaîne de traitement complète pour l’analyse en dépendances du français incluant la recherche en faisceau à chaque étape : segmentation, étiquetage grammatical, analyse en dépendances.

3.5 Conclusion

Aujourd’hui, la disponibilité des corpus en dépendances et l’efficacité des techniques d’apprentissage automatique rendent de plus en plus intéressante l’utilisation de méthodes dirigées par les données dans les processus d’analyse syntaxique.

Notons tout d’abord l’importance qu’ont prises les méthodes dirigées par les données dans les étapes de pré-traitement tel que l’étiquetage grammatical. Du fait du nombre important de données annotées et de la faible complexité de la tâche (étiquetage d’une information simple), les méthodes dirigées par les données obtiennent des scores importants dans ce domaine et sont devenues omniprésentes.

Dans le domaine de l’analyse syntaxique, ces méthodes se sont intégrées, tout d’abord, aux mé- thodes existantes basées sur les grammaires. Les méthodes d’analyses basées sur les grammaires, étant inscrites dans une longue tradition linguistique, ont considérablement évolué avec l’inclu- sion de méthodes dirigées par les données. La première étape fut l’évolution des grammaires clas- siques en grammaires probabilistes. Puis, des étapes de pré-traitement (supertagging) et de post- traitement (ré-ordonnancement) ont émergé, renforçant la précision et la rapidité des méthodes d’analyse basées sur les grammaires.

Par ailleurs, l’analyse en dépendances est aujourd’hui fortement influencée par les méthodes entièrement dirigées par les données telles que l’analyse par satisfaction de contraintes et l’analyse par transition. L’attrait pour ces méthodes est du à leur rapidité d’analyse et leur précision.

Les méthodes dirigées par les données sont un fil conducteur dans le développement de nos travaux de thèse. Nous les exploitons tant pour l’analyse en dépendances basée sur les grammaires catégorielles de dépendances que pour l’analyse en dépendances par transition.

4 Les grammaires catégorielles de

dépendances (CDG)

Dans le document De l’étiquetage syntaxique pour les grammaires catégorielles de dépendances à l’analyse par transition dans le domaine de l’analyse en dépendances non-projective (Page 58-60)