Segmentation et étiquetage grammatical

3.3 Pré-traitements

3.3.1 Segmentation et étiquetage grammatical

La segmentation et l’étiquetage grammatical sont des tâches qui ne sont pas toujours prises en compte lors de l’évaluation d’une procédure d’analyse syntaxique mais qui sont généralement né- cessaires. Que ce soit lors de la construction de corpus ou pour l’évaluation de méthodes d’analyse, la segmentation des phrases et l’étiquetage grammatical des mots résultants sont des étapes im- portantes (il ne s’agit pas toujours d’étapes préliminaires car elles peuvent être combinées à l’analyse syntaxique mais en tant qu’étapes préliminaires à l’analyse elles apportent des informations pertinentes). Des méthodes automatiques sont fréquemment employées dans les processus d’annotation de corpus pour alléger le travail des annotateurs humains. En outre, ces méthodes sont aussi de plus en plus utilisées et intégrées dans les processus complets d’analyse syntaxique dans

le but d’évaluer les performances réelles des analyseurs et de fournir des mécanismes autonomes permettant d’effectuer des analyses à partir de phrases brutes.

Nous considérons ici la segmentation des phrases en mots comme la première étape nécessaire à l’analyse en dépendances. L’évaluation des méthodes d’analyse en dépendances s’effectuant à l’accoutumée sur des phrases pré-découpées et non sur des textes, nous ne tiendrons pas compte

d’une éventuelle étape de segmentation des textes en phrases. Nous employons ici le terme mot

pour toute forme de segmentation : les mots simples ou les expressions multi-mots (e.g. les mots

composés). La segmentation d’une phrase W consiste à trouver une segmentation W = w1...wnoù

les wi avec i ∈ [1,n] sont des mots et n le nombre de mots. En outre, les enjeux de la segmentation

sont différents selon le point de vue duquel on se place :

• un point de vue plutôt linguistique, qui met en avant le sens et donc privilégie le regroupement des mots simples en expressions multi-mots si, pour la phrase, le sens du tout est plus pertinent que le sens de chacun des mots séparément. Il s’agira par exemple de conser- ver en un seul segment de texte les noms d’institutions et d’entreprises tels que « Assemblée Nationale » ou « Mer morte » ;

• un point de vue plus informatique, qui privilégie l’efficacité en découpant la phrase en mots simples d’abord en ne se préoccupant pas de possibles regroupements quitte à effectuer ses réunions lors d’étapes ultérieures. En ce cas les exemples précédents seraient divisés chacun en deux mots distincts, respectivement de catégories grammaticales nom et adjectif ;

La segmentation de base, mécanique, peut-être effectuée à partir du découpage de la phrase en mots simples suivant les espaces, les ponctuations, les apostrophes mais tenant compte des cas particuliers (e.g. les mots tels que « aujourd’hui », les nombres comportant des virgules ou des espaces). L’aide d’un lexique peut-être intéressante pour capturer les expressions multi-mots tels que les expressions figées (e.g. « carte blanche ») ou les mots composés. Cependant, s’appliquer à segmenter correctement ces unités de sens peut rapidement introduire des ambiguïtés, des erreurs et induire un traitement hétérogène de ces cas particuliers. Les traitements statistiques sont alors utiles pour atténuer les ambiguïtés en s’appuyant sur le contexte de la phrase pour déterminer la probabilité d’un regroupement entre plusieurs mots simples. Des questions encore plus appro- fondies sur la segmentation peuvent mener, par exemple, à des travaux sur la reconnaissance des entités nommées. La tâche de segmentation des phrases en mots peut alors devenir une étape dif- ficile nécessitant l’apport de nouvelles informations et un travail approfondi. De plus, en fonction de la langue et des besoins, la tâche de segmentation est souvent corrélée à la tâche d’étiquetage grammatical.

Pour une phrase W = w1...wn de taille n la tâche d’étiquetage grammatical ou étiquetage

morpho-syntaxique consiste à trouver la séquence d’étiquettes T = t1...tn telle que, pour chaque

i ∈ {1,n}, ti est l’étiquette grammaticale assignée au mot wi. Les étiquettes grammaticales, appe-

lées aussi parties du discours, désignent les fonctions grammaticales occupées par les mots dans la phrase (e.g. verbe, déterminant, adjectif). Il s’agit donc de classer les mots des phrases par ca- tégories. Cette étape d’étiquetage grammatical, couramment désignée par son équivalent anglais

Part-Of-Speech (POS) tagging, est effectuée dans de multiples travaux du domaine du traitement

de la langue. Du fait des très bons scores obtenus par cette tâche (plus de 97% de précision pour le français dans les travaux standards), elle est particulièrement utile dans la désambiguïsation de l’analyse syntaxique. Cependant, il a été montré que le jeu d’étiquettes (ensemble des étiquettes grammaticales préalablement défini) utilisé pour la tâche d’étiquetage grammatical, réalisé en

amont d’une analyse syntaxique, avait un impact sur les performances de ces analyses (Crabbé et

Candito, 2008). Il est donc important de bien choisir le jeu d’étiquettes dans l’objectif de maximiser simultanément les scores d’étiquetage grammatical et d’analyse syntaxique. Cependant, dans

le cas des méthodes dirigées par les données, les jeux d’étiquettes assignés par les étiqueteurs proviennent des corpus utilisés pour l’entraînement et sont donc dépendant des données dispo- nibles. Par exemple, la majorité des étiqueteurs et des travaux d’étiquetage grammatical pour le français exploite les données du French Treebank. Ce corpus comporte deux niveaux d’étiquetage. Le premier, comportant 13 étiquettes (catégories) grammaticales, peut être considéré comme trop

général et donc pas assez précis alors que les sous-catégories3_{du second niveaux (correspondant à}

un jeu de 34 étiquettes) sont beaucoup plus précises. La trop grande diversité d’un jeu d’étiquettes peut rendre compliqué la distinction entre des étiquettes proches même pour les annotateurs humains (entraînant par exemple des inconsistances entre les annotations si plusieurs annotateurs

sont impliqués (Boudin et Hernandez,2012)). Les travaux de Crabbé et Candito (2008) ont per-

mis de définir un nouveau jeu d’étiquettes se situant entre les deux niveaux et comportant 29 étiquettes correspondant parfois à une combinaison entre une catégorie supérieure et une caté-

gorie inférieure. Ce jeu d’étiquettes particulier a alors été adopté pour l’étiqueteur Melt (Denis et

Sagot,2009,2012) et est devenu le jeu d’étiquettes standard pour le français.

Parmi les méthodes d’étiquetage grammatical on trouve tout d’abord celles basées sur les règles

(rule-based). Une des applications de cette méthode fut l’utilisation du système TAGGIT (Greene

et Rubin,1971) dans le processus d’annotation du corpus BROWN (Francis et Kucera, 1982). La méthode est divisée en deux étapes. La première consiste à étiqueter les mots non-ambigus (ayant une seule étiquette grammaticale possible) à l’aide d’un dictionnaire, puis d’étiqueter les mots non-étiquetés par des étiquettes fréquentes telles que Verbe ou Nom. La seconde étape consiste à modifier les étiquettes des mots dont le contexte est sûr (i.e. dont les étiquettes des mots voisins sont non-ambiguës) grâce à des règles décrites manuellement. Cette première méthode peut être

vue comme contraignante du fait de l’écriture manuelle des règles. Par la suite,Brill(1995) proposa

une méthode similaire dans laquelle les règles sont générées à partir de patrons de règles. Ce travail est à l’origine des méthodes fondées sur un système de transformation (transformation-

based learning (TBL)). La première étape, semblable à celle de la méthode précédente, donne

à chaque mot une première étiquette. Puis le système apprend des règles de correction à partir des données correctement annotées. Un ensemble de patrons de règles, accordant l’inclusion de conditions, de noms d’étiquettes à modifier, permet de générer ces règles. Parmi ces règles, celles engendrant le moins d’erreurs sur l’ensemble des données sont conservées. On obtient donc ici un premier système d’étiquetage incluant une étape de correction dirigée par les données.

Par la suite, les réseaux bayésiens ont pris une grande place dans le domaine de l’étiquetage grammatical, en commençant par les modèles de Markov cachés (techniquement équivalents aux automates finis probabilistes).

Définition 12 Modèle de Markov caché (Hidden Markov Model (HMM))

Soit un HMM Λ = (A,B,Π) avec : • n le nombre d’états du HMM ; • S = {s1,...sn} les états ;

• M le nombre de symboles observables, i.e. la taille de l’alphabet ; • V = {v1,...,vM} les observations, i.e. les symboles de l’alphabet ;

et tel que :

3_{Les sous-catégories correspondent à des divisions des catégories grammaticales, e.g. la catégorie V (les verbes) est}

• A est une matrice de probabilités de transitions avec aij = A(i,j) = P (qt+1 = sj | qt = si) la

probabilité de transition de si à sj;

• B est une matrice de probabilités d’observations avec bj(k) = P (Ot= vk | qt= sj)la probabilité

d’observer vk lorsque l’état courant est sj;

• Π est le vecteur des probabilités initiales où Πi = P (q1 = si).

L’apprentissage des paramètres d’un HMM consiste à maximiser

P (Θ | Λ) = Y

O∈Θ

P (O | Λ)

la probabilité d’un ensemble Θ de séquences d’observations O = O1...OT (i.e. l’ensemble des

phrases du corpus d’apprentissage) sachant Λ. L’algorithme d’apprentissage, Baum-Welch (Baum,

1972), procède par ré-estimation des paramètres à partir de chaque séquence d’observations. Cette

étape d’apprentissage du modèle statistique permet ensuite d’effectuer l’étape d’étiquetage atten- due dans le cadre de l’étiquetage grammatical. Il s’agit, dans le domaine de l’apprentissage auto- matique, du problème de recherche du chemin optimal dans un automate probabiliste. L’idée est de trouver la suite d’états la plus probable pour la séquence d’observation O correspondant à la phrase donnée. À la suite d’états on fait alors correspondre la suite des étiquettes grammaticales

associées aux mots. Pour effectuer cette étape, c’est l’algorithme deViterbi(1967) qui est employé.

Parmi les étiqueteurs exploitant les capacités des HMM, on trouve le TnTtagger de Brants

(2000). D’autre part, citons le TreeTagger de Schmid (1994) employant une méthode un peu

différente, proche des N-grammes.

Parmi les modèles graphiques probabilistes, les modèles d’entropie maximum de Markov (Maxi-

mum Entropy Markov Model (MEMM)) constituent une alternative aux HMM. Contrairement aux

HMM, les MEMM sont capables de tenir compte d’une diversité plus importante de traits provenant

du contexte du symbole observé. Techniquement, la probabilité d’une transition s → s0 _sachant

une observation Ot est calculée suivant le même modèle que dans les méthodes des classificateurs

MaxEnt (maximum d’entropie) :

P (qt+1 = s0 | qt= s,ot = v) = 1 Z(ot,s) exp X a λafa(ot,s) !

où fa(o,s)renvoie la valeur d’un trait fapour une observation ot en s, λa est un paramètre (poids)

estimé lors de la phase d’apprentissage et Z(o,s0₎_{est une variable de normalisation. L’inconvénient}

principal des MEMM est connu sous le nom label bias problem en anglais. Cela signifie que, lors de la recherche du chemin optimal, les états ayant le plus faible nombre de transitions entrantes seront favorisés même par rapport à ceux ayant une plus forte probabilité locale. Les CRF, ap- partenant également à la classe des modèles graphiques probabilistes, sont renforcés par rapport aux MEMM pour ne pas subir les désavantages du label bias problem. Pour le français, citons les

travaux conjoints de chercheurs du LIFO et du LIGM (Constant et al., 2011) utilisant la chaîne de

traitement SEM ou le segmenteur-étiqueteur LGTagger avec exploitation de ressources telles que

Lefff (Sagot,2010) ou DELA (Courtois,1990).

D’autres travaux présentent des techniques associant des informations lexicales externes à des méthodes classiques d’étiquetage. Un des outils les plus connus dans le domaine de l’étiquetage

grammatical pour le français utilisant le Lefff (Sagot, 2010) est le Melt tagger (Denis et Sagot,

2009,2012). Il utilise par ailleurs la méthode MaxEnt pour effectuer l’étiquetage.

Les classificateurs, dont la méthode MaxEnt, sont aussi des méthodes couramment utilisées dans le domaine de l’étiquetage grammatical. Une différence avec les réseaux bayésiens est due

au fait que les classificateurs étiquettent indépendamment chaque observation tandis que les ré- seaux bayésiens étiquettent une séquence d’observation. Les classificateurs maximisent la proba- bilité d’une étiquette pour un mot donné alors que les réseaux bayésiens cherchent à maximiser la probabilité de la séquence d’étiquettes pour la phrase donnée. Avec les classificateurs, il est donc possible d’obtenir une liste d’étiquettes, pour chaque mot, ordonnées suivant leurs probabili- tés. Parmi les outils et méthodes développés pour réaliser l’étiquetage grammatical de phrases on trouve également :

• le Standford Tagger (Toutanova et Manning, 2000) exploitant les avantages de la méthode

MaxEnt ;

• une méthode améliorée deCollins (2002) basée sur la version Averaged Perceptron de l’algo-

rithme perceptron ;

• le SVMTool deGiménez et Márquez(2004).

Dans le document De l’étiquetage syntaxique pour les grammaires catégorielles de dépendances à l’analyse par transition dans le domaine de l’analyse en dépendances non-projective (Page 50-54)