• Aucun résultat trouvé

5.2 Réduction de l’ambiguïté d’analyse

5.2.1 Étiquetage syntaxique

Nous proposons d’effectuer une étape d’étiquetage syntaxique en amont de l’étape d’analyse en dépendances du CDG Lab. Le principe d’une telle tâche est de prédire les étiquettes syntaxiques des mots d’une phrase donnée. Pour cette tâche, la bonne segmentation des phrases en mots et leurs étiquettes grammaticales sont connues. Il s’agit d’un traitement similaire à celui de l’étiquetage

grammatical mais dans l’esprit d’une tâche telle que le supertagging (voir la sous-section3.3.2du

chapitre3) permettant de réduire l’ambiguïté à l’entrée de l’analyseur. Cependant, dans notre cas,

il ne s’agit pas de trouver un ensemble de structures complexes (i.e. des arbres élémentaires dans le cas du supertagging pour les grammaires TAG) conformes à chaque mot mais de prédire une étiquette syntaxique simple correspondant à l’étiquette de la dépendance arrivant sur chaque mot. Globalement, l’étape d’étiquetage consiste à prédire les étiquettes des dépendances sans prédire les dépendances. Un des enjeux est donc d’étudier la pertinence d’une telle méthode, à savoir, si une méthode d’étiquetage locale permet de prédire correctement les étiquettes des dépendances pour toutes sortes de dépendances (courtes ou longues, projectives ou non-projectives).

En outre, nous disposons d’un ensemble de phrases annotées en dépendances selon le schéma d’annotation induit par les CDG. Pour effectuer l’étiquetage syntaxique des phrases nous employons donc une méthode d’étiquetage supervisée classique adaptée à un jeu d’étiquettes particulier. Ce jeu d’étiquettes syntaxiques correspond à l’ensemble des étiquettes de dépendances définies par la grammaire catégorielle de dépendances du français (les types primitifs).

Les données que nous utilisons pour l’entraînement d’un étiqueteur sont un sous-ensemble

des phrases du CDG Treebank (voir la sous-section 4.4.2 du chapitre 4). Ces phrases sont seg-

mentées et étiquetées avec les jeux d’étiquettes grammaticales et syntaxiques de la grammaire de dépendance du français (CDGFr). Il s’agit respectivement de jeux de 185 et 117 étiquettes. Le nombre de classes grammaticales étant important, nous décidons d’une part de sous-catégoriser ces classes pour arriver à deux formes de sous-classification : les classes grammaticales générales (28 classes) et les classes grammaticales étendues (86 classes). Les classes étendues correspondent à des classes générales auxquelles ont été ajoutées des informations grammaticales (voir l’annexe

B). D’autre part, les étiquettes syntaxiques de la grammaire sont déjà comprises dans des groupes

de dépendances. Pour nos expérimentations, nous utilisons donc deux formes de classification des étiquettes syntaxiques : les étiquettes des dépendances (117) et les étiquettes des groupes de dé-

pendances (39) (voir l’annexe A). Un exemple d’annotation d’une phrase du français, selon les

différents niveaux d’étiquetage et les différentes classifications est donnée par la figure5.3.

Les classes grammaticales générales apportent des informations utiles pour la prédiction des éti- quettes syntaxiques. Les classes grammaticales étendues, plus précises, permettent de mieux cibler

Y avez vous pensé ? mot

clit-d-obj S pred aux-d qu étiquette de dépendance

CLIT SENT PRED AUX PUNCT étiquette de groupe

PN Vaux PN Vt QM classe grammaticale générale

PNclitd Vauxavoir PNpersn Vtpz QM classe grammaticale étendue

pred aux-d

qu clit-d-obj

S

FIGURE5.3 – Structure de dépendances et annotations grammaticales et syntaxiques pour la phrase

« Y avez-vous pensé ? ».

les étiquettes syntaxiques (dans le cas des noms de dépendances comme dans le cas des groupes).

La table 5.1expose le nombre moyen de noms de dépendances ou de groupes possibles pour un

mot suivant sa classe grammaticale (générale ou étendue). L’emploi des classes grammaticales étendues comme trait réduit l’ambiguïté sur la prédiction des étiquettes syntaxiques.

Nombre moyen de

noms de dépendances (max.) groupes (max.)

Par classe générale 13 (43) 7 (18)

grammaticale étendue 6 (31) 4 (16)

TABLE5.1 – Nombre moyen (et maximum) de noms de dépendances et groupes possibles par classe

grammaticale générale ou étendue.

La méthode que nous employons pour effectuer l’étiquetage syntaxique comprend l’usage des

CRF (Conditional Random Fields) ou champs markoviens conditionnels. Les CRF, appartenant à la famille des modèles graphiques probabilistes, sont couramment employés dans le domaine de l’étiquetage. Ils permettent de prédire une ou plusieurs séquences d’étiquettes pour une phrase

donnée. Nous avons choisi le logiciel Wapiti (Lavergne et al., 2010) pour effectuer l’étiquetage à

l’aide des CRF car il est capable de travailler avec des jeux d’étiquettes de grande taille.

Les CRF étant par ailleurs capables de prendre en compte un large choix de traits, le logiciel laisse la possibilité de lui fournir un ensemble de patrons de traits permettant d’extraire des infor- mations variées sur les mots et leurs contextes. Nous disposons pour la tâche d’étiquetage de la bonne segmentation des phrases en mots et de leurs étiquettes grammaticales. Pour la définition des patrons de traits, il est donc possible de choisir une largeur de fenêtre (autour d’un mot) pour indiquer si l’on tient compte des mots et des classes grammaticales précédentes et suivantes lors de la prédiction d’une étiquette syntaxique (il n’est pas nécessaire de préciser les étiquettes syn- taxiques précédentes dans les patrons de traits puisqu’elles sont prises en compte dans le modèle CRF).

Nous effectuons des tests préliminaires sur une partie du corpus pour sélectionner les traits pertinents pour l’étiquetage syntaxique. Nous choisissons donc de tester des traits classiques dans le domaine de l’étiquetage grammatical (nous retenons également certains traits parmi plusieurs testés tels que l’extraction du suffixe des mots et le fait de savoir si un mot commence par une majuscule) et dans le domaine de l’analyse en dépendances (il est intéressant d’associer mot et classe grammaticale dans un même trait). À travers des tests préliminaires, nous constatons qu’une fenêtre de 5 (2 mots avant, 2 mots après) donne de bons résultats, qu’élargir la fenêtre à 7 pour les mots génère beaucoup de traits pour peu d’améliorations mais qu’élargir la fenêtre à 7 autour des classes grammaticales est beaucoup plus efficace. Les premiers patrons de traits choisis sont

présentés dans la table5.2.

Traits

sur les mots w−2, w−1, w, w1, w2

sur les classes grammaticales c−3, c−2, c−1, c, c1, c2, c3

mixtes w/c

autres suffixe de 3 lettres pour w,

w−1commence par une majuscule ?

TABLE 5.2 – Patrons de traits pour l’étiquetage syntaxique. w correspond au mot courant et c à sa

classe grammaticale.

Les expérimentations sont donc effectuées suivant 4 critères, selon la prise en compte des

classes grammaticales générales ou étendues dans les traits et selon l’étiquetage réalisé : étiquetage du nom des dépendances ou étiquetage des groupes. Nous procédons à une évaluation croisée sur les données. Le corpus est divisé en 10 parties. Chaque expérimentation comprend une étape d’entraînement exécutée sur 90 % du corpus et une étape d’étiquetage exécutée sur les 10 % restants.

De plus, l’outil Wapiti nous permet d’engendrer les k meilleurs étiquetages pour une séquence donnée. Nous choisissons de produire les 10 meilleures séquences d’étiquettes pour chaque phrase d’entrée. Ces séquences sont potentiellement assez similaires. Souvent, seulement quelques éti- quettes varient d’une séquence à une autre. Pour évaluer la qualité de l’étiquetage syntaxique nous calculons le pourcentage de mots pour lesquels la bonne étiquette syntaxique a été prédite parmi les 1, 1 à 2, 1 à 5 ou 1 à 10 étiquettes prédites (que l’on qualifiera de "meilleures étiquettes") pour chaque mot (sachant qu’il n’y a pas toujours 10 étiquettes différentes par mot).

Les résultats de l’évaluation sont présentés dans la table 5.3. La précision de l’étiquetage des noms de dépendances atteint au mieux 91,1 % en considérant uniquement la première meilleure étiquette et 96,6 % en considérant les 10 meilleures (avec l’utilisation des classes grammaticales étendues dans les traits d’entraînement). La précision de l’étiquetage des groupes de dépendances obtient respectivement 91,6 % et 97,1 %. On constate que les résultats sur l’étiquetage des groupes sont meilleurs que ceux sur l’étiquetage des noms de dépendances, l’ambiguïté étant moindre sur

les groupes (tableau 5.1). D’autre part, du fait des informations apportées par les classes gram-

maticales étendues, les résultats des expérimentations effectuées avec les classes grammaticales étendues sont également plus élevés que les résultats des expérimentations avec les classes gram- maticales générales (+3,3 pour les noms de dépendances et +1,2 pour les groupes de dépendances au rang 1).

Étiquetage : noms de dépendances groupes

Traits : classes générales classes étendues classes générales classes étendues

Top 1 87,8 91,1 90,4 91,6

Top 2 90,0 93,2 92,5 93,7

Top 5 92,9 95,5 95,1 96,0

Top 10 94,6 96,6 96,4 97,1

TABLE5.3 – Évaluation de l’étiquetage syntaxique (noms de dépendances et groupes). Les résultats

représentent le pourcentage de mots pour lesquels la bonne étiquette a été prédite parmi les 1, 1 à 2, 1 à 5 ou 1 à 10 meilleures étiquettes.

Néanmoins, comparant les expérimentations effectuées avec les classes grammaticales éten- dues, on observe que les résultats de l’étiquetage des groupes sont seulement légèrement meilleurs que les résultats sur l’étiquetage des noms de dépendances et donc que la sous-classification éten- due est peut-être mieux adaptée à la désambiguïsation des noms de dépendances que des groupes. Cependant, étiqueter les groupes de dépendances plutôt que les noms de dépendances peut avoir une influence importante sur l’étape d’analyse. En effet, assigner un groupe à un mot équivaut à assigner la disjonction des noms de dépendances appartenant à ce groupe. Par exemple, sélection-

ner le groupe OBJ pour un mot équivaut à sélectionner 8 noms de dépendances (voir l’annexeA)

pour ce mot.