• Aucun résultat trouvé

2.4 Les corpus en dépendances

2.4.1 Corpus pour le français

Le corpus probablement le plus connu dans le domaine de la syntaxe est le French Treebank (FTB) (Abeillé et al., 2003) ou Paris 7 Treebank (P7T). Ce corpus est composé de 24000 phrases et

fut annoté initialement en constituants puis converti automatiquement en dépendances (Candito

et al.,2009). Le corpus est disponible sous licence. Les phrases sont extraites du journal LeMonde (1989-1993). Malgré les thèmes différents abordés (économie, littérature, politique, etc.) par le journal, le style grammatical reste restreint au domaine journalistique. Une méthode d’analyse syntaxique dirigée par les données dont le modèle est entraîné sur ces données atteindra alors très sûrement de meilleurs scores sur des données de même nature que sur de nouvelles données (hors-domaine).

Ce problème constitue l’argument principal à l’origine de la construction du corpus Sequoia (Candito et Seddah, 2012a). Il s’agit d’un corpus annoté suivant un schéma d’annotation proche de celui du FTB, donc en constituants. Dans ce corpus les phrases proviennent de 4 sources diffé- rentes :

• Europarl ;

• l’agence européenne du médicament ; • l’Est Républicain ;

• Wikipédia Fr.

Il en résulte un corpus annoté de 3204 arbres. Un exemple d’arbre syntagmatique pour une phrase

du corpus Europarl de Sequoia est donné par la figure2.9.

SENT VN CL C’ V est NP PRO ce Srel NP PRO que VN CL nous V devons VPinf VN V éviter PP P à NP D tout N prix

FIGURE 2.9 – Arbre syntagmatique pour la phrase « C’est ce que nous devons éviter à tout prix »

extraite du corpus Sequoia (Europarl).

Les processus d’annotations du FTB et de Séquoia suivent un déroulement similaire dans le

sens où ils incluent alternativement des étapes de pré-annotation automatique et des étapes de validation manuelle, mais ils diffèrent sur certains points qui ont été améliorés pour l’annotation de Sequoia. Nous décrivons dans un premier temps les étapes effectuées lors de la construction du FTB :

• segmentation : segmentation en phrase et tokenisation (le tokeniseur utilise un lexique pour reconnaître les mots composés (ou expressions multi-mots) et conserve la plus longue sé- quence possible correspondant à une unité de sens ;

• étiquetage des parties du discours (POS pour Part-Of-Speech) : lors de la 1ère phase, chaque mot reçoit l’étiquette la plus probable (sa probabilité est estimée à l’aide d’une méthode basée sur les trigrammes). Lors de la deuxième phase, des règles contextuelles sont construites à la main pour modifier certaines étiquettes ;

• validation de la segmentation et de l’étiquetage des POS par les annotateurs ; • ajout automatique des lemmes ;

• regroupement d’items formant des dates, nombres ou titres à l’aide d’expressions régulières et vérification (i.e. ajout manuel des groupes oubliés) ;

• annotation syntaxique automatique permettant d’indiquer les frontières des constituants et d’annoter les fonctions syntaxiques des mots (i.e. annotation fonctionnelle des dépendants de verbes) et des constituants.

• validation manuelle des constituants.

Pour la construction du corpus Sequoia, les auteurs ont tout d’abord choisi d’utiliser des outils différents et un jeu d’étiquettes étendu. En ce qui concerne le schéma d’annotation, les différences se font sur :

• la segmentation des mots composés, la séparation en mot simple est conservée dans les phrases du Séquoia si l’expression est syntaxiquement régulière ;

• l’étape d’étiquetage des POS, comprenant simplement une étape de pré-annotation automa- tique à l’aide d’un étiqueteur et une étape de validation manuelle ;

• l’annotation syntaxique, une première étape automatique d’analyse syntaxique (en consti- tuants) est effectuée par deux analyseurs différents en tenant compte des POS précédem- ment assignés et validés puis une seconde étape de validation manuelle est effectuée indé- pendamment par deux annotateurs pour les deux sorties, enfin une étape d’adjudication des annotations est réalisée ;

• l’annotation des fonctions des dépendants des verbes, incluant une étape automatique pour assigner ces fonctions, une étape de correction par les deux annotateurs et l’adjudication des annotations.

Ces deux corpus ne sont pas seulement cohérents vis-à-vis du schéma d’annotation mais ont

aussi été convertis automatiquement en dépendances3 (Candito et al., 2009) suivant les mêmes

étapes.

La conversion en dépendances comprend les étapes suivantes :

• la décomposition des mots composés syntaxiquement réguliers ; • l’extension du jeu d’étiquettes (pour le FTB) ;

• le pré-traitement des prépositions et compléments dans l’arbre en constituants pour les élever au rang de tête de constituants, assurant par ailleurs la projectivité de la future structure en dépendances ;

• l’application d’une méthode récursive de propagation des têtes (Magerman, 1995) permet-

tant d’obtenir les arbres en dépendances.

3Notons qu’il s’agit d’une conversion en dépendances de surface (voir2.2.1) mais que le corpus Sequoia a également

Cette conversion automatique assure la projectivité des arbres en dépendances bien que certaines

constructions grammaticales nécessitent l’intégration de dépendances non-projectives4. Le corpus

FTB converti en dépendances est donc totalement projectif tandis que le corpus Sequoia contient

des cas non-projectifs qui furent corrigés manuellement après conversion (Candito et Seddah,

2012b). La figure2.10présente la structure de dépendances non-projective pour la phrase donnée

en exemple dans la figure précédente (2.9).

C’ est ce que nous devons éviter à tout prix

suj ats

obj suj mod-rel

obj mod objdet root

FIGURE2.10 – Structure de dépendances non-projective pour la phrase « C’est ce que nous devons éviter à tout prix » extraite du corpus Sequoia (Europarl).

Pour trouver plus de dépendances non-projectives dans les corpus librement disponibles pour

le français, il faut se tourner vers le projet Universal Dependency Treebank (UDT) (McDonald et al.,

2013). Il s’agit d’un ensemble de corpus pour diverses langues annotées suivant le schéma d’anno-

tation en dépendances standard de Stanford (de Marneffe et Manning,2008) proposé en premier

lieu pour l’anglais. La représentation en dépendances de Stanford autorise à l’origine la double gouvernance, i.e. un mot peut avoir deux gouverneurs différents. Par conséquent, la structure peut contenir des cycles. Cependant, une représentation (acyclique) dans laquelle chaque mot a un et un seul gouverneur fut ensuite proposée dans le but d’obtenir une représentation adaptée aux analyseurs classiques du domaine ; il s’agit du schéma d’annotation standard. Par ailleurs, une re- présentation appelée content-head est aussi proposée pour certaines langues dont le français. Dans cette représentation, les mots porteurs de sens sont considérés comme des têtes syntaxiques, e.g. l’objet d’un verbe copule sera considéré comme étant la racine de la phrase et le verbe dépendra de cet objet. En particulier, les objets des verbes copules et les appositions sont des têtes syntaxiques. Toutefois, on s’intéressera ici particulièrement à la représentation en dépendances standard.

L’objectif du projet UDT était de rendre disponible des corpus en dépendances dans différentes langues dont le jeu d’étiquettes (i.e. les étiquettes POS et les étiquettes des dépendances) est iden- tique. Chaque corpus fut donc annoté suivant le même schéma d’annotation pour les étiquettes

POS, le Google Universal Part-Of-Speech Tags (Petrov et al.,2012), et pour les dépendances, une va-

riante du jeu d’étiquettes utilisé pour l’anglais dans la représentation en dépendances standard. Le processus d’annotation global fut différent selon les langues. Certains ensembles de données, tels que les corpus suédois et anglais, furent convertis des constituants aux dépendances. Les autres corpus, dont le corpus français, furent manuellement annotés. En premier lieu, les annotateurs pro- posèrent des jeux d’étiquettes en dépendances adaptés à chaque langue mais restant très proche du jeu d’étiquettes pour l’anglais. Puis, les jeux d’étiquettes furent harmonisés pour conserver le

moins d’étiquettes possibles5. Puis, l’étape de segmentation en tokens se sert d’un système basé sur

des règles. Les annotateurs sont ensuite chargés de sélectionner les phrases pour mettre de côté celles qui seraient incomplètes (dues aux erreurs de segmentation), incompréhensibles ou trop

courtes. Puis les phrases sont automatiquement étiquetées (Das et Petrov,2011), parsées (McDo-

nald et al., 2011) et manuellement validées. Parmi les lignes directives du schéma d’annotation,

4Lors de la conversion du FTB en dépendances (Candito et al.,2009), 120 phrases furent annotées manuellement

en dépendances dans le but d’évaluer le taux d’erreurs engendrés par la conversion automatique. Sur cet ensemble de données, 1,22% des dépendances ont été annotées comme dépendances non-projectives.

5Une étiquette spécifique à une langue est préservée seulement si le phénomène syntaxique auquel elle fait réfé-

aucune restriction n’est faite sur les phénomènes discontinus des langues naturelles. Le corpus fran- çais contient donc environ 12% de phrases pour lesquelles les structures en dépendances associées sont non-projectives.

Nous rassemblons dans le tableau2.2 quelques statistiques et propriétés des différents corpus

pour le français dont nous avons discuté dans cette sous-section. Notons également que nous nous sommes restreint à présenter des corpus en dépendances pour le français écrit mais qu’il existe

également des corpus en dépendances pour le français parlé tels que le corpus Rhapsodie (Lacheret

et al.,2014) ou le corpus développé parCerisara et al.(2010) à partir du corpus ESTER contenant des transcriptions manuelles d’émissions de radio.

Corpus Nb phrases Nb tokens Non-Projectif ?

FTB dép. 24 000 780 000 non

Sequoia dép. 3 204 69 246 oui

UDT French 16 422 396 511 oui

TABLE2.2 – Statistiques de différents corpus en dépendances disponibles pour le français écrit.