• Aucun résultat trouvé

Nous présentons dans cette section la grammaire catégorielle de dépendances du français et les principaux corpus en dépendances du français qui furent développés conjointement et que nous utilisons dans nos travaux.

4.4.1

Grammaire catégorielle de dépendances du français

La grammaire catégorielle de dépendances du français (CDGFr), développée parDikovsky(2011),

est la grammaire catégorielle de dépendances la plus aboutie. Elle comprend à ce jour plus de 3000 RTE permettant une large couverture de la syntaxe du français.

Dans un premier temps, le développement de la CDGFr débuta conjointement avec la création des classes grammaticales associées aux RTE et la construction d’une base de données lexicale permettant de faire correspondre mots et classes grammaticales. Par la suite, l’intégration des in-

formations du Lefff (Sagot,2010), un lexique des formes fléchies du français comprenant 536 375

entrées associées à 110 477 lemmes, modifia la classification lexicale de la CDGFr. Il en résulte à ce jour un jeu de 185 classes grammaticales incluant des informations morpho-syntaxiques très précises adaptées à la syntaxe du français. Elles peuvent être regroupées en 28 classes plus gé- nérales dont 18 permettant de catégoriser les mots et 10 permettant de catégoriser les signes de

ponctuation. Les 28 classes grammaticales générales sont présentées dans la table4.2.

Chaque RTE comprend un sous-type tête (voire un choix entre plusieurs sous-types têtes) cor- respondant au nom de la dépendance entrante sur un mot, i.e. il s’agit du sous-type A dans les

Adjectifs Adj Prépositions PP Ponctuations Dash

Adverbes Adv Verbes auxiliaires Vaux Parentheses

Collocations Colloc Verbes copules Vcopul QuestMark

Conjonctions Conj Verbes intransitifs Vi Quotes

Déterminants Det Verbes substituts Vlight SemiColon

Interjections Expletives Verbes transitifs Vt Chevrons

Noms N Verbes ditransitifs V2t Colon

Nombres Num Unités inconnues UT FullStop

Partitifs Part EmphatMark

Pronoms PN Comma

TABLE 4.2 – Liste des classes grammaticales générales de la CDGFr

expressions de la forme B\A/C. Ces noms/types de dépendances sont au nombre de 116 dans la version de la grammaire que nous employons pour nos travaux et peuvent être regroupés en 38

groupes (voir l’annexeApour plus de détails). Ils représentent des fonctions syntaxiques précises,

parfois spécifiques au français mais dont la majorité sont adaptables à d’autres langues. Les noms

des dépendances, ainsi que les groupes auxquels ils appartiennent sont présentés en annexe A.

Parmi ces noms de dépendances, 89 sont exclusivement associés à des dépendances projectives et 23 peuvent être associés à des dépendances projectives ou non-projectives. Finalement, seulement 4 noms de dépendances sont exclusivement associés à des dépendances non-projectives. Il s’agit de cas particuliers d’agrégation, de comparaison, de négation et de d’objet copule.

4.4.2

Corpus en dépendances

Chacun des travaux présentés dans cette thèse est relié d’une manière ou d’une autre aux gram- maires catégorielles de dépendances et à la représentation qui en découle. Chacun des traitements mis en place au cours de cette thèse est donc testé sur un ensemble de données préalablement annoté selon le schéma d’annotation induit par les grammaires catégorielles de dépendances. Par ailleurs, les différents outils d’apprentissage que nous intégrons dans nos processus exploitent éga- lement ces données.

Les données furent annotées, parallèlement au développement de la CDGFr, par Alexandre Dikovsky et Danièle Beauquier. Il s’agit de phrases du français provenant de multiples sources :

d’œuvres littéraires du 19e et 20e siècles (« La ronde et autres faits divers » de J.M.G Le Clezio,

« L’étranger » de A. Camus, « Voyage au bout de la nuit » de L.F. Céline, « Germinal » de E. Zola),

de journaux (article du monde « L’enfance de l’Univers dévoilée ») et de sources diverses4.

Il en résulte un corpus de 3 030 phrases du français que nous appelons CDG Treebank. Ce corpus, que nous exploitons dans nos travaux, nous a été fourni pas les annotateurs mais n’est néanmoins pas encore disponible librement. Chaque phrase est segmentée en mots qui sont eux- même chacun étiqueté par une classe grammaticale de la CDGFr puis attaché à leur gouverneur par une dépendance étiquetée (en conformité avec les types proposés par la CDGFr). Les statistiques précises du corpus, concernant le nombre de phrases, de mots et les taux de non-projectivité de

chacun des sous-corpus, sont exposées dans le tableau4.3. On constate que le pourcentage de dé-

pendances non-projectives varie selon les textes et que le pourcentage de phrases non-projectives, variant aussi fortement, est important pour chacun des sous-corpus. Globalement, le CDG Tree- bank est un corpus intéressant pour l’analyse en dépendances du français et en particulier pour

4Le corpus CDG devel est principalement composé de phrases de la vie courante et de phrases extraites d’articles

Corpus genre nb ph. % ph. non-proj nb mots % dép. non-proj

CDG devel divers 1 941 43,48 21 598 4,96

Le Clezio littérature 530 28,87 9 924 1,90

Camus L’étranger littérature 319 49,53 5 253 4,11

Céline Voyage littérature 91 39,56 1 801 3,78

Zola Germinal littérature 85 44,71 2 497 2,08

Universe journal 64 32,81 1 619 1,30

CDG Treebank 3 030 41,25 42 692 3,79

TABLE 4.3 – Statistiques des corpus en dépendances du CDG Lab - Noms des corpus, nombre de

phrases, pourcentage de phrases non-projectives, nombre de mots, pourcentage de dépendances non-projectives. Le corpus CDG Treebank correspond à la réunion des sous-corpus.

les travaux incluant la gestion des dépendances non-projectives nécessaires à la bonne représen- tation de la syntaxe du français. Parmi les dépendances non-projectives apparaissant dans le CDG Treebank, les plus fréquentes sont les dépendances de type clitique, négation, objet, refléxif et coprédication. Les clitiques et les négations sont associés la plupart du temps à des dépendances non-projectives courtes (pour lesquelles un ou deux mots séparent le gouverneur du subordonné) tandis que les coprédications ou les appositions sont fréquemment associées à des dépendances de longue distance.