Extraction des données - Vers une algèbre des relations de discours

L’étude des prémisses de règles s’appuie en partie sur l’analyse de données attestées. Pour recueillir ces données attestées, nous avons développé un outil permettant d’extraire au- tomatiquement, à partir de données non-annotées en discours, des discours contenant les prémisses de règles. L’identification de la présence des relations de discours des prémisses se fait grâce à la présence de marques de surface (les connecteurs de discours). L’extraction est effectuée sur une partie du corpus de l’Est Républicain (environ 130 millions de tokens) et une partie du corpus Europarl en français (environ 55 millions de tokens)5

, tous deux annotés en dépendances syntaxiques par l’analyseur Bonsai (Candito et al., 2009). Pour repérer les contextes discursifs pouvant correspondre aux différentes prémisses de règles étudiées, nous utilisons les marqueurs de relations de discours du français présents dans LexConn (Roze et al., 2010, 2012) — le contenu du lexique est détaillé à la section 3.2.1.4, page 92.

Pour extraire des occurrences d’une prémisse de règle de la forme Rx(α, β) ∧ Ry(β, γ), nous

recherchons des contextes qui correspondent au patron général ci-dessous. cα connx cβ conny cγ

Dans ce patron, cα, cβet cγsont trois clauses syntaxiques pouvant correspondre à trois unités

discursives (α), (β) et (γ) entre lesquelles les relations Rx(α, β) et Ry(β, γ) s’établissent ;

connx est un connecteur dont la clause hôte est cβ et qui lexicalise la relation Rx; conny est

un connecteur dont la clause hôte est cγ et qui lexicalise la relation Ry6. Soulignons deux

points :

– les connecteurs connx et conny n’apparaissent pas nécessairement en position initiale

de leur clause hôte : un certain nombre de connecteurs adverbiaux peuvent apparaître à d’autres positions dans leur clause hôte ;

– la segmentation d’un texte en phrases ne correspond pas nécessairement à la segmentation du texte en unités discursives : dans les données à extraire, les connecteurs connx

et conny pourront donc dans certains cas apparaître dans des phrases différentes, et

dans d’autres apparaître dans la même phrase — la phrase recouvrira dans ce cas plusieurs unités discursives.

Les données retournées par l’analyseur Bonsai sont au format CoNLL7

: pour chacune des phrases analysées, chaque token est associé à 10 informations distinctes. Parmi ces informations, notre méthode d’extraction utilise les suivantes : l’identifiant de la position du

5. Le corpus de l’Est Républicain et le corpus Europarl sont tous deux librement disponibles aux adresses www.cnrtl.fr/corpus/estrepublicainet www.statmt.org/europarl/.

6. La terminologie adoptée concernant les connecteurs de discours est décrite à la section 3.1.2.1, page 83. 7. Le format CoNLL est décrit à l’adresse : ilk.uvt.nl/conll/#dataformat.

token dans la phrase, la forme du token, le lemme associé au token, sa catégorie morpho- syntaxique, et l’identifiant du gouverneur du token. Nous ne tenons pas compte du type des dépendances syntaxiques (sujet, objet, modifieur, dépendant). En ce qui concerne la catégo- rie morpho-syntaxique, le format CoNLL en renseigne deux, de granularité plus ou moins fine. Nous prenons en compte la catégorie la plus fine, qui permet notamment de distinguer la catégorie conjonction de coordination (CC) de la catégorie conjonction de subordination (CS).

Nous décrivons ci-dessous lele principe général de l’extraction de données pour une prémisse de règle Rx(α, β) ∧ Ry(β, γ).

– L’extracteur recherche dans le corpus les occurrences de connecteurs signalant la relation Rx, que nous notons connx.

– Pour chaque occurrence rencontrée, l’extracteur recherche ensuite dans le voisinage de connx un connecteur signalant la relation Ry, que nous notons conny.

– Si l’extracteur rencontre une occurrence de conny dans le voisinage de connx, le

contexte discursif des deux connecteurs est extrait, c’est-à-dire : la ou les phrase(s) dans laquelle/lesquelles les connecteurs apparaissent, plusieurs phrases du contexte gauche, et plusieurs phrases du contexte droit.

Nous détaillons maintenant les différentes étapes de l’extraction. en commençant par le repérage de connx. Si l’extracteur repère, dans une phrase donnée, une forme connx qui

peut signaler Rx8, il vérifie que la catégorie morpho-syntaxique associée à cette forme dans

l’analyse syntaxique correspond bien à celle qui lui a été attribuée dans LexConn. Si connx

est un connecteur adverbial, l’extracteur vérifie que le connecteur occupe une position dans laquelle il peut établir la relation Rx9. Si ce n’est pas le cas, l’extracteur ne tient pas

compte de la présence de connx, et continue la recherche dans le reste du corpus. Si connx

est une conjonction de subordination, l’extracteur vérifie que la subordonnée introduite par la conjonction est postposée. En effet, en l’absence de consensus sur la représentation à attribuer aux discours impliquant des subordonnées antéposées, nous avons choisi de les écarter des données extraites — sur ce point, voir les sections 2.2.1.4 et 2.2.2.3.

Une fois le connecteur connx identifié, l’extracteur cherche une occurrence de conny dans

la phrase qui accueille connx, selon les mêmes principes que pour la recherche de connx.

Si un connecteur pouvant signaler Ry est rencontré dans la phrase, l’extracteur vérifie que

la position de conny dans la phrase est postérieure à celle de connx. Ensuite, l’extracteur

identifie tous les verbes directement connectés à connx et conny dans le graphe de dépen-

dances syntaxiques, c’est-à-dire tous les verbes qui gouvernent ou qui sont gouvernés par un des deux connecteurs dans le graphe. L’extracteur vérifie alors que l’ensemble des verbes reliés à connx et l’ensemble des verbes reliés à conny possèdent un élément commun. S’ils

possèdent un élément commun, l’extraction du contexte est effectuée. Sur ce point, l’extracteur extrapole l’analyse discursive à partir de l’analyse syntaxique en dépendances : on fait l’hypothèse que le verbe relié aux deux connecteurs est le verbe principal de la clause qui constitue l’argument commun aux deux connecteurs — c’est-à-dire (β) dans la prémisse que l’on cherche à extraire. Pour illustrer ce point, nous présentons à la Figure 5.3 des portions

8. Cette information est connue grâce au lexique de connecteurs LexConn, qui associe à chaque connecteur la ou les relations qu’il peut signaler. Le détail des informations contenues dans le lexique est donné à la section 3.2.1.4 (page 92).

9. LexConn contient des informations sur les positions pouvant être occupées par un connecteur adverbial donné lorsqu’il marque une relation donnée.

de graphes de dépendances syntaxiques dans lesquels connx et conny sont reliés à un même

verbe, noté vβ. Le premier graphe illustre le cas dans lequel connx est un adverbe et conny

une conjonction ; le second illustre le cas dans lequel connx et conny sont des conjonctions.

vβ

connx (ADV) conny (C)

vγ vα connx (C) vβ conny (C) vγ

Figure 5.3 – Deux portions de graphes de dépendances syntaxiques dans lesquels deux connecteurs sont reliés à un même verbe

Si aucune occurrence de conny n’est reconnue dans la phrase qui accueille connx, l’extracteur

cherche une occurrence de conny dans la phrase qui suit. Si un connecteur pouvant signaler

Ry est rencontré dans la phrase, l’extracteur vérifie deux choses : si le connecteur est un

adverbe, il vérifie que cet adverbe est bien un des dépendants du verbe principal de la phrase dans l’analyse en dépendances ; si le connecteur est une conjonction, il vérifie que la conjonction est en position initiale de la phrase. Ces deux vérifications ont pour but de filtrer les connecteurs dont l’argument gauche ne porte pas sur la phrase précédente — la phrase accueillant connx.

Nous donnons maintenant quelques exemples de discours correctement extraits (nous omet- tons les contextes discursifs gauche et droit). Par exemple, pour la prémisse de règle Explanation(α, β) ∧ Result(β, γ), la méthode utilisée permet d’extraire des discours comme en (183), où la conjonction car marque la présence de la relation Explanation, et l’adverbe alors marque la présence de la relation Result. De la même façon, pour la pré- misse de règle Result(α, β) ∧ Violation(β, γ), on extrait des discours comme en (184). Les discours en (185) et (186) sont des discours extraits respectivement pour les prémisses Explanation(α, β) ∧ Concession(β, γ) et Narration(α, β) ∧ Explanation(β, γ).

(183) Explanation(α, β) ∧ Result(β, γ) :

a. Malgré l’annonce de la fin possible des combats, ils n’ont plus du tout confiance b. car, lors des années passées, ils ont vu la guerre et la paix se succéder.

c. Alors, ils se disent que, cette fois encore, la guerre pourrait revenir... (184) Result(α, β) ∧ Violation(β, γ) :

a. Mme Mulot, assistante sociale DVIS, est en absence de longue durée. b. Ses permanences sont donc annulées.

c. La prise en charge des urgences reste néanmoins assurée... (185) Explanation(α, β) ∧ Concession(β, γ) :

a. Mais il s’est mis hors-course lui-même, b. car sa tendinite le perturbe

c. même si elle n’est pas très sérieuse. (186) Narration(α, β) ∧ Explanation(β, γ) :

a. J’ai d’abord été aide-familiale pendant 2 ans, b. puis je suis devenue mère SOS

c. car je me devais d’apporter quelque chose de plus à ces enfants.

Ces exemples nous permettent d’illustrer l’extraction de différentes réalisations du patron général décrit en début de section. Nous présentons certains de ces patrons ci-dessous.

– Le premier connecteur est une conjonction, le second est un adverbe et les deux connecteur apparaissent dans deux phrases séparées, comme en (183).

cα conj_connx cβ . adv_conny cγ .

– Les deux connecteurs sont des adverbes, et apparaissent dans deux phrases séparées, comme en (184).

cα . adv_connx cβ . adv_conny cγ .

– Les deux connecteurs sont des conjonctions et apparaissent dans la même phrase, comme en (185) et (186).

cα conj_connx cβ conj_conny cγ .

Dans la méthode que nous avons décrite, après l’identification de connx, la recherche de

conny n’est faite que dans deux phrases : la phrase dans laquelle apparaît connx, et la

phrase qui lui succède. Le contexte dans lequel la recherche de conny est effectuée est donc

restreint. L’extracteur vise ainsi à extraire des occurrences de la prémisse pour lesquelles l’unité discursive (β) commune à Rx et Ry couvre une portion de texte n’allant pas au-delà

d’une seule phrase. Pour justifier ce choix, nous devons souligner que les données extraites avec cette méthode sont évidemment bruitées : tous les contextes retournés par l’extracteur ne correspondent pas à une occurrence de la prémisse recherchée.

Les erreurs d’extraction sont liées à différents facteurs : d’une part, certains connecteurs de discours étant ambigus (voir la section 3.1.2.3, page 87), les relations signalées par connx et

conny peuvent être différentes de Rx et Ry; d’autre part, même si les connecteurs signalent

effectivement les relations Rx et Ry, le contexte extrait ne contient pas nécessairement

la structure Rx(α, β) ∧ Rz(β, γ) recherchée. Par exemple, la structure présente peut être :

Rx(α, β)∧Ry(α, γ). Dans ce cas, au lieu de partager (β) comme argument, les deux relations

se partagent l’argument (α) — nous discuterons plus en détail des erreurs d’extraction aux sections 6.3 et 7.3, dans lesquelles nous présentons les données annotées dans le cadre des études de prémisses.

En restreignant la distance possible entre les deux connecteurs signalant les relations des prémisses à identifier, nous avons voulu limiter le bruit dans les données extraites. En effet, si l’on élargit la distance entre les deux connecteurs, on peut certes extraire des discours dans lesquels l’unité (β) couvre plus d’une phrase — l’unité (β) est alors nécessairement une unité complexe — mais l’on augmente les chances d’extraire des contextes discursifs ne correspondant pas aux structures recherchées. Par exemple, si l’on extrait des contextes

contenant le patron ci-après, pour que les contextes contiennent effectivement la prémisse recherchée, il faut que l’unité commune à Rx et Ry couvre les clauses cβ1 et cβ2. Or, il est

tout à fait possible que la structure contiennent deux relations Rx(α, β1) et Ry(β2, γ) qui

n’ont pas d’argument commun. Le choix de limiter la distance (en nombre de phrases) entre les deux connecteurs est lié à l’idée que plus cette distance est grande, plus les chances que les deux connecteurs partagent un argument diminue.

cα . connx cβ1 . cβ2 . conny cγ .

Pour une prémisse donnée, la méthode d’extraction décrite dans cette section nous permet de recueillir plusieurs milliers de discours pouvant correspondre à cette prémisse. Comme nous l’avons dit, les données extraites sont bruitées, mais cette méthode nous permet de recueillir un corpus d’exemples bien plus important en termes quantitatifs que celui dont nous aurions disposé en nous limitant aux annotations contenues, par exemple, dans le corpus ANNODIS. L’utilisation de cette méthode d’extraction présente le désavantage de fournir uniquement des données dans lesquelles les relations de discours sont lexicalisées par des connecteurs. Ces données ne sont donc pas représentatives de toutes les réalisations possibles des relations de discours. Néanmoins, chaque relation de discours pouvant être lexicalisée par plusieurs connecteurs, les données extraites présentent une certaine hétérogénéité.

Dans le document Vers une algèbre des relations de discours (Page 137-141)