• Aucun résultat trouvé

3.2 Annotation des corpus et acquisition des pss

3.2.1 Annotation syntaxique et extraction des patrons valenciels

3.2.1.1 Etiquetage syntaxique des corpus avec Cordial

L’annotation syntaxique des corpus a été effectuée grâce à l’analyseur syntaxique Cordial. Tel

que décrit dans la section 2.2.1 du chapitre 2, cet outil propose une analyse dépendancielle des

constituants de la phrase, basée sur la syntaxe. Cette tâche permet de repérer le noyau verbal,

les arguments qui en dépendent, ainsi que les circonstants qui lui sont rattachés. Ces dernières

informations (verbes avec leurs arguments et les circonstants) constituent les données de base

à extraire pour la suite de notre travail.

Les textes précédemment pré-traités et convertis en UTF-16 sont soumis à une analyse

syntaxique par Cordial. Sous Linux, ce logiciel se présente sous la forme d’un programme Shell

qui se lance en ligne de commande. L’outil opère une segmentation en phrases des textes, afin

de les traiter. En effet, l’unité de travail de Cordial est la phrase

2

qu’il analyse tel qu’expliqué

dans la section 2.2.1 du chapitre 2. Les résultats de l’analyse sont retournés dans des fichiers

portant l’extension .etq. Il sont structurés comme l’indique l’image 3.4

3

reprise ci-dessous,

pour chaque phrase, le logiciel Cordial retourne la phrase elle-même, suivie de la représentation

de l’analyse de cette phrase sous un format tabulé comprenant treize champs : 1) numéro

identificateur du mot dans la phrase, 2) offset_begin ou numéro identificateur du début de la

chaîne de caractère, 3)offset_end ou numéro identificateur de fin de chaîne, 4) forme du mot,

5) lemme, 6) catégorie grammaticale, 7) propriété morpho-syntaxique, 8) syntagme, 9) fonction

grammaticale, 10) numéro identifiant de proposition, 11) verbe pivot, 12) type de proposition,

et 13) sens du mot.

Fig. 3.4 – Exemple d’annotation Cordial.

Parmi ces champs, il y en a un qui identifie le/les verbe(s) pivot(s) de la phrase, c’est-à-dire les

verbes têtes (selon la terminologie de Tesnière), auxquels les autres constituants de la phrase

sont subordonnés. Pour chaque verbe tête, Cordial établit et matérialise des liens de dépendance

avec ses subordonnés (c.-à-d. les arguments) et circonstants. Pour ce faire, il utilise une palette

d’étiquettes ou codes décrits dans l’annexe A.1.

2. Ce paramètre représente un point commun entre la méthode de travail de Cordial et la nôtre. 3. Cette image a été présentée et décrite à la section 2.2.1 du chapitre 2.

Les étiquettes de Cordial jouent un rôle important dans la tâche d’extraction automatique

des patrons. En effet, elles servent d’indicateurs pour le repérage des différents verbes, ainsi que

leurs arguments et circonstants. En guise d’illustration, reprenons la phrase exemple donnée

dans le chapitre précédent lors de la description des annotations de Cordial (cf. chapitre 2,

section 2.2.1) :

1) Les deux formes n’ont présenté aucun risque hémolityque.

D’après la figure 3.4, le verbeprésenter a été annoté par Cordial comme étant le pivot de la

phrase 1. Il est identifié par le numéro 1 (colonne 10). Ce numéro est ensuite associé à tous les

arguments (les deux formes et aucun risque hémolityque) qui se rapportent à lui, indiquant

ainsi la relation de dépendance qui les lie.

3.2.1.2 Pré-traitement des résultats de Cordial

Avant de passer à l’extraction des patrons syntaxico-sémantiques des verbes, les résultats de

l’annotation par Cordial subissent une phase de pré-traitement qui permet de faciliter l’extraction

automatique des patrons syntaxiques des verbes :

— conversion et adaptation du format de sortie des résultats de Cordial, afin de le rendre

facilement manipulable lors des extractions automatiques. Tel que cela apparaît sur

l’image 3.4, pour chaque mot de la phrase, Cordial fournit diverses informations qui

s’étendent sur une ligne, séparés les unes des autres par une tabulation. Pour faciliter le

processus d’extraction automatique des patrons syntaxiques, il était nécessaire d’aligner

les séquences de données caractéristiques des mots d’une même phrase, les unes après les

autres, de façon à obtenir une seule chaîne d’informations pour chaque phrase annotée.

Toutes les phrases annotées ont subi cette modification.

— restitution du verbe pivot dans les phrases où le verbe est conjugué à une forme composée

(avec ou sans verbe modal) : cette tâche permet de rétablir certaines relations de

dépendance (verbes-arguments) perdues pendant le processus d’annotation syntaxique.

2) En cas de confirmation du diagnostic, l’anticoagulation sera poursuivie.

3) Lors de la consultation d’anesthésie, une note d’information écrite peut être remise

au patient afin de renforcer l’information orale et d’en assurer la cohérence.

Selon Cordial, la phrase de l’exemple 2 a pour verbe pivot (c.-à-d. verbe principal) être,

ce qui est grammaticalement acceptable. Mais pour le succès de notre méthode d’analyse,

l’idéal serait d’avoir le verbe poursuivre comme pivot. Dans un tel cas, le rôle du script

de pré-traitement est de restituer poursuivre en tant que verbe pivot, en le substituant au

verbe être partout où ce dernier est mentionné comme pivot. Il en est de même pour la

phrase de l’exemple 3, où pouvoir et remettre sont, selon Cordial, les deux verbes pivots :

une note d’information écrite etêtre sont respectivement sujet et codde pouvoir, tandis

que le verbe remettre, pivot de la seconde proposition, a pour coi le groupe nominal

au patient. Cette analyse est partiellement erronée : si pouvoir est considéré comme un

semi-auxiliaire et de ce fait comme un verbe autonome, alors, s’il a uncod, ce serait la

structure infinitive être remis au patient. Une note d’information serait dans ce cas le

sujet syntaxique depouvoir et l’objet (sémantique) de remettre (cf. à la voix active : X

remet / peut remettre une note d’information au patient). Grâce à notre programme de

prétraitement des résultats de Cordial, le résultat de l’analyse syntaxique de cette phrase

est le suivant : verbe pivot : remettre, sujet :une note d’information,coi : au patient.

Au total 18 231 phrases ont été corrigées dans l’ensemble du corpus : 5922 dans le pro,

5346 dans leetu, 3901 dans le vul et 3062 dans lefor.

— restitution des antécédents des phrases relatives. Cette tâche ne fonctionne que pour les

antécédents qui sont représentés par un groupe nominal simple, comme le nompatiente

dans la phrase la patiente qui souffre d’un cancer [...].

Pour effectuer ces corrections, nous avons développé un script Perl multi-tâches, consacré

exclu-sivement au pré-traitement des résultats de Cordial. Le programme effectue les transformations

ci-dessus dans les différentes phrases concernées et ensuite retourne les phrases modifiées sous

forme de chaîne de données, séparées les unes des autres par un saut de ligne.

3.2.1.3 Extraction des patrons syntaxiques des verbes

De façon basique, l’extraction automatique du patron valenciel du verbe présenter, à partir de

la représentation syntaxique de la phrase proposée par Cordial à travers la figure 3.4 présentée

supra, consisterait à extraire tous les éléments qui portent le numéro de proposition 1 dans

la dixième colonne du tableau. Dans notre travail, cette tâche d’extraction automatique des

patrons verbaux à partir des résultats de Cordial a été accomplie grâce à un programme Perl

(extract_patronsynt.pl) rédigé à cet effet. Ce programme prend en entrée un fichier contenant

les données phrastiques alignées résultant de l’annotation Cordial, et pour chaque phrase traitée,

il renvoie le patron syntaxique correspondant. L’application du programmeextract_patronsynt.pl

à la phrase 4 fournirait un patron valenciel présenté de la façon suivante :

4) présenter|deux formes_s|aucun risque hémolityque_cod|Les deux formes n’ont présenté

aucun risque hémolityque.

Le pipe (|) est utilisé comme séparateur de champs. Chaque argument porte une étiquette

qui indique sa fonction syntaxique

4

, et à la fin du patron, la phrase exemple analysée est

4. Les différentes étiquettes sont :s : sujet ;cod: complément d’objet direct,coi: complément d’objet indirect.

fournie. Notre programme d’extraction des patrons valenciels extrait également les circonstants

des verbes. Toutefois, comme il a été souligné dès l’introduction de cette partie du travail,

ces éléments n’ont pas été analysés au même titre que les arguments. Par conséquent, bien

qu’ayant été extraits, les circonstants ne seront pas impliqués dans les prochaines étapes de

cette étude autant que les arguments. Ainsi, dans la section suivante qui porte sur l’annotation

sémantique, les analyses seront principalement focalisées sur les éléments qui sont indispensables

à la réalisation du sens du verbe (c.-à-d. les arguments), et à titre accessoire sur les éléments

circonstanciels qui sont eux aussi annotés sémantiquement.