3.2 Annotation des corpus et acquisition des pss
3.2.1 Annotation syntaxique et extraction des patrons valenciels
3.2.1.1 Etiquetage syntaxique des corpus avec Cordial
L’annotation syntaxique des corpus a été effectuée grâce à l’analyseur syntaxique Cordial. Tel
que décrit dans la section 2.2.1 du chapitre 2, cet outil propose une analyse dépendancielle des
constituants de la phrase, basée sur la syntaxe. Cette tâche permet de repérer le noyau verbal,
les arguments qui en dépendent, ainsi que les circonstants qui lui sont rattachés. Ces dernières
informations (verbes avec leurs arguments et les circonstants) constituent les données de base
à extraire pour la suite de notre travail.
Les textes précédemment pré-traités et convertis en UTF-16 sont soumis à une analyse
syntaxique par Cordial. Sous Linux, ce logiciel se présente sous la forme d’un programme Shell
qui se lance en ligne de commande. L’outil opère une segmentation en phrases des textes, afin
de les traiter. En effet, l’unité de travail de Cordial est la phrase
2qu’il analyse tel qu’expliqué
dans la section 2.2.1 du chapitre 2. Les résultats de l’analyse sont retournés dans des fichiers
portant l’extension .etq. Il sont structurés comme l’indique l’image 3.4
3reprise ci-dessous,
pour chaque phrase, le logiciel Cordial retourne la phrase elle-même, suivie de la représentation
de l’analyse de cette phrase sous un format tabulé comprenant treize champs : 1) numéro
identificateur du mot dans la phrase, 2) offset_begin ou numéro identificateur du début de la
chaîne de caractère, 3)offset_end ou numéro identificateur de fin de chaîne, 4) forme du mot,
5) lemme, 6) catégorie grammaticale, 7) propriété morpho-syntaxique, 8) syntagme, 9) fonction
grammaticale, 10) numéro identifiant de proposition, 11) verbe pivot, 12) type de proposition,
et 13) sens du mot.
Fig. 3.4 – Exemple d’annotation Cordial.
Parmi ces champs, il y en a un qui identifie le/les verbe(s) pivot(s) de la phrase, c’est-à-dire les
verbes têtes (selon la terminologie de Tesnière), auxquels les autres constituants de la phrase
sont subordonnés. Pour chaque verbe tête, Cordial établit et matérialise des liens de dépendance
avec ses subordonnés (c.-à-d. les arguments) et circonstants. Pour ce faire, il utilise une palette
d’étiquettes ou codes décrits dans l’annexe A.1.
2. Ce paramètre représente un point commun entre la méthode de travail de Cordial et la nôtre. 3. Cette image a été présentée et décrite à la section 2.2.1 du chapitre 2.
Les étiquettes de Cordial jouent un rôle important dans la tâche d’extraction automatique
des patrons. En effet, elles servent d’indicateurs pour le repérage des différents verbes, ainsi que
leurs arguments et circonstants. En guise d’illustration, reprenons la phrase exemple donnée
dans le chapitre précédent lors de la description des annotations de Cordial (cf. chapitre 2,
section 2.2.1) :
1) Les deux formes n’ont présenté aucun risque hémolityque.
D’après la figure 3.4, le verbeprésenter a été annoté par Cordial comme étant le pivot de la
phrase 1. Il est identifié par le numéro 1 (colonne 10). Ce numéro est ensuite associé à tous les
arguments (les deux formes et aucun risque hémolityque) qui se rapportent à lui, indiquant
ainsi la relation de dépendance qui les lie.
3.2.1.2 Pré-traitement des résultats de Cordial
Avant de passer à l’extraction des patrons syntaxico-sémantiques des verbes, les résultats de
l’annotation par Cordial subissent une phase de pré-traitement qui permet de faciliter l’extraction
automatique des patrons syntaxiques des verbes :
— conversion et adaptation du format de sortie des résultats de Cordial, afin de le rendre
facilement manipulable lors des extractions automatiques. Tel que cela apparaît sur
l’image 3.4, pour chaque mot de la phrase, Cordial fournit diverses informations qui
s’étendent sur une ligne, séparés les unes des autres par une tabulation. Pour faciliter le
processus d’extraction automatique des patrons syntaxiques, il était nécessaire d’aligner
les séquences de données caractéristiques des mots d’une même phrase, les unes après les
autres, de façon à obtenir une seule chaîne d’informations pour chaque phrase annotée.
Toutes les phrases annotées ont subi cette modification.
— restitution du verbe pivot dans les phrases où le verbe est conjugué à une forme composée
(avec ou sans verbe modal) : cette tâche permet de rétablir certaines relations de
dépendance (verbes-arguments) perdues pendant le processus d’annotation syntaxique.
2) En cas de confirmation du diagnostic, l’anticoagulation sera poursuivie.
3) Lors de la consultation d’anesthésie, une note d’information écrite peut être remise
au patient afin de renforcer l’information orale et d’en assurer la cohérence.
Selon Cordial, la phrase de l’exemple 2 a pour verbe pivot (c.-à-d. verbe principal) être,
ce qui est grammaticalement acceptable. Mais pour le succès de notre méthode d’analyse,
l’idéal serait d’avoir le verbe poursuivre comme pivot. Dans un tel cas, le rôle du script
de pré-traitement est de restituer poursuivre en tant que verbe pivot, en le substituant au
verbe être partout où ce dernier est mentionné comme pivot. Il en est de même pour la
phrase de l’exemple 3, où pouvoir et remettre sont, selon Cordial, les deux verbes pivots :
une note d’information écrite etêtre sont respectivement sujet et codde pouvoir, tandis
que le verbe remettre, pivot de la seconde proposition, a pour coi le groupe nominal
au patient. Cette analyse est partiellement erronée : si pouvoir est considéré comme un
semi-auxiliaire et de ce fait comme un verbe autonome, alors, s’il a uncod, ce serait la
structure infinitive être remis au patient. Une note d’information serait dans ce cas le
sujet syntaxique depouvoir et l’objet (sémantique) de remettre (cf. à la voix active : X
remet / peut remettre une note d’information au patient). Grâce à notre programme de
prétraitement des résultats de Cordial, le résultat de l’analyse syntaxique de cette phrase
est le suivant : verbe pivot : remettre, sujet :une note d’information,coi : au patient.
Au total 18 231 phrases ont été corrigées dans l’ensemble du corpus : 5922 dans le pro,
5346 dans leetu, 3901 dans le vul et 3062 dans lefor.
— restitution des antécédents des phrases relatives. Cette tâche ne fonctionne que pour les
antécédents qui sont représentés par un groupe nominal simple, comme le nompatiente
dans la phrase la patiente qui souffre d’un cancer [...].
Pour effectuer ces corrections, nous avons développé un script Perl multi-tâches, consacré
exclu-sivement au pré-traitement des résultats de Cordial. Le programme effectue les transformations
ci-dessus dans les différentes phrases concernées et ensuite retourne les phrases modifiées sous
forme de chaîne de données, séparées les unes des autres par un saut de ligne.
3.2.1.3 Extraction des patrons syntaxiques des verbes
De façon basique, l’extraction automatique du patron valenciel du verbe présenter, à partir de
la représentation syntaxique de la phrase proposée par Cordial à travers la figure 3.4 présentée
supra, consisterait à extraire tous les éléments qui portent le numéro de proposition 1 dans
la dixième colonne du tableau. Dans notre travail, cette tâche d’extraction automatique des
patrons verbaux à partir des résultats de Cordial a été accomplie grâce à un programme Perl
(extract_patronsynt.pl) rédigé à cet effet. Ce programme prend en entrée un fichier contenant
les données phrastiques alignées résultant de l’annotation Cordial, et pour chaque phrase traitée,
il renvoie le patron syntaxique correspondant. L’application du programmeextract_patronsynt.pl
à la phrase 4 fournirait un patron valenciel présenté de la façon suivante :
4) présenter|deux formes_s|aucun risque hémolityque_cod|Les deux formes n’ont présenté
aucun risque hémolityque.
Le pipe (|) est utilisé comme séparateur de champs. Chaque argument porte une étiquette
qui indique sa fonction syntaxique
4, et à la fin du patron, la phrase exemple analysée est
4. Les différentes étiquettes sont :s : sujet ;cod: complément d’objet direct,coi: complément d’objet indirect.
fournie. Notre programme d’extraction des patrons valenciels extrait également les circonstants
des verbes. Toutefois, comme il a été souligné dès l’introduction de cette partie du travail,
ces éléments n’ont pas été analysés au même titre que les arguments. Par conséquent, bien
qu’ayant été extraits, les circonstants ne seront pas impliqués dans les prochaines étapes de
cette étude autant que les arguments. Ainsi, dans la section suivante qui porte sur l’annotation
sémantique, les analyses seront principalement focalisées sur les éléments qui sont indispensables
à la réalisation du sens du verbe (c.-à-d. les arguments), et à titre accessoire sur les éléments
circonstanciels qui sont eux aussi annotés sémantiquement.
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 85-89)