• Aucun résultat trouvé

Alignement des pss avec des équivalents de la langue générale

3.5 Création de la ressource pour la simplification

3.5.1 Alignement des pss avec des équivalents de la langue générale

3.5.1.1 Sélection automatique des potentiels candidats équivalents

La détection des verbes candidats pour l’alignement est réalisée par un programme implémenté

à cet égard. Pour chaque patron syntaxico-sémantique retenu suite à la validation par les experts

(cf. section 3.4), ce programme effectue les tâches suivantes qui sont décrites dans la figure

3.7 :

1. récupération du lemme verbal du pss à simplifier,

2. recherche automatique de tous les lemmes verbaux qui instancient le pss à simplifier et

constitution des groupes de verbes : cette requête se fait à partir des données tirées du

corpus des forums principalement et éventuellement dans le corpus C3 (corpus grand

public). Pour chaque lemme verbal détecté, le nombre d’occurrences au sein du patron

à simplifier est calculé. Ces informations numériques sont extraites grâce à un système

automatique implémenté en Perl, qui s’applique sur la base de données de pssgénériques

acquis à l’étape 3.2.4.

3. sélection manuelle des équivalents verbaux pour la simplification (cf. section 3.5.1.2) :

à ce stade, notre compétence linguistique nous permet de trier la liste des candidats

équivalents/substituts et d’éliminer les intrus, pour ne retenir que celui ou ceux qui

expriment le mieux le sens véhiculé par le verbe simplifié dans lepss traité.

Les groupes générés par notre programme à l’étape 2 sont supposés contenir des verbes

qui partagent des liens sémantiques avec le verbe à simplifier. Par exemple, à l’étape 2 du

processus de simplification du pss statutsocial relève de maladie, les verbes avoir,

faire et souffrir figurent dans le groupe de verbes sélectionnés automatiquement comme

potentiels candidats équivalents de relever. Chacun de ces lemmes intervient au sein du pss

statutsocial_verbe_maladie et dans cet emploi, ils ont le sens de ‘subir’, ‘endurer’,

‘éprouver quelque chose’, de même que le verbe source (relever de). Il n’est cependant pas

exclu que dans les groupes générés par notre système de sélection automatique de verbes,

l’on retrouve également des formes n’ayant aucun rapprochement sémantique avec le verbe

à simplifier. C’est le cas des verbes craindre, éviter, fuir, échapper, etc. qui apparaissent eux

aussi dans le groupe de verbes retenus comme candidats pour la simplification derelever, au

même titre queavoir, faire, etsouffrir. Pourtant craindre, éviter et fuir n’ont aucun rapport de

similarité sémantique avecrelever lorsqu’ils instancient lepss statutsocial_verbe_maladie.

Ils véhiculent une autre idée (’avoir peur de’), qui correspond à une autre acception que la

construction sémantique impose à certains verbes qui l’instancient. Ce phénomène relève de la

productivité de la construction de base qui peut être instanciée par des verbes sémantiquement

hétérogènes, formant ainsi diverses sous-groupes sémantiques au sein d’un groupe de verbes

intervenant dans la même construction sémantique. Ce type d’ensembles hétérogènes exige une

phase de tri manuel qui correspond à l’étape numéro 3 du processus de simplification. Ce choix

manuel (décrit dans la section suivante) des verbes équivalents pour l’alignement requiert non

seulement des connaissances linguistiques mais également des connaissances encyclopédiques

qui permettent de faire la distinction entre les différentes acceptions des verbes intervenant au

sein d’un mêmepss qui relève du discours médical.

3.5.1.2 Filtrage manuel des candidats équivalents

Dans cette étape qui consiste en la conception de la ressource pour la simplification, nous

effectuons un tri manuel des candidats verbaux sélectionnés automatiquement (sur la base

des patrons sémantiques) comme équivalents des verbes pour l’alignement des pss. Ce tri,

qui permet de choisir les meilleurs équivalents pour l’alignement, s’appuie sur les données

fréquencielles des candidats équivalents dans les corpus non-experts et en grande partie sur

notre compétence linguistique qui permet d’éliminer les candidats intrus (sémantiquement

incompatibles) et de proposer un verbe équivalent lorsqu’aucun des candidats sélectionnés

automatiquement n’est adéquat pour l’alignement

27

.

À la base, l’alignement est axé sur le remplacement ou la substitution du verbe spécialisé par

un équivalent verbal compréhensible. Cet équivalent peut être un verbe, une périphrase verbale

continuer de + verbe, une locution verbale (faire partie de, mettre en place), etc. l’essentiel

étant que le sens du pss de départ soit maintenu.

• Le remplacement ou substitution : stasocial présente maladiestasocial

a/fait/souffre de/manifeste maladie.

Dans certains cas, cette règle de base peut être accompagnée d’autres techniques de

simplifica-tion, parmi lesquelles certaines, qui, comme la substitusimplifica-tion, sont très souvent utilisées dans les

travaux de la littérature portant sur la simplification de textes (Siddharthan, 2002 ; Brouwers

et al., 2012) :

• L’ajout : le pss résultant a un ou plusieurs constituants de plus ; il s’agit des actants qui

étaient implicitement présents dans le pss de départ.

produit chimique est administrémetier (médecin)donneproduit chimique

à stasocial (patient)

Ce médicament est administré en cas de thrombose veineuse.

Le médecin/on donne ce médicament au patient en cas de thrombose veineuse.

• La conversion : le verbe est remplacé par une périphrase verbale ou une autre forme

verbale.

pchimique (médicament) est poursuivi → (stasocial) continue de prendre

pchi-mique

Si le nadolol est poursuivi jusqu’à l’accouchement, en informer l’équipe de la maternité

pour lui permettre d’adapter la surveillance du nouveau-né.

Si la patiente continue de prendre le nadolol jusqu’à l’accouchement, en informer

l’équipe de la maternité [...].

Comme nous l’avons déja signalé, ces techniques de simplification s’appliquent de façon à

sauvegarder le sens de la construction de base. Notre méthode d’alignement despss est axée

sur la sémantique, de ce fait, elle ne prend pas en considération les différences syntaxiques,

grammaticales ou lexicales qui peuvent intervenir entre les patrons verbaux alignés. En d’autres

termes, les patrons sémantiques simplifiés peuvent être associés à des patrons syntaxiquement

distincts, l’essentiel étant que les verbes alignés soient sémantiquement substituables dans

le contexte proposé. En effectuant l’alignement des pss, des cas d’équivalence au delà de la

syntaxe, du lexique et de la grammaire ont été rencontrés :

27. Dans ce cas de figure, le travail s’est fait en collaboration avec des médecins dont le rôle était de nous aider à bien comprendre le sens des constructions de base afin de proposer les équivalents convenables adaptés au grand public.

• Au niveau de la syntaxe :

stasocial relève de maladiestasocial a/fait maladie ;

maladie s’accompagne demaladiemaladie entraîne maladie ;

• Au niveau grammatical et lexical :

stasocial est dépisté→ metier recherche maladie chez stasocial ;

produit chimiqueest administré→ metier administreproduit chimique à

stasocial.

Le groupe des verbes qui cadrent avec le pssà simplifier peut contenir un seul bon candidat

synonyme, équivalent pour la simplification ou plusieurs. Dans ce dernier cas de figure, les verbes

sont retenus comme équivalents si et seulement si ils ont le même sens que le verbe apparaissant

dans le patron sémantique à simplifier. En effet, parverbe synonyme ou bon candidat synonyme,

nous entendons un verbe qui a le même sens que le verbe du pss à simplifier, au-delà des

éventuelles différences grammaticales, syntaxiques, ou lexicales décrites supra. Si le groupe des

candidats verbaux tirés du corpus des forums ne propose aucun synonyme pour le verbe du

pssen cours de simplification, alors la recherche des équivalents est effectuée sur l’ensemble

des verbes automatiquement regroupés à partir des données du corpus grand public. On peut

constater que notre démarche d’alignement despss débouche sur des phénomènes similaires à

ceux qui sont généralement rencontrés dans les travaux de traduction. Pour unpss candidat à

la simplification, la recherche des équivalents débouche sur un ensemble constitué soit d’un

seul élément équivalent, soit de plusieurs éléments (synonymes), soit un ensemble vide (dans le

corpus des forums), auquel cas nous avons recours aux données tirées des textes de vulgarisation

(corpus grand public). Si ces données ne contiennent pas non plus de bon substitut pour le

verbe simplifié, alors nous en proposons un sur la base de notre compétence linguistique.

La démarche de simplification présentée ci-dessus est soutenue par des données résultant d’une

approche d’alignement reposant sur une analyse manuelle du fonctionnement des verbes dans les

différents corpus. En éffet, certaines expériences et travaux effectués sur les corpus, tout au long

de ce projet de thèse, ont permis de mettre en place des petits

28

groupes de synonymes (experts

vs. forums), à partir des tendances préférentielles qui caractérisent l’apparition des verbes dans

les différents corpus. Contrairement aux groupes de verbes sémantiquement hétérogènes extraits

automatiquement à l’étape précédente, les paires et/ou groupes de verbes dont nous parlons à

ce stade sont exclusivement synonymiques, car leur formation résulte d’un processus d’analyse

de corpus essentiellement manuel. Toutefois, il faut souligner que cette étude n’a pas porté sur

tout le corpus mais uniquement sur un ensemble réduit de verbes, d’où l’impossibilité de faire

reposer tout le processus de simplification despss sur cette approche. À l’issue de cette étude,

plusieurs constats ont été faits, parmi lesquels les cas suivants :

— Dans le corpus experts, le verbe régresser a moins de 20 occurrences dans le patron

fonction de l’organisme régresse, tandis qu’il en a 28 dans le corpus étudiants.

Pourtant, ce verbe est totalement absent du corpus forums (aucun patron) et n’a que 11

occurrences dans le corpus grand public. Cependant,

— Le synonymebaisser a plus de 100 occurrences dans le corpus des forums, dont la majorité

correspond au patron fonction de l’organisme/maladie baisse. Dans le corpus

des experts par contre, baisser n’a que 11 occurrences.

Ce type d’analyse nous a permis de mettre en place plusieurs groupes de verbes synonymes

(experts vs. non experts) exploités pendant la réalisation de la tâche de simplification. Ces groupes

de verbes synonymes constituent la principale ressource utilisée pour effectuer l’alignement des

pss.

Au terme du processus de simplification, les patrons verbaux spécialisés, qui ont été validés

par les experts, sont tous alignés avec des équivalents compréhensibles, provenant des textes

pour non-experts. Comme le montrent les exemples proposés, notre modèle de simplification

vise principalement la sémantique des pss, mais il passe par des modifications qui s’appliquent

au niveau de syntaxe et du lexique.