3.5 Création de la ressource pour la simplification
3.5.1 Alignement des pss avec des équivalents de la langue générale
3.5.1.1 Sélection automatique des potentiels candidats équivalents
La détection des verbes candidats pour l’alignement est réalisée par un programme implémenté
à cet égard. Pour chaque patron syntaxico-sémantique retenu suite à la validation par les experts
(cf. section 3.4), ce programme effectue les tâches suivantes qui sont décrites dans la figure
3.7 :
1. récupération du lemme verbal du pss à simplifier,
2. recherche automatique de tous les lemmes verbaux qui instancient le pss à simplifier et
constitution des groupes de verbes : cette requête se fait à partir des données tirées du
corpus des forums principalement et éventuellement dans le corpus C3 (corpus grand
public). Pour chaque lemme verbal détecté, le nombre d’occurrences au sein du patron
à simplifier est calculé. Ces informations numériques sont extraites grâce à un système
automatique implémenté en Perl, qui s’applique sur la base de données de pssgénériques
acquis à l’étape 3.2.4.
3. sélection manuelle des équivalents verbaux pour la simplification (cf. section 3.5.1.2) :
à ce stade, notre compétence linguistique nous permet de trier la liste des candidats
équivalents/substituts et d’éliminer les intrus, pour ne retenir que celui ou ceux qui
expriment le mieux le sens véhiculé par le verbe simplifié dans lepss traité.
Les groupes générés par notre programme à l’étape 2 sont supposés contenir des verbes
qui partagent des liens sémantiques avec le verbe à simplifier. Par exemple, à l’étape 2 du
processus de simplification du pss statutsocial relève de maladie, les verbes avoir,
faire et souffrir figurent dans le groupe de verbes sélectionnés automatiquement comme
potentiels candidats équivalents de relever. Chacun de ces lemmes intervient au sein du pss
statutsocial_verbe_maladie et dans cet emploi, ils ont le sens de ‘subir’, ‘endurer’,
‘éprouver quelque chose’, de même que le verbe source (relever de). Il n’est cependant pas
exclu que dans les groupes générés par notre système de sélection automatique de verbes,
l’on retrouve également des formes n’ayant aucun rapprochement sémantique avec le verbe
à simplifier. C’est le cas des verbes craindre, éviter, fuir, échapper, etc. qui apparaissent eux
aussi dans le groupe de verbes retenus comme candidats pour la simplification derelever, au
même titre queavoir, faire, etsouffrir. Pourtant craindre, éviter et fuir n’ont aucun rapport de
similarité sémantique avecrelever lorsqu’ils instancient lepss statutsocial_verbe_maladie.
Ils véhiculent une autre idée (’avoir peur de’), qui correspond à une autre acception que la
construction sémantique impose à certains verbes qui l’instancient. Ce phénomène relève de la
productivité de la construction de base qui peut être instanciée par des verbes sémantiquement
hétérogènes, formant ainsi diverses sous-groupes sémantiques au sein d’un groupe de verbes
intervenant dans la même construction sémantique. Ce type d’ensembles hétérogènes exige une
phase de tri manuel qui correspond à l’étape numéro 3 du processus de simplification. Ce choix
manuel (décrit dans la section suivante) des verbes équivalents pour l’alignement requiert non
seulement des connaissances linguistiques mais également des connaissances encyclopédiques
qui permettent de faire la distinction entre les différentes acceptions des verbes intervenant au
sein d’un mêmepss qui relève du discours médical.
3.5.1.2 Filtrage manuel des candidats équivalents
Dans cette étape qui consiste en la conception de la ressource pour la simplification, nous
effectuons un tri manuel des candidats verbaux sélectionnés automatiquement (sur la base
des patrons sémantiques) comme équivalents des verbes pour l’alignement des pss. Ce tri,
qui permet de choisir les meilleurs équivalents pour l’alignement, s’appuie sur les données
fréquencielles des candidats équivalents dans les corpus non-experts et en grande partie sur
notre compétence linguistique qui permet d’éliminer les candidats intrus (sémantiquement
incompatibles) et de proposer un verbe équivalent lorsqu’aucun des candidats sélectionnés
automatiquement n’est adéquat pour l’alignement
27.
À la base, l’alignement est axé sur le remplacement ou la substitution du verbe spécialisé par
un équivalent verbal compréhensible. Cet équivalent peut être un verbe, une périphrase verbale
continuer de + verbe, une locution verbale (faire partie de, mettre en place), etc. l’essentiel
étant que le sens du pss de départ soit maintenu.
• Le remplacement ou substitution : stasocial présente maladie → stasocial
a/fait/souffre de/manifeste maladie.
Dans certains cas, cette règle de base peut être accompagnée d’autres techniques de
simplifica-tion, parmi lesquelles certaines, qui, comme la substitusimplifica-tion, sont très souvent utilisées dans les
travaux de la littérature portant sur la simplification de textes (Siddharthan, 2002 ; Brouwers
et al., 2012) :
• L’ajout : le pss résultant a un ou plusieurs constituants de plus ; il s’agit des actants qui
étaient implicitement présents dans le pss de départ.
produit chimique est administré→metier (médecin)donneproduit chimique
à stasocial (patient)
Ce médicament est administré en cas de thrombose veineuse.
→ Le médecin/on donne ce médicament au patient en cas de thrombose veineuse.
• La conversion : le verbe est remplacé par une périphrase verbale ou une autre forme
verbale.
pchimique (médicament) est poursuivi → (stasocial) continue de prendre
pchi-mique
Si le nadolol est poursuivi jusqu’à l’accouchement, en informer l’équipe de la maternité
pour lui permettre d’adapter la surveillance du nouveau-né.
→ Si la patiente continue de prendre le nadolol jusqu’à l’accouchement, en informer
l’équipe de la maternité [...].
Comme nous l’avons déja signalé, ces techniques de simplification s’appliquent de façon à
sauvegarder le sens de la construction de base. Notre méthode d’alignement despss est axée
sur la sémantique, de ce fait, elle ne prend pas en considération les différences syntaxiques,
grammaticales ou lexicales qui peuvent intervenir entre les patrons verbaux alignés. En d’autres
termes, les patrons sémantiques simplifiés peuvent être associés à des patrons syntaxiquement
distincts, l’essentiel étant que les verbes alignés soient sémantiquement substituables dans
le contexte proposé. En effectuant l’alignement des pss, des cas d’équivalence au delà de la
syntaxe, du lexique et de la grammaire ont été rencontrés :
27. Dans ce cas de figure, le travail s’est fait en collaboration avec des médecins dont le rôle était de nous aider à bien comprendre le sens des constructions de base afin de proposer les équivalents convenables adaptés au grand public.
• Au niveau de la syntaxe :
— stasocial relève de maladie → stasocial a/fait maladie ;
— maladie s’accompagne demaladie →maladie entraîne maladie ;
• Au niveau grammatical et lexical :
— stasocial est dépisté→ metier recherche maladie chez stasocial ;
— produit chimiqueest administré→ metier administreproduit chimique à
stasocial.
Le groupe des verbes qui cadrent avec le pssà simplifier peut contenir un seul bon candidat
synonyme, équivalent pour la simplification ou plusieurs. Dans ce dernier cas de figure, les verbes
sont retenus comme équivalents si et seulement si ils ont le même sens que le verbe apparaissant
dans le patron sémantique à simplifier. En effet, parverbe synonyme ou bon candidat synonyme,
nous entendons un verbe qui a le même sens que le verbe du pss à simplifier, au-delà des
éventuelles différences grammaticales, syntaxiques, ou lexicales décrites supra. Si le groupe des
candidats verbaux tirés du corpus des forums ne propose aucun synonyme pour le verbe du
pssen cours de simplification, alors la recherche des équivalents est effectuée sur l’ensemble
des verbes automatiquement regroupés à partir des données du corpus grand public. On peut
constater que notre démarche d’alignement despss débouche sur des phénomènes similaires à
ceux qui sont généralement rencontrés dans les travaux de traduction. Pour unpss candidat à
la simplification, la recherche des équivalents débouche sur un ensemble constitué soit d’un
seul élément équivalent, soit de plusieurs éléments (synonymes), soit un ensemble vide (dans le
corpus des forums), auquel cas nous avons recours aux données tirées des textes de vulgarisation
(corpus grand public). Si ces données ne contiennent pas non plus de bon substitut pour le
verbe simplifié, alors nous en proposons un sur la base de notre compétence linguistique.
La démarche de simplification présentée ci-dessus est soutenue par des données résultant d’une
approche d’alignement reposant sur une analyse manuelle du fonctionnement des verbes dans les
différents corpus. En éffet, certaines expériences et travaux effectués sur les corpus, tout au long
de ce projet de thèse, ont permis de mettre en place des petits
28groupes de synonymes (experts
vs. forums), à partir des tendances préférentielles qui caractérisent l’apparition des verbes dans
les différents corpus. Contrairement aux groupes de verbes sémantiquement hétérogènes extraits
automatiquement à l’étape précédente, les paires et/ou groupes de verbes dont nous parlons à
ce stade sont exclusivement synonymiques, car leur formation résulte d’un processus d’analyse
de corpus essentiellement manuel. Toutefois, il faut souligner que cette étude n’a pas porté sur
tout le corpus mais uniquement sur un ensemble réduit de verbes, d’où l’impossibilité de faire
reposer tout le processus de simplification despss sur cette approche. À l’issue de cette étude,
plusieurs constats ont été faits, parmi lesquels les cas suivants :
— Dans le corpus experts, le verbe régresser a moins de 20 occurrences dans le patron
fonction de l’organisme régresse, tandis qu’il en a 28 dans le corpus étudiants.
Pourtant, ce verbe est totalement absent du corpus forums (aucun patron) et n’a que 11
occurrences dans le corpus grand public. Cependant,
— Le synonymebaisser a plus de 100 occurrences dans le corpus des forums, dont la majorité
correspond au patron fonction de l’organisme/maladie baisse. Dans le corpus
des experts par contre, baisser n’a que 11 occurrences.
Ce type d’analyse nous a permis de mettre en place plusieurs groupes de verbes synonymes
(experts vs. non experts) exploités pendant la réalisation de la tâche de simplification. Ces groupes
de verbes synonymes constituent la principale ressource utilisée pour effectuer l’alignement des
pss.
Au terme du processus de simplification, les patrons verbaux spécialisés, qui ont été validés
par les experts, sont tous alignés avec des équivalents compréhensibles, provenant des textes
pour non-experts. Comme le montrent les exemples proposés, notre modèle de simplification
vise principalement la sémantique des pss, mais il passe par des modifications qui s’appliquent
au niveau de syntaxe et du lexique.
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 119-123)