3.6 Comparaison des corpus : fonctionnement des collocations verbe-terme
4.1.1 Annotation syntaxique et extraction des schémas valenciels
4.1.1.3 Relation entre les différents corpus
Les données du tableau 4.2 décrit précédemment, couplées à la figure 4.3, permettent d’étudier
les rapports existant entre les quatre types de corpus à partir des occurrences des verbes. En
observant ces données, l’on perçoit un rapprochement apparent entre les corpus pro et etu,
et une distance entre pro et for. La plupart des verbes qui ont une fréquence élevée ou une
fréquence faible dans pro ont un fonctionnement similaire dans etu. Ces remarques sont
matérialisées dans la figure 4.3 qui décrit la courbe fréquentielle de l’ensemble des verbes du
corpus dans chaque variété de textes. La proximité entre les corpus pro et etuest symbolisée
par la similarité de leurs courbes. De même, l’écart existant entre pro et for (ainsi queetu
et for), qui constituent les deux extrémités du continuum de textes de notre corpus, est
capturé par la dissemblance des courbes qui décrivent leurs fréquences verbales : observons le
fonctionnement des verbesprovoquer, procurer etprésager. Ces constats ne sont pas surprenants,
d’autant plus que les textes des corpuspro et etu sont écrits par des experts, respectivement
pour des experts et futurs experts, tandis que les textes des forums sont en principe écrits par
des non-experts pour des non-experts.
Le corpus de textes de vulgarisation, en tant que corpus orienté vers le grand public, a quant
à lui un comportement spécial vis-à-vis du corpusfor, comparé à l’harmonie qui caractérise les
corpus des experts. Bien que sa courbe fréquentielle nous donne des indices par rapport à son
orientation, le contenu du tableau 4.2, de même que la figure 4.3, montre que le fonctionnement
des verbes du corpus vulest très variable : les verbes sont tantôt proches de ceux des corpus
des experts, tantôt de ceux du corpus des non-experts. Cette irrégularité débouche sur la
catégorisation des verbes devul en deux classes :
— les verbes dont la fréquence se rapproche de celles des corpus pro et etu : observer,
recommander, relever, révéler, présager, etc.
— les verbes dont la fréquence se rapproche de celle du corpusfor:soigner, subir, conseiller,
évoquer, provoquer, etc.
Cette divergence suscite une question fondamentale en ce qui concerne le statut du corpus
vul, qui regroupe des textes écrits par des experts pour le grand public. Du point de vue des
occurrences des verbes, ce corpus est-il proche des textes de forums (for) ou des corpus pour
experts (pro et etu) ? Pour répondre à cette question, nous avons réalisé un test qui permet
de calculer la proximité entre les corpuspro et for, à partir des verbes et de leurs nombres
d’occurrences. Dans cette démarche, le corpusvulest utilisé comme référence pour l’évaluation
de son degré de proximité avec les différents corpus qui lui sont comparés. Ce test est effectué
sous Excel, à partir de la liste des verbes et de leurs fréquences dans chaque corpus :
(différence entre les fréquences) par rapport à la fréquence dans le corpus de référence
(vul). Cette distance est exprimée en valeur absolue.
— Les valeurs exprimant la distance des corpus par rapport à la référence sont ensuite
comparées de façon à déterminer, pour chaque verbe, quel corpus est le plus proche du
corpus de référence.
— Finalement, pour chaque corpus, la somme des verbes identifiés (par rapport à la référence)
comme étant proches soit depro, soit de for, est calculée. Nous l’appelons proximité
et nous la définissons comme le nombre de verbes ayant un mode de fonctionnement
(fréquentiel) similaire dans le corpus de référence et dans le corpus qui lui est comparé.
Ainsi, pour connaître le degré de proximité entre proetfor, il faudrait faire la différence
entre les valeurs qui représentent leursproximités respectives par rapport à la référence.
Les résultats de cette expérience sont présentés dans les tableaux 4.6 et 4.7. La ligne Nb vb
proches de vul fournit le nombre de verbes (sur 2859 verbes que contient le corpus) qui
expriment la proximité entre le corpus de référence (vul) et le corpus qui lui est comparé. Le
tableau 4.6 permet de comparer les corpus pro et for au corpus de réference, tandis que le
tableau 4.7 permet de comparer les corpus etu et for au corpus de réference.
Tab. 4.6 – Proximité entre les
cor-pus pro, for et vul, en termes de
nombre de verbes (1).
Corpus pro for
Nb vb proches de vul 1693 817
Égalité 349
Total 2859
Tab. 4.7 – Proximité entre les
cor-pus etu, for et vul, en termes de
nombre de verbes (2).
Corpus etu for
Nb vb proches de vul 1652 779
Égalité 428
Total 2859
Les chiffres obtenus confirment les observations faites précédemment, notamment en ce qui
concerne le haut degré de proximité que partagent les corpus proet etu. Au total, au moins
1207/2859 verbes ont un fonctionnement similaire dans les deux corpus. Les valeurs de la
proximité avec le corpus vulsont très similaires : 1693 verbes pour pro contre 1652 verbes
pour etu, soit une différence de 41 verbes seulement.
Par contre, la distance est grande lorsqu’on compare pro et etu aufor, en prenant une
fois de plus le corpusvulcomme référence. 817/2859 et 779/2859 expriment respectivement la
faible proximité entrefor-proet entrefor-etu, ce qui confirme l’analyse faite précédemment
sur la distance entre les corpus des experts (pro et etu) et le corpus for. En ce qui concerne
le corpus de référence (vul), les résultats du test révèlent qu’il est, de loin, plus proche du
corpus des experts que de celui des forums. Les chiffres confirment clairement cette proximité,
avec 1693 et 1652 verbes marquant le rapprochement entre pro et eturespectivement et le
corpus vul, contre 817 et 779 avec le corpus for.
Vu sous un certain angle, ce résultat pourrait paraître surprenant car l’on s’attendrait à ce
que le corpusvulse rapproche dufor, étant donné que les textes de vulgarisation sont censés
s’adresser au grand public. En effet, le caractère spécial du corpusvul réside dans le fait qu’il
regroupe des textes écrits par des experts pour le grand public. L’on s’attendrait à ce que ce
corpus soit une sorte de passerelle entre les principaux protagonistes du domaine médical mis
en avant dans ce travail de thèse, ce qui ne semble pas être le cas. Ce constat est néanmoins
très intéressant, car il met davantage en évidence l’intérêt d’une étude comme la nôtre, en
ce qu’elle permettrait d’établir un véritable pont pour une meilleure communication entre les
experts et les non-experts d’un domaine de spécialité.
Bien que n’étant pas négligeable, la fréquence à elle seule n’est pas un paramètre suffisant
pour tirer des conclusions définitives en ce qui concerne le fonctionnement du corpusvulet ses
relations avec les autres corpus. De ce fait, cette question sera à nouveau abordée dans la section
suivante à la lumière des données textuelles, en l’occurrence les patrons syntaxico-sémantiques
des verbes qui décriront davantage le contenu de chaque type de corpus.
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 144-147)