• Aucun résultat trouvé

3.6 Comparaison des corpus : fonctionnement des collocations verbe-terme

4.1.1 Annotation syntaxique et extraction des schémas valenciels

4.1.1.3 Relation entre les différents corpus

Les données du tableau 4.2 décrit précédemment, couplées à la figure 4.3, permettent d’étudier

les rapports existant entre les quatre types de corpus à partir des occurrences des verbes. En

observant ces données, l’on perçoit un rapprochement apparent entre les corpus pro et etu,

et une distance entre pro et for. La plupart des verbes qui ont une fréquence élevée ou une

fréquence faible dans pro ont un fonctionnement similaire dans etu. Ces remarques sont

matérialisées dans la figure 4.3 qui décrit la courbe fréquentielle de l’ensemble des verbes du

corpus dans chaque variété de textes. La proximité entre les corpus pro et etuest symbolisée

par la similarité de leurs courbes. De même, l’écart existant entre pro et for (ainsi queetu

et for), qui constituent les deux extrémités du continuum de textes de notre corpus, est

capturé par la dissemblance des courbes qui décrivent leurs fréquences verbales : observons le

fonctionnement des verbesprovoquer, procurer etprésager. Ces constats ne sont pas surprenants,

d’autant plus que les textes des corpuspro et etu sont écrits par des experts, respectivement

pour des experts et futurs experts, tandis que les textes des forums sont en principe écrits par

des non-experts pour des non-experts.

Le corpus de textes de vulgarisation, en tant que corpus orienté vers le grand public, a quant

à lui un comportement spécial vis-à-vis du corpusfor, comparé à l’harmonie qui caractérise les

corpus des experts. Bien que sa courbe fréquentielle nous donne des indices par rapport à son

orientation, le contenu du tableau 4.2, de même que la figure 4.3, montre que le fonctionnement

des verbes du corpus vulest très variable : les verbes sont tantôt proches de ceux des corpus

des experts, tantôt de ceux du corpus des non-experts. Cette irrégularité débouche sur la

catégorisation des verbes devul en deux classes :

— les verbes dont la fréquence se rapproche de celles des corpus pro et etu : observer,

recommander, relever, révéler, présager, etc.

— les verbes dont la fréquence se rapproche de celle du corpusfor:soigner, subir, conseiller,

évoquer, provoquer, etc.

Cette divergence suscite une question fondamentale en ce qui concerne le statut du corpus

vul, qui regroupe des textes écrits par des experts pour le grand public. Du point de vue des

occurrences des verbes, ce corpus est-il proche des textes de forums (for) ou des corpus pour

experts (pro et etu) ? Pour répondre à cette question, nous avons réalisé un test qui permet

de calculer la proximité entre les corpuspro et for, à partir des verbes et de leurs nombres

d’occurrences. Dans cette démarche, le corpusvulest utilisé comme référence pour l’évaluation

de son degré de proximité avec les différents corpus qui lui sont comparés. Ce test est effectué

sous Excel, à partir de la liste des verbes et de leurs fréquences dans chaque corpus :

(différence entre les fréquences) par rapport à la fréquence dans le corpus de référence

(vul). Cette distance est exprimée en valeur absolue.

— Les valeurs exprimant la distance des corpus par rapport à la référence sont ensuite

comparées de façon à déterminer, pour chaque verbe, quel corpus est le plus proche du

corpus de référence.

— Finalement, pour chaque corpus, la somme des verbes identifiés (par rapport à la référence)

comme étant proches soit depro, soit de for, est calculée. Nous l’appelons proximité

et nous la définissons comme le nombre de verbes ayant un mode de fonctionnement

(fréquentiel) similaire dans le corpus de référence et dans le corpus qui lui est comparé.

Ainsi, pour connaître le degré de proximité entre proetfor, il faudrait faire la différence

entre les valeurs qui représentent leursproximités respectives par rapport à la référence.

Les résultats de cette expérience sont présentés dans les tableaux 4.6 et 4.7. La ligne Nb vb

proches de vul fournit le nombre de verbes (sur 2859 verbes que contient le corpus) qui

expriment la proximité entre le corpus de référence (vul) et le corpus qui lui est comparé. Le

tableau 4.6 permet de comparer les corpus pro et for au corpus de réference, tandis que le

tableau 4.7 permet de comparer les corpus etu et for au corpus de réference.

Tab. 4.6 – Proximité entre les

cor-pus pro, for et vul, en termes de

nombre de verbes (1).

Corpus pro for

Nb vb proches de vul 1693 817

Égalité 349

Total 2859

Tab. 4.7 – Proximité entre les

cor-pus etu, for et vul, en termes de

nombre de verbes (2).

Corpus etu for

Nb vb proches de vul 1652 779

Égalité 428

Total 2859

Les chiffres obtenus confirment les observations faites précédemment, notamment en ce qui

concerne le haut degré de proximité que partagent les corpus proet etu. Au total, au moins

1207/2859 verbes ont un fonctionnement similaire dans les deux corpus. Les valeurs de la

proximité avec le corpus vulsont très similaires : 1693 verbes pour pro contre 1652 verbes

pour etu, soit une différence de 41 verbes seulement.

Par contre, la distance est grande lorsqu’on compare pro et etu aufor, en prenant une

fois de plus le corpusvulcomme référence. 817/2859 et 779/2859 expriment respectivement la

faible proximité entrefor-proet entrefor-etu, ce qui confirme l’analyse faite précédemment

sur la distance entre les corpus des experts (pro et etu) et le corpus for. En ce qui concerne

le corpus de référence (vul), les résultats du test révèlent qu’il est, de loin, plus proche du

corpus des experts que de celui des forums. Les chiffres confirment clairement cette proximité,

avec 1693 et 1652 verbes marquant le rapprochement entre pro et eturespectivement et le

corpus vul, contre 817 et 779 avec le corpus for.

Vu sous un certain angle, ce résultat pourrait paraître surprenant car l’on s’attendrait à ce

que le corpusvulse rapproche dufor, étant donné que les textes de vulgarisation sont censés

s’adresser au grand public. En effet, le caractère spécial du corpusvul réside dans le fait qu’il

regroupe des textes écrits par des experts pour le grand public. L’on s’attendrait à ce que ce

corpus soit une sorte de passerelle entre les principaux protagonistes du domaine médical mis

en avant dans ce travail de thèse, ce qui ne semble pas être le cas. Ce constat est néanmoins

très intéressant, car il met davantage en évidence l’intérêt d’une étude comme la nôtre, en

ce qu’elle permettrait d’établir un véritable pont pour une meilleure communication entre les

experts et les non-experts d’un domaine de spécialité.

Bien que n’étant pas négligeable, la fréquence à elle seule n’est pas un paramètre suffisant

pour tirer des conclusions définitives en ce qui concerne le fonctionnement du corpusvulet ses

relations avec les autres corpus. De ce fait, cette question sera à nouveau abordée dans la section

suivante à la lumière des données textuelles, en l’occurrence les patrons syntaxico-sémantiques

des verbes qui décriront davantage le contenu de chaque type de corpus.