Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Relation entre les différents corpus

Dans le document Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes (Page 144-147)

3.6 Comparaison des corpus : fonctionnement des collocations verbe-terme

4.1.1 Annotation syntaxique et extraction des schémas valenciels

4.1.1.3 Relation entre les différents corpus

Les données du tableau 4.2 décrit précédemment, couplées à la figure 4.3, permettent d’étudier

les rapports existant entre les quatre types de corpus à partir des occurrences des verbes. En

observant ces données, l’on perçoit un rapprochement apparent entre les corpus _pro et _etu,

et une distance entre _pro et _for. La plupart des verbes qui ont une fréquence élevée ou une

fréquence faible dans _pro ont un fonctionnement similaire dans _etu. Ces remarques sont

matérialisées dans la figure 4.3 qui décrit la courbe fréquentielle de l’ensemble des verbes du

corpus dans chaque variété de textes. La proximité entre les corpus _pro et _etuest symbolisée

par la similarité de leurs courbes. De même, l’écart existant entre _pro et _for (ainsi que_etu

et _for), qui constituent les deux extrémités du continuum de textes de notre corpus, est

capturé par la dissemblance des courbes qui décrivent leurs fréquences verbales : observons le

fonctionnement des verbesprovoquer, procurer etprésager. Ces constats ne sont pas surprenants,

d’autant plus que les textes des corpus_pro et _etu sont écrits par des experts, respectivement

pour des experts et futurs experts, tandis que les textes des forums sont en principe écrits par

des non-experts pour des non-experts.

Le corpus de textes de vulgarisation, en tant que corpus orienté vers le grand public, a quant

à lui un comportement spécial vis-à-vis du corpus_for, comparé à l’harmonie qui caractérise les

corpus des experts. Bien que sa courbe fréquentielle nous donne des indices par rapport à son

orientation, le contenu du tableau 4.2, de même que la figure 4.3, montre que le fonctionnement

des verbes du corpus _vulest très variable : les verbes sont tantôt proches de ceux des corpus

des experts, tantôt de ceux du corpus des non-experts. Cette irrégularité débouche sur la

catégorisation des verbes de_vul en deux classes :

— les verbes dont la fréquence se rapproche de celles des corpus _pro et _etu : observer,

recommander, relever, révéler, présager, etc.

— les verbes dont la fréquence se rapproche de celle du corpus_for:soigner, subir, conseiller,

évoquer, provoquer, etc.

Cette divergence suscite une question fondamentale en ce qui concerne le statut du corpus

vul^{, qui regroupe des textes écrits par des experts pour le grand public. Du point de vue des}

occurrences des verbes, ce corpus est-il proche des textes de forums (_for) ou des corpus pour

experts (_pro et _etu) ? Pour répondre à cette question, nous avons réalisé un test qui permet

de calculer la proximité entre les corpus_pro et _for, à partir des verbes et de leurs nombres

d’occurrences. Dans cette démarche, le corpus_vulest utilisé comme référence pour l’évaluation

de son degré de proximité avec les différents corpus qui lui sont comparés. Ce test est effectué

sous Excel, à partir de la liste des verbes et de leurs fréquences dans chaque corpus :

(différence entre les fréquences) par rapport à la fréquence dans le corpus de référence

(_vul). Cette distance est exprimée en valeur absolue.

— Les valeurs exprimant la distance des corpus par rapport à la référence sont ensuite

comparées de façon à déterminer, pour chaque verbe, quel corpus est le plus proche du

corpus de référence.

— Finalement, pour chaque corpus, la somme des verbes identifiés (par rapport à la référence)

comme étant proches soit de_pro, soit de _for, est calculée. Nous l’appelons proximité

et nous la définissons comme le nombre de verbes ayant un mode de fonctionnement

(fréquentiel) similaire dans le corpus de référence et dans le corpus qui lui est comparé.

Ainsi, pour connaître le degré de proximité entre _proet_for, il faudrait faire la différence

entre les valeurs qui représentent leursproximités respectives par rapport à la référence.

Les résultats de cette expérience sont présentés dans les tableaux 4.6 et 4.7. La ligne Nb vb

proches de _vul fournit le nombre de verbes (sur 2859 verbes que contient le corpus) qui

expriment la proximité entre le corpus de référence (_vul) et le corpus qui lui est comparé. Le

tableau 4.6 permet de comparer les corpus _pro et _for au corpus de réference, tandis que le

tableau 4.7 permet de comparer les corpus _etu et _for au corpus de réference.

Tab. 4.6 ^{– Proximité entre les}

cor-pus _pro, _for et _vul, en termes de

nombre de verbes (1).

Corpus _pro _for

Nb vb proches de vul 1693 817

Égalité 349

Total 2859

Tab. 4.7 ^{– Proximité entre les}

cor-pus _etu, _for et _vul, en termes de

nombre de verbes (2).

Corpus _etu _for

Nb vb proches de vul 1652 779

Égalité 428

Total 2859

Les chiffres obtenus confirment les observations faites précédemment, notamment en ce qui

concerne le haut degré de proximité que partagent les corpus _proet _etu. Au total, au moins

1207/2859 verbes ont un fonctionnement similaire dans les deux corpus. Les valeurs de la

proximité avec le corpus _vulsont très similaires : 1693 verbes pour _pro contre 1652 verbes

pour _etu, soit une différence de 41 verbes seulement.

Par contre, la distance est grande lorsqu’on compare _pro et _etu au_for, en prenant une

fois de plus le corpus_vulcomme référence. 817/2859 et 779/2859 expriment respectivement la

faible proximité entre_for-_proet entre_for-_etu, ce qui confirme l’analyse faite précédemment

sur la distance entre les corpus des experts (_pro et _etu) et le corpus _for. En ce qui concerne

le corpus de référence (_vul), les résultats du test révèlent qu’il est, de loin, plus proche du

corpus des experts que de celui des forums. Les chiffres confirment clairement cette proximité,

avec 1693 et 1652 verbes marquant le rapprochement entre _pro et _eturespectivement et le

corpus _vul, contre 817 et 779 avec le corpus _for.

Vu sous un certain angle, ce résultat pourrait paraître surprenant car l’on s’attendrait à ce

que le corpus_vulse rapproche du_for, étant donné que les textes de vulgarisation sont censés

s’adresser au grand public. En effet, le caractère spécial du corpus_vul réside dans le fait qu’il

regroupe des textes écrits par des experts pour le grand public. L’on s’attendrait à ce que ce

corpus soit une sorte de passerelle entre les principaux protagonistes du domaine médical mis

en avant dans ce travail de thèse, ce qui ne semble pas être le cas. Ce constat est néanmoins

très intéressant, car il met davantage en évidence l’intérêt d’une étude comme la nôtre, en

ce qu’elle permettrait d’établir un véritable pont pour une meilleure communication entre les

experts et les non-experts d’un domaine de spécialité.

Bien que n’étant pas négligeable, la fréquence à elle seule n’est pas un paramètre suffisant

pour tirer des conclusions définitives en ce qui concerne le fonctionnement du corpus_vulet ses

relations avec les autres corpus. De ce fait, cette question sera à nouveau abordée dans la section

suivante à la lumière des données textuelles, en l’occurrence les patrons syntaxico-sémantiques

des verbes qui décriront davantage le contenu de chaque type de corpus.

Dans le document Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes (Page 144-147)

Télécharger maintenant "Analyse contrastive de..."

Outline

Documents relatifs