Deux types de requêtes - La méthodologie de la constitution du corpus d'étude

3.4. Modèle collocationnel de Hausmann (1989)

5. MÉTHODOLOGIE ET CORPUS

5.5. La méthodologie de la constitution du corpus d'étude

5.5.2. Deux types de requêtes

Comme signalé supra, le corpus Emolex est étiqueté syntaxiquement. Cet étiquetage attribue à chaque « lemme », « forme » et à chaque partie du discours non seulement la catégorie (nom, verbe, causalité, manifestation, etc.), mais également une déscription syntaxique bien précise (Habert 2005)²²⁴. Ceci permet d’obtenir des informations sur les collocatifs du mot pivot et facilite l’identification de différents phénomènes linguistiques, comme notre patron syntaxique Vcaus + N_émot, par exemple. La requête s'effectue de deux manières:

 par lexie (qui mène vers l'analyse du profil combinatoire du mot pivot choisi):

Figure 16: La requête par lexie (le verbe provoquer)

 Par la combinaison. Ceci demande l'introduction d'un (ou plus) élément(s) supplémentaire(s) à l'aide de l'icône « + » attachée à la fenêtre « Pivots ». Cette méthode vise uniquement les relations entre les éléments indiqués.

224 « L'annotation consiste à ajouter de l'information (une interprétation stabilisée) aux données langagières[…] » (Habert 2005).

Figure 17: La requête par la combinaison provoquer (V) + admiration (N) + souvent (Adv) (pivots multiples)

Dans les deux cas, il faut indiquer pour le nom-pivot s’il s’agit d’un « lemme » ou d’une « forme ». Cette option est utile si l'on procède à une analyse fine des formes de lexie, par exemple, le verbe à l'infinitif, sa catégorie grammaticale (nom [N], verbe [V], adverbe [ADV]) et, si c'est le cas, le type de relation souhaitée (Verbe-COD, Verbe-Sujet, Nom-Modifieur, etc.). Or, pour mener une requête générale, cette dernière spécification n’est pas forcément nécessaire.

Pour accéder aux résultats, il faut cliquer sur les boutons: « Concordances » ou « Lexicogrammes » se trouvant en bas de la page. Les collocatifs, recensés par le logiciel de façon automatique, s’affichaient soit sous la forme de concordances (Tableau 10 ci-dessous), soit sous la forme de lexicogrammes (cf. Tableau 12, plus loin dans cette section). Voici un extrait des concordances pour le N_surprise. Les énoncés sont présentés au format KWIC:

Comme nous pouvons le voir, le programme prend en compte l’ensemble du contenu de la phrase dans laquelle apparait le mot pivot. Si nous voulons observer uniquement le contexte gauche (ou celui droit), on peut le faire en cliquant sur les boutons: « Contexte gauche » et « Contexte droit ». En cliquant sur l’identifiant de la phrase (antéposé), il est possible d’accéder au contexte plus large, c’est-à-dire, de voir le contexte immédiat de la phrase et toutes les informations concernant son origine: titre, auteur, date de parution, etc. Ceci nous a servie aussi bien à affiner le contexte de la collocation analysée qu'à pouvoir identifier la source du texte grâce aux métadonnées:

Figure 18: Le contexte immédiat de la phrase 149921

Il est possible aussi de visualiser l'énoncé sous la forme d’un schéma arborescent annoté syntaxiquement. Ceci nous a été fort utile lors des analyses syntaxiques des structures comportant notre patron Vcaus + N_émot.

L’annotation syntaxique peut apparaitre également sous la forme d’un tableau:

Tableau 11: Tableau d‘annotation syntaxique du mot pivot surprise

L'option « Lexicogrammes » fait apparaître les collocatifs sous la forme de lexicogrammes (Tableau 12 ci-dessous). Voici un extrait du lexicogramme visualisant le profil combinatoire du N_plaisir. Les collocatifs peuvent être classés par ordre de fréquence croissante/décroissante ou par ordre alphabétique.

Tableau 12: Extrait du lexicogramme pour le mot pivot lemmatisé plaisir (tous types de relations confondus)

Ce lexicogramme regroupe de nombreux paramètres: la première colonne (I1) indique le mot pivot (ici: le N_plaisir), la deuxième (I2) - la liste de ses collocatifs, dont la classe grammaticale (V, Adv, Adj, Det, etc.) est indiquée par la troisième colonne (f.deprels). La quatrième colonne (f) correspond à la fréquence de la cooccurrence, tandis que les deux colonnes suivantes, (f1) et (f2), représentent, respectivement, la fréquence absolue du mot pivot et celle de son collocatif. Les deux dernières colonnes correspondent au paramètre

rang de la cooccurrence dans le lexicogramme). Ce dernier indice permet de classer les types de combinaison par degré d’attirance225

. Or, dans le cas de notre étude, la requête générale, décrite ci-dessus, s'est avérée peu utile. Elle générait beaucoup trop de « bruits »: sur les 14 associations du N_plaisir, les seules doubler + plaisir, durer + plaisir et donner + plaisir correspondaient à l'association V + N (elles sont entourées en jaune, cf. Tableau 12 ci-dessus). Les autres associations ne sont pas pertinentes pour notre étude.

Pour éviter ce genre de « bruits », dans notre nouvelle requête nous avons indiqué le type de relation: « Verbe-COD », ce qui constitué en une enquête beaucoup plus restreinte. Cette fois le programme a pris en compte uniquement les collocatifs verbaux du N_plaisir:

Tableau 13: Extrait du lexicogramme pour le nom lemmatisé plaisir pris en tant que COD

Le lexicogramme est interactif: en cliquant sur le collocatif (2^ème colonne) on peut voir les détails de cette cooccurrence car cette fonction renvoie directement aux contextes. Observons, à titre d'exemple, les contextes de l'association donner + plaisir:

Tableau 14: Visualisation, en concordancier, de l'association donner + plaisir

Ces deux modes de requête, décrits ci-dessus, sont faciles à manier et ergonomiques. Tout particulièrement, ce second mode nous a été bien utile pour établir des tableaux récapitulatifs des associations des N_émot. Or, dans le cas de certaines collocations (comme

donner + plaisir, donner + envie, faire + plaisir, etc.) cette requête générait encore trop de

« bruits », ceci étant lié à:

 l'abondance des formes non pertinentes pour notre étude, comme c'est le cas de l'association

donner + plaisir: plaisir contagieux, Réaliser un exploit donne envie, plaisir qu'ils donnent, plaisir de donner, etc. (cf. Tableau 14 ci-dessus). En fait, sur 125 occurrences repérées pour cette

combinaison, uniquement 18 occurrences correspondaient à notre patron syntaxique (ici: donner

DET plaisir).

 L'ambiguïté de certains N_émot, tel que le N_envie, par exemple. Sur l'ensemble des 793 occurrences repérées pour l'association donner DET envie, uniquement sept avaient le sens causatif, tandis que les autres collocations renvoyaient à l’interprétation « souhaiter, vouloir »²²⁶.  Les formes figées de certains N_émot, comme le N_rage (faire rage), le N_plaisir (faire plaisir),

etc., qui n'ont pas été pertinentes pour notre étude à cause de leur fort figement. Contrairement à

faire la rage et faire le plaisir les collocations faire rage et faire plaisir apparaîtront dans le

lexique en tant que « groupe » (cf. Gaatone 1981) et non comme l'association Vcaus + N_émot.

L'usage très répandu, dans la langue écrite, de ces formes figées est confirmé par nos statistiques: sur les 667 occurrences repérées pour l'association faire + plaisir, seulement 154 occurrences correspondaient à la forme avec un article pour ce patron, tandis que dans le cas de faire + rage c'était seulement une occurrence sur l'ensemble des 502 occurrences. Voici un extrait des concordances comportant toutes les associations de faire + plaisir:

Tableau 15: Visualisation, en concordancier, de l'association faire + plaisir

L'abondance de formes figées parmi les concordances de certaines associations (comme celles-ci citées supra), nous a poussée à utiliser des grammaires²²⁷ qui permettaient d'obtenir des résultats beaucoup plus précis. Pour accéder à ces paramétrages avancés, il faut cliquer sur l'icône « outils », présente sur chaque onglet:

Figure 20: L'icône « outils »

Voici la grammaire qui nous a servi pour analyser la combinaison faire DET plaisir:  Main = <l=faire,c=V,#1>&&<c=DET,#2>&&<l=plaisir,c=N,#3>::(det,3,2) (.*,1,3)

Les signes (<) et (>) sont des opérateurs de position qui délimitent le début et la fin d’une chaîne; le point (.) désigne un « caractère quelconque » de l'association (c'est-à-dire

227

tous les types) et l’astérisque (*) est un opérateur de répétition: (de 0 à n occurrences). Voici l’extrait du lexicogramme pour cette combinaison, obtenu à l'aide de cette grammaire:

Tableau 16: Visualisation en concordancier de la combinaison faire DET plaisir (paramétrage avancé)

Comme on peut le voir, ce type de requête ne génère quasiment pas de « bruits »: sur huit contextes ci-présents, tous apparaissent sous la forme désirée donner DET plaisir. Or, malgré la performance de ce mode, il y a des associations qui persistent à générer des « bruits ». Ceci est le cas, par exemple, de mettre en/dans colère. Voici l’extrait du lexicogramme pour cette combinaison, obtenu à l'aide d'une grammaire:

<l=colère,#1> & &<l=mettre,#2>::(.*,1,2):

Comme on peut le voir ici, trois contextes sur sept (met fin à la colère, la colère d'être

mis et leurs colères, enregistrées […] mettent en évidence) ne sont pas pertinents pour notre

étude. Par conséquent, avant de procéder à la construction des tableaux récapitulatifs, il fallait faire un tri sélectif manuel. Les résultats de la requête sont sauvegardés et exportés dans un tableur sous format [.eps], [.png] ou [.csv] (le bouton « Télécharger » en bas de la page). Or, le format [.csv] ne reconnaît pas toujours des signes diacritiques. Pour éviter ce genre de problèmes, nous avons sauvegardé nos résultats en format [.txt] sous codage UTF-8. Il est également possible d'enregistrer les résultats avec le logiciel Scite. En cliquant sur le titre de la colonne, on peut classer les collocatifs selon l’ordre alphabétique, la fréquence, leur

log-likelihood ou leur r.log-log-likelihood (qui indique le rang de la cooccurrence dans le

lexicogramme). Ceci facilite les analyses. Nous pouvons également filtrer le nombre des résultats: l’option « Show » nous permet de visualiser 10, 25, 100 au l'ensemble des collocatifs (« all »). Il est aussi possible d'organiser les résultats sous forme de graphiques (le bouton « Graphiques »):

Figure 21: Lexicogramme relatif au mot-pivot colère (collocatifs verbaux)

Le guide d’utilisation complet d’EmoBase explique clairement toutes les possibilités de recherche et donne plusieurs exemples précis228

228

Dans la section suivante, nous présenterons nos critères de choix des collocations dans la perspective didactique.

Dans le document Les constructions verbe causatif + nom d’émotion : aspects linguistiques et pistes didactiques (Page 126-135)