Repérage des séquences polylexicales - Description de la phraséologie transdisciplinaire des éc

CHAPITRE 3. METHODOLOGIE

3.3. Repérage des séquences polylexicales

Les séquences polylexicales de la phraséologie transdisciplinaire, quel que soit leur degré de figement ou leur structure syntaxique, sont partagées par les disciplines et servent à décrire les activités et le raisonnement scientifiques. Ces expressions sont souvent des

segments répétés, c’est-à-dire, des suites de mots récurrentes ou selon Salem (1987), « les

segments dont la fréquence est supérieure ou égale à 2 » (ibid. : 50). Il existe des segments

TEI TextEncodint Initiative : http://www.tei-c.org/index.xml

28 Rapport du projet Scientext, Annexe 1 : Contrats établis avec les auteurs pour l’utilisation du texte en ligne et sa diffusion éventuelle. Consulté le 22 octobre 2014 :

répétés continus et discontinus. Les segments répétés continus comprennent toujours les mêmes items dans le même ordre. Par exemple, il en résulte qu’ est considéré comme un segment répété continu, mais il… que est un segment répété discontinu, car de nombreux éléments peuvent être insérés entre il… que par exemple il en résulte que, il est indiqué que, etc. Dans notre recherche, nous nous intéressons uniquement aux segments répétés continus qui correspondent aux expressions toutes faites comme en d’autres termes, par contre, etc.

Pour traiter les séquences polylexicales, plusieurs types d’extraction ont été mis en œuvre afin de repérer les différents types d’expressions. L’approche distributionnelle propose notamment deux méthodes d’extraction, dont les N-grammes et la co-occurrence (Granger & Paquot, 2008) (Figure 3-2).

D’un côté, l’analyse des co-occurrences ou co-occurrence analysis prend appui sur les associations statistiquement récurrentes des unités lexicales, mais qui ne sont pas nécessairement immédiatement contiguës. Les mots qui apparaissent souvent ensemble sont considérés comme des collocations (Sinclair, 1991 ; Stubbs, 2002). Les collocations sont définies comme des cooccurrences habituelles afin d’identifier des séquences disjointes de deux mots entretenant une relation syntaxique et apparaissant souvent ensemble dans un petit contexte. Cette procédure nous permet de récupérer des groupes de mots, leur fréquence et l’attraction des items dans une paire, mais n’est pas particulièrement adaptée au repérage des

séquences avec des éléments contigus. Ces techniques permettent d’analyser les collocations comme cela a été proposé dans l’équipe du LIDILEM dans le cadre du projet EMOLEX²⁹.

D’un autre côté, la technique des N-grammes ou N-Gram/Cluster analysis consiste en une méthode qui permet d’extraire des segments répétés, des combinaisons grammaticalisées et de repérer des séquences linéaires de deux ou plusieurs mots. De fait, cette méthode ne prend en compte ni l’idiomaticité ni le statut structural des expressions. C’est pourquoi elle intéresse des auteurs ayant différents objectifs (extraction terminologique, études interlangues, etc.). Les séquences extraites reçoivent plusieurs appellations : segments répétés (Salem, 1987), N_grammes (Stubbs, 2002), lexical bundles (Biber, Conrad & Cortes, 2004 b ; Biber & Conrad, 1999 ; Biber et al., 2003), et séquences récurrentes (De Cock, 2004). Cette dernière technique, très simple, est tout à fait suffisante pour notre objectif.

3.2.1. Extraction

Dans notre recherche, nous adoptons seulement la méthode des n-grammes, car nous travaillons sur des séquences d’éléments contigus, et avons utilisé un programme créé par Olivier Kraif du LIDILEM dont la fonctionnalité est semblable à la boîte à outils N_grammes Statistical Package NSP pour repérer les segments répétés. Nous utilisons par ailleurs les résultats de l’analyseur syntaxique de corpus Syntex, en repérant les locutions déjà identifiées par le programme. Nous allons maintenant préciser la procédure d’extraction des séquences polylexicales dans notre corpus.

3.2.1.1. Des segments répétés

Les segments répétés sont recensés par le logiciel sur une simple base statistique dans la mesure où ils apparaissent régulièrement dans une fenêtre de x mots. Dans notre cas, nous avons fixé la taille minimale de la fenêtre à 2 mots et la taille maximale à 7 mots. Il est à noter que notre corpus a été lemmatisé et que la recherche des segments répétés se fait sur la suite de lemmes, discipline par discipline. Le logiciel génère à la fin pour chaque discipline une liste des segments répétés classés selon leur longueur, avec la fréquence et la catégorie syntaxique des composants, sachant que les segments répétés et les locutions sont repérés par leur lemme afin de regrouper toutes les formes fléchies.

Nous avons recouru au système de gestion de base de données Access dans le but de confronter les résultats de chaque discipline et de rendre compte de la répartition des

segments répétés sur tout le corpus. Nous avons obtenu un résultat assez important de segments répétés sous forme lemmatisée de longueur variée (45 184 segments répétés au total, dont 40 733 d’une longueur de 2 mots). Cette procédure génère beaucoup de bruit, car beaucoup d’associations ne constituent pas des expressions. Il s’agit de suites de mots qui ne correspondent pas à un constituant par exemple ce être le³⁰(1001 occurrences, 10 disciplines),

que il ne (356 occurrences, 10 disciplines), il ne être pas (312 occurrences, 10 disciplines) ou

n’ont pas de valeur sémantique, comme le cas de sur le (1142 occurrences, 10 disciplines). Nous avons enlevé des groupements qui restent neutres (il y avoir (938 occurrences sur 10 disciplines), ce être le cas (180 occurrences, 10 disciplines), etc.) ou ceux qui ne nous intéressent pas sur le plan didactique (presse universitaire (171 occurrences, sur 10 disciplines), comme le processus de (410 occurrences sur 10 disciplines), etc.). Tous les regroupements relativement généraux ou difficiles à extraire du contexte sont également à exclure, par exemple les associations nominales de type l’hypothèse de (300 occurrences sur 10 disciplines), l’idée de (104 occurrences, 9 disciplines), le choix de (48 occurrences, 5 disciplines), l’importance de (274 occurrences, 10 disciplines), etc. ainsi que des structures verbales (se appuyer sur (261 occurrences, 10 disciplines), être considérer comme (249 occurrences, 10 disciplines), etc.). Le débroussaillage se fait manuellement et s’avère fastidieux, mais reste le seul moyen pour relever les associations susceptibles d’être intéressantes pour notre travail. Cependant, le nombre de segments répétés repérés à cette étape reste minime par rapport à ce que nous avons envisagé. En effet, un nombre très élevé des groupes de mots avait été analysé automatiquement comme locutions par Syntex et celles-ci sont récupérées uniquement par des requêtes en ligne sur l’interface du corpus Scelles-cientext.

3.2.1.2. Extraction des locutions dans les corpus analysés par Syntex

Ces extractions ont été réalisées à l’aide de l’interface Scientext (Figure 3-3). Dans une première étape, on sélectionne dans l’interface différents sous-corpus correspondant aux différentes disciplines. Grâce à l’annotation effectuée, l’utilisateur peut sélectionner la discipline, le type de documents et les parties du texte sur lesquels il désire travailler.

Figure 3-3 : Liste des disciplines dans le corpus SHS – Interface Scientext (corpus Intranet)

L’exploitation du corpus se déroule en trois temps : la sélection du corpus, la recherche dans les textes, l’affichage et le traitement des résultats. La Figure 3-3 présente notre corpus de travail composé d’articles de différentes disciplines en SHS (linguistique, psychologie, sciences de l’éducation, économie, sciences politiques, anthropologie, histoire, géographie, sciences de l’information et de la communication, sociologie). Dans notre cas, nous nous intéressons au fonctionnement des séquences polylexicales dans toutes les parties textuelles de ces articles scientifiques.

Figure 3-5 : Liste des articles sélectionnés en linguistique

Scientext nous permet d’établir et de sauvegarder une présélection d’articles dans chaque discipline pour d’autres interrogations du même corpus lors de sessions ultérieures. Dans la Figure 3-4, nous avons sélectionné le sous-corpus en linguistique ainsi que les articles sur lesquels nous voulons travailler (Figure 3-5). Après avoir sélectionné le corpus à exploiter, l’utilisateur peut accéder au contenu des textes par trois modes de recherche mis à sa disposition : le mode sémantique guidé, le mode libre guidé, et le mode avancé pour ceux qui maîtrisent la syntaxe informatique des expressions régulières. Tous ces modes sont traduits dans le même langage de requête ConcQuest (Kraif, 2008) et développés par Falaise (Falaise et al., 2011). ConcQuest est un logiciel d’extraction de concordances permettant de rechercher des expressions complexes à travers un corpus de texte. Pour simplifier le prototype d’interface antérieurement développé pour ConcQuest, un formulaire spécifique de requêtes a été mis en œuvre (Falaise et al., 2012). (Figure 3-6)

Figure 3-6 : Différents modes de recherche dans Scientext

En ce qui concerne les séquences polylexicales, toutes les requêtes sont donc effectuées en mode libre guidé. Ce mode de recherche nous permet de définir nous-mêmes

des requêtes par la forme, par le lemme, par des catégories ou encore par des relations syntaxiques.

Une fois les requêtes terminées, l’affichage des résultats est variable selon les attentes de l’utilisateur, par exemple, l’affichage des concordances dans un concordancier KWIC (Key Word In Context) dont les contextes gauche et droit sont paramétrables (l’utilisateur peut visualiser jusqu’à 200 mots dans chaque contexte) (Figure 3-7). Grâce au concordancier et au contexte élargi, nous avons la possibilité de filtrer les résultats (à l’aide d’une case décochable dans chaque ligne du concordancier) afin de conserver ceux qui sont pertinents pour notre recherche. Toutes les occurrences sélectionnées peuvent être sauvegardées et exportées dans un tableur (format HTML ou CSV) pour servir au travail sémantique d’analyse des séquences polylexicales et aux illustrations didactiques lors de notre étape d’expérimentation.

Figure 3-7 : Visualisation en concordancier des occurrences des locutions adverbiales en Linguistique

À propos des statistiques des résultats, Scientext permet à l’utilisateur d’extraire une liste des lemmes correspondant à chaque requête (Figure 3-8) ou de les répartir en fonction de différents critères comme les disciplines, les genres textuels, les parties textuelles (Figure 3-9). Dans la Figure 3-8, s’affichent les résultats de la requête des locutions adverbiales en linguistique dans l’ordre décroissant des occurrences. Par exemple, en effet restent les séquences polylexicales les plus utilisées dans cette discipline au total 115 et 109 occurrences respectivement (c’est-à-dire 10,80 % et 10,20 % sur le sous-corpus linguistique).

Dans la Figure 3-9, les résultats sont regroupés par parties textuelles. Nous constatons que les locutions adverbiales sont essentiellement utilisées dans la partie « Développement » en linguistique.

Figure 3-8 : Visualisation en lemme des résultats des locutions adverbiales en linguistique

Figure 3-9 : Répartition en partie textuelle des résultats des locutions adverbiales

Comme l’extraction des segments répétés, celle des locutions est également effectuée discipline par discipline pour chaque fonctionnement syntaxique et les résultats sont

sauvegardés dans un fichier Excel. Tous les lemmes, leurs formes³¹, leur fréquence absolue, leur fréquence relative sont pris en considération. Leurs formes nous semblent intéressantes sur le plan didactique lors de la conception des activités pédagogiques. La fréquence absolue générée automatiquement définit le pourcentage d’occurrences de chaque segment répété sur le nombre total d’occurrences pour chaque requête, tandis que la fréquence relative résulte du pourcentage du nombre d’occurrences du segment répété sur le nombre de mots du corpus correspondant à la recherche. Les fréquences absolue et relative sont indispensables pour les analyses quantitatives. Afin de confronter les résultats de différentes disciplines pour une même requête, nous avons regroupé dans un fichier tous les lemmes partageant la même catégorie syntaxique et enlevé tous les doublons. Les dix fichiers-disciplines ainsi que ce nouveau fichier sont ensuite importés dans Access et interrogés dans la base de données. Le résultat final comprend une liste des lemmes dans les dix disciplines, leurs formes, leur fréquence, ainsi que leur répartition (Figure 3-10). Cela sera ensuite exporté dans un tableur Excel.

Figure 3-10 : Confrontation des résultats dans Access pour des locutions adverbiales

Sur la Figure 3-10, tous les lemmes qui ont la même structure syntaxique sont recensés dans la colonne « Lemme ». Chaque discipline est représentée par trois valeurs : les formes, la fréquence absolue (le nombre d’occurrences), et leur fréquence relative. Le nombre d’occurrences de chaque séquence polylexicale sur tout le corpus est calculé par le logiciel et affiché à la colonne C1. La colonne C2 représente le nombre des disciplines où apparaît le

lemme. Par exemple, /même/ /si/ qui apparaît dans 10 disciplines et fait un total de 424 occurrences, alors que /dans/ /la/ /mesure/ /où/ apparaît 255 fois dans les 10 disciplines. Nous avons également la possibilité de filtrer notre résultat en fonction de notre objectif de recherche. En effet, la double tâche d’extraction nous a permis d’obtenir des résultats intéressants. Pour pouvoir mettre en évidence notre phraséologie transdisciplinaire, il nous faut nous baser sur des critères précis et rigoureux dans la sélection des séquences polylexicales.

3.2.2. Critères de sélection

Les séquences polylexicales retenues doivent répondre à différents critères à savoir la fréquence, la répartition disciplinaire et la discursivité. Les méthodes statistiques de fréquence et de répartition restent les plus utilisées pour extraire des groupes composés et des collocations (Phal, 1971 ; Coxhead, 2002 ; Tutin, 2008, 2014 ; Drouin, 2007 ; Da Sylva, 2010 ; Paquot & Bestgen, 2009 ; Paquot, 2010). Da Sylva (2010) envisage de concevoir des ressources lexicales composées du vocabulaire servant de base et du vocabulaire spécialisé pour constituer des entrées d’index structurées. L’expérimentation d’extraction semi-automatique des ressources lexicales se fait à partir de deux corpus : l’un pour l’anglais (14 millions de mots) et l’autre pour le français (2,5 millions de mots). Les fréquences d’occurrences des noms lemmatisés ont été comptées afin de récupérer les mots-clés les plus fréquents.

Paquot & Bestgen (2009) proposent d’extraire des mots-clés du discours académique en comparant le sous-corpus académique avec un sous-corpus de fiction de BNC British National Corpus (BNC). Ils se basent sur trois méthodes statistiques : loge-likelihood ratio, t-test et Wilcoxon-Mann-Whitney. Les trois listes issues des trois méthodes d’extraction sont ensuite comparées sur plusieurs critères, à savoir le nombre de mots-clés extraits à chaque méthode, leur ratio et leur répartition. Cette confrontation permet d’identifier la méthode statistique la plus avantageuse pour extraire des mots-clés. En ce qui nous concerne, nous choisirons une méthode plus simple, tenant principalement compte de l’aspect transdisciplinaire.

3.2.2.1. Fréquence

Comme nous venons de l’expliquer, les requêtes sur le corpus nous permettent d’obtenir le résultat final qui recense tous les lemmes sur tout notre corpus SHS, ainsi que

leurs formes, leur fréquence et leur répartition. Par le critère de « fréquence », nous entendons un nombre d’occurrences suffisamment important afin de répondre aux critères de

représentativité. Pour des raisons de simplicité et de mise en œuvre, nous nous intéressons

uniquement à la fréquence absolue, c’est-à-dire le nombre total d’occurrences d’un mot donné dans le corpus, et pas à la fréquence relative, soit le rapport du nombre d’occurrences d’un mot au nombre de mots que compte le corpus dans lequel le mot est apparu.

Nous avons retenu uniquement les séquences polylexicales qui apparaissent au moins

7 fois sur tout notre corpus. Dans le Tableau 3.2 ci-dessous, nous avons relevé d’une manière

aléatoire 12 séquences polylexicales de catégorie syntaxique différente et leur fréquence. En nous appuyant uniquement sur le critère de fréquence, toutes les séquences lexicales dans le tableau sont retenues, sauf à la condition que. Cependant, le seul critère de fréquence peut susciter quelques réserves, car on peut obtenir de nombreuses séquences polylexicales dont la fréquence est élevée, mais qui n’apparaissent pas dans différentes disciplines : il s’agit dans ce cas de la terminologie de la discipline. Par exemple, nous retrouvons 51 occurrences de

discrimination sur âge uniquement en sociologie, 60 occurrences pour culture d’information

en SIC, etc., c’est pourquoi nous proposons d’y ajouter le deuxième critère de répartition disciplinaire.

3.2.2.2. Répartition disciplinaire

Le seuil du nombre d’occurrences à prendre en compte dépend de l’application et du corpus. Pour notre part, nous avons décidé de conserver uniquement les séquences polylexicales apparaissant dans 4 disciplines au moins.

Le critère de répartition revêt un rôle essentiel en établissant la liste de la phraséologie transdisciplinaire de base. La répartition précise le nombre de disciplines dans lesquelles le mot a été rencontré. En effet, comme nous l’avons expliqué précédemment, si un mot a seulement une très forte fréquence dans une seule discipline, il s’agit probablement d’un mot spécialisé de cette discipline. La combinaison de deux critères (fréquence et répartition) constitue une indication intéressante pour relever les séquences polylexicales transdisciplinaires et les plus significatives des écrits scientifiques. Mackey (1971) a insisté sur la prise en compte du critère de répartition en affirmant qu’« il n’y a pas que le nombre de fois où un élément est repéré qui soit important, il y a aussi la distribution ou les zones de concentration des répétitions dans l’ensemble du cours » (Mackey, 1971, cité par Chetouani, 1988 : 81).

AuTableau 3.2, les séquences polylexicales qui répondent aux 2 critères de fréquence et de répétition sont retenues et notées 1, les séquences exclues sont notées 0. Seul à la

condition que n’est pas retenu, parce qu’il ne remplit pas le critère de fréquence comme nous

l’avons vu. Après avoir obtenu la liste des séquences polylexicales répondant aux critères de fréquence et de répartition, il reste à savoir si elles sont toutes intéressantes pour notre étude linguistique et sémantique de la phraséologie transdisciplinaire de base.

Séquences polylexicales Fréquence Répartition Résultat

1. En particulier 564 10 1 2. Compte tenu 106 10 1 3. À l’époque 87 10 1 4. Au premier abord 11 7 1 5. Au centre de 89 10 1 6. Vu que 32 9 1 7. En toute rigueur 13 4 1 8. Tout de suite 12 6 1 9. À l’abri de 11 4 1 10. Par manque de 8 5 1 11. Sous réserve de 7 4 1 12. À la condition que 6 5 0

Tableau 3.2 : Sélection des séquences polylexicales : critère de fréquence et de répartition

3.2.2.3. Discursivité

Aux critères statistiques (fréquence et répartition), s’ajoute le critère d’ordre sémantique et discursif. Ce critère sert à relever uniquement les unités polylexicales qui jouent un rôle discursif, c’est-à-dire celles qui jouent le rôle d’organisateur de texte et de structuration du discours. Contrairement aux critères précédents, celui-ci est plutôt intuitif. À titre d’illustration, nous reprenons les mêmes exemples de séquences polylexicalesretenus à la suite des tests de fréquence et de répartition. Au Tableau 3.3, toutes les séquences polylexicales qui nous intéressent au plan sémantique sont notées

+

, les autres sont marqués

-dans la colonne « Discursivité ». Par exemple, -dans Tableau 3.3 ci-dessous, les séquences polylexicales en particulier, compte tenu seront conservées, car elles répondent à la fois au critère de fréquence, de répartition et au critère sémantique. D’autres séquences polylexicales comme à l’époque, au centre de sont éliminées, même si elles apparaissent de maintes reprises dans notre corpus et dans de nombreuses disciplines. En fait, ces séquences fonctionnent comme des séquences polylexicales à valeur référentielle pour évoquer l’espace et le temps.

Séquences polylexicales Fréquence Répartition Discursivité

1. En particulier 564 10 + 2. Compte tenu 106 10 + 3. À l’époque 87 10 - 4. Au premier abord 11 7 + 5. Au centre de 89 10 - 6. Vu que 32 9 + 7. En toute rigueur 13 4 + 8. Tout de suite 12 6 - 9. À l’abri de 11 4 -

10.Par manque de 8 5 +

11.Sous réserve de 7 4 +

Tableau 3.3 : Sélection des séquences polylexicales : critères de fréquence, de répartition et de pertinence

Le fastidieux dépouillement manuel reste indispensable pour relever des séquences polylexicales intéressantes pour l’analyse linguistique et les applications didactiques. Notre analyse montre que de nombreuses séquences polylexicales traditionnellement abordées dans les méthodes de français ont pourtant une fréquence relativement faible dans notre corpus, par exemple sous prétexte de (4 occurrences, dans 3 disciplines), sous condition de (3 occurrences, dans 3 disciplines). En revanche, certaines séquences rarement abordées apparaissent fréquemment, par exemple à l’instar de (107 occurrences, 9 disciplines),

conformément à (64 occurrences, 10 disciplines). Les séquences polylexicales éliminées du

fait de leur faible fréquence pourront être examinées dans un second temps.

Nous décrivons maintenant les approches que nous allons utiliser pour des analyses linguistiques et pour les activités didactiques.

Dans le document Description de la phraséologie transdisciplinaire des écrits scientifiques et réflexions didactiques pour l'enseignement à des étudiants non-natifs : application aux marqueurs discursifs (Page 76-89)