Jugement et recontextualisation - Validation manuelle des candidats-LST

Chapitre 2 Identification des mots simples du LST

2.2 Extraction semi-automatique du LST : ressources et traitements

2.2.2 Procédure d’extraction du LST

2.2.2.2 Validation manuelle des candidats-LST

2.2.2.2.1 Jugement et recontextualisation

La majorité des travaux sur le lexique scientifique n’intègrent pas de phase de validation manuelle des résultats des méthodes d’extraction. Dans la mesure où nous prévoyons des applications, didactiques et linguistiques, utilisant cette ressource du LST, il nous apparaît pourtant essentiel de procéder à une telle étape, afin d’assurer la pertinence des unités lexicales retenues.

Paquot (2010) s’appuie dans ses travaux sur un logiciel d’étiquetage sémantique31 pour valider les éléments extraits ; les mots retenus sont ceux répondant positivement aux différents seuils et appartenant à une des 6 classes sémantiques suivantes : termes généraux et abstraits, nombres et mesures, action/état/processus psychologique, action/état/processus social et langage/communication). Paquot identifie également les mots n’ayant pas répondu totalement aux critères statistiques mais appartenant à l’une de ces catégories et « rattrape » ainsi 330 éléments, soit plus de 30 % des unités finalement retenues. Ce type de traitement implique ainsi un étiquetage automatique en catégorie sémantique des candidats-LST du corpus, pour chacune de leur occurrence.

Ne disposant pas d’une ressource pour l’annotation sémantique automatique en français, nous choisissons, dans notre cas, de valider manuellement les éléments extraits. De plus, comme nous le verrons section 3.3.1.2, le fait d’avoir à

disposition une telle ressource ne réglerait pas les problèmes posés par l’annotation sémantique automatique d’éléments potentiellement polysémiques.

Nous optons donc pour une évaluation du statut LST des candidats basée sur leurs propriétés linguistiques, lexico-syntaxiques et sémantiques. Ces informations sur les propriétés distributionnelles des éléments du LST permettent alors un accès au sens mobilisé, en usage dans le corpus d’analyse, et donc de pouvoir avoir une représentation du sens en fonction du corpus spécialisé que nous avons constitué.

Les évaluateurs, chercheurs en linguistique, et sensibilisés à la problématique du LST à travers plusieurs de leurs travaux, doivent dans un premier temps confirmer ou infirmer l’appartenance des unités lexicales au LST. L’évaluation prend ici pour objet une unité formelle représentée par un lemme et une catégorie, tel le nom terme. Les juges doivent confirmer l’existence d’au moins une acception transdisciplinaire pour chaque mot. La potentielle polysémie transdisciplinaire sera gérée dans l’étape suivante des traitements du LST, présenté dans le chapitre 3. Ainsi, lors de l’évaluation, la question est de savoir si l’une des acceptions du nom terme mobilisée dans le corpus relève effectivement du LST, et non pas d’identifier l’ensemble de ses acceptions. Ce travail d’identification des acceptions, fait par la suite, nous révélera par exemple que terme renvoie à 2 acceptions du LST : sens 1 de ‘mot, vocable’, sens 2 de ‘fin, limite’.

Nous proposons aux juges, en cas de non-appartenance au LST, d’évaluer l’appartenance au lexique abstrait général (LAG, présenté par ailleurs section 1.2.2.1). Ce lexique (année, changer, fin), présent dans l’écrit scientifique, peut être considéré comme moins spécifique à ce genre puisqu’il apparaît également dans les genres journalistique et littéraire notamment. Les résultats de l’extraction reposant sur l’analyse syntaxique automatique du corpus, nous proposons également aux évaluateurs de signaler toute erreur d’analyse (de catégorisation, de segmentation ou de lemmatisation).

L’évaluation du statut LST des candidats est aidée par une visualisation de leur emploi en contexte. Ainsi, pour permettre un accès aux acceptions mobilisées dans le corpus, le formulaire intègre des informations sur les associations lexico-syntaxiques les plus fréquentes et propose des exemples phrastiques représentant le maximum de disciplines différentes. Cette variété dans les exemples permet de

s’assurer d’un usage transdisciplinaire, en contexte, du mot candidat. Nous pouvons observer dans l’illustration suivante une page type du formulaire pour les noms.

L’évaluateur a ainsi accès aux consignes détaillées de la tâche, ainsi qu’aux informations de recontextualisation. Les consignes ont pour but de guider les juges dans leur évaluation, ainsi que de clarifier le type d’informations qui leur sont présentées. Nous reproduisons ci-dessous, l’ensemble de ces consignes pour l’évaluation des différentes catégories.

3 cas sont possibles :

1. Le mot à traiter appartient au LST (LST coché) ; 2. Le mot à traiter appartient au LAG (LAG coché) ;

3. Le mot à traiter n’appartient ni au LST ni au LAG (aucune case cochée, catégorie générique). Les informations concernant les relations syntaxiques et les exemples phrastiques ont pour but l’aide à la décision en permettant une recontextualisation du mot.

Les autres champs sont :

• -Erreur syntaxique : à cocher si le mot n’appartient pas à la catégorie à traiter (permet d’identifier les erreurs de catégorisation de l’analyseur) ;

• -Principales relations : sont listées n associations lexico-syntaxiques les plus productives dans notre corpus. Ces relations s’interprètent de la façon suivante :

◦ Le formalisme est du type : obtenir_verb_nmod : 177 occ → il y a 177 occurrences dans notre corpus d’une relation de type nmod entre le nom à traiter et le lemme-catégorie obtenir_verb.

◦ Si la relation (ex : ~subj) est précédée du caractère ~, le mot à traiter est régi par le cooccurrent dans cette relation. Si la relation est du type subj, le mot à traiter est recteur du cooccurrent dans cette relation.

◦ Les relations sont : nmod (modifieur de nom), vmod (modifieur de verbe), obj (complément d’objet du verbe) et subj (sujet du verbe).

• Exemples disciplinaires : n exemples phrastiques sont proposés (précédés de la discipline dans laquelle ils apparaissent), issus de disciplines différentes, afin d’avoir des exemples en usage transdisciplinaire du mot à traiter.

• Commentaire : la case commentaire permet de noter vos remarques si besoin. Cas complexes :

• Même si parmi les exemples, l’acception LST ou LAG est minoritaire (i.e. 4 exemples sur 6 mettent en évidence un usage non pertinent alors que les deux autres mettent en avant un usage de type LST), on valide le candidat comme LST sachant que nous devrons traiter ultérieurement la désambiguïsation afin de filtrer les acceptions qui nous intéressent.

• Si les exemples ne concernent que des expressions figées, on ne valide pas l’appartenance.

◦ S’il existe au moins un exemple avec le candidat hors locution, on peut le traiter en tant que mot simple.

• Le lexique des objets d’étude des SHS, lié aux activités humaines, aux sociétés, (du type ouvrier, société, pays, collectivité) ne doit pas être inclus dans le LST ou le LAG

Le lexique qui nous intéresse porte (comme défini dans le formulaire) sur le discours scientifique (processus, qualité, observable de l’activité scientifique). Il intègre également le lexique méta-discursif et méta-textuel.

Dans un premier temps, est donnée une rapide description de la tâche, qui est de discriminer trois ensembles lexicaux, le LST, le LAG, et un dernier ensemble défini par exclusion de deux précédents. Le formalisme permettant d’interpréter les propriétés lexico-syntaxiques est ensuite détaillé dans un deuxième temps. Pour conclure les consignes, plusieurs cas complexes sont abordés, afin de guider au mieux les juges dans la gestion de la polysémie et du bruit généré par les objets d’étude des SHS.

Les différents pages de formulaire32 (une par candidat LST) sont générées automatiquement à partir des données lexicométriques (fréquence, relations, exemples) extraites à l’aide de scripts Perl. Chaque évaluateur dispose ainsi d’informations issues du corpus pour juger de l’appartenance des candidats au LST ou au LAG. Nous avions également prévu un champ commentaire libre pour garder une trace des cas problématiques ou ambigus.

Ces formulaires sont ainsi au centre de l’évaluation des candidats LST, que ce soit pour la catégorie nominale, traitée par cinq juges, ou pour les verbes et les adjectifs, évalués par trois juges.

Les noms ayant été traité au moment de l’évaluation des adjectifs, nous avons intégré dans les formulaires concernant la catégorie adjectivale une information supplémentaire sur la proportion de cooccurrents nominaux appartenant au LST, tel que le montre l’illustration 2.8.

32 Nous remercions Marie-Paule Jacques pour son aide dans l’élaboration des formulaires à partir des bases de données lexicométriques.

Nous enrichissons ainsi les formulaires, au fur et à mesure de l’évaluation des différentes catégories, afin de proposer aux juges les informations les plus à même de représenter les usages dans le corpus d’analyse.

Dans l’exemple de formulaire illustré ci-dessus, diverses informations permettent une recontextualisation des emplois de l’adjectif simultané. Ce candidat-LST, 94 occurrences dans le corpus d’analyse, a dans 37 % de ses occurrences une relation avec un nom du LST, tel traitement, interaction, apparition, évolution.

Le formulaire révèle également que plus de 89 % des cooccurrents nominaux de l’adjectif crucial ont été validés comme LST (rôle, question, élément, point,

importance, étape, etc.). Nous avons plus généralement observé que les éléments

du LST entrent fréquemment en cooccurrence, ce type d’association étant alors un indice supplémentaire du statut LST d’un candidat.

Cette information sur les cooccurrents des candidats à évaluer a pour but de faciliter la tâche des juges qui est de valider ou non la présence d’une acception transdisciplinaire du mot en question (qui peut renvoyer à d’autres acceptions, ne relevant pas du LST). Dans le même objectif, nous augmentons le nombre

d’exemples de relations syntaxiques et de phrases après discussion avec les évaluateurs. Le travail de constitution du LST est donc ici envisagé de façon incrémentale, en tirant parti des résultats des traitements précédents.

En outre, nous ajoutons dans le formulaire des verbes des champs permettant de signaler l’emploi spécifique du candidat dans une forme pronominale ou passive afin d’intégrer ces informations dans notre ressource du LST. Ainsi, le verbe avérer ne se trouve que dans un emploi pronominal dans notre corpus, alors que le verbe dédier n’est réalisé qu’à la voix passive, comme nous pouvons l’observer dans les exemples suivants.

• Cela a des implications économiques qui peuvent s’avérer considérables.33

• Ce dernier sera rapidement dédié à la création circassienne

contemporaine.34

En se basant sur les résultats de ces formulaires remplis par l’ensemble des juges35, nous pouvons procéder à l’étape de validation manuelle du LST pour l’ensemble des candidats des trois catégories concernées : 786 noms, 513 adjectifs, 464 verbes.

Nous présentons dans la partie suivante les résultats de l’évaluation en procédant à une analyse quantitative et qualitative de la validation des formulaires par les juges. Nous nous intéressons notamment à l’accord inter-annotateurs et aux critères pouvant expliquer des jugements hétérogènes.

Dans le document Identification et analyse linguistique du lexique scientifique transdisciplinaire. Approche outillée sur un corpus d'articles de recherche en SHS (Page 92-100)