• Aucun résultat trouvé

Étiquetage morphosyntaxique et annotation des corpus 1. Étiquetage morphosyntaxique

Ancrages théoriques et pratiques

3. Étiquetage morphosyntaxique et annotation des corpus 1. Étiquetage morphosyntaxique

L’étiquetage, comme nous l’avons déjà énoncé, est l’une des opérations fondamentales et incontournables à effectuer sur un corpus donné en vue d’une analyse complexe des phénomènes linguistiques. À l’aide du contexte, la tâche de l’étiquetage consiste à attribuer à chaque mot du corpus une étiquette, comme illustré ci-dessous :

La phrase the cat ate the mouse étiquetée à l’aide du Stanford tagger the/DT cat/NN ate/VBD the/DT mouse/NN

Étiqueter morphosyntaxiquement un corpus, c’est ainsi donner à chacun des tokens de la séquence des informations nécessaires à l’analyse linguistique. L’un des intérêts de cet étiquetage est d’écarter les ambiguïtés de la langue notamment lorsqu’une forme peut correspondre à plusieurs catégories grammaticales, ce qui pourrait fausser les analyses automatiques des phénomènes (cas auxquels nous serons confrontée dans le prochain chapitre). La difficulté est alors d’entraîner l’étiqueteur à attribuer la catégorie spécifique de chaque mot, surtout quand ce dernier peut être catégorisé de différentes manières (exemple de walk qui peut-être un verbe ou un nom).

S’il n’existe pas d’étiqueteur pouvant agir en même temps sur les deux langues dans un corpus parallèle, il est néanmoins possible de procéder de manière indépendante à une analyse pour chaque langue. Par contre, les patrons ne seront pas semblables dans les deux langues, d’une part parce que les critères morphosyntaxiques ne sont pas les mêmes dans chacune d’elles, et d’autre part, parce que les jeux d’étiquettes utilisés sont différents75.

Dans notre travail, l’étiquetage est entièrement automatique (Stanford CoreNLP, exemple donné dans la figure 7). Seule la version anglaise de notre corpus a été

75 À l’exception du jeu d’étiquette universel (par exemple, Universal Pos Tags du projet Universal

étiquetée morphosyntaxiquement puisque les requêtes de détection sont uniquement définies pour le corpus anglais.

Figure 7 : Étiquetage morphosyntaxique établi par les outils CoreNLP

3.2. Annotation manuelle des ellipses

L’annotation peut être effectuée sur un corpus écrit, oral ou oral transcrit, et peut être manuelle (aucun outil n’est utilisé), automatique (entièrement faite par une machine) ou semi-automatique (intervention de l’humain). Deux méthodes sont utilisées dans l’annotation automatique : l’annotation à base de règles définies par un linguiste expert et l’annotation par apprentissage (à l’aide d’un corpus déjà annoté manuellement, et servant de référence pour entraîner un outil).

Les erreurs constatées dans le processus d’annotation relèvent pour la plupart du choix même du type d’annotation qui peut être entièrement ou partiellement automatique. Lorsque l’annotation est entièrement automatique, les erreurs sont (le plus souvent) engendrées par des outils parfois mal adaptés aux données, ou par des erreurs présentes dans le corpus (erreurs liées à la sauvegarde, saisie, ...). Lorsque l’annotation est manuelle ou semi-automatique, les erreurs sont dues à l’interprétation subjective des annotateurs ou à un manque de précision du manuel d’annotation. En effet, le caractère subjectif de l’annotation se manifeste dans les résultats obtenus lors des questionnements fondamentaux autour du quoi, du comment et du pourquoi de l’annotation. Afin de parer au mieux à cette subjectivité, Mélanie-Becquet & Landragin (2014, 117) suggèrent l’utilisation d’un « manuel d’annotation » :

Pour que les annotations ne soient pas trop subjectives, un manuel d’annotation strict et directif s’avère nécessaire. Il faut cependant que le schéma d’annotation tienne compte des ambiguïtés et flous possibles, et autorise une certaine souplesse dans l’affectation des valeurs.

Il existe évidemment plusieurs moyens d’évaluer la fiabilité des annotations. Celui probablement le plus répandu consiste à vérifier le degré d’accord entre les annotateurs, c’est-à-dire, par exemple, à faire annoter un corpus par deux ou trois annotateurs différents pour observer ensuite ce qui leur est commun.

Par ailleurs, le type d’annotation effectuée sur un corpus dépend de plusieurs facteurs : du cadre théorique et des objectifs de l’annotateur lui-même, de la nature des données (ce que l’on pourrait annoter), et de la nature du phénomène analysé (syntaxique, sémantique, pragmatique). Toute la méthodologie établie à l’aide d’outils spécifiques dans le processus d’annotation s’inscrit d’abord dans un cadre théorique permettant d’initier des recherches appliquées. Ainsi à titre d’exemple, PRAAT76 pour la transcription phonétique et ANALEC77 pour les chaines de références sont-ils, parmi d’autres, des outils fréquemment utilisés pour annoter un corpus, tous deux issus d’investigations phonétiques, sémantiques et syntaxiques.

Dans le cas de l’ellipse, il est nécessaire de s’interroger sur l’intérêt du processus d’annotation dans la mesure où, par définition, une partie du discours est rendue invisible alors que les outils nécessaires à l’annotation sont conçus précisément pour annoter les catégories visibles. Pour dépasser la réflexion aporétique, l’annotation du contexte syntaxique, la plupart du temps chargé d’indices en lien avec la présence d’une ellipse, a été l’un des recours envisagé par les linguistes afin de contourner l’impossibilité initiale. En effet, une fois les informations ajoutées au corpus, il est possible de lancer des requêtes fines et précises à partir des outils choisis pour repérer ces indices, voire détecter l’ellipse.

Dans la présente recherche, nous avons annoté manuellement, en ajoutant son code à chaque type d’ellipse trouvée, 3 échantillons :

– le premier échantillon contient 1000 phrases extraites au hasard de chaque genre de discours. Chaque phrase extraite est à la fois précédée et suivie de 2 lignes pour avoir accès au contexte. L’objectif ici était d’analyser les

76http://www.fon.hum.uva.nl/praat/ (accès vérifié le 17 avril 2018 à 4:49).

différences entre les genres en relevant la distribution du phénomène. Le résultat de ce travail est présenté dans le chapitre 4.

– les deux autres échantillons de tailles différentes appartiennent tous deux au registre conversationnel de sous-titres. En effet, l’ellipse, en tant que propriété de discours spontané, est plus fréquente dans ce type de discours (Baird et al., 2018). Le premier échantillon compte 197 302 tokens et 1 270 occurrences d’ellipses. Le deuxième contient 36 676 tokens et 396 occurrences d’ellipses. L’objectif ici est d’évaluer la performance des patrons et de calculer le rappel. Les résultats de cette détection sont présentés dans le chapitre 3.

L’annotation manuelle a requis une lecture de l’intégralité des échantillons sélectionnés. Une vérification a ensuite été effectuée à l’aide d’expressions régulières simples78 afin de détecter les occurrences éventuellement manquantes non annotées. En effet, l’ellipse reste un phénomène relativement peu fréquent et il est donc nécessaire de parcourir une grande quantité de texte pour obtenir un nombre satisfaisant d’occurrences.