Occurrences non détectées - Étiquetage lexical manuel et finalisation du corpus

Dictionnaire, corpus et vocables 4.1 Introduction

4.4 Étiquetage lexical manuel et finalisation du corpus

4.4.2 Occurrences non détectées

Comme nous pouvons le voir sur la figure 4.7 les occurrences des 60 vocables sont identifiées par leur lemme. Cette procédure permet d’accéder à toutes les formes flé-chies d’un vocable en s’affranchissant des ambiguïtés catégorielles et en simplifiant au maximum la syntaxe de la requête qui décrit toutes les formes fléchies du vocable. Cet avantage comporte néanmoins un inconvénient : il nous rend tributaire de la qualité de la lemmatisation des occurrences de nos vocables dans le corpus. En effet, seules les occurrences correctement lemmatisées reçoivent une étiquette lexicale. Or, comme le montre la figure 4.9, certaines occurrences ne sont pas correctement lemmatisées et ne reçoivent donc pas d’étiquette lexicale.

Les erreurs au niveau de la lemmatisation peuvent avoir deux origines : – une erreur de lemmatisation de la part du logiciel Cordial Analyseur ; – une erreur de lemmatisation résultant de la décomposition des lemmatisations

Requête : cible:[lemme="@(1)"] Apparence : // Fichier [P:cible.fichier][C:9] // Paragraphe [P:cible.paragraphe][C:9] // Position dans le paragraphe [P:cible.position][C:9] // Contexte gauche [B:[P:mot][C:32];cible.index-20;cible.index-1][C:9] // Cible [P:cible.mot][C:9] // Lexie [P:cible.lexie][C:9] // Contexte droit [B:[P:mot][C:32];cible.index+1;cible.index+20][C:9] // Clef contexte gauche

[B:[P:mot][C:32];cible.index-1;cible.index-5][C:9] // Fin de ligne

[C:10]

Figure 4.7 – Règle (etiq_vert.loxr) utilisée pour la réalisation des ﬁchiers tabu-laires servants à l’étiquetage vertical dans un tableur.

\act=EXT_CORR \opt_act=nodiscr \opt_act=corp_ens \corpus_type=tabulaire \fic_prop=propriete.txt \sep_prop=9 \sep_mot=10 \corpus=abu.cnr \corpus=joc.cnr \corpus=mon.cnr \corpus=ouv.cnr \corpus=per.cnr \regle=etiq_vert.loxr<détention> \fic_res=res.loxf \fic_ref= \fic_inf=inf.loxf

Figure 4.8 – Paramètres du traitement pour la réalisation du ﬁchier tabulaire pour le vocable détention.

Contexte gauche Jeton Lemme Contexte droit

réglé , les costumes arrêtés costumer , les poses apprises , du service universel compris livrer comme l ’ ensemble des

hypothèses une fois connues être , une déduction

, la plupart bien connues avoir , bien souvent étudiées sont imculpés , est exceptionnelle exceptionnelle : 56 kilogrammes d ’ ) Objet : Contrôles exercés grecquer cette année sur la

les « glen » des hautes haute terres d ’ Écosse , les modestes subsides mis justifier initialement à sa la bouche , les jambes ouvertes boucher , le haut du pantalon

’ arbre , les paumes ouvertes contrer , il dormait , en : - - La nuit passée nuire , nous avons couché dans , il y mordit à pleines pleine dents . « Ah !

de leur architecture régulière régulière les courbes étudiées des journée du 18 janvier rendrent rendrent compte des réactions et

sanguins Le compte rendu compter officiel du Conseil des les mutilations traditionnelles traditionnelle sont prohibées par l ’ , et , le soir venu pouvoir , il résolut de passer détails . La nuit venue nuire , le Victoria jeta l

Figure 4.9 – Exemples d’occurrences mal lemmatisées.

Il est difficile de garantir que chacune des occurrences des 60 vocables est bien lem-matisée. En effet, même en regardant manuellement toutes les formes fléchies possibles de chacun de nos vocables, il subsisterait des erreurs de lemmatisation causées par une mauvaise interprétation de l’annotateur (erreurs humaines). D’autre part, une telle opération serait coûteuse en temps et fastidieuse. Nous avons donc simplement cherché à réduire ces erreurs en utilisant des méthodes automatiques et peu coûteuses.

Ainsi, pour détecter des occurrences de nos vocables comportant un lemme erroné, nous effectuons des recherches centrées sur les jetons et non pas sur leur lemmatisation. Nous utilisons parfois l’information véhiculée par les étiquettes morphosyntaxiques pour filtrer les résultats afin de ne pas surcharger l’annotateur en occurrences correctement lemmatisées correspondant à une autre classe grammaticale. Ce filtrage, quand nous y avons recours, se fait au détriment de l’exhaustivité de la détection puisque nous sommes cette fois-ci tributaire de la correction de l’étiquetage morphosyntaxique. Le principe de base de la détection consiste à rechercher des jetons dont la forme correspond à une forme fléchie de l’un de nos vocables mais dont le lemme ne correspond pas à celui de ce vocable. Dans le cas des adjectifs, nous excluons les jetons reconnus comme des noms, pour limiter le nombre de détections inadéquates. Pour les verbes, nous nous limitons aux jetons reconnus comme des verbes. Cette procédure permet d’obtenir une bonne précision de la détection au détriment du rappel. Nous détectons ainsi environ un millier d’occurrences des 60 vocables potentiellement mal lemmatisées parmi lesquelles environ 90% le sont vraiment. Ces recherches sont effectuées avec le logiciel WinLoX qui produit comme résultat un fichier tabulaire, comme décrit dans la section 4.4.1, utilisé pour réaliser un étiquetage lexical manuel. À titre d’exemple, la figure 4.10 montre la règle utilisée pour la détection des occurrences des 20 noms potentiellement mal lemmatisés, la figure 4.11 montre la règle utilisée pour les adjectifs. Pour utiliser ces règles, l’action de WinLoX est extraire correspondances.

Notre travail s’étalant sur plusieurs années, nous avons disposé de plusieurs mises-à-jour du logiciel Cordial Analyseur. Nous avons ainsi repris plusieurs fois la pro-cédure d’étiquetage de notre corpus ; bien entendu, seul l’étiquetage automatique est recommencé, l’étiquetage lexical manuel est toujours conservé. En fait, avec la dernière version utilisée, notre procédure de détection des occurrences des 60 vocables potentiel-lement mal lemmatisés ne détecte plus qu’une centaine d’occurrences potentielpotentiel-lement

[B:[P:mot][C:32];cible.index-1;cible.index-5][C:9] // Fin de ligne

[C:10]

Figure 4.10 – Règle utilisée pour la détection des noms potentiellement mal lemma-tisés.

Requête :

cible:[ (ems!~"^N" & (

[B:[P:mot][C:32];cible.index-1;cible.index-5][C:9] // Fin de ligne

[C:10]

Figure 4.11 – Règle utilisée pour la détection des adjectifs potentiellement mal lem-matisés.

mal lemmatisées parmi lesquelles environ 70% le sont vraiment.

La reprise de la procédure d’étiquetage de notre corpus avec une version diﬀérente du logiciel Cordial Analyseur génère deux types d’incohérences :

– quelques occurrences des 60 vocables que nous n’avions pas encore détectées vont surgir ;

– quelques occurrences des 60 vocables qui avaient bien été détectées vont dispa-raître.

La première incohérence est due aux modifications et aux améliorations apportées au logiciel Cordial Analyseur qui étiquette correctement un jeton qui avait mal été étiqueté par une version précédente et qui n’avait pas été détecté par notre procédure de détection décrite plus haut dans cette section. Pour résoudre ce problème, il suffit de regénérer des fichiers tabulaires (comme décrit dans la section 4.4.1) pour réaliser un étiquetage lexical manuel de ces nouvelles occurrences. La deuxième incohérence entraîne que notre corpus contient des occurrences de nos vocables identifiées et pos-sédant une étiquette lexicale, mais non accessibles par leur lemme (puisque celui-ci est erroné). En fait, ce deuxième type d’incohérence est également généré par la procédure de détection et d’étiquetage lexical manuel des occurrences mal lemmatisées décrite plus haut dans cette section. Ce cas se présente quand une occurrence mal étiquetée par une version antérieure de Cordial Analyseur, détectée par notre procédure et corrigée manuellement, reste mal été étiquetée par la nouvelle version de Cordial Analyseur. Il faut donc corriger ces lemmes incohérents.

Dans le document Outils d'exploration de corpus et désambiguïsation lexicale automatique (Page 84-89)