Désambigüisation sémantique - Étiquetage sémantique et désambigüisation

Analyseur syntaxico-sémantique : GRASP

Algorithme 3: Désambigüisation lexicale : ﬂexionToNodeDisambiguation

4.3 Étiquetage sémantique et désambigüisation

4.3.2 Désambigüisation sémantique

Nous avons vu précédemment (cf. ﬁgure4.1) que des entrées de LGpouvaient être associées à plusieurs clés de K_G. D’un point de vue quantitatif, 287 des 4 266 entrées de L_G(6,7%) sont ambigües. Cette proportion est relativement faible par rapport à la langue en général. Cela est

Rang Clé

Nombre de lemmes

associés

Exemples de lemmes associés

1 ISFORCELARGE 65 bien, carrement, radicalement, tellement, tres. . . 2 ORDNTH 45 ^{troisieme, huitieme, huitiemement,}_{quatre-vingtieme. . .}

3 AKOCARDINAL 42 cinq, treize, vingtaine, cent, centaine, milliard. . . 4 ISINCOMPETENT 41 abruti, bete, maladroit, simplet, LOC[bon, a, rien]. . . 5 NOKEY 40 abord, aujourd, ci, dalle, extenso, fur, train, vis. . . 6 AKOPUNCTUATION 33 accolade, virgule, LOC[point, de, exclamation]. . . 7 ISCERTAIN 29 ^{certain, clair, inconstestable, surJ, LOC[sans,}_{doute]. . .}

8 ISSURPRISING 28 atypique, bizarre, inattendu, insolite, LOC[ha, bon]. . . 9 ISHABITUAL 27 classiquement, habituel, normal, LOC[en, general]. . . 10 ABOUT 27 ^{concernant, dedie, relatif, surG, LOC[a, le, sujet,}_{de]. . .}

Tableau 4.6 Les 10 clés sémantiques les plus fréquentes dans LG

dû au fait qu’on circonscrit le domaine des clés sémantiques aux occurrences eﬀectives dans le corpus Daft.

De plus, parmi celles-ci, on observe que le nombre de clés possibles peut varier de deux à quatre (cf. les exemples de la ﬁgure 4.5), avec une forte majorité de cas où seulement deux sens sont possibles (cf. tableau4.8). Là aussi, ce nombre de variantes est plus faible que ce que l’on trouve dans la langue dans son ensemble, ce qu’on peut rapprocher du phénomène décrit par Gale et al. [1992] selon qui lorsqu’un lemme a plusieurs signiﬁcations possibles, il n’est employé que dans un seul de ces sens au sein d’un même discours (ici, un même contexte : l’assistance). D’autres sens sont bien évidemment possibles de manière générale (par exemple “donner son soutien à” pour “appuyer”), mais nous ne les avons pas constatés dans le corpus Daft.

Nous pouvons alors déﬁnir l’ensemble AEK que constituent les couples associés (e, k) ∈ (LG× K_G) où |e.KEY S| > 1, et qui est tel que |A_EK| = 618 (cf. tableau 4.8).

abandonner : TOABANDON TOABORT

appuyer : TOCLICK TODEPENDON

sur : ISPOSUPON ABOUT

proposer : TOADVISE ISAVAILABLE TOINTENT

derriere : ISPOSUNDER ISPOSVERSO ISSUCCESSOR AKOBODYPART

retrouver : TOMEET TONEEDHELP TOTURNOUT TOFIND

Figure 4.5 Exemples d’entrées de LG ambigües : 1 lemme - N clés sémantiques

Il faut donc, comme dans le cas où plusieurs lemmes étaient liés à une même ﬂexion, procéder à une étape de désambigüisation en fonction du contexte de la phrase, généralement nommée Word Sense Disambiguation (WSD – cf. section 1.2.2.3). Ici, pour rester sur notre logique consistant fonder la chaîne de traitement sur l’étude du corpus, nous avons opté pour

Classe Sous-classe (+ nombre de clés associées)

¤INTERACTING

*MEETING (9), *INTERACTION (8), *SPEAKING (13),

*QUESTIONNING (4), *REQUESTING (3), *SOLLICITING (3), *THANKING (5), *HESITATING (3), *PROMPTING (2), *MANAGING (17), *SOCIALIZING (8), *EXCHANGING (16), *ENTERTAINING (8), *PLAYING (3)

¤ARGUING

*FIGHTING (14), *DISTURBING (5), *INSULTING (4),

*CONGRATULATING (3), *APOLOGIZING (4), *PROMISING (2), *FRIENDLINESS (4), *PROUDNESS (9), *SATISFACTION (2), *PATIENCE (6), *HONESTY (8)

¤HELPING ^{*ASSISTING (9), *COOPERATING (4), *INFORMING (16),}_{*DOCUMENTING (14)} ¤OPINION

*FEELING (12), *WANTING (5), *CARING (5), *LIKING (15), *WORTH (21), *LUCK (2), *EFFORT (6), *REGULARITY (7), *ETHICS (3), *GENERALITY (2), *REALITY (6)

¤TIME ^{*DATE (41), *TIMEPOSITION (10), *TIMEDURATION (14),}_{*FREQUENCY (14), *AGE (5)} ¤THINKING ^{*REASONING (5), *RESOLVING (4), *REALIZING (6),}_{*EXPECTING (7), *CHOOSING (5), *REMEMBERING (4)} ¤PROCESS

*EVOLUTION (14), *PLANNING (9), *STATUS (14),

*OPERATIONALITY (14), *CONTROLLING (35), *TUNING (4), *SPEED (5), *CAUSING (13), *INFLUENCING (8), *HISTORY (3) ¤CONFIDENCE

*CHECKING (7), *TRUSTING (4), *BELIEVING (11), *CORRECTNESS (10), *CONFUSING (9), *WORRYING (7), *DANGER (14), *PRIVACY (4)

¤AVAILABILITY ^{*OBLIGATION (7), *AUTHORIZATION (14), *CONSTRAINING (6),}_{*POSSIBILITY (4), *EXISTENCE (9), *CAPACITY (9)} ¤OPERATION ^{*OPERATING (8), *TRYING (10), *UNDOING (4), *REPEATING (3),}_{*USING (8)} ¤SYSTEM ^{*ACTORS (6), *ENVIRONMENT (4), *HARDWARE (14), *FILE (13),}_{*APPLICATION (11), *DESIGNING (8)} ¤INTERFACE ^{*WINDOW (9), *BAR (8), *BUTTON (4), *PICTURE (7), *TEXT (20),}_{*SOUND (6), *DISPLAY (17), *SHAPE (12), *COLOR (22), *STYLE (9)}

¤STRUCTURE

*STRUCT (11), *STRUCTURING (35), *EXTRACTING (11), *DATATYPE (34), *CALCULATING (18), *MEASURING (10), *COMPARING (21), *NAVIGATING (20), *SEARCHING (7), *MODIFYING (19), *CONFIGURING (11), *IDENTITY (17)

¤SPACE ^{*SPACEPOSITION (30), *SPACEDISPOSITION (5),}_{*SPACEATTRIBUTE (14), *SPACEMOVE (12), *SPACEMODIFY (7)} ¤QUANTIFYING ^{*INTENSITY (6), *QUANTIFIER (15), *QUANTITY (18),}_{*ORDINALITY (13)}

¤GRAMMAR

*PUNCTUATION (1), *LITERAL (2), *RELATION (34), *AUXILIARY (3), *DETERMINANT (7), *PRONOUN (15), *CONJUNCTION (2),

*FRENCH (3)

¤WORLD *PERSON (14), *GROUND (32), *ADHOC (6)

Nombre de clés associées à un lemme

Nombre d’entrées de LG

Proportion de l’ensemble des entrées ambigües

Nombre de couples (lemme, clé) 2 247 86% 494 3 36 12,6% 108 4 4 1,4% 16 TOTAL 287 100% 618

Tableau 4.8 Entrées de LG ambigües en fonction du nombre de clés associées une approche à la fois :

− statistique, c’est-à-dire fondée sur une étude fréquentielle des sens en fonction du contexte de la requête, par opposition à l’utilisation de règles de désambigüisation gé-nérales, établies hors de tout contexte. L’utilisation de règles ad hoc nous ferait en eﬀet perdre l’avantage de travailler sur un sous-langage.

− supervisée, c’est-à-dire passant par l’annotation manuelle du corpus, par opposition à l’utilisation de méthodes d’apprentissage non supervisé pour déﬁnir des clusters de sens. L’approche non supervisée permet en eﬀet d’éviter le problème de subjectivité de l’annotation décrit par Véronis [1998], mais il est important pour nous par la suite de connaître précisément les sens des clés sémantiques employées.

4.3.2.1 Annotation du corpus

Parmi les 11 626 requêtes du corpus Daft, 1 241 contiennent au moins une des 287 entrées sémantiquement ambigües. La première étape nécessaire consiste donc à identiﬁer pour cha-cune de ces phrases le sens correct des entrées ambigües qu’elles contiennent. Par exemple, deux clés sémantiques sont associées au lemme “abandonner” :

− TOABORT pour le sens “mettre ﬁn à une action ou un processus en cours”, − TOABANDON pour le sens “laisser une personne seule”.

On peut alors extraire automatiquement les (six) phrases lemmatisées du corpus où apparaît ce lemme et leur associer manuellement la clé sémantique correcte, ce qui donne la répartition représenté sur la ﬁgure4.6.

TOABORT TOABANDON

“J’abandonne” “Je t’abandonne”

“j’abandonne la partie” “je ne me sens pas vraiment abandonné” “Ne m’abandonne pas !”

“si toi aussi tu m’abandonnes...”

Figure 4.6 Exemple de phrases associées aux diﬀérents sens d’une entrée

am-bigüe de LG (“abandonner”), tels qu’observés dans le corpus Daft

Avec cette annotation, nous pouvons obtenir, sur les phrases du corpus, une performance de 100% de désambigüisation. Néanmoins, l’objectif étant de pouvoir désambigüiser eﬃcacement

ces lemmes dans de nouvelles phrases, il nous faut utiliser un algorithme nous permettant de généraliser ces résultats.

4.3.2.2 Déﬁnition de l’algorithme

Pour eﬀectuer laWSD, il est possible de se baser sur les lemmes ou sur les clés sémantiques présents dans la requête et qui fournissent donc le contexte d’emploi du lemme, et diﬀérentes fenêtres (nombre de voisins) peuvent être testées. Nous avons en particulier considéré deux méthodes possibles :

− une approche fondée sur les clés sémantiques de tous les autres lemmes de la phrase, que nous appellerons WSD_K_∗ et qui est implémentée par la fonction wsdSem,

− une approche prenant uniquement en compte une fenêtre restreinte composée des deux lemmes qui précèdent et des deux lemmes qui suivent celui à désambigüer (soit un 5-gramme centré sur le lemme à identiﬁer), que nous appellerons WSDL₂ et qui est gérée par la fonction wsdLem.

Utilisation de toutes les clés (WSD_K_∗). Aﬁn d’exploiter l’annotation eﬀectuée, il faut dans un premier temps construire la matrice de cooccurrence MK (essentiellement creuse) de taille |KG| × |AEK| qui associe à chaque couple [(lemme ambigu l, clé associée k), clé k′] une pondération non nulle lorsque k′ est présente dans une des phrases du corpus où le lemme l a la valeur sémantique k. MK = couples (lemme, clé)         w_1,1 w_1,2 · · · w_1,|AEK| w_2,1 w_2,2 · · · w_2,|AEK| ... ... ... ... w_|K_G_|,1 w_|K_G_|,2 · · · w_|K_G_|,|AEK|         clés

La matrice MK peut se construire en appliquant la formule suivante : ∀(l, kl) ∈ A_EK, M_K[k_i, (l, k_l)] = ^X r∈Daft X n∈G(r) nL6=l nK∈K/ ST OP 1 |G(r)|

où : G(r) correspond à l’analyse par GRASP et mise sous forme de nœuds de la requête r, K_{ST OP} est une stoplist de clés de KG non utiles pour la discrimination sémantique, n_L est le lemme associé au nœud n (i.e. contenu du champ LEM),

n_K est la/les clé(s) associée(s) au nœud n (i.e. contenu du champ KEYS).

L’ensemble KST OP a été établi de manière empirique, et regroupe essentiellement les mots grammaticaux les plus fréquents : KST OP = {QUEST, THIS, TOBE, THESYSTEM, A, OF, AKOPUNCTUATION, $A, TOCAN, THEUSER, $QUE, IT, UNDEFPRON, LITERAL, TO-HAVE, THE, NEG, INORDERTO, THAT, TOEXECUTE}.

À partir de cette matrice, il est alors possible de déterminer le score associé à chaque clé sémantique ki possible pour un lemme l ∈ LG en appliquant la fonction wsdSem décrite par l’algorithme 4. La clé sémantique choisie est alors celle ayant le score le plus élevé dans le vecteur de pondération retourné.

Dans le document Conception d'une chaîne de traitement de la langue naturelle pour un agent conversationnel assistant (Page 118-123)