Désambiguïsation sémantique à base des word embeddings

créées à partir du réseau lexical

5.2. Désambiguïsation sémantique à base de connais- connais-sances provenant du réseau lexical JeuxDeMots

5.2.2. Désambiguïsation sémantique à base des word embeddings

Dans cette sous-section, nous présentons d’autres algorithmes que nous avons proposés pour la désambiguïsation sémantique. L’approche générale reste la même que celle proposée ci-dessus (cf. sous-section5.2.1). La différence prin-cipale est dans les représentations vectorielles de mots et de sens à utiliser. Au lieu d’utiliser les signatures sémantiques de mots et de sens, nous utilisons des représentations vectorielles continues de mots et de sens à base des word

Nous utilisons un jeu de vecteurs de mots proposé parFauconnier(2015)4et basé sur le modèle Word2Vec avec une utilisation du type CBOW, continuous

bag of words(cf. chapitre1, sous-section1.3.1). L’entraînement des embeddings s’est effectué par utilisation des données issues du corpus français FRWAC (

Ba-roni et al., 2009) avec un prétraitement en avant comprenant la lemmatisation

des mots du corpus. Ce dernier contient près de 1.6 milliard de mots. Les vec-teurs de mots que nous utilisons ont 500 dimensions.

Pour les vecteurs de sens, nous avons fait le choix de construire pour chaque sens un vecteur centroïde défini à partir des vecteurs de tous les mots singu-liers représentant des dimensions dans la signature sémantique du sens. L’algo-rithme2, ci-dessous, décrit en détail le système de désambiguïsation.

Algorithme 2 : Désambiguïsation sémantique d’un mot-cible motcpar utilisation des word embeddings (première variante)

Entrées :

mot − cible (mot_c) : mot à traiter

raf f _sem (motc) : ensemble de sens du premier niveau pour le mot-cible

CXT (mot_c) : liste de mots du contexte du mot-cible, hors ce dernier Résultat :

Sens_mot−cible: sens du mot-cible ayant le meilleur score Données :

S_Type: ensemble de signatures de sens dont les dimensions dépendent du type de signatures

Rels_Inhib// Voir l’algorithme 1. 1 Initialisation :

2 Score_{raf f s_C} = ∅ // Voir l’algorithme 1. 3 pour chaque sens_i ∈ raf f _sem (mot_c) faire

4 Score(sens_i) = 0;

5 V (sens_i) ← Vecteur centroïde défini à partir des vecteurs de tous les mots singuliers représentant les dimensions de la signature ST ype(Sens_i)

6 pour chaque voisin_j ∈ CXT (mot_c), avec j ∈ {1, . . . , |CXT (mot_c)|} faire 7 si (sens_i, voisin_j) /∈ Rels_Inhib alors

8 Score(sens_i) = Score(sens_i) + Cosinus(V (sens_i), V (voisin_j)); 9 Scoreraf f s_C ← Scoreraf f s_C ^S(sens_i, Score(sensi));

10 si (|Best (Score_{raf f s_C})| > 2) alors

11 _Sensˆ _mot−cible ← JDM–FS–LISTE(mot_c, Best (Score_{raf f s_C})) // Voir l’algorithme 1.

12 sinon

13 _Sensˆ _mot−cible ← Best (Score_{raf f s_C})

Nous n’utilisons pas les expressions polylexicales – Multiword Expression (MWE) qui se trouvent dans la signature sémantique de chaque sens pour la construction du vecteur centroïde du sens (représentation vectorielle continue du sens). En effet, comme cité par Salehi et al. (2015), les expressions poly-lexicales sont des combinaisons de mots qui présentent une certaine idiomati-cité (Baldwin et Kim, 2009), y compris l’idiomaticité sémantique. Leur sens est souvent non compositionnel, c’est-à-dire que la sémantique, par exemple, de

pomme de terre ne peut pas être prédite à partir de la sémantique des mots

pommeet terre ou de examen clinique à partir des mots examen et clinique5. La fonction V (sensi)décrite dans l’équation5.1retourne le vecteur centroïde (moyen) d’un sensi du mot-cible motc.

V (sens_i) = ¹ |S0 T ype(sensi)| X d∈S_{T ype}⁰ (sensi) V (d) (5.1)

S_{T ype}⁰ (sensi)est la signature sémantique de sensi qui ne prend en compte que les mots singuliers comme dimensions. d est une dimension représentant un mot singulier appartenant à la signature sémantique de sensi.

L’algorithme2, ci-dessus, traite le même nombre de paires de (sens, mot) que l’algorithme1. La mesure de similarité utilisée ici pour comparer un vecteur de sens à un vecteur de mot est un Cosinus.

Nous utilisons une deuxième variante de la méthode de désambiguïsation à base des word embeddings. Pour cette variante, nous nous inspirons de l’ap-proche de désambiguïsation proposée parChen et al.(2014). Le principe de leur approche de désambiguïsation consiste à comparer le vecteur de chaque sens candidat directement au vecteur du contexte. Ce dernier est le vecteur centroïde de tous les vecteurs de mots du contexte. Dans notre cas, pour chaque sens can-didat, le vecteur du contexte est le vecteur centroïde des vecteurs de mots qui ne sont pas exclus par le sens. En général, l’application de cette méthode consiste à traiterP

w∈T N_wpaires de (sens, contexte), avec Nwle nombre de sens du mot polysémique w et T l’ensemble de mots polysémiques du contexte. Cela nous rappelle le même nombre de paires à traiter lorsque nous utilisons la variante de Lesk (Kilgarriff et Rosenzweig, 2000) (cf. chapitre 2, sous-section2.2.2). La fonction V (Contexte)sensi décrite dans l’équation 5.2 retourne le vecteur centroïde du contexte du mot-cible motcpour le calcul du score de sensi.

V (Contexte)_sens_i = ¹ |C(sens_i)|

wj∈C(sensi), wj 6= mot_c

V (w_j) (5.2)

C(sensi) est l’ensemble de mots singuliers appartenant au contexte du mot-cible motc, hors ce dernier, et qui ne sont pas exclus par le sensi. Le mot wj est un mot singulier appartenant à C(sensi).

5. Pour des travaux récents sur la prédiction de la compositionnalité, voir (CORDEIROet al., 2016;

L’algorithme3, ci-dessous, décrit en détail ce système de désambiguïsation. Algorithme 3 : Désambiguïsation sémantique d’un mot-cible mot_cpar utilisation des word embeddings (deuxième variante)

Entrées :

mot − cible (mot_c) : mot à traiter

raf f _sem (mot_c) : ensemble de sens du premier niveau pour le mot-cible

CXT (motc) : liste de mots du contexte du mot-cible, hors ce dernier Résultat :

Sens_mot−cible: sens du mot-cible ayant le meilleur score Données :

S_Type: ensemble de signatures de sens dont les dimensions dépendent du type de signatures

RelsInhib// Voir l’algorithme 1. 1 Initialisation :

2 Score_{raf f s_C} = ∅ // Voir l’algorithme 1. 3 pour chaque sensi ∈ raf f _sem (motc) faire

4 Score(sens_i) = 0;

5 C(sens_i) ← Ensemble de mots singuliers appartenant au contexte du mot-cible et qui n’inhibent pas le sensi

6 V (sens_i) // Voir l’algorithme 2.

7 V (Contexte)_sens_i ← Vecteur centroïde défini à partir des vecteurs de tous les mots de l’ensemble C(sensi)

8 Score(sens_i) = Cosinus(V (sens_i), V (Contexte)_sens_i); 9 Score_{raf f s_C} ← Score_{raf f s_C} S

(sens_i, Score(sens_i)); 10 si (|Best (Score_{raf f s_C})| > 2) alors

11 _Sensˆ _mot−cible ← JDM–FS–LISTE(motc, Best (Scoreraf f s_C)) // Voir l’algorithme 1.

12 sinon

13 _Sensˆ _mot−cible ← Best (Score_{raf f s_C})

5.3. Évaluation intrinsèque de la désambiguïsation

sémantique

Nous présentons dans cette section l’évaluation de nos différents systèmes de désambiguïsation que nous avons décrits dans la section5.2– i.e., application des algorithmes1,2et3.

Nous avons fait le choix d’évaluer la qualité de nos systèmes sur le corpus SemEval–2013 (Navigli et al., 2013) que nous décrivons dans la sous-section

5.3.1. Nous présentons les résultats retournés par les systèmes « Baseline » dans

la sous-section5.3.2avant de présenter les résultats de nos systèmes de désam-biguïsation dans les sous-sections5.3.3et5.3.4.

Dans le document Désambiguïsation sémantique dans le cadre de la simplification lexicale : contributions à un système d'aide à la lecture pour des enfants dyslexiques et faibles lecteurs (Page 110-114)