Approches supervisées

1.4 Approches

J' appelle mon avocat . avocat/personne Vecteurs de mots Encodeur pour "avocat" Mots Sens pour "avocat"

J' appelle mon avocat . avocat/personne Vecteurs de mots Encodeur générique Mots Sens ^{appeller/téléphoner}

19. L’ensemble de WordNet contient par exemple 26 896 mots polysémiques (https://wo

rdnet.princeton.edu/documentation/wnstats7wn₎

J' appelle mon <X> . Modèle de langue Mots Prédictions avocat/fruit

avocat/personne Je mange un avocat. L'avocat est bon en salade. Cet avocat est trop acide. Un avocat marche dans la rue.

Mon avocat est très prudent.

Cet avocat aime son métier. _plus

moyenne _moyenne

1.4 Approches

1.4.2 Approches supervisées

Les approches supervisées sont celles qui s’appuient sur des données annotées

en sens comme ressource principale pour leurs méthodes. Dominant généralement

les campagnes d’évaluation, les approches supervisées nécessitent cependant une

quantité de corpus annotés en sens très coûteuse afin d’obtenir une bonne

couver-ture. De plus, elles sont difficilement applicables à d’autres langues que l’anglais

car c’est la langue largement la plus dotée en quantité de textes annotés.

Avec la récente popularité des vecteurs de mot puis des architectures

neuro-nales dans le traitement automatique des langues, les méthodes supervisées ont

énormément évolué. C’est pourquoi dans cette section, nous allons passer en

re-vue les principales approches supervisées, en décrivant d’un côté les méthodes

pré-neuronales et de l’autre celles à base de réseaux de neurones. De plus, nous

al-lons traiter d’un côté les approches neuronales à classification directe, et de l’autre

côté, celles fondées sur la méthode des k plus proches voisins.

1.4.2.1 Approches supervisées pré-neuronales

On peut retrouver les débuts des méthodes supervisées aux travaux de

Ya-rowsky(1992), et deLeacock et al.(1993) par exemple, qui construisent des

sys-tèmes statistiques entraînés sur des exemples afin de discriminer automatiquement

les sens d’un mot. Dans ces travaux cependant, seule une poignée de mots

polysé-miques est annotée en sens et l’évaluation des performances de leurs systèmes se

fait sur leurs propres exemples, ce qui rend difficile leur comparaison avec d’autres

méthodes.

Plus tard, les travaux deNg et Lee (1996) puisNg(1997) deviennent les

un système sur une version préliminaire du corpus DSO (Ng et Lee, 1997)

com-prenant plus de 192 000 annotations en sens pour 121 noms et 70 verbes différents.

Leur système utilise un ensemble de traits linguistiques tels que les parties du

dis-cours et l’ensemble non ordonné des mots entourant une instance afin de classifier

le sens d’un mot. Les auteurs comparent ensuite les performances de plusieurs

classifieurs tels que la méthode des k plus proches voisins et le modèle bayésien

naïf.

À la campagne d’évaluation SemEval 2007, le système NUS-PT (Chan et al.,

2007b) arrive en tête de la tâche de DL « gros grain » avec un score F1 de 82,50 %.

Son fonctionnement, qui est similaire à celui de Lee et Ng (2002) repose sur la

classification d’un mot en sens en fonction des ensembles de traits linguistiques

suivants :

— Les collocations locales, composées de 11 traits :C

C

C

,C

C

C

C

C

C

C

C

C

correspond à la

suite ordonnée de mots dans le contexte local du mot cible.ietj dénotent

ainsi les positions de début et de fin de la séquence, relatives au mot cible.

— Les parties du discours, avec 7 traits :P

P

P

P

P

P

P

P

est la partie du discours du mot à la positionirelative au mot cible.

— Les mots uniques du contexte, avec un trait pour chaque lemme trouvé dans

la même phrase que le mot cible pendant l’entraînement. La valeur de ces

traits vaut ensuite1si le lemme est présent dans la même phrase que le mot

cible, et0sinon.

Pour chacun des mots du lexique de WordNet, un classifieur linéaire de type «

sé-parateur à vaste marge » (SVM) est entraîné pour assigner un sens à un mot en

fonction de ces traits. Le système est entraîné sur les corpus SemCor et DSO, et

une méthode permettant d’ajouter des exemples depuis un corpus parallèle est

uti-lisée en exploitant des corpus parallèles anglais-chinois.

À la suite de ces travaux,Zhong et Ng(2010) proposent un système supervisé

nommé « It Makes Sense » (IMS), qui reprend tous les éléments de NUS-PT, mais

sous la forme d’une implémentation en Java qui est libre et extensible. Le système

IMS servira de base et de référence à de nombreux systèmes supervisés comme

par exempleTaghipour et Ng(2015a) etIacobacci et al.(2016). Ces deux systèmes

améliorent IMS en l’entraînant sur de nouveaux corpus d’entraînements (l’OMSTI

en particulier) en en intégrant de nouveaux traits à base de vecteurs de mot comme

ceux de Word2Vec (Mikolov et al.,2013).

Plus tard, les systèmes supervisés qui s’appuient sur des traits linguistiques sont

délaissés au profit des systèmes neuronaux. Ces derniers permettent d’extraire et

_{correspond à la}

suite ordonnée de mots dans le contexte local du mot cible.i_etj _dénotent

est la partie du discours du mot à la positioni_{relative au mot cible.}

traits vaut ensuite1_{si le lemme est présent dans la même phrase que le mot}

cible, et0_sinon.

d’une distribution de probabilité calculée par la fonction softmax_{. Ces systèmes}

LSTM_{, et la troisième assigne un sens à chaque mot grâce à la fonction}softmax_.

Les couches cachées de cellulesLSTM _{sont ainsi très petites, avec seulement}

LSTM _{mais qui permet cette fois de prédire une étiquette pour chacun des mots}

le choix entre les quatre sens possibles du nomsouris_{. Ce type d’approche}