• Aucun résultat trouvé

3.3 Identification d’usages de termes

4.1.1 Algorithme de remont´ee-descente

Comment pouvons-nous construire un vecteur conceptuel pour un texte donn´e ?Nous propo- sons ici une approche par remont´ee et descente de vecteurs sur un arbre d’analyse (analyse RD).

`

A partir du texte, la premi`ere ´etape consiste `a construire un arbre d’analyse morphosyntaxique. Il s’agit d’un arbre de d´erivation (en constituants) dont les feuilles reconstituent quasiment la phrase originale. Une feuille r´ef`ere `a un mot auquel sont associ´ees une ou plusieurs d´efinitions (trouv´ees dans les diff´erents dictionnaires) et un vecteur conceptuel. Pour simplifier, nous ne consid´erons que les noms, verbes, adjectifs et adverbes, `a l’exclusion des mots-outils. En grammaire, un mot-outil ou mot grammatical, appartient `a une cat´egorie de mots tels que les articles et les pr´epositions, dont le rˆole syntaxique induit en partie le rˆole s´emantique, mais n’a a priori qu’un impact th´ematique direct r´eduit. Apr`es filtrage en fonction de l’accord avec les attributs morphosyntaxiques, un vecteur conceptuel global non contextualis´e obtenu `a partir des vecteurs de sesk d´efinitions est attach´e `a la feuille. La fac¸on la plus simple et directe pour le faire (mais pas la meilleure) est de calculer le vecteur moyen :V (w) = V (w.1)⊕ · · · ⊕ V (w.k). Si le mot est inconnu (i.e. il n’est pas dans le dictionnaire), le vecteur nul est consid´er´e.

Les vecteurs sont ensuite propag´es vers le haut (propagation ascendante, voir figure4.1). Consid´erons un sommetN dans l’arbre avec p fils Ni(1 ≤ i ≤ p). Le nouveau vecteur calcul´e pour N est la somme pond´er´ee de tous les vecteurs associ´es auxNi:

V (N ) = α1N1⊕ · · · ⊕ αpNp

Les poidsα d´ependent de la fonction syntaxique des nœuds. Par exemple, un mot gouverneur1 se verra attribuer un poids plus important (α = 2) qu’un mot standard (α = 1). L’objectif de cette pond´eration est de permettre la diff´erentiation de phrases form´ees avec des mots identiques mais ne

1. ou tˆete : il fait r´ef´erence `a la partie principale de la phrase, o`u de fac¸on plus g´en´erale, du syntagme. 156

Nous rappelons que :γ(X, Y ) = X⊕ (X Y ) (voir Annexe du chapitre 1).

Cette propagation est effectu´ee de mani`ere r´ecursive vers le bas, jusqu’`a atteindre les feuilles de l’arbre. Au niveau des feuilles, un processus implicite de s´election lexicale est entrepris. Le nouveau vecteur global contextualis´e est la somme pond´er´ee des vecteurs des d´efinitions dans lesquelles les poids sont reli´es de mani`ere non lin´eaire `a la quantit´e d’information mutuelle entre le contexte (som- metN ) et un sens donn´e :

V0(w) = βiV (w.1)⊕ · · · ⊕ βiV (w.k) avec βi= cot(V (N ), V (w.i))

(4.1)

Si le vecteur de contexteV (N ) est tr`es proche de w.i, alors le vecteur global V (w) pour le mot w est quasiment ´egal `a V (w.i) (nous rappelons que cot fait r´ef´erence `a la fonction cotangente avec cot(0) = +∞ et cot(π/2) = 0, voir1.4.3).

Nous pouvons d´efinir un peu plus pr´ecis´ement cette fonction de contextualisation forteΓ. Soit un terme w ayant n acceptions w1· · · wn. La fonctionΓ(w, V ) retourne le vecteur de w fortement contextualis´e par le vecteurV :

Γ(w, V ) = V (w.i) si V = V (w.i) (4.2)

Γ(w, ~0) = V (w) (4.3)

Γ(w, V ) = βiV (w.1)⊕ · · · ⊕ βiV (w.n) avec βi= cot(V (N ), V (w.i))

(4.4)

Nous ´etendons cette d´efinition au cas o`uw n’a aucune acception (autre que lui-mˆeme) :

Γ(w, V ) = V (w) (4.5)

Le processus de propagation ascendant et descendant est it´er´e jusqu’`a ce qu’un nombre maxi- mum de cycles soit atteint, ou jusqu’`a ce que le vecteur de la racine se stabilise. La stabilisation est d´etect´ee de fac¸on empirique quand entre deux cycles, la variation de la distance angulaire entre les deux versions du vecteur racine est faible. En toute g´en´eralit´e la convergence du processus n’est pas garantie, et elle l’est d’autant moins pour des phrases fortement ambigu¨es pour lesquelles certains ph´enom`enes d’oscillations peuvent avoir lieu. Ceci ´etant dit, nous observons ´egalement que ces ph´enom`enes sont dynamiquement stables dans le temps (ils se r´ep`etent avec r´egularit´e et seraient donc automatiquement d´etectables, au moins en th´eorie mais en pratique avec un coˆut de calcul d´eraisonnable).

La d´esambigu¨ısation lexicale est effectu´ee implicitement par la s´election lexicale durant le pro- cessus. Cette s´election est elle-mˆeme issue de la descente par contextualisation des vecteurs des termes environnants (le contexte pour chaque terme). Une acception dont le vecteur partage de l’information avec le contexte sera favoris´ee au d´etriment des autres. Il s’agit bien d’une analyse th´ematique, car les fonctions syntaxiques du texte ne sont pas exploit´ees, mis `a part l’identification

du les attaquent toit GN v5 = v2a+ v2b + v2c N VER v2 du fermes toit commencer agresser critiquer bâtiment exploitation charpente toiture anatomie dessus a v2a b v2b c v2c a v3a b v3b c v3c a v4a b v4b c v4c v2a+ v2b + v2c v3 v4 = v4a+ v4b + v4c N

FIGURE4.1 – Repr´esentation graphique simplifi´ee de la propagation montante des vecteurs d’id´ees. Les vecteurs ascendants s’agglom`erent par somme vectorielle pond´er´ee.

de la tˆete (gouverneur) pour en augmenter la pond´eration. La propagation (le long d’une structure, ici un arbre morpho-syntaxique) est l’id´ee centrale de l’approche pr´esent´ee. La propagation s’ac- compagne d’un processus de contextualisation forte qui est `a la base de la s´election (la fonction de contextualisation pour les vecteurs d’id´ees est pr´esent´ee au chapitre 1).

Ce mod`ele d’analyse pr´esente au moins deux d´efauts majeurs. D’une part, les diverses interpr´etations sont fusionn´ees, et d’autre part les contraintes entre les diff´erents sens s´electionn´es pour les mots ne sont pas structurellement repr´esent´ees. La m´ethode que nous pr´esentons dans la suite, avec les ap- proches bioinspir´ees, tente de pallier ces inconv´enients.

Documents relatifs