• Aucun résultat trouvé

6.3 Le filtrage des objets complémentaires

6.3.1 Les vecteurs sémantiques

6.3.1.2 La représentation vectorielle

Nous avons choisi de représenter les mots et relations syntaxiques avec des vecteurs sémantiques afin d’ordonner en termes de qualité les relations syntaxiques induites d’un corpus. Nous présentons dans cette section comment de tels vecteurs sont calculés.

Les vecteurs sémantiques de mots

La base vectorielle représentant l’espace dans lequel chaque mot provenant des phrases d’un corpus est définie par 873 concepts décrits dans le thésaurus de la langue française Larousse, une version française du Roget (qui définissait 1 043 concepts pour l’anglais, réduit plus récemment à 1 000). Cette base vectorielle peut être vue comme une “ontologie conceptuelle” qui référence tous les mots du dictionnaire (dictionnaire Larousse). Actuelle- ment, plus de 60 000 mots sont indexés par cette ontologie et leurs vecteurs sémantiques associés sont ainsi définis. Pour chaque terme sont indexés un ou plusieurs champs de l’on- tologie (autrement appelés concepts). Par exemple le verbe “consommer” est relatif aux concepts de “fin28, nutrition, accomplissement, usage, dépense et repas”. Ainsi, le vecteur

28Notons ici que bien qu’il prête à confusion dans un contexte de nutrition, ce concept est bien la “fin”,

sémantique résultant est composé de zéros, excepté pour les concepts actifs tel qu’illustré dans la figure 6.3. Les concepts de l’ontologie (la base vectorielle) sont numérotés (de 1 à

Fig. 6.3 – Vecteur sémantique du verbe “consommer”.

873). La composante du vecteur se voit attribuer la valeur “1” si elle active un concept de l’ontologie, 0 sinon. De tels vecteurs ainsi formés peuvent être qualifiés d’inertes. En effet, toutes les significations possibles d’un mot sont évoquées mais les concepts actifs ne sont pas différenciés en terme d’intensité.

Les vecteurs sémantiques de phrases

Un vecteur sémantique de phrase est calculé en effectuant une combinaison linéaire de vecteurs de groupes de mots. À leurs tours, les vecteurs sémantiques de groupes de mots sont des combinaisons linéaires de vecteurs de mots ou de sous-groupes de mots.

Deux questions se posent alors :

– Comment sont calculés les vecteurs de mots ?

– Comment sont attribués les poids aux groupes de mots ou bien aux mots lors de la combinaison linéaire ?

Les vecteurs de mots sont représentés tel que décrit dans la section précédente en fonction des concepts définis dans le thésaurus Larousse.

Les différents poids sont quant à eux associés aux vecteurs de mots ou bien de groupes de mots. Ces poids sont calculés en fonction du rôle syntaxique du mot (ou du groupe de mots) dans son contexte (un groupe de mots ou une phrase). C’est pourquoi le groupe de mots est au préalable analysé syntaxiquement avec Sygfran puis transformé en arbre de constituants. Les poids des constituants gouvernants sont plus importants que ceux des constituants gouvernés. Ces pondérations permettent de donner plus d’importance d’un point de vue sémantique aux gouverneurs d’un groupe de mots. Par exemple dans le groupe de mots “consommer de la nourriture”, le verbe “consommer” aura un poids plus important que “nourriture” (le verbe gouvernant l’objet). Ces poids sont définis comme des puissances de 2, en commençant par 20 pour les feuilles de l’arbre syntaxique, qui

sont les constituants les plus dépendants, jusqu’à 2p. p représente le rang du composant “le plus gouvernant” de l’arbre résultant de l’analyse syntaxique. Ainsi, dans l’exemple précédent, consommer aura un poids de 2, et nourriture un poids de 1.

Finalement, la représentation formelle du calcul d’un vecteur sémantique d’un groupe

de mots est la suivante. Soit γ, un groupe de mots analysé par Sygfran afin d’en con- naître la structure syntaxique. Ils peuvent être définis comme un ensemble de mots ordon- nés v1, v2,..., vn. Ces mots sont représentés par les vecteurs suivants −→v1, −→v2, ..., −→vn. Soit λ

une puissance de 2 représentant le poids de chaque mot dans l’arbre du groupe de mots. Par exemple, λ2 est le poids du second mot du groupe de mots. Le vecteur du groupe de

mots λ est obtenu par la somme récursive normée des : 1) mots appartenant au dit groupe de mots

2) sous-groupes de ce groupe de mots

Soit j appartenant à [1, n]. Alors, pour chaque groupe de mots d’un niveau i dans l’arbre issu de l’analyse syntaxique, en sachant que la racine de l’arbre possède le niveau 0 (le plus haut niveau), et les feuilles terminales le plus bas niveau (n), nous avons alors la formule récursive suivante pour calculer le vecteur d’un groupe de mots −→γi :

γi = Pj −−−−−−→ (λjvj,i+1) kP j(λjvj,i+1)k (6.1)

Ainsi, le vecteur est normalisé à chaque appel récursif.

Définissons dès lors la représentation mathématique du calcul d’un vecteur sémantique de phrase. Soit σ une phrase analysée syntaxiquement. Si σ est un groupe de mots de niveau i= 0, φj sont alors des groupes de mots de niveau i = 1. En d’autres termes, φj sont les groupes de mots placés directement sous la racine de l’arbre syntaxique lors de l’analyse de la phrase σ. Alors, la formule permettant de calculer un vecteur sémantique de phrase σ est la suivante : σ = Pj −−−−−−→ (λjφj,i)nor kP j(λjφj,i)nork (6.2)

Notons dans cette équation la présence de la notation “nor”. Celle-ci montre que les vecteurs des groupes de mots φj sont normalisés tel que montré dans la formule les définissant. Le calcul d’un vecteur sémantique de phrase est nécessaire lors du calcul d’un vecteur sémantique de mot “contextualisé”. Nous présentons ci-dessous ce type de vecteurs en motivant le calcul.

Les vecteurs sémantiques contextualisés de mots

Le paragraphe précédent présente le calcul d’un vecteur sémantique de phrase. Ce calcul prend en compte les constituants de cette phrase en fonction de leurs rôles syntaxiques comme “sujet” ou “verbe”. Une phrase et le vecteur sémantique la représentant véhiculent donc un contexte sémantique. En effet, des mots peuvent avoir plusieurs significations suivant la phrase d’où ils proviennent. Citons par exemple le verbe “consommer” qui

possède des sens différents dans les phrases suivantes :

1. Tu veux donc jusqu’au bout consommer ta fureur.29

2. Le pape exigea que ces deux enfants consommassent le mariage, le jour même de sa célébration, tant il craignit les subterfuges de la politique et les ruses en usage à cette époque.30

3. La Prusse rhénane et Lyon fabriquent tout le velours d’Utrecht qui se consomme dans le monde.31

4. La France trouvera de l’avantage dans la vente de ses grains, si, ne se bornant pas à vendre à ceux qui consomment chez elle, elle vend encore à ceux qui consomment dans les États où il lui est permis d’importer.32

5. Stevens parlait ce soir (...) de l’effrayant avalement de bière et d’alcool de Courbet, qui consommait trente bocks dans une soirée et prenait des absinthes où il remplaçait l’eau par du vin blanc.33

Le principe des vecteurs sémantiques contextualisés de mots est de tenir compte du con- texte de la phrase afin de désambiguïser un mot. En d’autres termes, la signification contextuelle d’un mot dans une phrase reflète l’impact des autres mots composant cette phrase. Afin de produire un tel vecteur, le produit du mot “vecteur dictionnaire” (vecteur obtenu avec les concepts du thésaurus Larousse tel que décrit dans le premier paragraphe de cette section) avec le vecteur de la phrase d’où il provient (vecteur décrivant le contexte du mot) est calculé. Ce vecteur contextualisé peut être formulé de la manière suivante. Soit −→vp le vecteur dictionnaire du mot vp appartenant à la phrase σk, dont le vecteur sémantique s’écrit −→σk. Ainsi, un vecteur contextualisé −−−→vp/σk s’écrit :

−−−→

vp/σk = −→vp × −→σk (6.3)

Les vecteurs sémantiques normalisés du terme “consommer” pour chaque phrase précé- dente sont alors présentés dans la figure 6.4 (de manière respective). L’impact de la sémantique des phrases est dans cet exemple bien visible. Par exemple, la première phrase est plutôt relative à la finalité ou l’achèvement (concept numéro 58), la quatrième phrase quant à elle est partagée entre ce même concept d’achèvement et celui de la dépense (concept numéro 835), notamment influencé par le verbe “vendre”.

29Citation tirée d’“Alzire” (François Marie Arouet dit Voltaire) 30Citation tirée de “Sur Catherine de Médicis” (Honoré de Balzac) 31Citation tirée de “En Hollande” (Maxime Du Camp)

32Citation tirée de “Le Commerce et le gouvernement considérés relativement l’un à l’autre” (Étienne

Bonnot de Condillac)

Fig. 6.4 – Vecteur sémantique contextualisé du verbe “consommer” pour cinq phrases sémantiquement distinctes

Cette contextualisation se révèle ici pertinente mais ne peut être appliquée en tant que telle pour notre approche. En effet, nous cherchons à mesurer la plausibilité d’une relation syntaxique induite qui n’est, rappelons-le, pas présente dans le corpus. Ainsi, nous ne pouvons identifier la phrase d’où elle serait hypothétiquement issue. Nous proposons alors une alternative présentée dans la section suivante, consistant à “globaliser” ces vecteurs sémantiques contextuels.

Les vecteurs sémantiques contextualisés globaux

Le fait de ne pouvoir identifier la phrase de laquelle provient une relation induite est prob- lématique et nous a conduit à proposer ce type de vecteurs : les vecteurs sémantiques contextualisés globaux. Le principe est de produire des vecteurs prenant en compte le contexte de la totalité d’un corpus. Ainsi, en représentant le verbe d’une relation induite et son objet complémentaire par des vecteurs sémantiques contextualisés globaux, nous cherchons à savoir si dans ce corpus, ces deux termes peuvent “cohabiter”. En d’autres termes, formeraient-ils une relation syntaxique correctement formulée sémantiquement, dans la thématique de ce corpus.

Ce vecteur global est obtenu de la manière suivante. Pour un terme donné et pour chaque phrase dans laquelle ce terme apparaît dans le corpus, nous calculons un vecteur séman- tique contextualisé relatif. Le vecteur sémantique global contextualisé de ce terme est alors défini par le barycentre de tous les vecteurs sémantiques contextualisés de ce mot,

provenant des phrases du corpus. La figure 6.5 donne un exemple de vecteur sémantique

Fig. 6.5 – Vecteur sémantique contextualisé global du verbe “consommer”.

global contextualisé pour le verbe “consommer” en utilisant les cinq phrases de notre ex- emple précédent. Notons que ce vecteur ne peut refléter un contexte global. Les phrases qui ont été utilisées pour le construire ne sont en effet pas issues d’un même corpus. Après avoir montré comment calculer différents types de vecteurs sémantiques, nous présentons dans la section suivante comment utiliser ces vecteurs afin de sélectionner les relations induites pertinentes.

6.3.1.3 Deux approches pour mesurer la qualité d’une relation syntaxique