• Aucun résultat trouvé

Comment mesurer la proximité sémantique des vecteurs

6.3 Le filtrage des objets complémentaires

6.3.1 Les vecteurs sémantiques

6.3.1.4 Comment mesurer la proximité sémantique des vecteurs

La proximité de vecteurs sémantiques peut être obtenue par des mesures “classiques” de similarité comme le cosinus. Cependant, bien que les vecteurs sémantiques s’appar- entent à des vecteurs “classiques”, certaines propriétés les caractérisant permettent de produire une mesure de similarité plus adaptée. Nous présentons ci-dessous deux mesures

de similarité, une classique : le cosinus et une plus spécifique aux vecteurs sémantiques : la distance de concordance.

Le cosinus

Rappelons que le cosinus entre deux vecteurs −→u et −→v de telle sorte que θ soit l’angle formé par ces deux vecteurs est défini par l’équation suivante (cf.2) :

θ= arccos −→u .−→v

k−→u k.k−→v k (6.4)

Ainsi, nous calculons la proximité de chaque couple de relations syntaxiques (induites et classiques) pour la première approche et chaque couple de verbes et objets complémen- taires provenant de relations induites pour la seconde, en utilisant le cosinus. Finalement, les résultats sont ordonnés de manière décroissante. Notons que dans le cas de la seconde approche, la similarité entre ces couples ne doit pas être trop importante. En effet, une sim- ilarité importante peut refléter une tautologie, comme par exemple “manger nourriture” ou bien “marcher à pied”. Certes, la plupart des relations ainsi formées sont pertinentes, mais n’apportent pas réellement de nouvelles informations. Ainsi, les verbes et objets util- isés lors de la seconde approche doivent être assez éloignés. Autrement, il n’y aurait aucun élément sémantique qui permettrait de mesurer leur proximité.

Une alternative à ce problème, qui est également une mesure plus adaptée afin d’évaluer la proximité de vecteurs sémantiques est présentée dans le paragraphe suivant.

La distance de concordance

La mesure de similarité “cosinus” n’est pas en mesure d’évaluer correctement la pertinence d’un objet pour un verbe donné. Il est possible d’obtenir le même score de proximité sémantique en employant le cosinus avec plusieurs composantes de vecteurs actifs ayant une faible valeur, et peu de composantes de vecteurs actifs ayant de fortes valeurs. Cependant, la pertinence de ces proximités n’est pas la même sémantiquement. En outre, si le vecteur gouverneur (le verbe) est réduit en ne conservant uniquement que les composantes des concepts actifs, et qu’il en est de même pour le second vecteur (l’objet), il est tout à fait possible de modifier leurs similarités (en utilisant le cosinus). Ainsi nous modifions la plausibilité d’une relation syntaxique induite formée par les deux vecteurs. La réduction vectorielle est envisagée pour un vecteur de 873 composantes dont la plupart sont inactives. Le vecteur résultant possède donc un nombre important de composantes nulles. L’objectif de la distance de concordance est d’être plus discriminante que le cosinus en ne considérant pas uniquement les valeurs des composantes des vecteurs mais également leurs rangs dans la hiérarchie donnée par le thésaurus. Ainsi, nous pouvons

utiliser une mesure de proximité sémantique sur des vecteurs de dimensions réduites. La première utilisation de cette mesure fut expérimentée par [Chauché et al., 2003] dans le but d’effectuer une classification automatique de textes, les textes étant représentés par des vecteurs sémantiques. Les auteurs ont montré dans cet article mais également dans [Chauché & Prince, 2007] que la distance de concordance améliorait les résultats obtenus. Cette mesure a également été utilisée dans le cadre de la segmentation thé- matique de textes [Labadié & Prince, 2008]. Les auteurs proposent de comparer dans cet article les résultats de deux méthodes de segmentation thématique de textes, C99 [Choi, 2000] et Transeg [Labadié & Prince, 2008]. Les résultats expérimentaux ont montré que Transeg, fondé sur l’utilisation de vecteurs sémantiques avec une distance de concordance, obtient les meilleurs résultats en moyenne. Le paragraphe suivant défini de manière formelle la distance de concordance.

Considérons deux vecteurs ~A et ~B. Nous les classons en fonction des valeurs de leurs composantes, de la plus active à la moins active. Nous appliquons alors une réduction des vecteurs triés en ne conservant que les 1/s premières composantes. Reste ainsi uniquement les composantes les plus “fortes”. Les vecteurs résultants sont notés

~

Atr et ~Btr. Si les deux vecteurs ainsi formatés n’ont aucune composante commune, la distance de concordance vaut alors 1 (ils sont le plus éloignés possible). Dans les autres cas, nous devons calculer deux différences : la différence de rang et la différence d’intensité.

La différence de rang Ei,ρ(i) est définie comme suit :

Ei,ρ(i) = (i − ρ(i)) 2

N b2 + (1 + i

2)

(6.5)

Avec i qui est le rang de la composante Ct du vecteur ~Atr, et ρ(i) le rang de la même composante mais pour le vecteur ~Btr, où Nb est le nombre de composantes conservées.

La différence d’intensité Ii,ρ(i) qui compare la différence d’intensité des différentes

composantes communes des deux vecteurs est définie par la formule suivante :

Ii,ρ(i) = ai− bρ(i) N b2+ (1+i 2 ) (6.6)

Avec ai qui est l’intensité de la composante de rang i du vecteur ~Atr et bρ(i) l’intensité de

Après avoir défini ces deux différences, nous pouvons mesurer la concordance P :

P( ~Atr, ~Btr) = (

PN b−1

i=0 1+Ei,ρ(i)1∗Ii,ρ(i)

N b )

2 (6.7)

Cependant, la concordance P se concentre sur l’intensité et le rang des composantes et ne développe pas la notion de direction que possède la distance angulaire. Ainsi, cette notion est introduite en combinant la concordance avec la distance angulaire notée δ( ~A, ~B) pour les vecteurs ~A et ~B. Nous notons alors ∆( ~Atr, ~Btr) le résultat de cette combinaison dont la définition est donnée ci dessous :

∆( ~Atr, ~Btr) =

P( ~Atr, ~Btr) ∗ δ( ~A, ~B)

w ∗ P ( ~Atr, ~Btr) + (1 − w) ∗ δ( ~A, ~B)

(6.8)

Dans cette formule, w est un coefficient pondérant l’importance qui doit être donnée à la distance angulaire P . Néanmoins, la mesure résultante n’est pas symétrique, cette mesure ayant été au départ conçue pour une tâche de classification automatique de textes. Nous la rendons donc symétrique en proposant la distance de concordance notée D telle que définie ci-dessous :

D( ~A, ~B) = ∆( ~Atr, ~Btr) + ∆( ~Btr, ~Atr)

2 (6.9)

Notons que cette distance de concordance est une distance au sens mathématique re- spectant les propriétés de symétrie et d’inégalité triangulaire [Labadié, 2008]. Finalement, pour permettre une combinaison avec un scalaire nous proposons la mesure suivante notée DF inal. Le score résultant sera ainsi compris entre 0 et 1 avec un score de 1 pour les vecteurs similaires.

D( ~A, ~B)F inal = 1 − D( ~A, ~B) (6.10) Après avoir calculé la distance de concordance entre chaque vecteur représentant les rela- tions syntaxiques (induites et classiques) dans le cas de la première approche, et représen- tant le verbe et l’objet complémentaire de relations induites dans le cas de la seconde approche, nous obtenons un classement en termes de plausibilité des relations induites. La section suivante présente notre seconde méthode permettant d’obtenir ce classement : la validation par le Web.