• Aucun résultat trouvé

CHAPITRE 5 MÉTHODOLOGIE

5.5 Identification de la relation

Cette section décrit le processus de comparaison qui amène au choix final. Le choix final est fait en comparant le vecteur prédicatif en provenance du corpus avec les noms composés de référence, après avoir converti chaque fréquence en score TF-IDF. Il y a plusieurs manières de faire cette comparaison, qui sont présentées à la section 5.5.1. Les vecteurs de référence sont comparés soit individuellement, soit regroupés par relation de Levi. La comparaison est faite par coefficient Dice, comme Nakov, ou par distance euclidienne. Il est même possible de baser le choix de relation sur plusieurs noms composés similaires plutôt qu’à un seul.

Pour tenter de prédire laquelle des démarches entraînera les meilleurs résultats, nous avons analysé les vecteurs de référence. La section 5.5.2 présente quelles méthodes de comparaison ont des chances d’amener à de meilleurs résultats et comment elles ont été choisies.

La première étape pour identifier la relation sémantique finale est de remplacer les fréquences de chaque élément en une mesure plus utile, le score TF-IDF. Le score TF-IDF, qui quantifie la rareté de l’élément dans l’ensemble des vecteurs, est utilisé exactement comme il a été décrit dans le chapitre précédent. Un élément qui n’apparaît pas dans le vecteur a un score TF-IDF de 0. Un élément qui apparaît une seule fois a un score qui dépend entièrement de sa rareté dans les vecteurs. Le score TF-IDF pour un élément peut être plus grand que sa fréquence si l’élément est spécifique à un vecteur. La fréquence pure des éléments n’est plus

utilisée pour la suite de l’expérience.

Si le score de comparaison est 0,0 pour tous les vecteurs de référence, aucun nom composé n’est similaire et la relation BE sera choisie parce qu’elle est la plus représentée dans les exemples de Levi.

5.5.1 Extraction de la relation à partir du voisinage

La première des multiples approches pour la comparaison de vecteurs prédicatifs est l’ap- proche de Nakov. La comparaison de vecteur se fait avec la formule du coefficient Dice qui a été présenté précédemment, au chapitre 4. Chacun des vecteurs de référence est comparé au vecteur du nom composé inconnu. Le plus proche voisin est le nom composé de référence qui est associé au vecteur le plus ressemblant. C’est la relation sémantique de ce nom composé qui est choisie comme la plus probable pour le nom composé inconnu.

La deuxième approche emploie la formule de la distance euclidienne au lieu de la formule du coefficient Dice. Cette distance est calculée par la formule euclidienne de la distance classique 5.5, où n est le nombre de dimensions.

v u u t n X i=1 (xi− yi)2 (5.5)

La méthode mathématique pour comparer deux vecteurs est différente, mais tout le reste se fait de la même façon. On choisit toujours la relation sémantique du nom composé le plus similaire et tous les exemples de Levi sont comparés un à un.

Une troisième approche, celle des centroïdes, a aussi été mentionnée par Nakov. Si chaque terme représente un axe (orthogonal) d’un système cartésien, et que le score TF-IDF d’un terme est une position sur cet axe, on peut déterminer l’emplacement d’un vecteur prédi- catif dans cet espace. Nous choisissons les noms composés de référence qui représentent la même relation de Levi et les positionnons dans l’espace cartésien. Le nuage de points ainsi formé représente le prédicat de Levi. Si d’autres exemples du prédicat étaient trouvés, leur emplacement devrait être à l’intérieur ou à proximité du nuage de points.

Si le nom composé donné au début de la démarche est un exemple du prédicat, il devrait être situé proche du nuage de points. Nous mesurons la distance entre le nom composé inconnu et le centre du nuage pour chaque prédicat de Levi. Mathématiquement, nous utilisons la distance euclidienne comme à la méthode précédente. Le centre du nuage de points est appelé le centroïde. C’est le point qui minimise la somme du carré des distances avec les autres points. Il est calculé par la formule de la moyenne appliquée indépendamment pour chaque

dimension. Une fois les 12 centroïdes trouvés, il suffit de choisir la relation de Levi de celui qui est le plus proche du nom composé en requête.

La quatrième approche tient compte de plusieurs éléments similaires au nom composé in- connu plutôt qu’uniquement le plus proche voisin. La relation de Levi choisie est celle qui est représentée par le plus de noms composés de référence similaires. Si nous prenions en considération les 212 plus proches voisins, notre approche serait équivalente à l’approche de la classe majoritaire et BE serait toujours le résultat en réponse, puisqu’il est représenté par 42 exemples. Si l’approche ne considère qu’un petit nombre de noms composés vraiment similaires, comme trois, cinq et peut-être sept, la relation sémantique est peut-être mieux choisie. Si l’on choisit de considérer les deux noms composés les plus similaires, la relation sémantique du deuxième nom composé ne sera jamais choisie si elle n’est pas aussi celle du plus proche voisin. Nous considérons donc un voisinage de trois, cinq ou sept voisins. La décision est prise par la majorité. Le plus proche voisin tranche dans les cas d’égalité. Étendre le nombre de noms composés considérés à cinq est risqué si très peu de noms composés sont similaires au nom composé inconnu. C’est pourquoi un nom composé qui ne partage aucun élément avec le nom composé de la requête (dice = 0) ne peut pas voter. Avec cinq noms composés, il peut arriver que deux relations soient chacune représentées par deux noms. Dans ce cas, la relation du plus proche voisin l’emporte. Dans le cas où les troisième, quatrième et cinquième voisins ont tous voté pour une relation, c’est celle-là qui est choisie, même si elle est différente de celle du plus proche voisin et du deuxième voisin.

Le voisinage à sept noms composés pousse encore plus loin la confiance dans le nombre de résultats et diminue l’importance accordée à l’ordonnancement des résultats de la comparai- son. Tous les autres aspects de l’approche par majorité sont identiques à celle de Nakov : TF-IDF, Dice, comparaison nom composé par nom composé, . . .

5.5.2 Analyse des vecteurs pour prédire quel voisinage choisir

Pour tenter de prévoir laquelle des manières de trouver la relation donnera les meilleurs résultats, nous avons fait l’analyse des noms composés de référence. Comme pour l’approche par centroïde, nous avons placé chacun des vecteurs de référence dans l’espace cartésien, pour nous retrouver avec un nuage de point pour chaque relation de Levi. Dans l’évaluation principale de Nakov, Leave-one-out, un point de référence est retiré de l’ensemble de référence et il faut le replacer au bon endroit. Il est donc préférable que chaque nuage de points soit petit et dense. Pour identifier avec confiance la relation sémantique, il faut que chaque nuage de point soit bien défini et distinct de ses voisins. Les zones d’intersection entre les nuages de points sont une zone où il est difficile de savoir si un nom composé possède une relation

ou une autre. La forme des nuages et la séparation entre les nuages sont affectées par la manière de choisir la relation sémantique d’un nom composé à partir des noms composés similaires. Il est donc possible de mesurer directement, dans l’espace de points, l’effet de choisir la relation finale par majorité plutôt que par distance du centroïde, par exemple. Il est possible de mesurer la taille des zones d’intersection selon chaque manière de choisir la relation du nom composé inconnu à partir des points de référence.

Les intersections sont mesurées en prenant deux relations à la fois, en comptant le nombre de points d’un nuage qui sont plus proches du nuage de l’autre relation. Dans l’approche par centroïde, un point est considéré dans l’intersection entre deux nuages s’il est plus proche du centroïde étranger que du centroïde principal. L’approche par majorité est simplifiée parce que seuls les points d’un nuage ou de l’autre votent. L’approche par plus proche voisin est tentée en utilisant comme mesure de distance le coefficient Dice et la distance euclidienne dans un second temps.

Nous calculons le ratio entre le nombre de points qui sont classés par erreur dans l’autre relation et le nombre total d’exemples de cette relation. Il est donc avantageux de réduire le plus possible l’intersection entre les deux nuages de points, une zone de confusion. Le pourcentage d’erreurs est calculé pour toutes les 132 combinaisons des 12 relations. Seules les moyennes de chaque mesure, en pourcentage, sont présentées au tableau 5.5. Par exemple, le 2% d’erreur pour l’approche par centroïde avec tous les éléments signifie qu’en moyenne, seulement 2% des noms composés sont jugés plus proche de l’autre prédicat que du prédicat correct.

Tableau 5.5 Intersection moyenne entre les différentes relations de Levi méthode d’intersection tous les premiers éléments avec

éléments éléments plusieurs mentions

centroïde 2% 5% 2%

plus proche, coefficient Dice 3% 5% 4%

plus proche, distance euclidienne 18% 20% 15%

majorité des 3 voisins 20% 23% 19%

majorité des 5 voisins 25% 25% 24%

majorité des 7 voisins 27% 26% 24%

moyenne 16% 17% 15%

Nous avons fait l’analyse pour chacune des trois sélections d’éléments prédicatifs de référence de la section 5.4.2 : tous les éléments, les premiers éléments des formulaires et uniquement les éléments mentionnés plusieurs fois. Toutefois, les résultats de cette analyse ne permettent

pas de se prononcer sur la meilleure stratégie. L’approche par majorité entraîne une dis- tinction moins claire entre les catégories que les autres approches, et les zones d’intersection s’agrandissent quand la majorité est calculée avec plus de noms composés, ce qui n’est guère prometteur. Notons l’impact significatif du coefficient de Dice par rapport à la distance eu- clidienne. Seules les évaluations complètes départageront les deux approches avec le plus de potentiel : l’approche par centroïde et l’approche de Nakov par plus proche voisin. Nous évaluerons l’impact de toutes les versions de cette étape sauf celle de la distance euclidienne dans l’expérience complète, au chapitre 6.