• Aucun résultat trouvé

mesure de similarité distributionnelle (valeur du cosinus) des deux termes candidats à la relation d’hyperonymie. Cette valeur est calculée à partir du modèle distributionnel produit par Word2Vec (paramètres par défaut) sur le corpus Wikipedia. Elle est intégrée dans l’apprentissage sous la forme d’un trait binaire : si les deux termes présentent une valeur de similarité supérieure ou égale à un seuil donné, la valeur est "oui", elle est "non" dans le cas contraire. Nous avons testé plusieurs valeurs de seuil (0.3, 0.4, 0.5). D’autres façons d’intégrer l’information distributionnelle ont été également testées : intégration de la valeur de similarité, intégration des vecteurs de traits des 2 termes. Seule l’expérience recourant à une valeur binaire et à un seuil de similarité est reproduite ici.

Prise en compte de la présence d’un patron Nous avons envisagé une autre manière d’intégrer l’information linguistique liée à la présence d’un patron d’hyperonymie dans le contexte des termes. Elle consiste à ajouter un trait qui teste la présence d’un des patrons recensés dans la ressource fusionnée CAMELEON + MAR-REL.

Résultats

Nous reproduisons dans le tableau 4.3 les résultats obtenus par l’application successive des traits que nous venons de présenter.

Expé.

Précision

Rappel

F-mesure

Traits élémentaires

0.71

0.65

0.68

Traits enrichis

0.73

0.65

0.69

Traits enrichis + valeur distrib. seuil >0.3

0.74

0.65

0.69

Traits enrichis + valeur distrib. seuil >0.4

0.74

0.65

0.69

Traits enrichis + valeur distrib. seuil >0.5

0.75

0.65

0.7

Traits enrichis + valeur distrib. >0.5 + test présence patron

0.79

0.72

0.75

Table 4.3 – Expérimentations réalisées sur l’ensemble du corpus Wikipedia

Rappelons que les traits élémentaires correspondent aux seules informations relatives au POS et au lemme. Les traits enrichis incorporent l’ensemble des informations décrites dans la section précédente, soit : nombre de tokens entre T1 et T2 + présence d’un verbe + taille de la phrase.

4.4.3 Bilan de l’expérimentation

On constate que l’enrichissement des traits a un impact positif très limité sur les performances. La combinaison de traits la plus pertinente est celle qui intègre la présence d’un patron, mais il faudrait tester les traits indépendamment pour mesurer leur impact propre, ce qui reste à faire. L’apport des traits distributionnels est également négligeable, ce qui est surprenant par rapport à l’état de l’art où la prise en compte de la sémantique via des vecteurs de mots conduit souvent à une amélioration significative. Provisoirement, ces résultats nous ont amenés à renoncer à ces traits dans l’étape ultérieure de l’expérimentation, qui a consisté à tester la combinaison de l’approche par patrons et de l’approche par apprentissage. A plus long terme, nous envisageons de prendre en compte les vecteurs des mots T1 et T2 de manière différente.

4.5 Conclusion

La mise au point d’une démarche d’apprentissage automatique pour l’extraction de relations sémantiques est une tâche complexe. L’apprentissage automatique étant avant tout un processus de classification statistique, il convient de définir :

— le corpus d’étude : nous avons étudié deux corpus aux caractéristiques différentes : les pages de désambiguïsation de Wikipedia, dont le texte n’est pas rédigé et où la ponctuation et la mise en forme jouent un rôle important pour exprimer les relations, et les paragraphes de définition de Wikipédia qui, eux, contiennent du texte rédigé ;

— ce qu’on entend par terme dans une phrase et par paire de termes dont on doit vérifier s’ils sont en relation : nous avons d’abord considéré les termes identifiés par un extracteur de termes pour le français, puis les termes français présents dans la ressource sémantique BabelNet ;

4 Approche statistique pour l’extraction de relations

— les éléments à classer : il s’agit des phrases contenant des couples de termes dont on veut identifier s’ils sont en relation d’hyperonymie ou non ;

— une représentation adaptée des informations à classer (donc de ces phrases), à savoir des traits à retenir pour former des vecteurs de traits : nous avons choisi des traits classiques et évalué l’apport de traits basés sur des vecteurs distributionnels ; nous avons testé plusieurs valeurs de seuil pour comparer les vecteurs, et plusieurs ensembles de traits ;

— des jeux d’exemples d’entraînement, composés d’exemples positifs et négatifs : pour cela, nous avons choisi une approche par supervision distante, de manière à générer automatiquement des exemples en utilisant les couples de termes en relation dans la ressource sémantique BabelNet ;

— un jeu de données d’évaluation, afin d’évaluer les différentes approches testées ; nous avons annoté manuellement dans chacun des cas plusieurs pages de chaque corpus de manière à obtenir un nombre significatif d’exemples (300 dans chaque cas).

Le meilleur des résultats ont été obtenus avec des traits classiques, une fenêtre de 3 mots et des termes tirés de BabelNet. La F-mesure est alors de 70% contre 68% avec les traits élémentaires, ce qui représente un gain peu significatif. On voit sur le tableau 4.3 que la dernière ligne de résultats améliore plus significativement la F-mesure. Elle correspond à une nouvelle expérience qui étend celles-ci par une comparaison de l’approche par apprentissage à l’approche par patron présentée au chapitre 3. Nous développons cette nouvelle étude dans le chapitre 5.

5 Combinaison de méthodes pour

l’extraction de relations d’hyperonymie

Sommaire

4.1 Problématique

. . . .

37 4.2 Extraction par supervision distante

. . . .

38 4.3 Méthodes et données

. . . .

41 4.4 Ressources

. . . .

41 4.5 Résultats et Évaluation

. . . .

41

5.1 Introduction

Après la présentation de chacune des deux approches (linguistique vs par apprentissage) que nous avons mises en œuvre respectivement dans les chapitres 3 et 4, ce chapitre décrit les expérimentations visant à tester l’intérêt d’appliquer de manière complémentaire différentes approches sur un même corpus pour identifier des occurrences de la relation d’hyperonymie, à travers ses différents modes d’expression.

Pour ce faire, nous avons appliqué ces deux approches sur le même corpus. Nous avons choisi le corpus des pages de désambiguïsation de Wikipedia. En effet, commenous l’avons souligné au chapitre 3, ces pages offrent un premier cas de figure favorable pour appliquer des patrons et de l’apprentissage : très riches en relations d’hyperonymie, elles comportent du texte rédigé (assez minoritairement), et, pour l’essentiel, du texte peu rédigé (structure syntaxique incomplète) usant de mise en forme matérielle variée comme la ponctuation, diverses polices de caractère ou la disposition.

L’intérêt de cette étude est de tirer profit des avantages de chacune des deux approches, notamment d’associer la bonne précision de l’approche par patrons et le bon rappel de l’approche par supervision distante. De plus, nous avons mené une étude qualitative pour évaluer l’apport de la combinaison de ces deux approches : quelles sont les relations qui sont efficacement trouvées par les patrons et ne sont pas trouvées par l’approche statistique, et inversement ? Cette évaluation qualitative permettrait de cerner les limites de chaque approche.

Ce chapitre présente cette étude sur la complémentarité des approches, qui a fait l’objet de 3 articles de conférence. Nous présentons d’abord la méthode mise en place pour évaluer cette complémentarité et fournissons ensuite 2 des trois articles qui en présentent les résultats.

Documents relatifs