• Aucun résultat trouvé

Dans ce chapitre, nous avons présenté les expériences que nous avons menées afin d’évaluer notre méthode d’abstraction des contextes distributionnels. Autour de l’abs-traction des contextes, nous avons réalisé trois types d’expériences : les expériences autour de la généralisation des contextes (abstraction réalisée avec des hyperonymes), de la normalisation des contextes (abstraction réalisée à l’aide de synonymes) et de la combinaison de la normalisation et de la généralisation. Dans l’ensemble et quel que soit le corpus utilisé, la généralisation, l’abstraction conceptuelle a un impact beaucoup plus fort que la normalisation, l’abstraction lexicale. La normalisation utilisée seule apporte peu, mais combinée à la généralisation permet d’affiner les résultats avec les plus petits corpus.

Ainsi, avec les corpus de petite taille (de l’ordre de 100 000 mots), il est préférable d’utiliser l’indice de Jaccard, la fenêtre restreinte (de 5 mots) et de combiner la normalisation et la généralisation des contextes distributionnels réalisée avec l’inclusion lexicale. Avec les corpus de plus grande taille (de l’ordre du million de mots), il est préférable d’utiliser également la fenêtre graphique restreinte (5 mots) et l’indice de Jaccard, et de généraliser avec l’inclusion lexicale. Avec ces corpus plus volumineux,

5.4 Bilan sur les expériences

la généralisation des contextes a plus d’impact quand le Cosinus est utilisé, mais les résultats restent inférieurs à ceux obtenus avec l’indice de Jaccard.

Dans l’ensemble, l’abstraction des contextes distributionnels permet d’obtenir des grou-pements sémantiques plus homogènes et cohérents. C’est essentiellement la pertinence des voisins sémantiques acquis qui est affectée par l’abstraction. Ainsi, les relations obtenues après abstraction des contextes sont majoritairement des co-hyponymes. L’abstraction permet également d’obtenir quelques relations du domaine et propres au mot cible, telles que par exemple les relations maladie - examen médical, examen médical - conséquence. Notre méthode est cependant limitée, car même si elle permet d’identifier des regroupements sémantiques, les relations acquises ne sont pas typées, et notre évaluation manuelle des résultats reste partielle étant donné le très grand nombre de relations acquises.

La comparaison avec une méthode actuelle de réseaux de neurones montre que les grou-pements obtenus avec notre méthode sont sémantiquement plus cohérents et obtiennent des résultats de meilleure qualité. Toutefois, pour approfondir cette évaluation, nous envisageons de réaliser un pré-traitement aux corpus avant de les traiter avec Word2vec. Nous pourrons ainsi sélectionner les catégories morphosyntaxiques des mots cibles et des contextes, mais également augmenter les fréquences du vocabulaire à l’aide de la lemmatisation. Nous envisageons également d’utiliser l’abstraction des contextes en amont de Word2vec.

C h a p i t r e 6

Conclusion et p ersp ectives

6.1 Conclusion

Les méthodes distributionnelles ont l’avantage de regrouper les mots sémantiquement proches. Actuellement, ces méthodes sont généralement utilisées sur des corpus en langue générale, très volumineux (de plusieurs centaines de millions de mots). Ces corpus se caractérisent par des fréquences de vocabulaire (nombre d’occurrences) élevées. L’application de ces méthodes à des textes de spécialité nécessite l’adaptation des paramètres distributionnels (type de contexte utilisé, mesure de similarité, etc.). De plus, les corpus de spécialité sont généralement de plus petite taille et se caractérisent par de faibles fréquences du vocabulaire. L’application de l’analyse distributionnelle à ces corpus est ainsi pénalisée par le problème de la dispersion des données dans la matrice de contextes.

La dispersion des données se traduit par un faible nombre de contextes associés aux mots cibles. Dans le cadre de l’application de l’analyse distributionnelle sur des corpus de spécialité, nous sommes confrontés à la prise en compte des termes simples et des termes complexes. Les termes se caractérisent par de très faibles fréquences, et n’ont que très peu d’occurrences dans les textes de spécialité. Les termes complexes ont une fréquence encore plus faible, car ils combinent des termes simples aux faibles fréquences. Les faibles fréquences sont ainsi une limite des méthodes distributionnelles et rendent difficile la capture de relations sémantiques pertinentes.

Pour répondre à ce problème de dispersion des données, nous avons proposé une méthode distributionnelle adaptée aux textes de spécialité. Cette méthode prend en compte les termes identifiés automatiquement et vise le regroupement sémantique des termes simples et des termes complexes. La méthode proposée réalise également une abstraction des contextes distributionnels, à travers leur généralisation et leur normalisation. La généralisation consiste à remplacer les contextes par leur hyperonyme, celui-ci étant identifié dans le corpus à l’aide soit des patrons lexico-syntaxiques, de l’inclusion lexicale ou de la variation terminologique. Quant à la normalisation, il s’agit de remplacer les contextes par le représentant de clusters de synonymes générés automatiquement à partir des corpus de travail à l’aide d’une méthode d’inférence de relations de synonymie.

Afin d’évaluer la robustesse de notre méthode, nous avons réalisé des expériences sur quatre corpus de spécialité. Ceux-ci diffèrent par leur taille, leur domaine de spécialité et la langue dans laquelle ils sont rédigés. Avant d’évaluer cette méthode d’abstraction, nous avons analysé le comportement de plusieurs paramètres distributionnels. Cette

première étape nous a permis d’adapter les valeurs des paramètres de la méthode distributionnelle à nos corpus de textes de spécialité. Ces paramètres sont la taille de la fenêtre graphique (large - 21 mots, et restreinte - 5 mots), les mesures de similarité (Nombre de Contextes Partagés, Fréquence des Contextes Partagés, l’indice de Jaccard et le Cosinus), de pondération (Information Mutuelle et Fréquence Relative), la sélection des contextes les plus discriminants que nous avons proposée (avec le Cf-Itf), l’utilisation de seuils sur les mots cibles et contextes (Fréquence des mots cibles, Fréquence et Nombre des Contextes Partagés), et le seuil sur le score de similarité. Cette première série d’expériences nous a permis de définir les paramètres que nous utilisons lors de l’abstraction des contextes : les deux tailles de fenêtre, l’indice de Jaccard pondéré avec la Fréquence Relative et le Cosinus pondéré avec l’Information Mutuelle, et l’utilisation de trois seuils sur les mots cibles et contextes partagés (Fréquence et Nombre des Contextes Partagés, Fréquence des mots cibles).

Concernant l’abstraction des contextes, nous avons réalisé trois types d’expériences : des expériences de généralisation des contextes (abstraction réalisée avec des hyperonymes), de normalisation des contextes (abstraction réalisée à l’aide de synonymes) et de combinaison de la normalisation et de la généralisation. Les résultats de ces expériences sont évalués par comparaison aux relations contenues dans des ressources existantes (Agrovoc, UMLS) et dans une ressource issue du Web. Pour cela, nous utilisons des mesures de précision, de MAP et de R-précision, tout en discutant également le nombre de relations acquises et retrouvées dans les ressources.

De ces expériences, il ressort que l’abstraction des contextes distributionnels améliore la qualité des résultats. Les groupements sémantiques obtenus sont ainsi plus homogènes et cohérents, et les termes complexes sont pris en compte dans les mots cibles. La configuration la plus adaptée est la généralisation des contextes avec les relations acquises par inclusion lexicale. Pour que celle-ci soit efficace, il est préférable d’utiliser l’indice de Jaccard pondéré par la Fréquence Relative comme mesure de similarité, et de définir le contexte à l’aide d’une fenêtre graphique restreinte (de 5 mots).

Dans l’ensemble, la généralisation a un impact beaucoup plus fort que la normalisation. La normalisation utilisée seule apporte peu, mais combinée à la généralisation elle permet d’affiner les résultats pour les corpus de petite taille (de l’ordre de 100 000 mots). Avec les corpus les plus volumineux, la généralisation des contextes a plus d’impact quand le Cosinus est utilisé, mais les résultats restent inférieurs à ceux obtenus avec l’indice de Jaccard.

Enfin, nous nous sommes comparés de façon rapide à une méthode par réseaux de neurones. L’évaluation montre que dans les conditions de notre expérience, notre méthode obtient des groupements sémantiques plus cohérents et de meilleurs résultats, grâce à la prise en compte dans notre méthode d’une analyse linguistique.