Analyse distributionnelle

Top PDF Analyse distributionnelle:

Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes

Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes

Mots clés. : Traitement Automatique des Langues, textes de spécialité, terminologie, analyse distributionnelle, modèle vectoriel, groupements sémantiques, termes complexes, relations sémantiques, abstraction de contextes. Abstract. In specialised domains, the applications such as information retrieval for machine translation rely on terminological resources for taking into account terms or semantic relations between terms or groupings of terms. In order to face up to the cost of building these resources, automatic methods have been proposed. Among those methods, the distributional analysis uses the repeated information in the contexts of the terms to detect a relation between these terms. While this hypothesis is usually implemented with vector space models, those models suffer from a high number of dimensions and data sparsity in the matrix of contexts. In specialised corpora, this contextual information is even sparser and less frequent because of the smaller size of the corpora. Likewise, complex terms are usually ignored because of their very low number of occurrences. In this thesis, we tackle the problem of data sparsity on specialised texts. We propose a method that allows making the context matrix denser, by performing an abstraction of distributional contexts. Semantic relations acquired from corpora are used to generalise and normalise those contexts. We evaluated the method robustness on four corpora of different sizes, different languages and different domains. The analysis of the results shows that, while taking into account complex terms in distributional analysis, the abstraction of distributional contexts leads to defining semantic clusters of better quality, that are also more consistent and more homogeneous.
En savoir plus

164 En savoir plus

Etude des relations sémantiques dans les reformulations de requêtes sous la loupe de l'analyse distributionnelle

Etude des relations sémantiques dans les reformulations de requêtes sous la loupe de l'analyse distributionnelle

reportage et pédagogique sont premiers parmi les voisins de, respectivement, documentaire et didactique. Par contre, dans la reformulation ❡s♣❛❝❡ ✉r❜❛✐♥ → ❛♠é♥❛❣❡♠❡♥t ✉r❜❛✐♥, aména- gement n’est que le 1346 e voisin d’espace (sur 3181 voisins). L’analyse des rangs montre que pour la moitié des reformulations, le mot ajouté apparaît dans les premiers 10% de voisins du mot remplacé, ce qui montre que le fort rappel observé repose surtout sur une proximité distributionnelle importante et ne peut être imputé à une simple surgénération de voisins. Si une proportion de 59% peut être considérée comme importante pour des tâches de confronta- tion de l’analyse distributionnelle à des données réelles, elle est toutefois loin d’être pleinement satisfaisante eu égard aux conditions optimales de l’expérimentation menée. On peut alors se demander quels sont les éléments impliqués dans le « silence » observé, du point de vue des mécanismes mis en jeu dans le calcul distributionnel – des mots auraient-ils pu être rapprochés mais ne l’ont pas été ? – et de la nature des données exploitées – l’hypothèse de continuité sémantique entre les deux requêtes doit-elle être mitigée ? (ce que suggère la corrélation avec la position des mots substitués), certaines relations sont-elles moins captées ? Cela nous a amenés à examiner plus en détails deux aspects : (a) les contextes distributionnels des mots substitués, qu’ils soient voisins ou non voisins (sous-section 4.1) ; (b) la nature des relations sémantiques captées ou non par le voisinage distributionnel (sous-section 4.2).
En savoir plus

15 En savoir plus

en
                                                                    fr

en fr Distributional analysis applied to specialized corpora: reduction of data sparsity through context abstraction Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes

conférences françaises TALN 2013 2 et TALN 2014 3 , ou pendant EACL 2014 4 . Un élément essentiel à toute méthode distributionnelle est le choix des paramètres qu’elle met en œuvre. Ces paramètres sont les mots cibles utilisés, le type de contexte (par exemple, fenêtre graphique ou analyse syntaxique) et les caractéristiques du contexte (par ex., taille, forme et type de fenêtre), et les mesures de similarité et de pondération. Le choix des paramètres à utiliser est essentiel, puisqu’il influence directement le type de relations acquises et leur qualité. Il découle également du type de corpus de travail ; les paramètres ne sont pas les mêmes si l’on travaille avec des corpus en langue générale ou en langue de spécialité, et si les corpus sont de grande taille ou de petite taille [Bullinaria et Levy, 2012]. La mesure de similarité et le type de contexte sont concernés par cette variation. Généralement, les travaux sur corpus de spécialité utilisent l’indice de Jaccard et les dépendances syntaxiques, alors que ceux menés sur de la langue générale préfèrent le cosinus et une fenêtre graphique (de simples co-occurrences) [Bernier-Colborne, 2014]. Aussi, dans le cadre de l’utilisation de l’analyse distributionnelle avec des textes de spécialité, il est nécessaire de prendre en compte la reconnaissance des termes dans la méthode automatique.
En savoir plus

164 En savoir plus

Utilisation de la méthode distributionnelle pour la constitution de classes sémantiques d'une liste de formes du lexique scientifique transdisciplinaire

Utilisation de la méthode distributionnelle pour la constitution de classes sémantiques d'une liste de formes du lexique scientifique transdisciplinaire

1.14 Description des paramètres L’outil word2vec permet en plus de choisir parmi ces deux structures, de pouvoir faire varier différents paramètres. Tout comme pour l’analyse distributionnelle, le choix des paramètres est très important. Dans un premier temps, il est possible de l’améliorer en utilisant ce que l’on appelle les calculs parallèles, fréquemment utilisés pour les modèles en réseaux de neurones aujourd’hui, avec des « multiple-CPU-machine 13 », permettant d’accroitre les performances de calculs. Il existe également plusieurs types d’algorithmes d’entrainement sur les corpus. Nous avons, d’une part, le « Hierarchical softmax » qui est meilleur pour les mots rares, et le « Negative sampling » qui lui est plus performant sur les mots fréquents avec des petites dimensions de vecteurs, selon Mikolov et al. (2013b). Il est donc également possible de faire varier la dimension des vecteurs et aussi le contexte des mots, c’est-à-dire la taille de la fenêtre que l’on veut choisir. Word2vec contient également une chaine de prétraitements assez complexe, améliorant les performances.
En savoir plus

125 En savoir plus

Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés

Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés

Nous avons invité les participants à déployer une ou plusieurs techniques d’analyse distributionnelle sur ce corpus, avec les prétraitements et annotations de leur choix. Ceux-ci ont donc pu analyser ce corpus selon leurs objectifs propres, et étudier les phénomènes sémantiques qui leur ont paru les plus pertinents (mise au jour de la polysémie, d’une organisation terminologique, étude de relations sémantiques spécifiques, compositionnalité, etc.). Nous avons cependant demandé, pour illustrer la démarche et les résultats, de privilégier la discussion autour d’un ensemble de mots que nous avons sélectionnés dans le but de faciliter les échanges.
En savoir plus

11 En savoir plus

Évaluer et améliorer une ressource distributionnelle

Évaluer et améliorer une ressource distributionnelle

cas de l’évaluation de ressources lexicales construites de manière distributionnelle. Les méthodes extrinsèques, ou évaluation par la tâche, consistent à évaluer la res- source du point de vue de sa fonction : on apprécie sa capacité à améliorer le système dans lequel elle a été implémentée. Dans le cas de l’analyse distributionnelle, ce type d’évaluation s’est fondé sur différentes tâches de TAL comme la recherche d’informa- tion (van der Plas, 2008) ou la désambiguisation (Weeds et Weir, 2005) ; nous avons nous-mêmes fait appel à la tâche de segmentation thématique pour mesurer l’apport de relations sémantiques plus variées que la simple répétition ou la synonymie (Adam et al., 2010). D’autres travaux ont confronté les résultats du calcul distributionnel au jugement humain dans des tâches de détection de synonymes ou de jugement de si- milarité (Pado et Lapata, 2007 ; Baroni et Lenci, 2010). Baroni et Lenci (2011) font état des limites de ce type d’approche : en particulier, les données utilisées ont été conçues pour d’autres objectifs que celui de l’évaluation de modèles distributionnels, elles amènent à privilégier un type de relation parmi celles que l’analyse distribution- nelle peut détecter (et ne fournissent donc qu’une indication partielle de la qualité de la ressource), et leur définition pose divers problèmes, comme celui de la nature des dis- tracteurs utilisés (mots reliés par une relation sémantique, ou choisis aléatoirement). Les méthodes intrinsèques évaluent, quant à elles, la ressource du point de vue de son objectif propre, en utilisant des ressources manuellement construites qui servent alors de gold standard – dictionnaires de synonymes ou thesaurus (Weeds, 2003 ; Bor- dag, 2008 ; Anguiano et al., 2011). Les limites d’une évaluation intrinsèque de ce type sont évidentes : tout d’abord, l’analyse distributionnelle met au jour des liens de proxi- mité sémantique qui excèdent le périmètre des relations décrites dans les ressources lexicales disponibles ; celles-ci ne permettent donc pas d’évaluer la qualité globale des résultats mais seulement d’estimer la proportion de relations lexicales classiques qu’ils comportent. Par ailleurs, le propre des techniques d’acquisition sémantique est de repérer des liens de similarité sémantique construits dans le corpus, qui ne sont pas nécessairement identifiés en langue par les concepteurs de ressources lexicales géné- ralistes, et qui offrent ainsi la possibilité d’en étendre la couverture. En utilisant des ressources existantes comme étalon, on réduit donc la portée de la base distribution- nelle que l’on veut évaluer.
En savoir plus

28 En savoir plus

Évaluer et améliorer une ressource distributionnelle : protocole d'annotation de liens sémantiques en contexte

Évaluer et améliorer une ressource distributionnelle : protocole d'annotation de liens sémantiques en contexte

1. Introduction L’application de méthodes d’analyse distributionnelle pour calculer des liens de proximité sémantique entre les mots est devenue courante en TAL. Les procédures de calcul de la similarité distributionnelle sont désormais bien définies, des expérimenta- tions ont été menées dans différents contextes applicatifs et sur plusieurs langues, et des synthèses récentes (Baroni et Lenci, 2010 ; Turney et al., 2010 ; Clark, à paraître) ont permis de dresser un panorama cohérent du champ de la sémantique distribution- nelle, en précisant les paramètres qui varient selon les méthodes – principalement : la taille et la nature des contextes considérés, les mesures de similarité employées, les méthodes mises en œuvre pour optimiser le calcul. Si ces aspects méthodologiques sont maintenant clarifiés, il reste encore beaucoup à faire pour mieux comprendre la nature de la proximité sémantique qui est calculée par ce biais. Comme le dit Sahl- gren (2006, p. 57), l’hypothèse distributionnelle repose sur des fondements très peu contraints sur le plan sémantique : « It states that differences of meaning correlate with differences of distribution, but it neither specifies what kind of distributional in- formation we should look for, nor what kind of meaning differences it mediates. » Dans cet article, nous proposons une démarche d’évaluation et de filtrage d’une res- source distributionnelle qui vise à progresser dans la compréhension et la maîtrise de l’information sémantique qu’elle contient.
En savoir plus

29 En savoir plus

Évaluer et améliorer une ressource distributionnelle : protocole d'annotation de liens sémantiques en contexte

Évaluer et améliorer une ressource distributionnelle : protocole d'annotation de liens sémantiques en contexte

1. Introduction L’application de méthodes d’analyse distributionnelle pour calculer des liens de proximité sémantique entre les mots est devenue courante en TAL. Les procédures de calcul de la similarité distributionnelle sont désormais bien définies, des expérimenta- tions ont été menées dans différents contextes applicatifs et sur plusieurs langues, et des synthèses récentes (Baroni et Lenci, 2010 ; Turney et al., 2010 ; Clark, à paraître) ont permis de dresser un panorama cohérent du champ de la sémantique distribution- nelle, en précisant les paramètres qui varient selon les méthodes – principalement : la taille et la nature des contextes considérés, les mesures de similarité employées, les méthodes mises en œuvre pour optimiser le calcul. Si ces aspects méthodologiques sont maintenant clarifiés, il reste encore beaucoup à faire pour mieux comprendre la nature de la proximité sémantique qui est calculée par ce biais. Comme le dit Sahl- gren (2006, p. 57), l’hypothèse distributionnelle repose sur des fondements très peu contraints sur le plan sémantique : « It states that differences of meaning correlate with differences of distribution, but it neither specifies what kind of distributional in- formation we should look for, nor what kind of meaning differences it mediates. » Dans cet article, nous proposons une démarche d’évaluation et de filtrage d’une res- source distributionnelle qui vise à progresser dans la compréhension et la maîtrise de l’information sémantique qu’elle contient.
En savoir plus

28 En savoir plus

Utiliser une base distributionnelle pour filtrer un dictionnaire de synonymes

Utiliser une base distributionnelle pour filtrer un dictionnaire de synonymes

francois.morlane@univ-tlse2.fr R ÉSUMÉ Cette étude vise à mettre en lumière l’intérêt qu’il peut y avoir à se servir d’une ressource générée par analyse distributionnelle automatique pour orienter les résultats fournis par un dictionnaire de synonymes. En croisant une base distributionnelle calculée à partir d’un corpus constitué d’articles de l’encyclopédie Wikipédia et le Dictionnaire Électronique des Synonymes du CRISCO, nous montrons qu’une partie seulement des synonymes proposés pour un mot donné partagent ses contextes d’apparition. Nous mettons au jour plusieurs raisons qui expliquent ce phénomène. Nous montrons ensuite que ce décalage s’observe différemment selon la nature du corpus qui a permis de calculer la base distributionnelle qui sert à filtrer le dictionnaire. Cela signifie que la nature du corpus oriente le type de synonymes filtrés par la base distributionnelle. Nous envisageons d’appliquer ce principe dans un système de réorganisation dynamique des synonymes du dictionnaire du CRISCO.
En savoir plus

15 En savoir plus

Quel logiciel pour quelle analyse ?

Quel logiciel pour quelle analyse ?

Plus de quarante ans après les premières recherches basées sur des analyses informatisées des discours et des contenus, à l’heure où les ordinateurs occupent une place prépondérante dans les pratiques des chercheurs, l’atelier méthodologique Analyse de discours, analyse de contenu, quels enjeux, quels outils ? ou comment s’y retrouver dans les techniques qualitatives informatisées en SHS se propose d’offrir un temps de réflexion et de débat face à la

3 En savoir plus

Analyse fonctionnelle

Analyse fonctionnelle

CHAPITRE 6 TRANSFORMATION DE FOURIER L’analyse de Fourier consiste ` a d´ ecomposer une fonction et plus g´ en´ eralement une distribution en une “superposition” de fonctions oscillantes simples (fonctions exponentielles complexes). Cette analyse en fr´ equences est un outil tr` es puissant pour l’´ etude d’un certain nombre de questions, notamment les ph´ enom` enes oscillants (par d´ efinition), les ph´ enom` enes r´ egis par des ´ equations aux d´ eriv´ ees partielles lin´ eaires ` a coefficients constants (telles que l’´ equation de la chaleur), les probl` emes de r´ egularit´ e [10], [9], [15], [14], [16].
En savoir plus

128 En savoir plus

Analyse numérique

Analyse numérique

Pour résoudre une équation du type 𝑓(𝑥) = 0 où 𝑓 est une fonction d’une variable réelle, on peut utiliser la fonction fsolve du module scipy.optimize. Il faut préciser la valeur initiale[r]

4 En savoir plus

Analyse combinatoire

Analyse combinatoire

Il s’agit d’un principe fondamental en analyse combinatoire. Considérons n opérations successives. Si la k e opération (1 6 k 6 n) peut se dérouler de m k ma- nières différentes, alors les n opérations peuvent être effectuées dans l’ordre indiqué de m 1 · m 2 · · · m n

8 En savoir plus

Analyse numérique

Analyse numérique

Ordinateur et analyse numérique Les calculatrices et les ordinateurs nous permettent de faire beaucoup d'opérations et ce très rapidement. Mais pour que les machines soient capables de faire ces calculs, il faut les programmer. C'est l'objet essentiel de l'analyse numérique qui s'est développée avec l'apparition des ordinateurs. Les caractéristiques des ordinateurs (délité, rapidité, précision,. . . ect) ont permis d'améliorer plu- sieurs méthodes numérique connues, et ont facilité la création d'algorithmes relatifs à des problèmes dicilement maîtrisés par l'homme jusque-là.
En savoir plus

133 En savoir plus

Analyse discriminante

Analyse discriminante

La modalit´ e y 2 est proche de l’origine, elle repr´ esente donc un profil moyen et n’est rattach´ ee ` a aucune variable y j , ∀j = {1, 3, 4}. 1.6.4.4 El´ ements suppl´ ementaires Il est aussi possible, comme pour l’ACP, d’ajouter des ´ el´ ements suppl´ ementaires, illustratifs qui sont projet´ es sur les plans ´ etudi´ es. Leur utilisation pour l’AFC est plus fr´ equente que pour l’ACP car il peut y avoir beaucoup de variables pour une ´ etude donn´ ee qui ne sont pas consid´ er´ ees dans cette analyse. Les projections sur les axes principaux des profils lignes ou des profils colonnes de ces ´ el´ ements n’interviennent pas dans les calculs de ces axes.
En savoir plus

108 En savoir plus

Une analyse critique

Une analyse critique

L'homme religieux pour sa part ne connaît pas d'une façon théorique et critique cette structure projective de la conscience, mais il s'en sert néanmoins avec sav[r]

121 En savoir plus

Analyse De La De Performance Des Agences Bancaires Algériennes à Travers Une Analyse De Données

Analyse De La De Performance Des Agences Bancaires Algériennes à Travers Une Analyse De Données

Et vu l’existence du « facteur taille », les agences peuvent être ordonnées des plus petites aux plus grandes dans la première analyse ;  Nous remarquons également une faible corrélation négative entre la variable « nombre de dossiers crédit reçus » et la variable emploi, ce qui signifie qu’elles ne varient pas dans le même sens. Cela peut être du à 5 :

18 En savoir plus

La formation des prix dans le transport routier de marchandises. Analyse économétrique et analyse empirique

La formation des prix dans le transport routier de marchandises. Analyse économétrique et analyse empirique

Comment se fixe alors un prix de transport ? Quels sont les déterminants principaux d’un tel prix ? Etant donnée l’hétérogénéité que nous venons d’évoquer, il est bien difficile de donner une réponse unique et définitive à ces questions générales. Il n’existe évidemment pas de grille tarifaire unique valable pour tout service de transport d’une même quantité de marchandises d’un point A vers un point B contrairement à ce que prédit la théorie économique. Quiconque s’intéresse aux prix devrait trouver au sein de la discipline économique des explications à la fois de leurs niveaux, des modalités de leur formation et de leurs disparités. Mais est elle vraiment armée pour répondre cette question ? (1). Quoiqu’il en soit, l’on peut se tourner vers les données sur les prix obtenues au sein d’enquêtes sur les transports de marchandises (2). Plusieurs d’entre elles sont susceptibles de nous donner quelques enseignements sur les déterminants des prix et leur évolution à un niveau très général. Afin de préciser cette analyse, nous nous arrêterons pour finir sur quelques cas pratiques que nous analysons à un niveau plus microéconomique (3).
En savoir plus

36 En savoir plus

ANALYSE I MATHEMATIQUES

ANALYSE I MATHEMATIQUES

Avant-propos Le présent travail consiste à simplifier au maximum le cours d’ " analyse mathématique " afin qu’il soit accessible aux étudiants de la 1ère année préparatoire de l’Ecole Supérieure de l’Economie d’Oran. Le programme comprend sept chapitres dont les quatre premiers sont généralement entamés en premier semestre et les trois derniers en deuxième semestre.

102 En savoir plus

ANALYSE DU DISCOURS DES SLOGANS

ANALYSE DU DISCOURS DES SLOGANS

Ainsi, dans la même manifestation, comme dans notre travail sur le corps du mouvement populaire algérien, les slogans peuvent être répétés dans plusieurs langues et variétés. [r]

30 En savoir plus

Show all 8679 documents...