Découverte non supervisée

Top PDF Découverte non supervisée:

Découverte non supervisée de lexique à partir d'un corpus multimodal pour la documentation des langues en danger

Découverte non supervisée de lexique à partir d'un corpus multimodal pour la documentation des langues en danger

De nombreuses langues disparaissent tous les ans et ce à un rythme jamais atteint auparavant. Les linguistes de terrain manquent de temps et de moyens afin de pouvoir toutes les documenter et décrire avant qu’elles ne disparaissent à jamais. L’objectif de notre travail est donc de les aider dans leur tâche en facilitant le traitement des données. Nous proposons dans ce mémoire des méthodes d’extraction non supervisées de lexique à partir de corpus multimodaux incluant des signaux de parole et des images. Nous proposons également une méthode issue de la recherche d’information afin d’émettre des hypothèses de signification sur les éléments lexicaux découverts. Ce mémoire présente en premier lieu la constitution d’un corpus multimodal parole-image de grande taille. Ce corpus simulant une langue en danger permet ainsi de tester les approches computationnelles de découverte non supervisée de lexique. Dans une seconde partie, nous appliquons un algorithme de découverte non supervisée de lexique utilisant de l’alignement dynamique temporel segmental (S-DTW) sur un corpus multimodal synthétique de grande taille ainsi que sur un corpus multimodal d’une vraie langue en danger, le Mboshi.
En savoir plus

146 En savoir plus

Modèles thématiques pour la découverte non supervisée de points de vue sur le Web

Modèles thématiques pour la découverte non supervisée de points de vue sur le Web

Résumé — Les plateformes en ligne telles que les blogs et les réseaux sociaux permettent aux internautes de s’exprimer sur des sujets d’une grande variété (produits commerciaux, politique, ser- vices, etc.). Cet important volume de données d’opinions peut être exploré et exploité grâce à des techniques de fouille de texte connues sous le nom de fouille d’opinions ou analyse de sentiments. Contrairement à la majorité des travaux actuels en fouille d’opinions, qui se focalisent sur les opinions simplement positives ou négatives (ou un intermédiaire entre ces deux extrêmes), nous nous intéres- sons dans cette thèse aux points de vue. La fouille de point de vue généralise l’opinion au delà de son acception usuelle liée à la polarité (positive ou négative) et permet l’étude d’opinions exprimées plus subtilement, telles que les opinions politiques. Nous proposons dans cette thèse des approches non supervisées – ne nécessitant aucune annotation préalable – basées sur des modèles thématiques probabilistes afin de découvrir simultanément les thèmes et les points de vue exprimés dans des corpus de textes d’opinion. Dans notre première contribution, nous avons exploré l’idée de différencier mots d’opinions (spécifiques à la fois à un point de vue et à un thème) et mots thématiques (dépendants du thème mais neutres vis-à-vis des différents points de vue) en nous basant sur les parties de discours, inspirée par des pratiques similaires dans la littérature de fouille d’opinions classique – restreinte aux opinions positives et négatives. Notre seconde contribution se focalise quant à elle sur les points de vue exprimés sur les réseaux sociaux. Notre objectif est ici d’analyser dans quelle mesure l’utilisation des interactions entre utilisateurs, en outre de leur contenu textuel généré, est bénéfique à l’identification de leurs points de vue. Nos différentes contributions ont été évaluées et comparées à l’état de l’art sur des collections de documents réels.
En savoir plus

164 En savoir plus

Identification non-supervisée de pseudo-phones à l'aide de k-means et de réseaux convolutifs

Identification non-supervisée de pseudo-phones à l'aide de k-means et de réseaux convolutifs

1 Introduction Alors que les corpus annotés abondent dans les langues les plus parlées, la grande majorité des langues ou dialectes est peu dotée en annotations manuelles. Pour pallier à ce problème, la découverte non supervisée de pseudo-unités linguistiques dans un flux continu de parole gagne du terrain depuis quelques an- nées, encouragée par exemple par des initiatives telles que le Zero Resource Speech Challenge [1] organisé en 2015 et 2017. Pour trouver les unités de la parole, il est possible d’utiliser des matrices de similarité et de la programmation dynamique (Segmental Dynamic Time Warping, S-DTW) [2]. La simila- rité utilisée peut être la distance cosinus entre les probabilités a posteriori ou « posteriorgrammes », données par un modèle acoustique phonétique entraîné sur un corpus annoté manuel- lement [3]. Dans [4], les modèles DTW et chaînes de Markov cachées sont également utilisés sur des posteriorgrammes pour trouver des pseudo-mots. Nous avons donc cherché à obtenir ces probabilités a posteriori d’une manière non supervisée.
En savoir plus

6 En savoir plus

Identification non-supervisée de pseudo-phones à l'aide de k-means et de réseaux convolutifs

Identification non-supervisée de pseudo-phones à l'aide de k-means et de réseaux convolutifs

1 Introduction Alors que les corpus annotés abondent dans les langues les plus parlées, la grande majorité des langues ou dialectes est peu dotée en annotations manuelles. Pour pallier à ce problème, la découverte non supervisée de pseudo-unités linguistiques dans un flux continu de parole gagne du terrain depuis quelques an- nées, encouragée par exemple par des initiatives telles que le Zero Resource Speech Challenge [1] organisé en 2015 et 2017. Pour trouver les unités de la parole, il est possible d’utiliser des matrices de similarité et de la programmation dynamique (Segmental Dynamic Time Warping, S-DTW) [2]. La simila- rité utilisée peut être la distance cosinus entre les probabilités a posteriori ou « posteriorgrammes », données par un modèle acoustique phonétique entraîné sur un corpus annoté manuel- lement [3]. Dans [4], les modèles DTW et chaînes de Markov cachées sont également utilisés sur des posteriorgrammes pour trouver des pseudo-mots. Nous avons donc cherché à obtenir ces probabilités a posteriori d’une manière non supervisée.
En savoir plus

5 En savoir plus

Une méthode non supervisée pour la vérification d'auteur à base d'un modèle gaussien multivarié

Une méthode non supervisée pour la vérification d'auteur à base d'un modèle gaussien multivarié

RÉSUMÉ . Dans cet article, nous présentons une première étude sur l'utilisation d'une méthode de détection des cas aberrants à base de distance pour la tâche de vérification de l'auteur. Nous avons considéré une méthode non supervisée basée sur un modèle gaussien multivarié. Pour évaluer l'efficacité de la méthode proposée, nous avons mené une expérimentation sur un corpus de textes littéraires français classiques. Nos résultats préliminaires montrent que la méthode proposée peut réaliser une haute performance de vérification qui peut atteindre un score de F 1 de 83%, supérieure à celle de la méthode de référence.
En savoir plus

10 En savoir plus

Segmentation de texte non-supervisée pour la détection de thématiques à l'aide de plongements lexicaux

Segmentation de texte non-supervisée pour la détection de thématiques à l'aide de plongements lexicaux

(EDU pour Elementary Discourse Units) ( Marcu , 2000 ) définies comme des unités similaires à des clauses servant de blocs élémentaires pour la segmentation du discours. Afin de répondre à ces problématiques de segmentation de texte, des méthodes supervisées et non su- pervisées de fouille de texte sont généralement mises en œuvre. Les méthodes supervisées nécessitent un grand volume de données d’apprentissage spécifiques à un domaine d’application très structurées (documents juridiques, rapports médicaux, . . .) et sont sensibles au bruit. Dans cet article, nous nous intéressons à la segmentation de texte non supervisée, où la spécificité de la méthode réside dans le choix de la fonction objectif et dans la représentation des phrases du corpus (dense ou latente). Depuis de nombreuses années, différentes approches ont été explorées pour segmenter des textes comme la détection de cooccurences de mots entre des segments, la détection de thématiques, l’utilisation de représentations de phrases ou de mots sous forme de graphes et l’utilisation d’architectures neuronales. Ici, nous nous intéressons à l’utilisation de plongements lexicaux pour la segmentation automatique de texte en sections thématiques pertinentes dans des corpus de données spécifiques. Les plongements lexicaux ont connu un grand succès ces dernières années sur plusieurs tâches d’apprentissage non supervisé, en permettant une représentation syntaxique et sémantique des mots dans un corpus. Les évaluations seront réalisées sur le corpus construit lors de la compétition Défi fouilles de texte (DEFT)
En savoir plus

15 En savoir plus

La qualité de l'information dans les réseaux sociaux en ligne: une approche non supervisée et rapide de détection de spam

La qualité de l'information dans les réseaux sociaux en ligne: une approche non supervisée et rapide de détection de spam

1. Introduction Les réseaux sociaux en ligne (OSN) sont devenus un moyen de communication puissant dans lequel les utilisateurs ont la possibilité de partager des liens, de discuter et de s’inter-connecter. Les interfaces faciles à utiliser et les faibles limites de sécurité à la publication ne contribuent pas à maintenir un niveau constant de qualité de l’infor- mation (QI). Ces caractéristiques ont rendu les OSN vulnérables à diverses attaques par un certain type d’utilisateurs mal intentionnés, appelés spammeurs sociaux. Les spam- meurs sociaux affichent un contenu illicite ou non pertinent par rapport à un contexte donné ou une thématique particulière. Plus généralement, les spammeurs sociaux ont à disposition un large éventail tde echniques pour publier des contenus spam, résumés dans (Benevenuto et al., 2010): (i) diffusion de publicités pour générer des ventes et des profits illégaux; (ii) diffusion de matériel pornographique; (iii) publication de virus et de malwares; (iv) création de sites Web de phishing pour révéler des informations sensibles, ...
En savoir plus

17 En savoir plus

Classification non supervisée par approche coucou mono-objective:application aux images satellitaires

Classification non supervisée par approche coucou mono-objective:application aux images satellitaires

L’eau se trouve au centre de la problématique du développement rural. Elle constitue en effet la ressource primordiale pour la faune et la flore, pour les activités de production agricole et industrielle et pour les populations, non seulement des zones rurales mais encore des villes. Les disponibilités actuelles ne couvrent que la moitié des besoins théoriques, et la situation se dégrade car d’une part, les besoins augmentent avec l’accroissement des populations et des niveaux de vie et d’autre part, la ressource n’est pas inépuisable en quantité ni en qualité. Comme les potentialités en eau du pays sont estimées à un peu moins de 20 milliards de m3, dont 75% seulement sont renouvelables (60% pour les eaux de surface et 15% pour les eaux souterraines), la question de la durabilité de l’approvisionnement dans le futur1 est posée d’une manière aigu le problème de son exploitation rationnelle.
En savoir plus

56 En savoir plus

Modèles statistiques avancés pour la segmentation non supervisée des images dégradées de l'iris

Modèles statistiques avancés pour la segmentation non supervisée des images dégradées de l'iris

4.1 Processus de traitement complet 4.1.1 D´ etection grossi` ere de la r´ egion de l’iris Les diff´ erentes bases de donn´ ees utilis´ ees dans ce travail pr´ esentent des images oculaires voire mˆ eme des images du visage, alors que nous focaliserons notre ´ etude sur la segmentation de l’iris. Il est donc n´ ecessaire de d´ etecter grossi` erement la r´ egion de l’iris pour ne garder que l’information n´ ecessaire. Cette limitation de la zone ` a traiter est consid´ er´ ee comme un avantage important lors de l’utilisation des m´ ethodes de segmentation non supervis´ ees statis- tiques ` a cause de la diminution de la variance de l’´ echantillon ` a traiter par rapport ` a l’image originale. De plus, il est bien connu ( 94 ) que limiter la recherche des contours ` a la r´ egion de l’iris r´ eduit l’erreur de localisation de ses contours. ` A cette fin, nous proposons d’appliquer la CHT sur la carte des contours r´ esultante de l’application du d´ etecteur canny pour loca- liser la pupille. Afin de r´ eduire la sensibilit´ e de l’algorithme CHT et de ne pr´ eserver que les ”vrais” contours, nous appliquons un filtre anisotropique suivi d’une binarisation de l’image `
En savoir plus

193 En savoir plus

Une méthode non supervisée d'apprentissage sur le Web pour la résolution d'ambiguïtés structurelles liées au rattachement prépositionnel

Une méthode non supervisée d'apprentissage sur le Web pour la résolution d'ambiguïtés structurelles liées au rattachement prépositionnel

L’analyse de ce grand corpus a donné environ 4 millions de dépendances de type A(X,Prép,N). Nous avons considéré indifféremment les dépendances MF1 et MF2 car nous étions ici in- téressées en la quantité de dépendances et non en leur qualité. Ces dépendances ont alors été transformées en patrons de cooccurrence (X Prép) et nous avons calculé des fréquences pour X ainsi qu’une mesure d’estimation de la probabilité de rattachement (EPR). Cette mesure ex- prime la fréquence d’apparition du mot X par rapport à la cooccurrence de X Prép:

7 En savoir plus

Découverte d'unités linguistiques à l'aide de méthodes d'apprentissage non supervisé

Découverte d'unités linguistiques à l'aide de méthodes d'apprentissage non supervisé

Durant cette thèse, nous nous sommes concentrés sur l’utilisation de réseaux de neurones pour répondre au problème. Nous avons approché le problème en utili- sant les réseaux de neurones de manière supervisée, faiblement supervisée et multi- lingue. Nous avons ainsi développé des outils de segmentation automatique en pho- nèmes et de classification phonétique fondés sur des réseaux de neurones convolu- tifs. L’outil de segmentation automatique a obtenu 79% de F-mesure sur le corpus de parole conversationnelle en anglais BUCKEYE. Ce résultat est similaire à un anno- tateur humain d’après l’accord inter-annotateurs fourni par les créateurs du corpus. De plus, il n’a pas besoin de beaucoup de données (environ une dizaine de minutes par locuteur et 5 locuteurs différents) pour être performant. De plus, il est portable à d’autres langues (notamment pour des langues peu dotées telle que le xitsonga). Le système de classification phonétique permet de fixer les différents paramètres et hyperparamètres utiles pour un scénario non supervisé.
En savoir plus

150 En savoir plus

Segmentation non-supervisée d'images couleur par sur-segmentation Markovienne en régions et procédure de regroupement de régions par graphes pondérés

Segmentation non-supervisée d'images couleur par sur-segmentation Markovienne en régions et procédure de regroupement de régions par graphes pondérés

L’auteur a autorisé l’Université de Montréal à reproduire et diffuser, en totalité ou en partie, par quelque moyen que ce soit et sur quelque support que ce soit, et exclusivement à des fins non lucratives d’enseignement et de recherche, des copies de ce mémoire ou de cette thèse.

118 En savoir plus

Segmentation thématique de texte linéaire et non-supervisée :<br>Détection active et passive des frontières thématiques en Français

Segmentation thématique de texte linéaire et non-supervisée :<br>Détection active et passive des frontières thématiques en Français

(une fois encore ce paramètre doit être déterminé), alors elle est considérée comme une frontière thématique. Ainsi, la méthode Segmenter présentée par [ Kan et al., 1998 ], procède selon ce principe pour effectuer une segmentation thématique du document étudié. Segmenter rajoute tou- tefois une subtilité, à savoir que la catégorie syntaxique du terme formant la chaîne entre en compte dans le calcul de la distance à partir de laquelle l’algorithme considère qu’il y a rupture. Cette originalité mérite d’être notée dans la mesure où peu de méthodes ex- ploitent autre chose que le mot lui-même. L’introduction de la catégorie syntaxique dans les paramètres de l’algorithme suppose une certaine analyse de la phrase. Même si cette analyse reste très superficielle, elle apporte tout de même un complément d’information non négligeable. En modulant la distance nécessaire pour rompre une chaîne en fonction de la catégorie syntaxique du mot, Segmenter peut donner plus d’importance aux ca- tégories syntaxiques très porteuses de sens (comme les verbes ou les noms) et moins à des catégories ayant moins de « poids sémantique » (comme les adjectifs par exemple 9 ).
En savoir plus

185 En savoir plus

2004 — Reconstruction 3D biplanaire non supervisée de la colonne vertébrale et de la cage thoracique scoliotiques par modèles statistiques

2004 — Reconstruction 3D biplanaire non supervisée de la colonne vertébrale et de la cage thoracique scoliotiques par modèles statistiques

Dans un second article, nous présentons une méthode statistique non supervisée de recon- struction 3D de la colonne vertébrale scoliotique à partir de deux images radiographiques conven[r]

184 En savoir plus

Codage et classification non supervisée d'un corpus maya : extraire des contextes pour situer l'inconnu par rapport au connu

Codage et classification non supervisée d'un corpus maya : extraire des contextes pour situer l'inconnu par rapport au connu

D’autre part, nous observons qu’il s’effectue un tri thématique des segments de textes dans les classes qui coincide bien avec leur répartition dans les différents almanachs du codex. 5.2 Avec information exogène : le codage développé des glyphes-ligatures Un nombre important des formes glyphiques (107 sur les 402 signes hormis les chiffres de la police maya employée) sont des ligatures, et à leur saisie globale en un code leur lien avec leurs éléments constitutifs est perdu pour notre méthode de classification supervisée, alors que pourtant visuellement il apparaît d’emblée. Par exemple : en codage global 455 i et codage développé 454/111 i , qui correspond en fait à la fusion des deux glyphes superposés h 8 de bi-gramme associé 454.111.
En savoir plus

13 En savoir plus

Classification non supervisée des données de hautes dimensions et extraction des connaissances dans les services WEB de question-réponse

Classification non supervisée des données de hautes dimensions et extraction des connaissances dans les services WEB de question-réponse

In addition to the presence of irrelevant dimensions, high-dimensional data are also char- acterized by the presence of outliers. Outliers can be defined as a set of data points that are[r]

126 En savoir plus

Détection non supervisée d'évènements rares dans un flot vidéo : application à la surveillance d'espaces publics

Détection non supervisée d'évènements rares dans un flot vidéo : application à la surveillance d'espaces publics

système de vidéo-assistance temps réel pour la détection d’évènements dans des scènes possiblement denses. La vidéosurveillance intelligente de scènes denses telles que des foules est particulièrement dif- ficile, principalement à cause de leur complexité et de la grande quantité de données à traiter simul- tanément. Le but de cette thèse consiste à élaborer une méthode de détection d’évènements rares dans de telles scènes, observées depuis une caméra fixe. La méthode en question s’appuie sur l’analyse automatique de mouvement et ne nécessite aucune information a priori. Les mouvements nominaux sont déterminés grâce à un apprentissage statistique non supervisé. Les plus fréquemment observés sont considérés comme des évènements normaux. Une phase de classification permet ensuite de dé- tecter les mouvements déviant trop du modèle statistique, pour les considérer comme anormaux. Cette approche est particulièrement adaptée aux lieux de déplacements structurés, tels que des scènes de couloirs ou de carrefours routiers. Aucune étape de calibration, de segmentation de l’image, de détection d’objets ou de suivi n’est nécessaire. Contrairement aux analyses de trajectoires d’objets suivis, le coût calculatoire de notre méthode est invariante au nombre de cibles présentes en même temps et fonctionne en temps réel.
En savoir plus

161 En savoir plus

Extraction d'Information Non Supervisée à Partir de Textes – Extraction et Regroupement de Relations entre Entités

Extraction d'Information Non Supervisée à Partir de Textes – Extraction et Regroupement de Relations entre Entités

Pruning Threshold for MCL Algorithm The MCL algorithm makes random walks in the similarity graph so that a pruning tech- nique make this procedure more efficient. The higher the pruning threshold is, the more efficient the MCL algorithm can be. However, if the threshold is set too high, too many edges in similarity graph would be cut, including those between similar objects. Our objec- tive is to use this threshold to ignore those edges between the objects which are not similar at all. In our experiments, the threshold is set empirically to 0.45. This is based on observa- tions from the Microsoft Research Paraphrase Corpus (Dolan et al., 2004) which contains an ensemble of sentence pairs. Some of these sentence pairs are paraphrases and others are not and a Cosine similarity computation on bag-of-word was applied on all these sentence pairs. Results show that similarity values for the pairs of paraphrase sentences are all very high while those for pairs of non-paraphrase sentences are more varied. We are more in- terested in the pairs of non-paraphrase sentences because it is the most dissimilar ones we want to eliminate. We observed that about 1/4 of the similarity values for non-paraphrase sentence pairs are under the threshold 0.45 and these 1/4 sentence pairs are considered as the most dissimilar ones and are supposed to be ignored. Therefore, our experiments started from this threshold value and then we also tested other thresholds around this value for comparison, the results of which are presented in Figure 5.9.
En savoir plus

227 En savoir plus

Pépite | Modèles de mélange pour la classification non supervisée de données qualitatives et mixtes

Pépite | Modèles de mélange pour la classification non supervisée de données qualitatives et mixtes

Table 3.2  mean (standard deviation) of the Kullback-Leibler divergence. 3.7 Analysis of two real data sets 3.7.1 Contraceptive method choice The data This data set is a subset of the 1987 National Indonesia Contraceptive Prevalence Survey ([LLS00]). It is composed with 1473 married women who were either not pregnant or do not know if they were at the time of interview. The original problem is to predict the current contraceptive method choice (no use, long-term methods, or short term methods) of a woman based on her demographic and socio- economic characteristics. Each woman is described by nine variables: number of children ever born Chi (0, 1, 2, 3, 4, 5 and more), wife's age WAg (25 and less, 26-35,36-45, 46 and more), wife's education WEd (1=low, 2, 3, 4=high), husband's education HEd (1=low, 2, 3, 4=high), husband's occupation HOc (1, 2, 3, 4), standard of living index Liv (1=low, 2, 3, 4=high), wife's religion WRe (Non-Islam or Islam), wife's now working WWo (yes or no) and media exposure Med (good or not good). For the analysis, the contraceptive method used is blinded, in order to work in a clustering context.
En savoir plus

224 En savoir plus

Adaptation non supervisée des modèles de langage pour le sous-titrage de bulletins de nouvelles

Adaptation non supervisée des modèles de langage pour le sous-titrage de bulletins de nouvelles

Dans un contexte en constante évolution, le vocabulaire, comme les modèles, seront ap- pelés à changer donc à s'adapter. Comme il existe un impact réel et non négligeable entre [r]

93 En savoir plus

Show all 8232 documents...