• Aucun résultat trouvé

TEXT MINING

N/A
N/A
Protected

Academic year: 2022

Partager "TEXT MINING"

Copied!
24
0
0

Texte intégral

(1)

TEXT MINING

Fouille de textes

Master Recherche Informatique

Projet dans le cadre du module Cognition et Connaissance

Jérôme CHAMPAVÈRE Didier DEVAURS Kaouther DRIRA

Nawal GUERMOUCHE Mohamed TOUKOUROU Meriem ZIDOUNI

(2)

Plan

• Introduction

• Outils et démarches du text mining

• Mise en œuvre des concepts

• Domaines de recherche

• Conclusion

(3)

Text Mining 3

• Quantité de documents électroniques en croissance permanente

Exploration et récupération des connaissances manuellement extrêmement ardues ou presque impossibles

Utilisation de la puissance de l’outil informatique pour en extraire les connaissances

Introduction

(4)

Text mining Data mining

Text mining s’adresse aux données textuelles

Données non structurées

Outils spécifiques pour le traitement

de données textuelles non structurées

(5)

Text Mining 5

Text mining

Text mining

Extraction de l’information à partir des données

textuelles non structurées dans des grands corpus de texte

• Combine

– Des outils du traitement du langage naturel – Des outils de fouille de données

(6)

Outils du Text Mining

• Outil d'accès et de collecte des documents

• Outil d'ingénierie du document

• Outil d'ingénierie du langage

• Outil de fouille

(7)

Text Mining 7

Démarches suivies par le text mining

Outils d’ingénierie du langage

- Extraction des termes

- Filtrage des termes

- Indexation des documents - Création d’une taxonomie

- Regroupement des documents par les termes qui leur sont associés

Documents

Traitement linguistique

Extraction de connaissances

Interprétation

Collecte de documents du domaine

Outils d’ingénierie du document - Formalisation des données textuelles

- Etiquetage des textes (date, auteur, ...)

Outil de visualisation et navigation

Explorer et analyser les résultats

Outils de fouille

- Extraction de

connaissances (des règles d’association, calcul statistique)

(8)

Mise en œuvre des concepts de fouille de textes

Exemples

(9)

Text Mining 9

Le projet LINDI

Linking Information for Novel Discovery and Insight

• Objectifs

– Découverte de nouvelles informations – Mise en place d’un système

• Contexte : biologie moléculaire

• BioText : http://biotext.berkeley.edu/

(10)

Le projet LINDI

• Enjeu : découverte automatique des fonctions des gènes

• Question

– Un gène A connu (expression et fonction) – Un gène X nouveau (expression connue) – Quelle est la fonction de X ?

• Réponse

– Expressions de A et X similaires

(11)

Text Mining 11

Le projet LINDI

• Démarche

– Explorer la littérature biomédicale

– Faire des recoupements d’informations

• Problème : énorme quantité de documents

• Recours à la fouille de textes

(12)

Recherche de documents

• Documents mentionnant des gènes donnés

• Source principale : le Web

• Relatif à une langue

(13)

Text Mining 13

Structuration des données

• Ensemble de documents traitant d’un même gène

• Recherche de mots-clés

– Compter les occurrences

– Enlever les mots non signifiants

– Retirer les mots sans intérêt : intervention de l’utilisateur

• Résultat : un ensemble de mots-clés pour chaque gène

(14)

Exploration des données

• Intersection des ensembles de mots-clés

• Ordonner les mots-clés trouvés

• Présentation à l’utilisateur

(15)

Text Mining 15

Exploration des données

• Nouvelle requête

– Gènes A, B et C connus

– Meilleurs mots-clés sélectionnés

• Réduction de l’ensemble des documents à étudier

• Expression de X similaire à celle de A, B et C ?

• Si oui, fonction probablement similaire

(16)

AIDE

Assistant Intelligent for Data Exploration

• Système de planification à initiative mixte

– Guidé par les connaissances de l’utilisateur – … et par ses propres évaluations

• Aide l’utilisateur à s’orienter

(17)

Text Mining 17

DocMiner

(18)

Quelques domaines de

recherche de fouille de textes

(19)

Text Mining 19

Domaines abordés

• Recherche d’informations fréquentes

• Recherche d’informations inattendues

• Catégorisation de textes

(20)

Catégorisation de textes

• Engouement dans ce domaine de recherche

• Choisir les documents par degré de pertinence

• L’outil TileBars

(21)

Text Mining 21

Recherche d’information inattendue

• Nouvel horizon pour la veille et l’intelligence économique

Audit des besoins

Collecte des données Synthèse et Diffusion

Traitement

Automatiser le traitement des données collectées

(22)

Unexpected Miner

• Outils inappropriés pour effectuer de la veille

• Architecture du système

– Prétraitement des données

– Recherche de documents similaires – Recherche d’information inattendue

(23)

Text Mining 23

Conclusion

• Découverte de “nouvelles” informations

• Interactions homme-machine

• Nombreuses applications de “text mining”

(24)

MERCI DE VOTRE ATTENTION

Références

Documents relatifs

La premi` ere ´ etape consiste donc ` a effectuer une simple recherche au sein des ressources disponibles, en g´ en´ eral ` a partir du Web et de bases de donn´ ees bibliographiques

Avec le PMML, les modèles ne sont pas appliqués directement sur les données détaillées de l’entrepôt de données, mais sur un jeu spécialisé de données sélectionnées pour

Les blogs sont plus simples à créer et à gérer, d'autant plus qu'il existe une flopée de solutions intuitives et performantes en open source. En revanche, si votre objectif

Sli.do est un outil en ligne qui permet de sonder les participants à un cours magistral ou à une présentation professionnelle.Ce service propose deux fonctions essentielles :

Dans le monde numérique, c’est-à-dire, lorsque vous travaillez vos images sur un ordinateur, elles sont mesurées en pixels (px) uniquement.. Dans le monde réel,

Chaque pixel est porteur d’une couleur unique, exprimée généralement dans le modèle RVB (rouge, vert, bleu – les trois couleurs de base sur un support lumineux,

Améliorer le SEO d’un site Internet demande un effort de long terme, avec des évolutions tech- niques destinées à améliorer les performances ou intégrer les

Coupes grand axe horizontal (pHLA) : axiale oblique dans le grand axe horizontal du VG ou coupes pseudo 4 cavités selon une ligne joignant le centre de l ’ anneau mitral et l ’