TEXT MINING
Fouille de textes
Master Recherche Informatique
Projet dans le cadre du module Cognition et Connaissance
Jérôme CHAMPAVÈRE Didier DEVAURS Kaouther DRIRA
Nawal GUERMOUCHE Mohamed TOUKOUROU Meriem ZIDOUNI
Plan
• Introduction
• Outils et démarches du text mining
• Mise en œuvre des concepts
• Domaines de recherche
• Conclusion
Text Mining 3
• Quantité de documents électroniques en croissance permanente
Exploration et récupération des connaissances manuellement extrêmement ardues ou presque impossibles
Utilisation de la puissance de l’outil informatique pour en extraire les connaissances
Introduction
Text mining Data mining
• Text mining s’adresse aux données textuelles
• Données non structurées
Outils spécifiques pour le traitement
de données textuelles non structurées
Text Mining 5
Text mining
• Text mining
Extraction de l’information à partir des données
textuelles non structurées dans des grands corpus de texte
• Combine
– Des outils du traitement du langage naturel – Des outils de fouille de données
Outils du Text Mining
• Outil d'accès et de collecte des documents
• Outil d'ingénierie du document
• Outil d'ingénierie du langage
• Outil de fouille
Text Mining 7
Démarches suivies par le text mining
Outils d’ingénierie du langage
- Extraction des termes
- Filtrage des termes
- Indexation des documents - Création d’une taxonomie
- Regroupement des documents par les termes qui leur sont associés
Documents
Traitement linguistique
Extraction de connaissances
Interprétation
Collecte de documents du domaine
Outils d’ingénierie du document - Formalisation des données textuelles
- Etiquetage des textes (date, auteur, ...)
Outil de visualisation et navigation
Explorer et analyser les résultats
Outils de fouille
- Extraction de
connaissances (des règles d’association, calcul statistique)
Mise en œuvre des concepts de fouille de textes
Exemples
Text Mining 9
Le projet LINDI
• Linking Information for Novel Discovery and Insight
• Objectifs
– Découverte de nouvelles informations – Mise en place d’un système
• Contexte : biologie moléculaire
• BioText : http://biotext.berkeley.edu/
Le projet LINDI
• Enjeu : découverte automatique des fonctions des gènes
• Question
– Un gène A connu (expression et fonction) – Un gène X nouveau (expression connue) – Quelle est la fonction de X ?
• Réponse
– Expressions de A et X similaires
Text Mining 11
Le projet LINDI
• Démarche
– Explorer la littérature biomédicale
– Faire des recoupements d’informations
• Problème : énorme quantité de documents
• Recours à la fouille de textes
Recherche de documents
• Documents mentionnant des gènes donnés
• Source principale : le Web
• Relatif à une langue
Text Mining 13
Structuration des données
• Ensemble de documents traitant d’un même gène
• Recherche de mots-clés
– Compter les occurrences
– Enlever les mots non signifiants
– Retirer les mots sans intérêt : intervention de l’utilisateur
• Résultat : un ensemble de mots-clés pour chaque gène
Exploration des données
• Intersection des ensembles de mots-clés
• Ordonner les mots-clés trouvés
• Présentation à l’utilisateur
Text Mining 15
Exploration des données
• Nouvelle requête
– Gènes A, B et C connus
– Meilleurs mots-clés sélectionnés
• Réduction de l’ensemble des documents à étudier
• Expression de X similaire à celle de A, B et C ?
• Si oui, fonction probablement similaire
AIDE
• Assistant Intelligent for Data Exploration
• Système de planification à initiative mixte
– Guidé par les connaissances de l’utilisateur – … et par ses propres évaluations
• Aide l’utilisateur à s’orienter
Text Mining 17
DocMiner
Quelques domaines de
recherche de fouille de textes
Text Mining 19
Domaines abordés
• Recherche d’informations fréquentes
• Recherche d’informations inattendues
• Catégorisation de textes
Catégorisation de textes
• Engouement dans ce domaine de recherche
• Choisir les documents par degré de pertinence
• L’outil TileBars
Text Mining 21
Recherche d’information inattendue
• Nouvel horizon pour la veille et l’intelligence économique
Audit des besoins
Collecte des données Synthèse et Diffusion
Traitement
Automatiser le traitement des données collectées
Unexpected Miner
• Outils inappropriés pour effectuer de la veille
• Architecture du système
– Prétraitement des données
– Recherche de documents similaires – Recherche d’information inattendue
Text Mining 23
Conclusion
• Découverte de “nouvelles” informations
• Interactions homme-machine
• Nombreuses applications de “text mining”