• Aucun résultat trouvé

Extraction d’information et indexation de documents

N/A
N/A
Protected

Academic year: 2022

Partager "Extraction d’information et indexation de documents"

Copied!
10
0
0

Texte intégral

(1)

et indexation de documents

Damien Nouvel

Damien Nouvel (Inalco) Extraction et indexation 1 / 10

(2)

Plan

1. Représenter des documents 2. Rechercher dans des documents

(3)

Approches pour la représentation

Caractères/glyphes Mots/tokens Phrases/énoncés

Paragraphes Sections Documents

Corpus

Bottom-up

Top-down

Damien Nouvel (Inalco) Extraction et indexation 3 / 10

(4)

Indexs et documents

§ Index

‚ Doigt

‚ Ouvrages censurés (XVIème,index librorum prohibitorum)

‚ Liste alphabétique de termes ñ Référence, pointeur

ñ Triangle sémiotique[Ogden & Richards 1923]

§ Objectif : accès rapide au contenu

‚ Du corpus (bibliothèque) vers les documents

‚ Depuis un document vers une partie de son contenu

(5)

Décomposition du document

§ Métadonnées : auteur, date, liens, etc.

§ Document comme aggrégats

‚ Chapitres, sections, sous-sections …

‚ Paragraphes

‚ Phrases

Mots

‚ Caractères, glyphes

§ Segmentation selon des critères explicites ouimplicites

‚ Disposition du contenu (chapitres, paragraphes) ñ Méta-information pour le document numérique ñ Explicite, mais pas toujours renseignée

‚ Contenu lui-même (phrases, mots) ñ Selon la séquence des caractères ñ Peu explicite, mais calculable

ñ Utilisation des espaces et ponctuations

Damien Nouvel (Inalco) Extraction et indexation 5 / 10

(6)

Représentation des documents

ñ Documents comme séquences de caractères

§ Manipulation aisée … mais pas de sens

§ Unité minimale sémantique: le mot

‚ Ou : mot-forme, lemme, lexème,token, morphème …

‚ Lien entreforme etsens

‚ Attention aux expressions polylexicales (locutions) ñ Segmentation

ñ Documents comme séquences de mots

§ Problèmes de la séquence

‚ Quel intérêt (position dans un document)

‚ Combinatoire des séquences

ñ Documents comme ensembles de mots ñ Sacs de mots

ñ « Normaliser » les mots

(7)

Plan

1. Représenter des documents 2. Rechercher dans des documents

Damien Nouvel (Inalco) Extraction et indexation 7 / 10

(8)

Matrice termes / documents

§ Représentation à l’aide de matrices (tableaux)

‚ Lignes : documents

‚ Colonnes : termes (mots)

‚ Cellules :occurrences d’un terme dans un document ñ Matrice termes par documents

ñ Vector Space Model

ñ Représentation mathématique, opérations algébriques

§ Exemple (sport vs politique)

foot. basket. ballon gouv. ministre aller

Euro 2016 3 0 2 0 0 3

Tony Parker 0 3 1 1 0 5

Présidentielles 2017 0 0 0 4 3 1

COP21 0 0 1 5 2 4

Affaire Blatter 5 0 0 2 1 7

(9)

Exploitation de la matrice

§ Transformation de matrice (booléen, stopwords, TF.IDF, LSA)

§ Mesures de distance / similarité(euclide, cosinus)

§ Applications

Clustering : comparer les documents deux-à-deux, grouper

Classification : comparer les documents aux catégories

Indexation : comparer des mots-clés aux documents

§ Problèmes linguistiques incontournables

Sémantique et dispersion des termes

Expressions polylexicales (locutions, colocations)

Synonymes, couverture et cohérence sémantique

Homonymes: prétraitement pour désambiguisation de sens

Damien Nouvel (Inalco) Extraction et indexation 9 / 10

(10)

Applications et évaluation

§ Applications

‚ Moteurs de recherche

ñ Google, Bing, Yahoo, Qwant, Baidu, Yandex, Naver…

‚ Similarités entre bases documentaires

‚ Textométrie (calcul de spécificités)

§ Évaluations (pertinence pour une recherche)

Précision : les documents sont-ils corrects ? (bruit)

Rappel: y-a-t-il tous les documents ? (silence)

‚ F-mesure : moyenne harmonique des deux précédents

‚ Courbe rappel / précision

‚ Précision moyenne (interpolée)

‚ …

ñ Problème de la temporalité (infos d’actualité vs atemporel)

Références

Documents relatifs

• Effectuer tous les travaux de dépannage et réparations chaque fois que les besoins se font sentir. • Tenir en stock les pièces et consommables de première

PNUD – TDR Edition de documents d’information préventive – Octobre 2021 Page 4 -Une copie électronique de la liste/inventaire du chargement devra être envoyée à l’avance

Dans le cadre du PAMOBARMA, la composante C3 du PREDIP lance cette prestation à fin de répondre aux besoins du projet en SIG dans l’ensemble des pays cité ci-dessus, sauf pour

[r]

LES BLAGUES DE

Mises à jour gratuites en ligne sur

1 étude extraite des 5 études pour Vibraphone de Franck DENTRESANGLE (Alfonce Production) Chamade extraite des 19 études pour Vibraphone de Emmanuel SEJOURNE (editions Leduc)

L’objectif général de l’atelier est de partager le rapport provisoire de l’étude sur les mécanismes de financement durable des CNT dans trois pays sahéliens (Burkina