Génération du référentiel de documents - Construction du référentiel de documents

4.1 Construction du référentiel de documents

4.1.4 Génération du référentiel de documents

4 Equation

Où tof

_ij

 freq(T

) est la fréquence du Topic i dans le document j et freq(T

) est la

fréquence du kième terme du Topic i dans le document j.

5 ,

0

1 log





df

N

idf

dénote

l'importance relative du Topic dans le document. N est le nombre total de documents et df est

le nombre total de documents où le Topic i apparaît. D'autres mesures ont été proposées dans

la littérature. On peut citer Névéol et ses collègues [Névéol et Ozdowska, 2005] qui intègrent

dans le calcul de la fréquence du concept C, la fréquence de ses sous-concepts, ou Baziz

[Baziz, 2005] qui intègre le nombre de mots du terme dénotant le concept (un concept est

équivalent à un nœud du thésaurus WordNet, et dans ce cas il est dénoté par un seul terme).

4.1.4 Génération du référentiel de documents

Suite aux étapes précédentes, nous avons généré le référentiel de documents, dans ce

référentiel, chaque document est annoté :

- Avec des méta-informations descriptives ;

- Avec des annotations thématiques, chaque document est composé d‟un ensemble

de segments thématiquement homogènes, chaque segment étant annoté par un

thème majeur et éventuellement des thèmes mineurs ;

- Avec des annotations sémantiques indexant les documents et leurs segments. Ces

annotations sont le résultat de l‟étape d‟extraction des termes et des concepts

pertinents avec la méthode LSI appliquée aux documents et à leurs segments.

Cette triple annotation de chaque document servira à la construction de la Topic Map

globale multilingue qui servira d‟interface médiant les besoins d‟une large typologie

d‟utilisateurs. Les documents de notre corpus sont textuels, multilingues (initialement le

français et anglais, et en perspective d‟autres langues) et multi-formats (pdf, doc, txt, html,...).

133 4.1.4.1 Indexation descriptive

Dans cette étape, les documents sont indexés par les méta-informations descriptives

(figure 4.8) regroupant le titre du document, la taille, le format, l‟objet ou le scope, la

pertinence, la langue, l‟auteur, l‟organisation, la date, l‟URL, le public cible et le type du

document par exemple guide, cours, article, dossier de presse, etc.

Méta-informations descriptives

Nom du

document:Recherche_developpement_sur_procédés_photovoltaiques Taille:1183KO

Type:Article

Scope:Energie solaire photovoltaique Format:PDF Langue:Français Organisation: CSTB Date de création:Mai 2008 Source/URL:http://www.cstb.fr/fileadmin/documents/ telechargements/energie_solaire/ Recherche_developpement_sur_procedes_photovoltaiques-mai-2008.pdf

Public cible: Consommateur (Homme du monde)

Figure 4.8 Exemple de fiche descriptive d‟un document avec les méta-informations

descriptives

4.1.4.2 Indexation thématique

L‟indexation thématique revient à identifier le thème majeur et/ou le(s) thème(s)

mineur(s) évoqué(s) dans les documents et par la suite attribuer aux documents une ou

plusieurs étiquettes ou catégories thématiques en associant à chacune d‟elles un degré de

pertinence ou de représentativité du contenu informationnel du document. Chaque thème est

défini par un label.

L‟identification des thèmes dans les documents fait intervenir plusieurs domaines de

recherche en particulier ceux relatifs à l‟analyse thématique, à la classification et la

catégorisation automatique des documents.

Ainsi, l'identification des thèmes est bien distincte de l'analyse thématique. En effet,

bien qu‟elle soit en partie composée de ce dernier processus, l‟analyse thématique ne saurait

s‟y réduire. Comme l‟a souligné [Chaar, 2003], « l’identification thématique est la partie de

l’analyse thématique visant à déterminer le thème d’une unité textuelle ». L'analyse

thématique peut englober en effet plusieurs autres processus. Par exemple, pour [Chaar, 2003]

« L’analyse thématique des documents consiste à segmenter les documents en régions

thématiquement homogènes ». La spécificité qui semble caractériser le processus d‟analyse

134 thématique (par opposition à l‟identification des thèmes d‟un corpus) réside principalement

dans l‟identification de la structure et des liens possibles entre les différents thèmes.

Dans le cadre de notre travail, l‟objectif est d‟identifier les thèmes des différents

documents du corpus et annoter ces documents en fonction de ces thèmes. Pour l‟étape

d‟identification des thèmes d‟un corpus, nous nous appuyons sur les résultats des processus de

segmentation thématique de TextTiling et d‟indexation sémantique avec LSI.

En effet, le processus de segmentation a permis de découper chaque document du

corpus en un ensemble de segments (blocs thématiquement homogènes). Pour l‟identification

des principaux thèmes présents dans un document correspondant aux segments identifiés,

nous nous appuyons sur la méthode d‟indexation LSI qui prend entrée les documents et les

segments et genre une matrice dont chaque cellule représente les tf×idf (pour les termes) et

les tof×idf (pour les Topics). Ces calculs statistiques permettant de faire émerger les

catégories thématiques des documents analysés. Les termes ou les concepts ayant les tf×idf

ou les tof×idf les plus eleves (supérieur à un seuil fixé) par rapport à un segment de document

sont attribués comme « étiquette thématique » à ce segment. Au final chaque document sera

indexé thématiquement à partir des différentes thématiques associées à chaque segment dans

le document en question.

4.1.4.3 Indexation sémantique

Les annotations sémantiques consistent à construire une représentation du contenu des

documents du corpus par un ensemble de termes et de concepts pondérés en fonction de leur

pertinence dans le document et ses segments (pour notre cas tf×idf pour les termes et tof×idf

pour les concepts). Pour cette étape, nous nous appuyons sur la méthode d‟indexation LSI qui

prend entrée les documents et les segments et le thésaurus du domaine et genere pour chaque

document et ses segments, les termes et les concepts les plus représentatifs du contenu des

documents ainsi que de leurs segments pondérés avec leur degré de pertinence respectifs.

Ces termes et ces concepts serviront à construire et enrichir la Topic Map par des

nouveaux Topics, instances de Topics, synonymes de Topics ou sous Topics. Les tf×idf et les

tof×idf calculés sont utilisés pour étiqueter les liens entre Topics et documents ou segments et

trier par la suite ces ressources selon leur importance.

Les annotations sémantiques participent à la satisfaction de plusieurs types de demandes

notamment les recherches précises (chercher les documents qui évoquent un ou plusieurs

Topics donnés), les recherches exploratoires (naviguer dans la hiérarchie des Topics), les

135 recherches connotatives (chercher les documents parlant de Topics similaires à un Topic

donné).

En conclusion, le modèle d‟annotation proposé s‟intéresse à toutes les facettes

représentatives d‟un document dans l‟objectif de répondre à tous les types de besoins

d‟information. En effet, l‟annotation descriptive vise à répondre aux recherches précises et

exploratoires; l‟annotation conceptuelle permet de satisfaire les recherches précises,

connotatives et exploratoire et finalement l‟analyse thématique prend en charge les recherches

thématiques et exploratoires (figure 4.9).

Figure 4.9 Correspondances entre les types d'annotations et les types de recherches

Dans le document Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable (Page 133-136)