4.1 Construction du référentiel de documents
4.1.4 Génération du référentiel de documents
4
Equation
Où tof
ij freq(T
k) est la fréquence du Topic i dans le document j et freq(T
k) est la
fréquence du kième terme du Topic i dans le document j.
5
,
0
1
log
df
N
idf
idénote
l'importance relative du Topic dans le document. N est le nombre total de documents et df est
le nombre total de documents où le Topic i apparaît. D'autres mesures ont été proposées dans
la littérature. On peut citer Névéol et ses collègues [Névéol et Ozdowska, 2005] qui intègrent
dans le calcul de la fréquence du concept C, la fréquence de ses sous-concepts, ou Baziz
[Baziz, 2005] qui intègre le nombre de mots du terme dénotant le concept (un concept est
équivalent à un nœud du thésaurus WordNet, et dans ce cas il est dénoté par un seul terme).
4.1.4 Génération du référentiel de documents
Suite aux étapes précédentes, nous avons généré le référentiel de documents, dans ce
référentiel, chaque document est annoté :
- Avec des méta-informations descriptives ;
- Avec des annotations thématiques, chaque document est composé d‟un ensemble
de segments thématiquement homogènes, chaque segment étant annoté par un
thème majeur et éventuellement des thèmes mineurs ;
- Avec des annotations sémantiques indexant les documents et leurs segments. Ces
annotations sont le résultat de l‟étape d‟extraction des termes et des concepts
pertinents avec la méthode LSI appliquée aux documents et à leurs segments.
Cette triple annotation de chaque document servira à la construction de la Topic Map
globale multilingue qui servira d‟interface médiant les besoins d‟une large typologie
d‟utilisateurs. Les documents de notre corpus sont textuels, multilingues (initialement le
français et anglais, et en perspective d‟autres langues) et multi-formats (pdf, doc, txt, html,...).
133
4.1.4.1 Indexation descriptive
Dans cette étape, les documents sont indexés par les méta-informations descriptives
(figure 4.8) regroupant le titre du document, la taille, le format, l‟objet ou le scope, la
pertinence, la langue, l‟auteur, l‟organisation, la date, l‟URL, le public cible et le type du
document par exemple guide, cours, article, dossier de presse, etc.
Méta-informations descriptives
Nom du
document:Recherche_developpement_sur_procédés_photovoltaiques Taille:1183KO
Type:Article
Scope:Energie solaire photovoltaique Format:PDF Langue:Français Organisation: CSTB Date de création:Mai 2008 Source/URL:http://www.cstb.fr/fileadmin/documents/ telechargements/energie_solaire/ Recherche_developpement_sur_procedes_photovoltaiques-mai-2008.pdf
Public cible: Consommateur (Homme du monde)
Figure 4.8 Exemple de fiche descriptive d‟un document avec les méta-informations
descriptives
4.1.4.2 Indexation thématique
L‟indexation thématique revient à identifier le thème majeur et/ou le(s) thème(s)
mineur(s) évoqué(s) dans les documents et par la suite attribuer aux documents une ou
plusieurs étiquettes ou catégories thématiques en associant à chacune d‟elles un degré de
pertinence ou de représentativité du contenu informationnel du document. Chaque thème est
défini par un label.
L‟identification des thèmes dans les documents fait intervenir plusieurs domaines de
recherche en particulier ceux relatifs à l‟analyse thématique, à la classification et la
catégorisation automatique des documents.
Ainsi, l'identification des thèmes est bien distincte de l'analyse thématique. En effet,
bien qu‟elle soit en partie composée de ce dernier processus, l‟analyse thématique ne saurait
s‟y réduire. Comme l‟a souligné [Chaar, 2003], « l’identification thématique est la partie de
l’analyse thématique visant à déterminer le thème d’une unité textuelle ». L'analyse
thématique peut englober en effet plusieurs autres processus. Par exemple, pour [Chaar, 2003]
« L’analyse thématique des documents consiste à segmenter les documents en régions
thématiquement homogènes ». La spécificité qui semble caractériser le processus d‟analyse
134
thématique (par opposition à l‟identification des thèmes d‟un corpus) réside principalement
dans l‟identification de la structure et des liens possibles entre les différents thèmes.
Dans le cadre de notre travail, l‟objectif est d‟identifier les thèmes des différents
documents du corpus et annoter ces documents en fonction de ces thèmes. Pour l‟étape
d‟identification des thèmes d‟un corpus, nous nous appuyons sur les résultats des processus de
segmentation thématique de TextTiling et d‟indexation sémantique avec LSI.
En effet, le processus de segmentation a permis de découper chaque document du
corpus en un ensemble de segments (blocs thématiquement homogènes). Pour l‟identification
des principaux thèmes présents dans un document correspondant aux segments identifiés,
nous nous appuyons sur la méthode d‟indexation LSI qui prend entrée les documents et les
segments et genre une matrice dont chaque cellule représente les tf×idf (pour les termes) et
les tof×idf (pour les Topics). Ces calculs statistiques permettant de faire émerger les
catégories thématiques des documents analysés. Les termes ou les concepts ayant les tf×idf
ou les tof×idf les plus eleves (supérieur à un seuil fixé) par rapport à un segment de document
sont attribués comme « étiquette thématique » à ce segment. Au final chaque document sera
indexé thématiquement à partir des différentes thématiques associées à chaque segment dans
le document en question.
4.1.4.3 Indexation sémantique
Les annotations sémantiques consistent à construire une représentation du contenu des
documents du corpus par un ensemble de termes et de concepts pondérés en fonction de leur
pertinence dans le document et ses segments (pour notre cas tf×idf pour les termes et tof×idf
pour les concepts). Pour cette étape, nous nous appuyons sur la méthode d‟indexation LSI qui
prend entrée les documents et les segments et le thésaurus du domaine et genere pour chaque
document et ses segments, les termes et les concepts les plus représentatifs du contenu des
documents ainsi que de leurs segments pondérés avec leur degré de pertinence respectifs.
Ces termes et ces concepts serviront à construire et enrichir la Topic Map par des
nouveaux Topics, instances de Topics, synonymes de Topics ou sous Topics. Les tf×idf et les
tof×idf calculés sont utilisés pour étiqueter les liens entre Topics et documents ou segments et
trier par la suite ces ressources selon leur importance.
Les annotations sémantiques participent à la satisfaction de plusieurs types de demandes
notamment les recherches précises (chercher les documents qui évoquent un ou plusieurs
Topics donnés), les recherches exploratoires (naviguer dans la hiérarchie des Topics), les
135
recherches connotatives (chercher les documents parlant de Topics similaires à un Topic
donné).
En conclusion, le modèle d‟annotation proposé s‟intéresse à toutes les facettes
représentatives d‟un document dans l‟objectif de répondre à tous les types de besoins
d‟information. En effet, l‟annotation descriptive vise à répondre aux recherches précises et
exploratoires; l‟annotation conceptuelle permet de satisfaire les recherches précises,
connotatives et exploratoire et finalement l‟analyse thématique prend en charge les recherches
thématiques et exploratoires (figure 4.9).
Figure 4.9 Correspondances entre les types d'annotations et les types de recherches
Dans le document
Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable
(Page 133-136)