4.1 Construction du référentiel de documents
4.1.2 Segmentation thématique des documents textuels
Pour améliorer les performances de leurs systèmes de recherche d‟information, certains
travaux proposent de commencer par une étape de segmentation thématique des documents
source, en effet, dans le cas de la navigation à l‟intérieur de longs documents textuels, avoir
des documents thématiquement segmentés peut résulter en la récupération des segments de
texte courts et pertinents qui correspondent directement à la requête d'un utilisateur au lieu de
longs documents examinés avec soin par l‟utilisateur pour trouver l'objet de son intérêt.
La segmentation thématique de textes a pour objectif de localiser les changements de
thème dans les documents [Ferret, 2006]. Ce type d'information peut permettre l'amélioration
de la recherche et la navigation à l'intérieur de longs documents, qui est le cas de notre travail.
Selon la littérature, les approches de détection des changements de thème dans un texte se
divisent en deux classes majeures [Ferret, 2006] : les approches linguistiques et les approches
dirigées par le contenu.
Approches linguistiques
Ces approches se basent sur l‟identification de marques, en particulier linguistiques,
caractéristiques des changements de thème. Certaines des marques discursives, en
l‟occurrence les introducteurs de cadres thématiques, permettent de réaliser une forme
d‟identification des thèmes d‟un document. Dans une phrase commençant par En ce qui
concerne les problèmes du chauffage au bois..., l‟introducteur de cadre en ce qui concerne est
une marque de segmentation et le groupe nominal qui la suit caractérise le thème du nouveau
segment [Grosz et Sidner, 1986], [Passonneau et Litman, 1993].
Approches dirigées par le contenu
Ces approches se basent sur la détection des changements du contenu du discours. Les
approches dirigées par le contenu ont emprunté deux voies. La première ne fait pas appel à
121
des connaissances externes, pour ceci ces méthodes sont aussi appelées méthodes endogènes.
La deuxième piste se base sur l'exploitation des connaissances sur les relations de cohésion
lexicale. Ces méthodes sont appelées aussi méthodes exogènes [Choi et al. 2001], [Utiyama et
Isahara, 2001], [Ferret, 2002], [Galley et al. 2003], [Caillet et al. 2004], [Labadié et Chauché,
2007].
Dans cette deuxième approche, les algorithmes de segmentation thématique des
documents se décomposent dans la majorité des cas en trois étapes distinctes :
- La première étape permet de diviser le document en entrée en blocs
élémentaires. Un bloc élémentaire décrit un thème et peut être constitué d‟un
ensemble de phrases, de paragraphes ou encore avoir une taille arbitraire ;
- La seconde étape consiste à mesurer les similarités entre les blocs
élémentaires. Cette évaluation s‟appuie sur la notion de cohésion lexicale qui
caractérise le fait qu‟un texte se présente comme un tout cohésif et non comme la
simple juxtaposition d‟un ensemble de phrases. Différentes techniques ont été
définies pour évaluer la cohésion lexicale existante entre des blocs de texte dans
le cadre de la segmentation thématique. La plupart d‟entre elles s‟appuient sur la
simple notion de répétition lexicale [Choi, 2000] mais certaines cherchent à
mettre en évidence des relations moins directes, soit par l‟intermédiaire de
cooccurrences lexicales [Choi, 2000] [Ferret, 2002], soit par l‟utilisation de
relations explicitement typées (hyperonymie, synonymie, …) provenant de
thésaurus ou de dictionnaires [Morris et Hirst, 1991] ;
- La dernière étape définit les blocs thématiques homogènes entre eux grâce à
une technique de regroupement. Cette technique fusionne les éléments
élémentaires constituant un même thème. Néanmoins la principale difficulté de
ces algorithmes demeure dans la détermination du nombre de blocs thématiques
par document, c'est-à-dire l‟identification du nombre de thèmes traités.
Il faut remarquer que la première approche a été globalement moins étudiée que la
seconde. Une explication possible de cette situation, selon [Ferret, 2006] est que s‟attacher au
contenu du discours est en apparence toujours réalisable alors que la seconde approche est
limitée aux discours présentant des changements de thème caractérisés par des marques
spécifiques. Or ces marques ne sont en pratique pas très fréquentes et sont par ailleurs assez
dépendantes du type de discours considéré. Lorsqu‟elles sont présentes, elles ont néanmoins
l‟avantage de localiser les changements de thème avec précision ce qui n‟est, à l‟inverse, pas
122
toujours le cas des méthodes fondées sur le contenu du discours. Les deux approches sont
donc plus complémentaires que concurrentes. C‟est d‟ailleurs ce que l‟on observe dans les
travaux existants puisqu‟une part importante de ceux exploitant des marques linguistiques de
segmentation le font en conjonction avec des indices relatifs au contenu du discours.
Dans notre travail, nous nous intéressons à l'approche dirigée par le contenu. Les
algorithmes les plus connus représentant cette classe sont l‟algorithme TextTiling de Marti
Hearst [Hearst, 1997], l‟algorithme Segmenter de [Kan et al. 1998], l‟algorithme C99 de Choi
[Choi, 2000] et l‟algorithme DotPlotting de [Reynar, 2000].
L‟étape de segmentation thématique des documents textuels a pour objectif de
segmenter les documents du corpus en plusieurs blocs thématiquement cohérents. Nous
disposons de documents assez volumineux et la segmentation permet d‟améliorer l‟accès à
ces documents. Nous proposons pour cette étape d‟utiliser l‟algorithme TextTiling puisqu‟il
supporte en entrée plusieurs formats de documents : .pdf, .html, .rtf, .doc. En plus, la version
dont nous disposons permet de traiter les textes en anglais aussi bien qu‟en français et un
autre critère très important est celui du temps d‟exécution, effectivement l‟algorithme
TextTiling que nous utilisons permet de traiter des documents volumineux (thèse 230 pages)
en des temps raisonnables (30s) ce qui fait de cet algorithme un bon compromis entre
complexité et efficacité [Chaar, 2003]. Par ailleurs, l‟algorithme TextTiling est robuste et ne
demande pas beaucoup de ressources pour être exécuté. D‟après la littérature, son utilisation
dans le cadre des systèmes d‟extraction et de recherche d‟information donne de bons résultats.
L‟unité de base pour cet algorithme est un segment de texte défini par un nombre fixe de
phrases. La figure 4.2 illustre les principales étapes de l‟algorithme de TextTiling.
123
Figure 4.2 Illustration des étapes de l‟algorithme de TextTiling
4.1.2.1 La segmentation physique
Après le prétraitement des documents textuels, la première étape est la segmentation
physique du document, elle se base sur une mesure de similarité lexicale. Les lemmes issus
des textes prétraités sont groupés en pseudo phrases, c'est-à-dire un ensemble de lemmes
adjacents, qui sont eux mêmes regroupés en blocs de taille fixée au départ (Figure 4.3). Cette
taille des segments est variable, elle peut aller de 3 à 5 pseudo phrases à un paragraphe. En
général, on prend la moyenne de la longueur des paragraphes. Les paragraphes réels ainsi que
les phrases ne sont pas pris en compte car leur longueur peut être fortement irrégulière
conduisant à des comparaisons déséquilibrées.
124
Figure 4.3 Mise en place de blocs de pseudo phrases
4.1.2.2 Calcul de la similarité entre blocs adjacents
La deuxième étape, « Calcul de la similarité entre blocs adjacents » (figure 4.4),
consiste à déplacer une fenêtre de taille fixe et calculer pour chaque position de celle-ci la
similarité entre ses deux parties.
Figure 4.4 Calcul de la similarité entre deux blocs adjacents de pseudo phrases
La similarité est calculée par la mesure cosinus. (Equation 4.1 : étant donné des blocs de
textes b1 et b2).
2 2 , 2 1 , 2 , 1 ,)
(
t tb t tb b t t tbW
W
W
W
i
score
1 . 4 EquationOù t s‟étend à l‟ensemble des termes dans le document et w
t,b1est le poids tf×idf assigné
au terme t dans le bloc b1. tf×idf correspond au nombre de lemmes communs et au nombre de
fois qu‟ils apparaissent dans le texte tout entier. Donc, si le score de la similarité entre deux
blocs est élevé, alors non seulement les blocs ont des termes en commun, mais les termes
qu‟ils ont en commun sont relativement rares en ce qui concerne le reste du document.
125
Les valeurs de similarité sont représentées graphiquement par une courbe. Une valeur
élevée de similarité indique une cohérence entre les blocs et est représentée sur la courbe par
des « peaks ». Par contre, une valeur faible de similarité indique une frontière potentielle entre
les blocs et est représentée par une vallée. L‟algorithme TextTiling calcule ainsi un score pour
chaque unité élémentaire en fonction de l‟unité qui la suit. Le score pour chaque paire de
phrase est calculé en tenant compte de l‟un des critères suivants : (1) les mots communs
comptabilisés par le produit scalaire entre les vecteurs représentatifs des deux phrases ; (2) le
nombre de mots nouveaux dans ces phrases ; (3) le nombre de chaînes lexicales actives. La
similarité entre des blocs de pseudo phrase adjacents est calculée par une mesure du cosinus.
4.1.2.3 Extraction des zones thématiques
La troisième étape concerne le processus de segmentation qui se base sur la détection
des frontières dans la courbe de similarité. Le principal problème qu'on peut rencontrer avec
cette méthode est l'existence de minimums locaux n'indiquant pas forcément un changement
de thématique et ne représentant pas une bonne frontière. Pour résoudre ce problème un
algorithme de lissage pourrait être appliqué pour lisser la courbe et éliminer les petits
minimums locaux (Figure 4.5). Le score d‟un segment de texte est le produit normalisé des
scores de chaque paire de phrases qu‟il contient (lexical scores). Si l‟écart entre le score d‟un
segment et les scores de celui qui le précède et de celui qui le suit est grand, une frontière
thématique est définie pour ce segment. La rupture entre deux unités documentaires est située
dans une zone du texte entourée de zones présentant des valeurs de cohésion très différentes
de la sienne.
.
126
Si l‟algorithme décrit permet en effet une segmentation thématique pertinente à
l‟échelle de groupes de paragraphes, rien ne garantit que deux zones non contiguës traitant
d‟un même thème soient caractérisées par des listes de mots identiques, ce qui rend difficile la
détection de proximité thématique entre segments non consécutifs.
4.1.2.4 Exemple de segmentation
La figure 4.6 illustre un exemple de l'utilisation de TextTiling sur un document de taille
4535 Ko, intitulé « Guide sur le chauffage au bois résidentiel » extrait à partir du site :
http://www.pechabot.com/documentsPDF/GuideChauffageBois.pdf, sur les ressources
naturelles au Canada. La figure 4.6 montre trois exemples de segments thématiques identifiés
dans ce document.
Figure 4.6 Exemple d‟application de TextTiling sur un document
Dans le document
Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable
(Page 121-127)