• Aucun résultat trouvé

4.1 Construction du référentiel de documents

4.1.2 Segmentation thématique des documents textuels

Pour améliorer les performances de leurs systèmes de recherche d‟information, certains

travaux proposent de commencer par une étape de segmentation thématique des documents

source, en effet, dans le cas de la navigation à l‟intérieur de longs documents textuels, avoir

des documents thématiquement segmentés peut résulter en la récupération des segments de

texte courts et pertinents qui correspondent directement à la requête d'un utilisateur au lieu de

longs documents examinés avec soin par l‟utilisateur pour trouver l'objet de son intérêt.

La segmentation thématique de textes a pour objectif de localiser les changements de

thème dans les documents [Ferret, 2006]. Ce type d'information peut permettre l'amélioration

de la recherche et la navigation à l'intérieur de longs documents, qui est le cas de notre travail.

Selon la littérature, les approches de détection des changements de thème dans un texte se

divisent en deux classes majeures [Ferret, 2006] : les approches linguistiques et les approches

dirigées par le contenu.

Approches linguistiques

Ces approches se basent sur l‟identification de marques, en particulier linguistiques,

caractéristiques des changements de thème. Certaines des marques discursives, en

l‟occurrence les introducteurs de cadres thématiques, permettent de réaliser une forme

d‟identification des thèmes d‟un document. Dans une phrase commençant par En ce qui

concerne les problèmes du chauffage au bois..., l‟introducteur de cadre en ce qui concerne est

une marque de segmentation et le groupe nominal qui la suit caractérise le thème du nouveau

segment [Grosz et Sidner, 1986], [Passonneau et Litman, 1993].

Approches dirigées par le contenu

Ces approches se basent sur la détection des changements du contenu du discours. Les

approches dirigées par le contenu ont emprunté deux voies. La première ne fait pas appel à

121

des connaissances externes, pour ceci ces méthodes sont aussi appelées méthodes endogènes.

La deuxième piste se base sur l'exploitation des connaissances sur les relations de cohésion

lexicale. Ces méthodes sont appelées aussi méthodes exogènes [Choi et al. 2001], [Utiyama et

Isahara, 2001], [Ferret, 2002], [Galley et al. 2003], [Caillet et al. 2004], [Labadié et Chauché,

2007].

Dans cette deuxième approche, les algorithmes de segmentation thématique des

documents se décomposent dans la majorité des cas en trois étapes distinctes :

- La première étape permet de diviser le document en entrée en blocs

élémentaires. Un bloc élémentaire décrit un thème et peut être constitué d‟un

ensemble de phrases, de paragraphes ou encore avoir une taille arbitraire ;

- La seconde étape consiste à mesurer les similarités entre les blocs

élémentaires. Cette évaluation s‟appuie sur la notion de cohésion lexicale qui

caractérise le fait qu‟un texte se présente comme un tout cohésif et non comme la

simple juxtaposition d‟un ensemble de phrases. Différentes techniques ont été

définies pour évaluer la cohésion lexicale existante entre des blocs de texte dans

le cadre de la segmentation thématique. La plupart d‟entre elles s‟appuient sur la

simple notion de répétition lexicale [Choi, 2000] mais certaines cherchent à

mettre en évidence des relations moins directes, soit par l‟intermédiaire de

cooccurrences lexicales [Choi, 2000] [Ferret, 2002], soit par l‟utilisation de

relations explicitement typées (hyperonymie, synonymie, …) provenant de

thésaurus ou de dictionnaires [Morris et Hirst, 1991] ;

- La dernière étape définit les blocs thématiques homogènes entre eux grâce à

une technique de regroupement. Cette technique fusionne les éléments

élémentaires constituant un même thème. Néanmoins la principale difficulté de

ces algorithmes demeure dans la détermination du nombre de blocs thématiques

par document, c'est-à-dire l‟identification du nombre de thèmes traités.

Il faut remarquer que la première approche a été globalement moins étudiée que la

seconde. Une explication possible de cette situation, selon [Ferret, 2006] est que s‟attacher au

contenu du discours est en apparence toujours réalisable alors que la seconde approche est

limitée aux discours présentant des changements de thème caractérisés par des marques

spécifiques. Or ces marques ne sont en pratique pas très fréquentes et sont par ailleurs assez

dépendantes du type de discours considéré. Lorsqu‟elles sont présentes, elles ont néanmoins

l‟avantage de localiser les changements de thème avec précision ce qui n‟est, à l‟inverse, pas

122

toujours le cas des méthodes fondées sur le contenu du discours. Les deux approches sont

donc plus complémentaires que concurrentes. C‟est d‟ailleurs ce que l‟on observe dans les

travaux existants puisqu‟une part importante de ceux exploitant des marques linguistiques de

segmentation le font en conjonction avec des indices relatifs au contenu du discours.

Dans notre travail, nous nous intéressons à l'approche dirigée par le contenu. Les

algorithmes les plus connus représentant cette classe sont l‟algorithme TextTiling de Marti

Hearst [Hearst, 1997], l‟algorithme Segmenter de [Kan et al. 1998], l‟algorithme C99 de Choi

[Choi, 2000] et l‟algorithme DotPlotting de [Reynar, 2000].

L‟étape de segmentation thématique des documents textuels a pour objectif de

segmenter les documents du corpus en plusieurs blocs thématiquement cohérents. Nous

disposons de documents assez volumineux et la segmentation permet d‟améliorer l‟accès à

ces documents. Nous proposons pour cette étape d‟utiliser l‟algorithme TextTiling puisqu‟il

supporte en entrée plusieurs formats de documents : .pdf, .html, .rtf, .doc. En plus, la version

dont nous disposons permet de traiter les textes en anglais aussi bien qu‟en français et un

autre critère très important est celui du temps d‟exécution, effectivement l‟algorithme

TextTiling que nous utilisons permet de traiter des documents volumineux (thèse 230 pages)

en des temps raisonnables (30s) ce qui fait de cet algorithme un bon compromis entre

complexité et efficacité [Chaar, 2003]. Par ailleurs, l‟algorithme TextTiling est robuste et ne

demande pas beaucoup de ressources pour être exécuté. D‟après la littérature, son utilisation

dans le cadre des systèmes d‟extraction et de recherche d‟information donne de bons résultats.

L‟unité de base pour cet algorithme est un segment de texte défini par un nombre fixe de

phrases. La figure 4.2 illustre les principales étapes de l‟algorithme de TextTiling.

123

Figure 4.2 Illustration des étapes de l‟algorithme de TextTiling

4.1.2.1 La segmentation physique

Après le prétraitement des documents textuels, la première étape est la segmentation

physique du document, elle se base sur une mesure de similarité lexicale. Les lemmes issus

des textes prétraités sont groupés en pseudo phrases, c'est-à-dire un ensemble de lemmes

adjacents, qui sont eux mêmes regroupés en blocs de taille fixée au départ (Figure 4.3). Cette

taille des segments est variable, elle peut aller de 3 à 5 pseudo phrases à un paragraphe. En

général, on prend la moyenne de la longueur des paragraphes. Les paragraphes réels ainsi que

les phrases ne sont pas pris en compte car leur longueur peut être fortement irrégulière

conduisant à des comparaisons déséquilibrées.

124

Figure 4.3 Mise en place de blocs de pseudo phrases

4.1.2.2 Calcul de la similarité entre blocs adjacents

La deuxième étape, « Calcul de la similarité entre blocs adjacents » (figure 4.4),

consiste à déplacer une fenêtre de taille fixe et calculer pour chaque position de celle-ci la

similarité entre ses deux parties.

Figure 4.4 Calcul de la similarité entre deux blocs adjacents de pseudo phrases

La similarité est calculée par la mesure cosinus. (Equation 4.1 : étant donné des blocs de

textes b1 et b2).

2 2 , 2 1 , 2 , 1 ,

)

(

t tb t tb b t t tb

W

W

W

W

i

score

1 . 4 Equation

t s‟étend à l‟ensemble des termes dans le document et w

t,b1

est le poids tf×idf assigné

au terme t dans le bloc b1. tf×idf correspond au nombre de lemmes communs et au nombre de

fois qu‟ils apparaissent dans le texte tout entier. Donc, si le score de la similarité entre deux

blocs est élevé, alors non seulement les blocs ont des termes en commun, mais les termes

qu‟ils ont en commun sont relativement rares en ce qui concerne le reste du document.

125

Les valeurs de similarité sont représentées graphiquement par une courbe. Une valeur

élevée de similarité indique une cohérence entre les blocs et est représentée sur la courbe par

des « peaks ». Par contre, une valeur faible de similarité indique une frontière potentielle entre

les blocs et est représentée par une vallée. L‟algorithme TextTiling calcule ainsi un score pour

chaque unité élémentaire en fonction de l‟unité qui la suit. Le score pour chaque paire de

phrase est calculé en tenant compte de l‟un des critères suivants : (1) les mots communs

comptabilisés par le produit scalaire entre les vecteurs représentatifs des deux phrases ; (2) le

nombre de mots nouveaux dans ces phrases ; (3) le nombre de chaînes lexicales actives. La

similarité entre des blocs de pseudo phrase adjacents est calculée par une mesure du cosinus.

4.1.2.3 Extraction des zones thématiques

La troisième étape concerne le processus de segmentation qui se base sur la détection

des frontières dans la courbe de similarité. Le principal problème qu'on peut rencontrer avec

cette méthode est l'existence de minimums locaux n'indiquant pas forcément un changement

de thématique et ne représentant pas une bonne frontière. Pour résoudre ce problème un

algorithme de lissage pourrait être appliqué pour lisser la courbe et éliminer les petits

minimums locaux (Figure 4.5). Le score d‟un segment de texte est le produit normalisé des

scores de chaque paire de phrases qu‟il contient (lexical scores). Si l‟écart entre le score d‟un

segment et les scores de celui qui le précède et de celui qui le suit est grand, une frontière

thématique est définie pour ce segment. La rupture entre deux unités documentaires est située

dans une zone du texte entourée de zones présentant des valeurs de cohésion très différentes

de la sienne.

.

126

Si l‟algorithme décrit permet en effet une segmentation thématique pertinente à

l‟échelle de groupes de paragraphes, rien ne garantit que deux zones non contiguës traitant

d‟un même thème soient caractérisées par des listes de mots identiques, ce qui rend difficile la

détection de proximité thématique entre segments non consécutifs.

4.1.2.4 Exemple de segmentation

La figure 4.6 illustre un exemple de l'utilisation de TextTiling sur un document de taille

4535 Ko, intitulé « Guide sur le chauffage au bois résidentiel » extrait à partir du site :

http://www.pechabot.com/documentsPDF/GuideChauffageBois.pdf, sur les ressources

naturelles au Canada. La figure 4.6 montre trois exemples de segments thématiques identifiés

dans ce document.

Figure 4.6 Exemple d‟application de TextTiling sur un document