• Aucun résultat trouvé

Extraction et calcul de termes-cl´es th´ematiques

.

Ces travaux rel`event partiellement du travail de C´edric Lopez [Lopez, 2009] dans le cadre de son Master 2R.

Comment pouvons-nous construire une signature lexicale pour un texte donn´e ?L’indexation d’un texte peut prendre la forme d’un ensemble de mots-cl´es qui seraient repr´esentatifs du texte. Nous faisons remarquer ici qu’il ne peut s’agir d’une adaptation du mod`ele saltonien par s´election

du les attaquent toit GN v5 N VER V = Γ(attaquer,V ) du fermes toit commencer critiquer bâtiment exploitation charpente anatomie dessus v2a v2c a v3a v3b v3c v4a v4b N agresser b v2b V V Γ(attaquer,VGV)

toiture

c v4c = VN + Γ(ferme ,VGNP) = VN + Γ(toit ,VGNP)

FIGURE 4.2 – Repr´esentation graphique simplifi´ee de la propagation descendante des vecteurs d’id´ees. Les vecteurs descendants s’agglom`erent par contextualisation (faibleγ et forte Γ). Les vec- teurs des acceptions sont invariants.

des termes les plus activ´es. En effet, une source de connaissance externe apte `a repr´esenter les re- lations qu’entretiennent normalement les termes entre eux, semble n´ecessaire afin d’effectuer un filtrage(ne garder qu’un unique synonyme repr´esentatif d’un ensemble de termes ´equivalents, par exemple) mais ´egalement une augmentation (c’est-`a-dire, calculer des concepts pertinents implicites dans le texte).

De ce que nous avons pr´esent´e pr´ec´edemment, nous pourrions envisager d’extraire ces mots `a partir du vecteur calcul´e globalement sur le texte (ou alternativement sur chacun des vecteurs des para- graphes ou des phrases). Le passage d’un vecteur vers une liste de termes se fait par ´enum´eration du voisinage(voir chapitre 1). Toutefois, une telle approche manque singuli`erement de pr´ecision, car en dehors de tout contexte, tous les termes fortement activ´es pour les vecteurs sont potentiellement candidats.

Consid´erons, par exemple, le syntagme suivant :

carambolage sur l’A7

Nous aimerions obtenir une liste de mots-cl´es pertinents traduisant les id´ees ´evoqu´ees par le syntagme chez un lecteur. Nous esp´erons, par exemple, obtenir des termes comme :

carambolage, A7, autoroute, accident de la route, automobile, etc.

Dans le cas g´en´eral, la liste est pond´er´ee, et peut ˆetre arbitrairement longue (dans la limite de la taille du lexique). L’int´erˆet d’une approche lexicalis´ee est multiple. D’une part, elle offre une struc- ture d’indexation de textes plus pr´ecise que l’approche vectorielle conceptuelle, mais, il est vrai, au prix d’une perte de rappel. Nous pourrions na¨ıvement penser qu’une approche par ´enum´eration du voisinage du vecteur moyen du segment textuel pourrait faire l’affaire. Cependant, une telle m´ethode

4.2.1

Amorc¸age par mots-cl´es centraux

Du texte, sont extraits les mots-cl´es les plus saillants `a partir d’une analyse saltonienne classique en TF-IDF. La fr´equence inverse en documents (IDF) peut ˆetre extraite d’un corpus de r´ef´erence ou d’une ressource lexicale externe (comme par exemple, le r´eseau JeuxDeMots). Dans un contexte global, la valeur de poids d’un terme (ou de popularit´e si nous prenons comme r´ef´erence l’approche de Google avec l’algorithme PageRank[Page et al., 1998]) peut ˆetre d´etermin´ee par la somme des poids des relations entrantes pour ce terme. Il ne s’agit ici que de termes s´emantiquement pleins `a savoir les noms, verbes, adjectifs et adverbes. Nous formulons l’hypoth`ese suivante :

En g´en´eral, la fr´equence d’un substantif, verbe, adjectif ou adverbeT dans la langue peut ˆetre approch´ee dans un r´eseau lexical par la somme des termes incidents `aT .

Cette hypoth`ese est un affinage de celle propos´ee en annexe du chapitre 3. Nous ferons remarquer que contrairement `a une approche de comptage simple dans un corpus, nous obtenons une valeur de fr´equence pour des termes compos´es (pied `a coulisse, pomme de terre, etc.) mais ´egalement pour des termes d´esambigu¨ıs´es (tour>bˆatiment, lapin>viande, etc.).

Nous avons men´e une exp´erience informelle visant `a savoir si notre hypoth`ese ´etait rapidement r´efutable. Nous avons effectu´e le comptage de termes sur une ann´ee du Monde (1994), en ne gar- dant que les termes pleins, sans majuscule (de fac¸on `a supprimer la plus grande partie des entit´es nomm´ees). Nous avons, par ailleurs, exploit´e une liste ´etablie par le lexicologue ´Etienne Brunet, rassemblant les 1 500 mots les plus fr´equents de la langue franc¸aise2. De fac¸on similaire `a la liste du Monde, nous n’avons gard´e que les termes pleins.

Pour chaque terme de l’union de ces deux ensembles, nous avons effectu´e un calcul des poids des arcs entrants dans le r´eseau lexical de JeuxDeMots. Nous nous sommes pos´e la question de savoir s’il y avait une corr´elation raisonnable entre cette mesure pour un terme dans le r´eseau (nous parlerons abusivement de son poids) et les donn´ees des deux ensembles ci-dessus. Nous avons obtenu :

ρ(JDM, Le Monde) = 0.62 ρ(JDM, Brunet) = 0.67 ρ(Brunet, Le Monde) = 0.55

(JDM est l’ensemble des termes et leur poids, issu de JeuxDeMots.) Que dire de ces r´esultats ? La corr´elation n’est pas extrˆemement forte, mais suffisamment ´elev´ee pour consid´erer qu’elle n’invalide pas d’office notre hypoth`ese (qui est que les donn´ees du r´eseau lexical peuvent ˆetre ad´equates pour calculer une approximation de la fr´equence des termes dans la langue). Ceci est au moins vrai pour les termes les plus fr´equents, le taux de corr´elation ayant tendance `a baisser `a mesure que les en- sembles sont ´etendus vers des termes moins fr´equents. Par ailleurs, il semblerait que le r´eseau lexical constitue une donn´ee interm´ediaire (concernant les fr´equences) entre un comptage sur un corpus (Le Monde) et une ´etude linguistique plus fine (Brunet). Il serait int´eressant de refaire ce type d’´etude `a plus large ´echelle, par exemple en variant le corpus de comptage et en ´elargissant l’ensemble de termes consid´er´es.

2. http://eduscol.education.fr/cid47916/liste-des-mots-classee-par-frequence-decroissante. html

FIGURE4.3 – Extraction de mot-cl´es - (a) ´etape 0 : l’ensemble des termes d’un texte donn´e et (b) ´etape 1 : cr´eation d’un noyau de termes cl´es centraux.

4.2.2

S´election de mots-cl´es p´eriph´eriques par diffusion dans le texte

`

A partir de ces mots-cl´es, nous it´erons pour chacun d’eux une recherche, parmi les termes du texte en retenant ceux qui sont `a une distance faible (au sens de la distance de vecteurs d’id´ees). L’it´eration est poursuivie tant que de nouveaux mots-cl´es sont s´electionn´es, avec une distance pla- fond d´ecroissante (figures4.4). Le nombre de pas d’it´eration est fini et, de plus, connus `a l’avance, dans la mesure o`u il d´epend de la r´eduction du seuil.

FIGURE4.4 – Extraction de mot-cl´es - (a) extraction `a l’it´eration 1 de mots-cl´es p´eriph´eriques et (b) extraction `a l’it´eration 2 de mots-cl´es p´eriph´eriques. Le processus s’arrˆete faute de mots cl´es suffisamment proches.

L’id´ee fondamentale sous-jacente `a l’approche pr´esent´ee ici, est celle de la diffusion et de la s´election. La recherche de termes proches `a partir d’une source correspond `a l’´emission d’un si- gnal dans l’espace du texte. Ce signal implicite est ´emis tour `a tour par les termes-cl´es dans le milieu (l’espace vectoriel des vecteurs d’id´ees, espace peupl´e uniquement des termes du texte). Le signal s’´epuise `a chaque it´eration et parcours une distance de plus en plus faible, jusqu’`a finalement s’arrˆeter. Seuls les termes atteints par ce signal sont s´electionn´es et le relayent.

Nous pr´ef´erons parler ici de diffusion (plutˆot que de propagation) car nous pouvons consid´erer que le signal se d´eplace dans un milieu continu (au sens du mod`ele propos´e). La propagation, elle, est

FIGURE4.5 – (a) Extraction de mot-cl´es - ensemble des mots du texte constituant la signature. (b) comparaison avec s´election des mots-cl´es par voisinage it´er´e depuis le premier mot-cl´e ou le vecteur centro¨ıde.

Les figures4.5illustrent les types de r´esultats obtenus avec la m´ethode de diffusion propos´ee (`a gauche) ici et celle qui aurait consist´e `a partir d’un point central et `a en s´electionner le voisinage (`a droite). Le point de d´epart peut ˆetre le premier mot-cl´e (le noyau r´eduit `a un terme) ou le vecteur centro¨ıde du noyau (les trois premiers mots-cl´es). D’une fac¸on g´en´erale, partir d’un point central ne permet que de capturer les termes relevant de la th´ematique dominante.

4.2.3

Capture de mot-cl´es connexes par propagation dans le r´eseau

Nous cherchons enfin `a extraire du r´eseau lexical des mots cl´es connexes. Il s’agit de termes ayant les propri´et´es suivantes :

– ils sont `a une distance angulaire faible d’au moins un des mots-cl´es extraits ; – ils sont fr´equents dans la langue et/ou relativement conceptuels ;

– ils ne font a priori pas partie du texte (cette condition n’´etant pas restrictive en soi dans le processus de calcul, mais il est ´evident que nous ne cherchons pas `a rajouter des termes d´ej`a s´electionn´es).

Pour ce faire, nous restons dans le mod`ele propos´e de diffusion, `a ceci pr`es que l’espace consti- tuant le milieu est celui du lexique tout entier (et non plus la restriction aux termes du texte). `A chaque terme est associ´ee une signature lexicale (un ensemble pond´er´e de termes) qui est une forme compil´ee des associations de ce terme dans le r´eseau lexical. Cette signature lexicale repr´esente une approximation raisonnable du voisinage du terme dans l’espace pouvant ˆetre construite `a partir du r´eseau. Nous effectuons la somme it´er´ee des voisinages bool´eens (valeurs ramen´ees `a 1) desk mot- cl´es trouv´es `a l’issue de l’´etape pr´ec´edente. Nous retenons au plusk termes connexes en ´eliminant ceux d´ej`a trouv´es, et ceux dont la valeur est inf´erieure ou ´egale `a 1.

Par exemple, pour le segment textuel donn´e en exemple (carambolage sur l’A7), nous obtenons : automobile :3

transport par route :2 accident de la route :2 voiture>automobile :2

autoroute :2 voiture :2

Le mod`ele d’extraction de mots-cl´es par diffusion et son extension avec la capture de mot-cl´es connexes issus du r´eseau semble donner des r´esultats int´eressants et souvent proches de ce que pro- duit une indexation manuelle. Dans son travail de Master 2, C. Lopez (2009) a ´evalu´e pr´ecis´ement

FIGURE4.6 – Capture de mot-cl´es issus du r´eseau lexical.

les rappels et pr´ecisions pour la diffusion seule. Une F-mesure sup´erieure `a 70 % a ´et´e trouv´e pour des textes d’actualit´e (d’environ une page). Nos propres exp´eriences ont montr´e que l’extension per- mettait de retrouver, dans 90 % des cas (en rappel), les mots-cl´es th´ematiques accompagnant les articles du Monde de l’ann´ee 1994.

L’approche directe par centro¨ıde (vecteur qui est la somme pond´er´ee de tous les termes de l’ar- ticle) produit une dispersion et une redondance des mots-cl´es (multiplicit´e des synonymes). Sans extension, nous retrouvons les mots-cl´es th´ematiques dans 20 % des cas, et avec dans 55 % des cas. L’approche directe par un noyau unitaire (un seul mot-cl´e) concentre trop fortement la th´ematique suppos´ee du document qui est devenue unique. Dans ce cas, sans extension nous retrouvons les mots-cl´es th´ematiques dans environ 30% des textes et dans 45 % avec extension.

Un ´echantillon tr`es r´eduit de 20 articles a ´et´e fournis `a une dizaine de personnes. Apr`es lecture, il leur a ´et´e propos´e plusieurs listes de mots-cl´es. La liste A ´etait issue de la m´ethode par diffusion seule, la liste B correspondait `a la diffusion plus l’extension, et la liste C ´etait constitu´ee de mots du texte s´electionn´es al´eatoirement (constituant ainsi une r´ef´erence de base). Les individus devaient ordonner les listes par pr´ef´erence d´ecroissante. La liste plac´ee en tˆete recevait 2 points, la seconde 1 point et la troisi`eme (et derni`ere) 0 point. En moyenne pour les 30 articles, les listes A ont obtenu 1, 1 points, les listes B 1, 85 points et les listes C, 0, 05 points. L’exp´erience est certes extrˆemement modeste mais n´eanmoins encourageante.

Documents relatifs