• Aucun résultat trouvé

Plan de l’exposé

N/A
N/A
Protected

Academic year: 2022

Partager "Plan de l’exposé"

Copied!
17
0
0

Texte intégral

(1)

Exemple de techniques de fouille de textes Pierre Senellart

(2)

Introduction : Problématique

Problématique 2. Grands corpus 3. Web

4. Dictionnaires 5. Conclusion

But ultime : recherche automatique de synonymes.

Problème plus réaliste : on recherche des mots similaires ou des quasi-synonymes

Applications :

Langage naturel

Recherche documentaire Aide aux lexicographes

(3)

Plan de l’exposé

Plan

2. Grands corpus 3. Web

4. Dictionnaires 5. Conclusion

1. Introduction

2. Grands corpus





X Principe

X Espace vectoriel / documents X Thésaurus de mots rares

X SEXTANT 3. Web

X Particularités

X Test de synonymie 4. Dictionnaires

monolingues

X Graphe du dictionnaire X Algorithmes considérés X Résultats expérimentaux

(4)

Principe

2. Grands corpus XPrincipe 3. Web

4. Dictionnaires 5. Conclusion

Principe général : Deux mots similaires sont deux mots qui apparaissent dans les mêmes contextes.

Définition de contexte ?

Quelle mesure de similarité ?

(5)

Espace vectoriel orienté documents

2. Grands corpus

XEV orienté documents 3. Web

4. Dictionnaires 5. Conclusion

Dimensions : documents Vecteurs : termes

Deux mesures de similarité envisagées : cos(i, j) = i · j

√i · i × j · j cluster(i, j) = i · j

kik1

(6)

Thésaurus de mots rares

2. Grands corpus XMots rares 3. Web

4. Dictionnaires 5. Conclusion

Dimensions : termes

Vecteurs : documents

Clustering des documents suivant une mesure de similarité.

Recherche des discriminants indifférents à l’intérieur de chaque classe

Approximation : les mots rares sont des discriminants indifférents

(7)

SEXTANT

2. Grands corpus XSEXTANT 3. Web

4. Dictionnaires 5. Conclusion

Contextes : relations syntaxiques entres mots (un nom est le sujet d’un verbe, un nom est modifié par un adjectif, etc.)

poids(att) = 1 + X

nom i

patt,ilog(patt,i)

log(nb total de relations)

patt,i = nb de fois att app. avec i nb total dattributs de i jac(i, j) =

P

att attribut des deux i et j poids(att) P

att attribute de soit i soit j poids(att)

(8)

Particularités du Web

2. Grands corpus 3. Web

XParticularités 4. Dictionnaires 5. Conclusion

Taille énorme, intraitable.

Longs temps d’accès mais bonne indexation.

Pourtant : corpus le plus vivant et le plus riche qui existe

(9)

Test de synonymie sur le Web

2. Grands corpus 3. Web

XTest de synonymie 4. Dictionnaires

5. Conclusion

j est-il un bon synonyme de i?

score1(j) = hits(i AN D j) hits(j)

score2(j) = hits(i N EAR j) hits(j)

score3(j) = hits((i N EAR j) AN D N OT ((i OR j) N EAR “not”) hits(j AN D N OT (j N EAR “not”)

score4(j) = hits((i N EAR j) AN D context AN D N OT ((i OR j) N EAR “not”) hits(j AN D context AN D N OT (j N EAR “not”)

(10)

Graphe du dictionnaire

2. Grands corpus 3. Web

4. Dictionnaires XGraphe 5. Conclusion

Nœuds : mots définis dans le dictionnaire

Arêtes : il y a une arête entre le mot a et le mot b si b apparaît dans la définition de a

Graphe de voisinage : le graphe de voisinage d’un mot a est le sous-graphe formé de a, des fils de a et des

parents de a.

(11)

Distance entre vecteurs

2. Grands corpus 3. Web

4. Dictionnaires XAlgorithmes 5. Conclusion

A matrice d’adjacence du graphe.

Distance entre le mot d’indice i et le mot d’indice j : k(Ai,· − Aj,·)k + k(A·,i − A·,j)Tk

(k k est une norme vectorielle donnée).

Proche des méthodes classiques de fouille de textes avec mesure de similarité.

(12)

ArcRank

2. Grands corpus 3. Web

4. Dictionnaires XAlgorithmes 5. Conclusion

PageRank (Google) : distribution stationnaire des poids des nœuds du graphe correspondant au vecteur propre principal de la matrice d’adjacence.

ArcRank :

rs,t = ps/|as| pt

|as| est le degré sortant de s. pt est le pagerank de t. Les meilleurs synonymes de i sont les extrémités des meilleurs arcs arrivant sur ou quittant le noeud i.

(13)

Comparaison de graphes

2. Grands corpus 3. Web

4. Dictionnaires XAlgorithmes 5. Conclusion

On compare le graphe du dictionnaire avec le graphe 1 −→ 2 −→ 3.

Les bonds nœuds 2 sont les nœuds pointés par des bons nœuds 1 et pointant vers des bon nœuds 3 :

définition mutuellement récursive

Mots similaires : mots semblables à 2 dans le graphe du voisinage

(14)

Résultats expérimentaux - disappear

2. Grands corpus 3. Web

4. Dictionnaires

XRésultats expérimentaux 5. Conclusion

Vectors Kleinberg ArcRank Wordnet Microsoft Word

1 vanish vanish epidemic vanish vanish

2 wear pass disappearing go away cease to exist

3 die die port end fade away

4 sail wear dissipate finish die out

5 faint faint cease terminate go

6 light fade eat cease evaporate

7 port sail gradually wane

8 absorb light instrumental expire

9 appear dissipate darkness withdraw

10 cease cease efface pass away

Mark 3.6 6.3 1.2 7.5 8.6

(15)

Résultats expérimentaux - majesté

2. Grands corpus 3. Web

4. Dictionnaires

XRésultats expérimentaux 5. Conclusion

1. grandeur (0.382138) 2. titre (0.366114)

3. dignité (0.274143) 4. noblesse (0.267147) 5. noble (0.243879)

6. altesse (0.14966) 7. sire (0.147181) 8. gloire (0.134615)

(16)

En résumé. . .

2. Grands corpus 3. Web

4. Dictionnaires 5. Conclusion

XRésumé

(17)

Perspectives

2. Grands corpus 3. Web

4. Dictionnaires 5. Conclusion

XPerspectives

Références

Documents relatifs

I) Thème-annonce. II) Présentation du jeu. III) Explication du principe de fonctionnement de base. IV) Déroulement du jeu. a) le jeu proprement dit. En consultant ce schéma, nous

Consigne 1 : Il t’a été demandé d’éclairer les populations de la commune d’Efoulan sur les principaux réservoirs du virus EBOLA et sur les modes de transmission

Consigne 3 : A la fin de votre brillant exposé, un parent vous demande de lui expliquer pourquoi la jeunesse camerounaise est tellement exposé au VIH/SIDA et voudrais savoir

Préfixe Désignation Exemple Pré fixe Dés igna tion Exemple.. - - -

Ahfywepcrbq ghtpbltyn :fr Ibhfr jnvtnbk- xnj d jcyjdt ghjtrnf vt;leyfhjlyjuj nthvjzlthyjuj htfrnjhf kt;bn bpj,htntybt hjccbqcrb[- f njxytt ujdjhz- to/ cjdtncrb[ ex/ys[ _

verre, ver, vers, vert, vair J’ai mis du lait dans mon verre!. Ce ver de terre est

Objectifs : choisir et utiliser les syllabes de deux mots pour en écrire un autre. Nom :

Les conduites qui précèdent l'apparition des énoncés à deux mots montrent, d'une part, que l'enchaînement des mots et la relation de signification entre les mots se