• Aucun résultat trouvé

TAL: traitement automatique de la langue Apprentissage d’une s´ emantique

N/A
N/A
Protected

Academic year: 2022

Partager "TAL: traitement automatique de la langue Apprentissage d’une s´ emantique"

Copied!
80
0
0

Texte intégral

(1)

TAL: traitement automatique de la langue Apprentissage d’une s´ emantique

Vincent Guigue UPMC - LIP6

(2)

Traitements pour la classification de textes

Les donn´ees textuelles sont difficiles `a g´erer:

1 Les corpus sontvolumineux, le vocabulaire est grand:

◦ il faut des algorithmes rapides,

◦ les donn´ees ne sont pas toujours stockables en m´emoire.

2 La structuredes phrases est difficile `a g´erer.

3 Les mots peuvent prendre plusieurs formes(pluriels...)

4 Machine learning + donn´ees engrande dimension= probl`emes

(3)

Traitements pour la classification de textes

Les donn´ees textuelles sont difficiles `a g´erer:

1 Les corpus sontvolumineux, le vocabulaire est grand:

◦ il faut des algorithmes rapides,

◦ les donn´ees ne sont pas toujours stockables en m´emoire.

Perceptron, SVM (en version rapide), Naive Bayes...

Boosting, Bagging... Algorithmes distribu´es

2 La structuredes phrases est difficile `a g´erer.

On supprime la structure...

3 Les mots peuvent prendre plusieurs formes(pluriels...) Plusieurs approches possibles... (cf plus loin)

4 Machine learning + donn´ees engrande dimension= probl`emes On cherche des heuristiques pour supprimer les mots inutiles.

(4)

Sacs de mots

Structure des phrases = coˆut important de traitement

⇒Elimination ! Document = comptage des diff´erents mots qui le composent:

Repr´ esentation bag of words

SoitV le vocabulaire etdun document: d∈N|V|

NB:d est (presque toujours) un vecteursparse, c’est `a dire compos´e essentiellement de 0.

(5)

Sur un exemple (cr´ edit Sergio Jimenez)

(6)

Codage de l’information (sac de mots)

Document exemple:

I le bonheur est dans le pr´e

I la m´elodie du bonheur

Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre

I Pr´esence

I Comptage

I Fr´equence

I tf-idf (cf cours sur la classification de documents)

(7)

Codage de l’information (sac de mots)

Document exemple:

I le bonheur est dans le pr´e

I la m´elodie du bonheur

Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre

I Pr´esence

le la du bonheur melodie est dans pre

doc1 1 0 0 1 0 1 1 1

doc2 0 1 1 1 1 0 0 0

I Comptage

I Fr´equence

I tf-idf (cf cours sur la classification de documents)

(8)

Codage de l’information (sac de mots)

Document exemple:

I le bonheur est dans le pr´e

I la m´elodie du bonheur

Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre

I Pr´esence

I Comptage

le la du bonheur melodie est dans pre

doc1 2 0 0 1 0 1 1 1

doc2 0 1 1 1 1 0 0 0

I Fr´equence

I tf-idf (cf cours sur la classification de documents)

(9)

Codage de l’information (sac de mots)

Document exemple:

I le bonheur est dans le pr´e

I la m´elodie du bonheur

Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre

I Pr´esence

I Comptage

I Fr´equence

le la du bonheur melodie est dans pre

doc1 0.33 0 0 0.17 0 0.17 0.17 0.17

doc2 0 0.25 0.25 0.25 0.25 0 0 0

Somme `a 1 pour chaque document, importances des mots pond´er´ees par la longueur du document

(10)

BOW Mod`eles proba. emantique LSA Usages

Aspects d’impl´ ementation

I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?

Exemple:

Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.

Future stars Sally Kirkland and Frederic Forrest can be seen briefly.

I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?

I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?

I Table de hash

(11)

BOW Mod`eles proba. emantique LSA Usages

Aspects d’impl´ ementation

I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?

Exemple:

Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.

Future stars Sally Kirkland and Frederic Forrest can be seen briefly.

I 104077 ... Quelle taille pour stocker ce corpus?

disque. Comment mieux g´erer cela?

I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?

I Table de hash

(12)

BOW Mod`eles proba. emantique LSA Usages

Aspects d’impl´ ementation

I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?

Exemple:

Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.

Future stars Sally Kirkland and Frederic Forrest can be seen briefly.

I 104077 ... Quelle taille pour stocker ce corpus?

I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?

cod´ees). Quelle structure de donn´ees?

I Table de hash

(13)

BOW Mod`eles proba. emantique LSA Usages

Aspects d’impl´ ementation

I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?

Exemple:

Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.

Future stars Sally Kirkland and Frederic Forrest can be seen briefly.

I 104077 ... Quelle taille pour stocker ce corpus?

I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?

I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?

(14)

Aspects d’impl´ ementation

I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?

Exemple:

Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.

Future stars Sally Kirkland and Frederic Forrest can be seen briefly.

I 104077 ... Quelle taille pour stocker ce corpus?

I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?

I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?

I Table de hash

(15)

BOW Mod`eles proba. emantique LSA Usages

Impl´ ementation (2)

I Table de hash...

⇒aucun op´erateur !

sparse matrix

I Plusieurs options

◦ codage par ligne, par colonne, en liste chain´ee...

I Et faire le lien avec les biblioth`eque riches:

◦ en python les matricessparses fonctionnent plutˆot bien avec numpy

(16)

BOW Mod`eles proba. emantique LSA Usages

Impl´ ementation (2)

I Table de hash...

⇒aucun op´erateur !

I Chercher des impl´ementation de table pour le codage de matrices = sparse matrix

◦ codage par ligne, par colonne, en liste chain´ee...

I Et faire le lien avec les biblioth`eque riches:

◦ en python les matricessparses fonctionnent plutˆot bien avec numpy

(17)

BOW Mod`eles proba. emantique LSA Usages

Impl´ ementation (2)

I Table de hash...

⇒aucun op´erateur !

I Chercher des impl´ementation de table pour le codage de matrices = sparse matrix

I Plusieurs options

◦ codage par ligne, par colonne, en liste chain´ee...

◦ en python les matricessparses fonctionnent plutˆot bien avec numpy

(18)

Impl´ ementation (2)

I Table de hash...

⇒aucun op´erateur !

I Chercher des impl´ementation de table pour le codage de matrices = sparse matrix

I Plusieurs options

◦ codage par ligne, par colonne, en liste chain´ee...

I Et faire le lien avec les biblioth`eque riches:

◦ en python les matricessparses fonctionnent plutˆot bien avec numpy

(19)

Evolution du vocabulaire

I En g´en´eral, on consid`ere qu’il y a une loi logarithmique entre le nombre de documents et le nombre de mots.

I Sur l’exemple des revues de films:

0 5000 10000 15000 20000 25000 0

50000 100000 150000 200000

(20)

Evolution du vocabulaire

I En g´en´eral, on consid`ere qu’il y a une loi logarithmique entre le nombre de documents et le nombre de mots.

I Sur l’exemple des revues de films:

I Il y a ´egalement une r`egle sur les fr´equences d’apparition des mots:

0 50 100 150 200 250 300

nb occurences

0 2 4 6 8 10 12

log nb mots

(21)

Extensions

I Mod`ele de N-grams: codage des groupes de mots

◦ very good

◦ not good

◦ sont des entr´ees du dictionnaire... dont la taille explose!

I Lemmatisation/racinisation

◦ 1 seule entr´ee pour les mots de mˆeme racine

(22)

Aspects industriels

1 R´ecup´eration/importation d’un corpus

◦ Lecture de format XML

◦ Template NLTK...

2 Optimisation d’un mod`ele.

◦ Campagne d’exp´erience (d’abord grossi`ere - codage, choix mod`ele...-, puis fine - r´egularisation...)

◦ Assez long... Mais essentielle

◦ Le savoir-faire est ici

3 Evaluation des performances (souvent en mˆeme temps que la phase d’optimisation)

◦ Usage de la validation crois´ee

4 Apprentissage + packaging du mod`ele final

◦ D´efinition des formats IO

◦ Mode de fonctionnement : API, service web...

◦ Documentation

(23)

Evaluation de vos TP

I Montrer que vous ˆetes capables de r´ealiser une campagne d’exp´eriences:

◦ Courbes de performances

◦ Analyse de ces courbes

I Montrer que vous ˆetes capable de valoriser un mod`ele

I Concr`etement:

◦ Mise au propre de votre code

◦ Int´egration des exp´eriences dans une boucle (ou plusieurs)

◦ Analyse qualitative du mod`ele final (tri des poids)

◦ OPT: construction de nuages de mots...

(24)

BOW

Mod`eles probabilistes

S´emantique

LSA

Usages

(25)

Caract´ eriser des distributions...

Motivations = r´ esumer des informations complexes

Distribution de lettres/mots/n-grammes de mots = ...

I caract´eriser une langue,

I caract´eriser un auteur,

I caract´eriser une th´ematique,

I caract´eriser une opinion,

I caract´eriser des sentiments,

I ...

⇒Comprendre/visualiser les objets que l’on manipule pour mieux les traiter

(26)

... Mais quelles distributions ?

I langue : distribution brute de lettres ?

I style : distribution des fins de mots, des espaces, des articles, des POS-tag ?

I th`eme : mots-cl´es, champs lexicaux ?

I ...

(1) chaque application requiert des traitements sp´ecifiques (2) la repr´esentation est souvent param´etrique

(27)

Extraire une distribution de lettres

I Processus:

1 Trouver une source... www.gutenberg.org

2 Les trois mousquetaires,Ars`ene Lupin,...

3 Comptage + normalisation

I R´esultat:

I Discussion:

(28)

Extraire une distribution de lettres

I Processus:

1 Trouver une source... www.gutenberg.org

2 Les trois mousquetaires,Ars`ene Lupin,...

3 Comptage + normalisation

I R´esultat:

a b c d e f g h i j k l m n o p q r s t u v w x y z 0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18

proba

(29)

Extraire une distribution de lettres

I Processus:

1 Trouver une source... www.gutenberg.org

2 Les trois mousquetaires,Ars`ene Lupin,...

3 Comptage + normalisation

I R´esultat:

I Discussion: choisir un r´ef´erentiel !

a b c d e f g h i j k l m n o p q r s t u v w x y z 0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18

proba

0 1 2 3 4 5 6 7 8 9 a b c d e f g h i j k l mn o p q r s t u v w x y z 0.00

0.05 0.10 0.15 0.20 0.25

proba

(30)

Extraire une distribution de mots

I Le mˆeme processus...

... Sur les mots

I ⇒choisir les d´elimiteurs de mots (pas toujours trivial: ’)

I Compter

I Calculer la distribution (=normaliser)

(31)

M´ etrique entre distributions

Comparer les objets, comprendre leurs positions

I Logique entropique (cf th´eorie de l’information, Shannon...)

Id´ ee:

Calculer un ´ecart entre distribution = entropie crois´ee = divergence de Kullback-Liebler

DKL(PkQ) =X

i

P(i) logP(i) Q(i)

Attention: asym´etrie de la mesure

I M´etrique euclidienne ...

I Similarit´e cosine ...

(32)

M´ etrique entre distributions

Comparer les objets, comprendre leurs positions

I Logique entropique (cf th´eorie de l’information, Shannon...)

I M´etrique euclidienne ...

inefficace en grande dimension: toutes les distributions deviennent

´equidistantes

d(P,Q) =kP−Qk=sX

i

(P(i)−Q(i))2

I Similarit´e cosine ...

(33)

M´ etrique entre distributions

Comparer les objets, comprendre leurs positions

I Logique entropique (cf th´eorie de l’information, Shannon...)

I M´etrique euclidienne ...

I Similarit´e cosine ...

Id´ ee:

Chercher les points communs plutˆot que les diff´erences : sim(P,Q) = P·Q

kPkkQk = cos(P, ~~dQ)∝X

i

P(i)Q(i)

⇒ ≈compter les points communs

(34)

Exp´ erience jouet

1 Gutenberg:

◦ Les 3 mousquetaires, Ars`ene Lupin

◦ Faust (Goethe), Kleine deutsche Sprachlehre

◦ Moby Dick, War and Peace KL

0 1 2 3 4 5

0 1 2 3 4

5

0.00 0.04 0.08 0.12 0.16 0.20 0.24 0.28 0.32

Eucl.

0 1 2 3 4 5

0 1 2 3 4

5

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

cos

0 1 2 3 4 5

0 1 2 3 4

5 0.944

0.952 0.960 0.968 0.976 0.984 0.992 1.000

(35)

Exp´ erience jouet

1 Gutenberg:

◦ Les 3 mousquetaires, Ars`ene Lupin

◦ Faust (Goethe), Kleine deutsche Sprachlehre

◦ Moby Dick, War and Peace Et avec les espaces et les nombres:

0 1 2 3 4 5

0 1 2 3 4

5

0.000 0.025 0.050 0.075 0.100 0.125 0.150 0.175 0.200 0.225

0 1 2 3 4 5

0 1 2 3 4

5

0.000 0.015 0.030 0.045 0.060 0.075 0.090 0.105

0 1 2 3 4 5

0 1 2 3 4

5 0.968

0.972 0.976 0.980 0.984 0.988 0.992 0.996 1.000

(36)

Distribution de mots

I Les 3 Mousquetaires, Ars`ene Lupin, Boule de Suif, Le Horla, Le Comte de Monte-Cristo

I Etape 1: trouver un dictionnaire commun:

1 # r e s = t o u s l e s d i c t i o n n a i r e s

2 d i c o = s e t( r e s [ 0 ] . k e y s ( ) )

3 p r i n t l e n( d i c o )

4 f o r i i n r a n g e( 1 ,l e n( r e s ) ) :

5 d i c o = d i c o . i n t e r s e c t i o n ( r e s [ i ] . k e y s ( ) )

6 p r i n t l e n( d i c o )

1 1 41 30

2 5525

3 3381

4 2669

5 2536

I Etape 2: m´etriques

0 1 2 3 4

0 1 2 3

4

0.00 0.04 0.08 0.12 0.16 0.20 0.24 0.28 0.32 0.36

0 1 2 3 4

0 1 2 3

4

0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032

0 1 2 3 4

0 1 2 3

4 0.954

0.960 0.966 0.972 0.978 0.984 0.990 0.996

(37)

BOW Mod`eles proba. emantique LSA Usages

dist (d

1

, d

2

) ≈ r´ eponse ` a une requˆ ete

Moteur de recherche :

I R´epondre `a une requˆeter: dist(r,d)

I Garantir une diversit´e des r´esultats affich´es: dist(di,dj)

I ...

(38)

dist (d

1

, d

2

) ≈ r´ eponse ` a une requˆ ete

Moteur de recherche :

I R´epondre `a une requˆeter: dist(r,d)

I Garantir une diversit´e des r´esultats affich´es: dist(di,dj)

I Google: mesurer l’autorit´e de la source

I ...

(39)

dist (d

1

, d

2

) ≈ r´ eponse ` a une requˆ ete

Moteur de recherche :

I R´epondre `a une requˆeter: dist(r,d)

I Garantir une diversit´e des r´esultats affich´es: dist(di,dj)

I Google: mesurer l’autorit´e de la source

I ...

La m´etrique la plus utilis´ee: BM25

score(D,Q) = Xn

i=1

IDF(qi)· f(qi,D)·(k1+ 1) f(qi,D) +k1·

1−b+b· avgdl|D|

IDF(qi) = logN−n(qi) + 0.5

n(qi) + 0.5 , b= 0.75,k1∈[1.2, 2.0]

... La suite en cours de RI !

(40)

BOW

Mod`eles probabilistes

S´emantique

LSA

Usages

(41)

La question de la s´ emantique

Objectif

(mieux) comprendre [automatiquement] la signification d’un mot, d’un texte

⇒Applications

I moteur de recherche

I classification th´ematique

I extraction d’informations

I r´esum´e automatique

I classification d’opinions

Corrolaire:

Eliminer lesemantic gap

(42)

Ressources linguistiques

WordNet (et wordnets)

I Description: Repr´esentation hi´erarchique des concepts.

◦ Nouns

◦ Verbs

◦ Adjectives

(43)

Ressources linguistiques

WordNet (et wordnets)

I Description: Repr´esentation hi´erarchique des concepts.

◦ Nouns

· hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog)

· hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)

· coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)

· meronym: Y is a meronym of X if Y is a part of X (window is a meronym of building)

· holonym: Y is a holonym of X if X is a part of Y (building is a holonym of window)

◦ Verbs

◦ Adjectives

(44)

Ressources linguistiques

WordNet (et wordnets)

I Description: Repr´esentation hi´erarchique des concepts.

◦ Nouns

◦ Verbs

· hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)

· troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)

· entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)

· coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)

◦ Adjectives

(45)

Ressources linguistiques

WordNet (et wordnets)

I Description: Repr´esentation hi´erarchique des concepts.

◦ Nouns

◦ Verbs

◦ Adjectives

· Antomyms / Synonyms

(46)

WordNet : Exemple

Exemples d’informations r´ecup´erables dog, domestic dog, Canis familiaris

=> canine, canid

=> carnivore

=> placental, placental mammal, eutherian, eutherian mammal

=> mammal

=> vertebrate, craniate

=> chordate

=> animal, animate being, beast, brute, creature, fauna

=> ...

Cr´edit: wikipedia

(47)

WordNet: Usages

I Notions de distance

◦ longueur du chemin dans l’arbre,

◦ longueur du chemin dans le graphe des synonymes,

◦ hauteur dans la hi´erarchie,

◦ cf: Leacock Chodorow (1998), Jiang Conrath (1997), Resnik (1995), Lin (1998), Wu Palmer (1993)

I Applications

◦ IR: Information Retrieval

◦ Word Desambiguation

◦ Text Classification

◦ Machine Translation

◦ Summarization

I Disponible dans NLTK (avec l’impl´ementation des distances)

(48)

WordNet: Limites

I D´epend des ressources existantes (langues...)

I Non adapt´e `a des domaines sp´ecifiques (uniquement pour un vocabulaire g´en´eral)

Ouvertures:

I Extensions statistiques possibles (traductions, heuristiques de diffusion...)

(49)

Approche statistique: S´ emantique vectorielle

I Mod´elisation: comptage des occurrences

X =

tj

↓ di



x1,1 . . . x1,D ... . .. ... xN,1 . . . xN,D



I Proposition: m´etrique (similarit´e) = corr´elation entre les repr´esentations des termes:

s(j,k) =htj,tki,Normalis´e: sn(j,k) = cos(θ) = tj·tq ktjk ktqk

◦ Si les termes apparaissent dans les mˆemes documents, ils sont similaires

(50)

Approche statistique: LSA

I LSA: Latent Semantic Analysis

I Id´ee: factorisationde la matrice = regrouper les termes dont le sens est similaire

I Approche : d´ecomposition en valeurs singuli`eres

XT = U Σ VT

di dˆi

tj

x1,1 . . . x1,N

..

. . .. ...

xD,1 . . . xD,N

=

u1

. . .

ul

σ1 . . . 0

..

. . .. ...

0 . . . σl

v1 .. . vl

I Les similarit´e se calculent de la mˆeme fa¸con

cr´edit: wikipedia

(51)

Discussion : SVD, LSA

Lorsqu’on s´electionne les k plus grandes valeurs singuli`eres, ainsi que les vecteurs singuliers correspondants dans U et V, on obtient une

approximation de rang k de la matrice des occurrences

I M´etrique efficace entre les termes, entre les documents

◦ Am´elioration qualitative par rapport `a la m´etrique initiale

I Usages:

◦ Clustering (chaque valeur singuli`ere est untopic)

◦ D´etection des synonymes (pas toujours efficace)

◦ Am´elioration de la RI

◦ Repr´esentation des connaissances

◦ M´etrique entre documents/phrases:

· QA automatis´e

· esum´e automatique

Thomas K. Landauer, Peter W. Foltz et Darrell Laham,Introduction to Latent Semantic Analysis, Discourse Processes, vol. 25, 1998, p.

(52)

LSA: limites

I Repose sur les sacs de mots, pas de gestion :

◦ des n´egations,

◦ de la proximit´e dans le document (cf tailles des documents trait´es)

◦ de la structure des phrases/documents

I D´epend du corpus utilis´e

◦ probl`emes avec les mots peu fr´equents,

◦ biais li´es au domaine du corpus

I Pas de mod´elisation de la polys´emie

(53)

BOW Mod`eles proba. emantique LSA Usages

LSA: variante

I Factorisation matricielle non-n´egative

lis´e) du mot d’indice d dans le document d’indice i. Apr`es application de la DVS, nous obtenons la matrice B = U

K

, dont chaque ligne contient la nou- velle repr´esentation des documents dans

K

, le nouvel espace d´efini par K vecteurs de base. Ces vecteurs de base sont donn´es par les lignes de la matrice C = ⇥

K

V

KT

. Le k-i`eme vecteur de base C

k.

d

est un vecteur dans l’espace des mots : la d-i`eme composante correspond au mot d’indice d.

Remarquons que la DVS pose des probl`emes d’interpr´etabilit´e. En e⌅et, les composantes de C

k.

peuvent ˆetre positives ou n´egatives, et ne peuvent donc pas ˆetre interpr´et´es comme les occurrences de mots dans un ”document type”

(un document imaginaire absent de la base de documents initiaux, dont nous aurions aim´e nous servir pour l’interpr´etation des r´esultats). La d´ecomposition en valeurs singuli`eres ne permet donc pas d’exprimer un document comme une combinaison lin´eaire de documents type.

4.2 Factorisation en matrices non n´ egatives

La factorisation en matrices non n´egatives (FMN) est une m´ethode factorisa- tion matricielle, introduite par [25]. Elle permet d’approximer une matrice X de taille ( m ⇥ D) et dont les ´el´ements sont tous positifs, grˆace `a une d´ecomposition de la forme X ⇧ BC , o` u B et C sont des matrices (m ⇥ K) et (K ⇥ D). Les lignes de la matrice X d´ecrivent m objets par autant de vecteurs de dimension D, les lignes de la matrice B contiennent les repr´esentations des mˆemes objets dans un espace de dimension K < D, et la matrice C contient les K vecteurs de base.

L’originalit´e de la FMN r´eside dans les contraintes de non-n´egativit´e qu’elle impose `a B et C. Les auteurs montrent que ces contraintes obligent aux ´el´ements des matrices B et C `a comporter beaucoup de 0. En particulier pour la ma- trice C , ils montrent que les vecteurs de base (contenus dans les lignes de C) se chevauchent rarement. La repr´esentation d’un objet comme une com- binaison lin´eaire de ces vecteurs de base, correspond alors `a l’intuition d’une d´ecomposition par parties. Les conditions sous lesquelles la FMN permet ef- fectivement de retrouver les parties latentes d’un ensemble de donn´ees ont ´et´e

´etudi´ees par [16]. La FMN a ´et´e appliqu´ee avec succ`es, notamment en recon- naissance des visages [25] (voir l’illustration ) et en classification de documents textuels [34].

Revenons `a l’application de la FMN aux donn´ees textuelles. Les vecteurs de base C

k.

D+

sont maintenant `a valeurs positives, et peuvent donc ˆetre interpr´et´es de la mani`ere suivante. Le vecteur C

k.

d´efinit un document imagi- naire, appel´e ”document type”, et dans lequel le mot d’indice d est d’autant plus important que C

kd

est ´elev´e. Chaque document i est donc une combinai- son lin´eaire de ces documents type. De plus les coe⌥cients de la combinaison lin´eaire (contenus dans le vecteur B

i.

K+

) sont positifs. Nous pouvons donc interpr´eter le coe⌥cient B

ik

comme une mesure de l’importance du document type k dans le document i. Plus B

ik

est grand, et plus le document type k ”ex- plique” le document i. Ce type d’interpr´etation n’est pas possible avec la DVS d´ecrite pr´ec´edemment `a cause de la pr´esence de coe⌥cients n´egatifs.

Vincent Guigue Analyse s´emantique 31/48

(54)

LSA: variante (2) k -means

I Trouver du sens = probl`eme de clustering

I Mod´elisation (toujours BOW):

X =

tj

↓ di



x1,1 . . . x1,D ... . .. ... xN,1 . . . xN,D



I Algorithme (simple) pour arriver `a ¸ca: CEM

Appliquer sur la matrice d’occurrences avec une mod´elisation multinomiale, = k-means

Quelle m´etrique utiliser?

(55)

BOW Mod`eles proba. emantique LSA Usages

Distance euclidienne et mal´ ediction de la dimensionnalit´ e

Soit une matrice de document (fictive) en 3 dimensions:

I normalisation tf

[ 1. 0. 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ]

1 X = np . w h e r e ( r a n d . r a n d ( 3 , dim )>0 . 9 9 , 1 . , 0 . )

2 X [ : , : 3 ] = np . a r r a y ( [ [ 1 , 0 , 0 ] , [ 1 , 1 , 0 ] , [ 0 , 0 , 1 ] ] )

3 X /= X .sum( 1 ) . r e s h a p e ( 3 , 1 )

4 D = np . a r r a y ( [ [ ( ( X [ i ] X [ j ] )∗ ∗2 ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

5 D2 = np . a r r a y ( [ [ ( ( X [ i ] X [ j ] ) ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

(56)

Distance euclidienne et mal´ ediction de la dimensionnalit´ e

Soit une matrice de document (fictive) en 3 dimensions:

I normalisation tf

[ 1. 0. 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ]

Ajout de dimensions:

1 X = np . w h e r e ( r a n d . r a n d ( 3 , dim )>0 . 9 9 , 1 . , 0 . )

2 X [ : , : 3 ] = np . a r r a y ( [ [ 1 , 0 , 0 ] , [ 1 , 1 , 0 ] , [ 0 , 0 , 1 ] ] )

3 X /= X .sum( 1 ) . r e s h a p e ( 3 , 1 )

4 D = np . a r r a y ( [ [ ( ( X [ i ] X [ j ] )∗ ∗2 ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

5 D2 = np . a r r a y ( [ [ ( ( X [ i ] X [ j ] ) ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

(57)

Curse of dimensionality

Distance euclidienne Dim = 3

[ 0. 0.5 2. ] [ 0.5 0. 1.5]

[ 2. 1.5 0. ] Dim = 40

[ 0. 0.5 1.5 ] [ 0.5 0. 1.33]

[ 1.5 1.33 0. ] Dim = 1000

[ 0. 0.19 0.21]

[ 0.19 0. 0.13]

[ 0.21 0.13 0. ]

Produit scalaire (similarit´e cosinus) Dim = 3

[ 1. 0.5 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ] Dim = 40

[ 0.5 0.16 0. ] [ 0.16 0.33 0. ]

[ 0. 0. 1. ]

Dim=1000

[ 0.14 0.01 0. ] [ 0.01 0.07 0.00]

[ 0. 0.00 0.07]

(58)

G´ en´ eralisation probabiliste CEM

I k clusters

I Proba a priori : πk =p(clusterk)

I Probabilit´e d’un mot dans un cluster : p(wjk) =Ed∈Dk[wj]

I Affectation d’un document dans un cluster (hard assignment):

p(yi =k) = 1/0 yi = arg max

k p(dik) = arg max

k

X

wjdi

logp(wjk)

yi = arg max

k

X

j

tijθjk, θjk = logp(wjk)

Algo:

Init. Param`etres OU affectation

C/E Calcul des affectations des documents M Mise `a jour des param`etres

(59)

BOW Mod`eles proba. emantique LSA Usages

PLSA

Probabilistic Latent Semantic Analysis

I Id´ee: CEM⇒EM (un peu plus complexe)

I Un mot appartient `a tous les clusters avec des probabilit´es

I Mod´elisation graphique (=comment sont g´en´erer les mots):

est une paire (d, w), c’est `a dire l’occurrence jointe des deux ´ev`enementdetw.

Remarquons que cela contraste fortement avec la repr´esentation vectorielle, o`u ce que nous entendons par ”observation” est l’observation d’un vecteur. En cen- trant ainsi la repr´esentation des donn´ees sur la notion de co-occurrence plutˆot que sur celle de vecteur, les donn´ees de co-occurrence permettent de mod´eliser de nouveaux ph´enom`enes.

Les donn´ees textuelles se prˆetent naturellement `a une mod´elisation mod´eliser comme des donn´ees de co-occurrence. Les deux variables discr`etes consid´er´ees sont un indicedidentifiant chaque document de la collection (d↵ {1, ..., D} ) et un indicew identifiant chaque mot de la collection (w↵ {1, ..., W}). La collection de documents est mod´elis´ee non plus comme un ensemble de vecteurs (o`u chaque vecteur repr´esente un document), mais comme un ensemble de paires (d, w), o`u chaque paire est l’observation de la r´ealisation de l’indice de motwet de l’indice de documentd. Autrement dit ce n’est plus le document n’est plus au centre de la mod´elisation des donn´ees textuelles, mais la paire de co-occurrence entre un mot et un document.

3.2.2 Probabilistic latent semantic analysis

Le mod`eleprobabilistic latent semantic analysis(PLSA) [21] est un mod`ele standard de la litt´erature pour mod´eliser des donn´ees textuelles. C’est une ex- tension probabiliste du mod`ele LSI [12]. Avec le mod`ele PLSA, une collection de documents est mod´elis´ee comme un ensemble de paires (d, w) o`ud↵ {1, ..., D} est un indice de document etw↵ {1, ..., W}est un indice de mot. Chaque do- cument est repr´esent´e par une distribution de probabilit´e sur lesK valeurs de la variable th´ematique latente , et chaque valeur de correspond `a une dis- tribution de probabilit´e sur l’ensemble des mots de la collection. Le processus g´en´eratif correspondant est le suivant :

– un documentdest tir´e suivant la probabilit´eP(d), – une th´ematique est tir´ee suivant la probabilit´eP( |d), – un motwest tir´e suivant la probabilit´eP(w| ).

Le mod`ele graphique de PLSA est illustr´e dans la figure 1.

Apprentissage du mod`ele Les param`etres du mod`eleP(d),P( |d), etP(w| ) sont estim´es suivant le principe du maximum de vraisemblance. La fonction de I On estime donc des matrices:

◦ p(d)

◦ p(α|d)

◦ p(w|α)

(60)

PLSA: algorithme

log-vraisemblance `a maximiser est :

L=

D

d=1 W

w=1

n(d, w)logP(d, w) (3)

La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :

P( |d, w) = P(d)P( |d)P(w| )

⇤AP(d)P( |d)P(w| )

L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :

P(d) =

w⇤Wn(d, w)

d⇤D

w⇤Wn(d, w) P( |d) =

w⇤Wn(d, w)P( |d, w)

⇤A

w⇤Wn(d, w)P( |d, w) P(w| ) =

d⇤Dn(d, w)P( |d, w)

w⇤W

d⇤Dn(d, w)P( |d, w)

Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)}sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d) pour un documentdqui n’´etait pas dans la base d’ap- prentissage.

Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.

3.2.3 Extension de PLSA

Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,

I Expectation (proba des variables manquantes)

I Maximization

Vincent Guigue Analyse s´emantique 37/48

(61)

PLSA: algorithme

log-vraisemblance `a maximiser est :

L=

D

d=1 W

w=1

n(d, w)logP(d, w) (3)

La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :

P( |d, w) = P(d)P( |d)P(w| )

⇤AP(d)P( |d)P(w| )

L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :

P(d) =

w⇤Wn(d, w)

d⇤D

w⇤Wn(d, w) P( |d) =

w⇤Wn(d, w)P( |d, w)

⇤A

w⇤Wn(d, w)P( |d, w) P(w| ) =

d⇤Dn(d, w)P( |d, w)

w⇤W

d⇤Dn(d, w)P( |d, w)

Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)}sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d) pour un documentdqui n’´etait pas dans la base d’ap- prentissage.

Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.

3.2.3 Extension de PLSA

Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,

7

I Expectation (proba des variables manquantes)

log-vraisemblance `a maximiser est :

L =

D

d=1 W

w=1

n(d, w)log P (d, w) (3)

La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :

P ( | d, w) = P (d)P ( | d)P (w | )

⇤A

P (d)P (

| d)P (w |

)

L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :

P (d) =

w⇤W

n(d, w)

d⇤D

w⇤W

n(d

, w) P ( | d) =

w⇤W

n(d, w)P ( | d, w)

⇤A

w⇤W

n(d, w)P (

| d, w) P (w | ) =

d⇤D

n(d, w)P ( | d, w)

w⇤W

d⇤D

n(d, w

)P ( | d, w

)

Limites du mod` ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e { p( = 1 | d), ..., p( = A | d) } sur les th´ematiques. Les probabilit´es p( | d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etres p( | d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etres p( | d

) pour un document d

qui n’´etait pas dans la base d’ap- prentissage.

Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.

3.2.3 Extension de PLSA

Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,

I Maximization

Vincent Guigue Analyse s´emantique 37/48

(62)

BOW Mod`eles proba. emantique LSA Usages

PLSA: algorithme

log-vraisemblance `a maximiser est :

L=

D

d=1 W

w=1

n(d, w)logP(d, w) (3)

La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :

P( |d, w) = P(d)P( |d)P(w| )

⇤AP(d)P( |d)P(w| )

L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :

P(d) =

w⇤Wn(d, w)

d⇤D

w⇤Wn(d, w) P( |d) =

w⇤Wn(d, w)P( |d, w)

⇤A

w⇤Wn(d, w)P( |d, w) P(w| ) =

d⇤Dn(d, w)P( |d, w)

w⇤W

d⇤Dn(d, w)P( |d, w)

Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)}sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d) pour un documentdqui n’´etait pas dans la base d’ap- prentissage.

Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.

3.2.3 Extension de PLSA

Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,

I Expectation (proba des variables manquantes)

I Maximization

L=

D

d=1 W

w=1

n(d, w)log P(d, w) (3)

La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´esa posteriori de la variable latente . La formule de mise `a jour est :

P( |d, w) = P(d)P( |d)P(w| )

⇤AP(d)P( |d)P(w| )

L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :

P(d) =

w⇤Wn(d, w)

d⇤D

w⇤Wn(d, w) P( |d) =

w⇤Wn(d, w)P( |d, w)

⇤A

w⇤Wn(d, w)P( |d, w) P(w| ) =

d⇤Dn(d, w)P( |d, w)

w⇤W

d⇤Dn(d, w)P( |d, w)

Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)} sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d) pour un document dqui n’´etait pas dans la base d’ap- prentissage.

Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.

3.2.3 Extension de PLSA

Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,

Vincent Guigue Analyse s´emantique 37/48

(63)

PLSA: r´ esultats

Apprentissage Statistique P. Gallinari 155

PLSA as a graphical model

z

d z P z w P d

w P

d w P d P w d P

) ( ) ( )

(

) (

* ) ( ) , (

Boxes represent repeated sampling

d z w

Corpus level Document

level

P(z|d) P(w|z)

D Nd

PLSA geometric interpretation

Topiciis a point on the word simplex

Documents are constrained to lie on the topic simplex

Creates a bottleneck in document representation

Topic simplex

topic2

topic1

topic3

w w

w3 Word simplex

Document d

z

d z P z w P d w

P( ) ( ) ( )

Références

Documents relatifs

This new kind of optimality is named weak optimality or experimental optimality in that it relies on an estimator of the number of legal k-colorings (admissible solutions for a

To address these issues, we propose a novel topic model based on three main features: first, time is jointly modeled with topics and sentiments providing a quantitative analysis

[r]

Once the extracted topics labeled, the sentiment classes of the topics with the same label are compared: on the one hand the real sentiment class of the topic, and on the other hand

• Ces équations ne peuvent pas être intégrées simplement car elles mettent en jeu plusieurs autres concentrations que [NO 3 ] et [NO], et de façon non

Provided a non-traceable AP+k graph, we can construct AP+k graphs with arbitrarily large path cover numbers and arbitrarily small longest paths (compared to their

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Is the result different from the case of a state with definite