TAL: traitement automatique de la langue Apprentissage d’une s´ emantique
Vincent Guigue UPMC - LIP6
Traitements pour la classification de textes
Les donn´ees textuelles sont difficiles `a g´erer:
1 Les corpus sontvolumineux, le vocabulaire est grand:
◦ il faut des algorithmes rapides,
◦ les donn´ees ne sont pas toujours stockables en m´emoire.
2 La structuredes phrases est difficile `a g´erer.
3 Les mots peuvent prendre plusieurs formes(pluriels...)
4 Machine learning + donn´ees engrande dimension= probl`emes
Traitements pour la classification de textes
Les donn´ees textuelles sont difficiles `a g´erer:
1 Les corpus sontvolumineux, le vocabulaire est grand:
◦ il faut des algorithmes rapides,
◦ les donn´ees ne sont pas toujours stockables en m´emoire.
Perceptron, SVM (en version rapide), Naive Bayes...
Boosting, Bagging... Algorithmes distribu´es
2 La structuredes phrases est difficile `a g´erer.
On supprime la structure...
3 Les mots peuvent prendre plusieurs formes(pluriels...) Plusieurs approches possibles... (cf plus loin)
4 Machine learning + donn´ees engrande dimension= probl`emes On cherche des heuristiques pour supprimer les mots inutiles.
Sacs de mots
Structure des phrases = coˆut important de traitement
⇒Elimination ! Document = comptage des diff´erents mots qui le composent:
Repr´ esentation bag of words
SoitV le vocabulaire etdun document: d∈N|V|
NB:d est (presque toujours) un vecteursparse, c’est `a dire compos´e essentiellement de 0.
Sur un exemple (cr´ edit Sergio Jimenez)
Codage de l’information (sac de mots)
Document exemple:
I le bonheur est dans le pr´e
I la m´elodie du bonheur
Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre
I Pr´esence
I Comptage
I Fr´equence
I tf-idf (cf cours sur la classification de documents)
Codage de l’information (sac de mots)
Document exemple:
I le bonheur est dans le pr´e
I la m´elodie du bonheur
Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre
I Pr´esence
le la du bonheur melodie est dans pre
doc1 1 0 0 1 0 1 1 1
doc2 0 1 1 1 1 0 0 0
I Comptage
I Fr´equence
I tf-idf (cf cours sur la classification de documents)
Codage de l’information (sac de mots)
Document exemple:
I le bonheur est dans le pr´e
I la m´elodie du bonheur
Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre
I Pr´esence
I Comptage
le la du bonheur melodie est dans pre
doc1 2 0 0 1 0 1 1 1
doc2 0 1 1 1 1 0 0 0
I Fr´equence
I tf-idf (cf cours sur la classification de documents)
Codage de l’information (sac de mots)
Document exemple:
I le bonheur est dans le pr´e
I la m´elodie du bonheur
Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre
I Pr´esence
I Comptage
I Fr´equence
le la du bonheur melodie est dans pre
doc1 0.33 0 0 0.17 0 0.17 0.17 0.17
doc2 0 0.25 0.25 0.25 0.25 0 0 0
Somme `a 1 pour chaque document, importances des mots pond´er´ees par la longueur du document
BOW Mod`eles proba. S´emantique LSA Usages
Aspects d’impl´ ementation
I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?
Exemple:
Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.
Future stars Sally Kirkland and Frederic Forrest can be seen briefly.
I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?
I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?
I Table de hash
BOW Mod`eles proba. S´emantique LSA Usages
Aspects d’impl´ ementation
I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?
Exemple:
Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.
Future stars Sally Kirkland and Frederic Forrest can be seen briefly.
I 104077 ... Quelle taille pour stocker ce corpus?
disque. Comment mieux g´erer cela?
I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?
I Table de hash
BOW Mod`eles proba. S´emantique LSA Usages
Aspects d’impl´ ementation
I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?
Exemple:
Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.
Future stars Sally Kirkland and Frederic Forrest can be seen briefly.
I 104077 ... Quelle taille pour stocker ce corpus?
I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?
cod´ees). Quelle structure de donn´ees?
I Table de hash
BOW Mod`eles proba. S´emantique LSA Usages
Aspects d’impl´ ementation
I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?
Exemple:
Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.
Future stars Sally Kirkland and Frederic Forrest can be seen briefly.
I 104077 ... Quelle taille pour stocker ce corpus?
I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?
I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?
Aspects d’impl´ ementation
I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?
Exemple:
Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.
Future stars Sally Kirkland and Frederic Forrest can be seen briefly.
I 104077 ... Quelle taille pour stocker ce corpus?
I 104×105= 109= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?
I Codage sparse de l’information (seules les entr´ees non nulles sont cod´ees). Quelle structure de donn´ees?
I Table de hash
BOW Mod`eles proba. S´emantique LSA Usages
Impl´ ementation (2)
I Table de hash...
⇒aucun op´erateur !
sparse matrix
I Plusieurs options
◦ codage par ligne, par colonne, en liste chain´ee...
I Et faire le lien avec les biblioth`eque riches:
◦ en python les matricessparses fonctionnent plutˆot bien avec numpy
BOW Mod`eles proba. S´emantique LSA Usages
Impl´ ementation (2)
I Table de hash...
⇒aucun op´erateur !
I Chercher des impl´ementation de table pour le codage de matrices = sparse matrix
◦ codage par ligne, par colonne, en liste chain´ee...
I Et faire le lien avec les biblioth`eque riches:
◦ en python les matricessparses fonctionnent plutˆot bien avec numpy
BOW Mod`eles proba. S´emantique LSA Usages
Impl´ ementation (2)
I Table de hash...
⇒aucun op´erateur !
I Chercher des impl´ementation de table pour le codage de matrices = sparse matrix
I Plusieurs options
◦ codage par ligne, par colonne, en liste chain´ee...
◦ en python les matricessparses fonctionnent plutˆot bien avec numpy
Impl´ ementation (2)
I Table de hash...
⇒aucun op´erateur !
I Chercher des impl´ementation de table pour le codage de matrices = sparse matrix
I Plusieurs options
◦ codage par ligne, par colonne, en liste chain´ee...
I Et faire le lien avec les biblioth`eque riches:
◦ en python les matricessparses fonctionnent plutˆot bien avec numpy
Evolution du vocabulaire
I En g´en´eral, on consid`ere qu’il y a une loi logarithmique entre le nombre de documents et le nombre de mots.
I Sur l’exemple des revues de films:
0 5000 10000 15000 20000 25000 0
50000 100000 150000 200000
Evolution du vocabulaire
I En g´en´eral, on consid`ere qu’il y a une loi logarithmique entre le nombre de documents et le nombre de mots.
I Sur l’exemple des revues de films:
I Il y a ´egalement une r`egle sur les fr´equences d’apparition des mots:
0 50 100 150 200 250 300
nb occurences
0 2 4 6 8 10 12
log nb mots
Extensions
I Mod`ele de N-grams: codage des groupes de mots
◦ very good
◦ not good
◦ sont des entr´ees du dictionnaire... dont la taille explose!
I Lemmatisation/racinisation
◦ 1 seule entr´ee pour les mots de mˆeme racine
Aspects industriels
1 R´ecup´eration/importation d’un corpus
◦ Lecture de format XML
◦ Template NLTK...
2 Optimisation d’un mod`ele.
◦ Campagne d’exp´erience (d’abord grossi`ere - codage, choix mod`ele...-, puis fine - r´egularisation...)
◦ Assez long... Mais essentielle
◦ Le savoir-faire est ici
3 Evaluation des performances (souvent en mˆeme temps que la phase d’optimisation)
◦ Usage de la validation crois´ee
4 Apprentissage + packaging du mod`ele final
◦ D´efinition des formats IO
◦ Mode de fonctionnement : API, service web...
◦ Documentation
Evaluation de vos TP
I Montrer que vous ˆetes capables de r´ealiser une campagne d’exp´eriences:
◦ Courbes de performances
◦ Analyse de ces courbes
I Montrer que vous ˆetes capable de valoriser un mod`ele
I Concr`etement:
◦ Mise au propre de votre code
◦ Int´egration des exp´eriences dans une boucle (ou plusieurs)
◦ Analyse qualitative du mod`ele final (tri des poids)
◦ OPT: construction de nuages de mots...
BOW
Mod`eles probabilistes
S´emantique
LSA
Usages
Caract´ eriser des distributions...
Motivations = r´ esumer des informations complexes
Distribution de lettres/mots/n-grammes de mots = ...
I caract´eriser une langue,
I caract´eriser un auteur,
I caract´eriser une th´ematique,
I caract´eriser une opinion,
I caract´eriser des sentiments,
I ...
⇒Comprendre/visualiser les objets que l’on manipule pour mieux les traiter
... Mais quelles distributions ?
I langue : distribution brute de lettres ?
I style : distribution des fins de mots, des espaces, des articles, des POS-tag ?
I th`eme : mots-cl´es, champs lexicaux ?
I ...
(1) chaque application requiert des traitements sp´ecifiques (2) la repr´esentation est souvent param´etrique
Extraire une distribution de lettres
I Processus:
1 Trouver une source... www.gutenberg.org
2 Les trois mousquetaires,Ars`ene Lupin,...
3 Comptage + normalisation
I R´esultat:
I Discussion:
Extraire une distribution de lettres
I Processus:
1 Trouver une source... www.gutenberg.org
2 Les trois mousquetaires,Ars`ene Lupin,...
3 Comptage + normalisation
I R´esultat:
a b c d e f g h i j k l m n o p q r s t u v w x y z 0.00
0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18
proba
Extraire une distribution de lettres
I Processus:
1 Trouver une source... www.gutenberg.org
2 Les trois mousquetaires,Ars`ene Lupin,...
3 Comptage + normalisation
I R´esultat:
I Discussion: choisir un r´ef´erentiel !
a b c d e f g h i j k l m n o p q r s t u v w x y z 0.00
0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18
proba
0 1 2 3 4 5 6 7 8 9 a b c d e f g h i j k l mn o p q r s t u v w x y z 0.00
0.05 0.10 0.15 0.20 0.25
proba
Extraire une distribution de mots
I Le mˆeme processus...
... Sur les mots
I ⇒choisir les d´elimiteurs de mots (pas toujours trivial: ’)
I Compter
I Calculer la distribution (=normaliser)
M´ etrique entre distributions
Comparer les objets, comprendre leurs positions
I Logique entropique (cf th´eorie de l’information, Shannon...)
Id´ ee:
Calculer un ´ecart entre distribution = entropie crois´ee = divergence de Kullback-Liebler
DKL(PkQ) =X
i
P(i) logP(i) Q(i)
Attention: asym´etrie de la mesure
I M´etrique euclidienne ...
I Similarit´e cosine ...
M´ etrique entre distributions
Comparer les objets, comprendre leurs positions
I Logique entropique (cf th´eorie de l’information, Shannon...)
I M´etrique euclidienne ...
inefficace en grande dimension: toutes les distributions deviennent
´equidistantes
d(P,Q) =kP−Qk=sX
i
(P(i)−Q(i))2
I Similarit´e cosine ...
M´ etrique entre distributions
Comparer les objets, comprendre leurs positions
I Logique entropique (cf th´eorie de l’information, Shannon...)
I M´etrique euclidienne ...
I Similarit´e cosine ...
Id´ ee:
Chercher les points communs plutˆot que les diff´erences : sim(P,Q) = P·Q
kPkkQk = cos(P, ~~dQ)∝X
i
P(i)Q(i)
⇒ ≈compter les points communs
Exp´ erience jouet
1 Gutenberg:
◦ Les 3 mousquetaires, Ars`ene Lupin
◦ Faust (Goethe), Kleine deutsche Sprachlehre
◦ Moby Dick, War and Peace KL
0 1 2 3 4 5
0 1 2 3 4
5
0.00 0.04 0.08 0.12 0.16 0.20 0.24 0.28 0.32
Eucl.
0 1 2 3 4 5
0 1 2 3 4
5
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
cos
0 1 2 3 4 5
0 1 2 3 4
5 0.944
0.952 0.960 0.968 0.976 0.984 0.992 1.000
Exp´ erience jouet
1 Gutenberg:
◦ Les 3 mousquetaires, Ars`ene Lupin
◦ Faust (Goethe), Kleine deutsche Sprachlehre
◦ Moby Dick, War and Peace Et avec les espaces et les nombres:
0 1 2 3 4 5
0 1 2 3 4
5
0.000 0.025 0.050 0.075 0.100 0.125 0.150 0.175 0.200 0.225
0 1 2 3 4 5
0 1 2 3 4
5
0.000 0.015 0.030 0.045 0.060 0.075 0.090 0.105
0 1 2 3 4 5
0 1 2 3 4
5 0.968
0.972 0.976 0.980 0.984 0.988 0.992 0.996 1.000
Distribution de mots
I Les 3 Mousquetaires, Ars`ene Lupin, Boule de Suif, Le Horla, Le Comte de Monte-Cristo
I Etape 1: trouver un dictionnaire commun:
1 # r e s = t o u s l e s d i c t i o n n a i r e s
2 d i c o = s e t( r e s [ 0 ] . k e y s ( ) )
3 p r i n t l e n( d i c o )
4 f o r i i n r a n g e( 1 ,l e n( r e s ) ) :
5 d i c o = d i c o . i n t e r s e c t i o n ( r e s [ i ] . k e y s ( ) )
6 p r i n t l e n( d i c o )
1 1 41 30
2 5525
3 3381
4 2669
5 2536
I Etape 2: m´etriques
0 1 2 3 4
0 1 2 3
4
0.00 0.04 0.08 0.12 0.16 0.20 0.24 0.28 0.32 0.36
0 1 2 3 4
0 1 2 3
4
0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032
0 1 2 3 4
0 1 2 3
4 0.954
0.960 0.966 0.972 0.978 0.984 0.990 0.996
BOW Mod`eles proba. S´emantique LSA Usages
dist (d
1, d
2) ≈ r´ eponse ` a une requˆ ete
Moteur de recherche :
I R´epondre `a une requˆeter: dist(r,d)
I Garantir une diversit´e des r´esultats affich´es: dist(di,dj)
I ...
dist (d
1, d
2) ≈ r´ eponse ` a une requˆ ete
Moteur de recherche :
I R´epondre `a une requˆeter: dist(r,d)
I Garantir une diversit´e des r´esultats affich´es: dist(di,dj)
I Google: mesurer l’autorit´e de la source
I ...
dist (d
1, d
2) ≈ r´ eponse ` a une requˆ ete
Moteur de recherche :
I R´epondre `a une requˆeter: dist(r,d)
I Garantir une diversit´e des r´esultats affich´es: dist(di,dj)
I Google: mesurer l’autorit´e de la source
I ...
La m´etrique la plus utilis´ee: BM25
score(D,Q) = Xn
i=1
IDF(qi)· f(qi,D)·(k1+ 1) f(qi,D) +k1·
1−b+b· avgdl|D|
IDF(qi) = logN−n(qi) + 0.5
n(qi) + 0.5 , b= 0.75,k1∈[1.2, 2.0]
... La suite en cours de RI !
BOW
Mod`eles probabilistes
S´emantique
LSA
Usages
La question de la s´ emantique
Objectif
(mieux) comprendre [automatiquement] la signification d’un mot, d’un texte
⇒Applications
I moteur de recherche
I classification th´ematique
I extraction d’informations
I r´esum´e automatique
I classification d’opinions
Corrolaire:
Eliminer lesemantic gap
Ressources linguistiques
WordNet (et wordnets)
I Description: Repr´esentation hi´erarchique des concepts.
◦ Nouns
◦ Verbs
◦ Adjectives
Ressources linguistiques
WordNet (et wordnets)
I Description: Repr´esentation hi´erarchique des concepts.
◦ Nouns
· hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog)
· hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)
· coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)
· meronym: Y is a meronym of X if Y is a part of X (window is a meronym of building)
· holonym: Y is a holonym of X if X is a part of Y (building is a holonym of window)
◦ Verbs
◦ Adjectives
Ressources linguistiques
WordNet (et wordnets)
I Description: Repr´esentation hi´erarchique des concepts.
◦ Nouns
◦ Verbs
· hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)
· troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)
· entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)
· coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)
◦ Adjectives
Ressources linguistiques
WordNet (et wordnets)
I Description: Repr´esentation hi´erarchique des concepts.
◦ Nouns
◦ Verbs
◦ Adjectives
· Antomyms / Synonyms
WordNet : Exemple
Exemples d’informations r´ecup´erables dog, domestic dog, Canis familiaris
=> canine, canid
=> carnivore
=> placental, placental mammal, eutherian, eutherian mammal
=> mammal
=> vertebrate, craniate
=> chordate
=> animal, animate being, beast, brute, creature, fauna
=> ...
Cr´edit: wikipedia
WordNet: Usages
I Notions de distance
◦ longueur du chemin dans l’arbre,
◦ longueur du chemin dans le graphe des synonymes,
◦ hauteur dans la hi´erarchie,
◦ cf: Leacock Chodorow (1998), Jiang Conrath (1997), Resnik (1995), Lin (1998), Wu Palmer (1993)
I Applications
◦ IR: Information Retrieval
◦ Word Desambiguation
◦ Text Classification
◦ Machine Translation
◦ Summarization
I Disponible dans NLTK (avec l’impl´ementation des distances)
WordNet: Limites
I D´epend des ressources existantes (langues...)
I Non adapt´e `a des domaines sp´ecifiques (uniquement pour un vocabulaire g´en´eral)
Ouvertures:
I Extensions statistiques possibles (traductions, heuristiques de diffusion...)
Approche statistique: S´ emantique vectorielle
I Mod´elisation: comptage des occurrences
X =
tj
↓ di →
x1,1 . . . x1,D ... . .. ... xN,1 . . . xN,D
I Proposition: m´etrique (similarit´e) = corr´elation entre les repr´esentations des termes:
s(j,k) =htj,tki,Normalis´e: sn(j,k) = cos(θ) = tj·tq ktjk ktqk
◦ Si les termes apparaissent dans les mˆemes documents, ils sont similaires
Approche statistique: LSA
I LSA: Latent Semantic Analysis
I Id´ee: factorisationde la matrice = regrouper les termes dont le sens est similaire
I Approche : d´ecomposition en valeurs singuli`eres
XT = U Σ VT
di dˆi
↓ ↓
tj→
x1,1 . . . x1,N
..
. . .. ...
xD,1 . . . xD,N
=
u1
. . .
ul
σ1 . . . 0
..
. . .. ...
0 . . . σl
v1 .. . vl
I Les similarit´e se calculent de la mˆeme fa¸con
cr´edit: wikipedia
Discussion : SVD, LSA
Lorsqu’on s´electionne les k plus grandes valeurs singuli`eres, ainsi que les vecteurs singuliers correspondants dans U et V, on obtient une
approximation de rang k de la matrice des occurrences
I M´etrique efficace entre les termes, entre les documents
◦ Am´elioration qualitative par rapport `a la m´etrique initiale
I Usages:
◦ Clustering (chaque valeur singuli`ere est untopic)
◦ D´etection des synonymes (pas toujours efficace)
◦ Am´elioration de la RI
◦ Repr´esentation des connaissances
◦ M´etrique entre documents/phrases:
· QA automatis´e
· R´esum´e automatique
Thomas K. Landauer, Peter W. Foltz et Darrell Laham,Introduction to Latent Semantic Analysis, Discourse Processes, vol. 25, 1998, p.
LSA: limites
I Repose sur les sacs de mots, pas de gestion :
◦ des n´egations,
◦ de la proximit´e dans le document (cf tailles des documents trait´es)
◦ de la structure des phrases/documents
I D´epend du corpus utilis´e
◦ probl`emes avec les mots peu fr´equents,
◦ biais li´es au domaine du corpus
I Pas de mod´elisation de la polys´emie
BOW Mod`eles proba. S´emantique LSA Usages
LSA: variante
I Factorisation matricielle non-n´egative
lis´e) du mot d’indice d dans le document d’indice i. Apr`es application de la DVS, nous obtenons la matrice B = U
K, dont chaque ligne contient la nou- velle repr´esentation des documents dans
K, le nouvel espace d´efini par K vecteurs de base. Ces vecteurs de base sont donn´es par les lignes de la matrice C = ⇥
KV
KT. Le k-i`eme vecteur de base C
k.↵
dest un vecteur dans l’espace des mots : la d-i`eme composante correspond au mot d’indice d.
Remarquons que la DVS pose des probl`emes d’interpr´etabilit´e. En e⌅et, les composantes de C
k.peuvent ˆetre positives ou n´egatives, et ne peuvent donc pas ˆetre interpr´et´es comme les occurrences de mots dans un ”document type”
(un document imaginaire absent de la base de documents initiaux, dont nous aurions aim´e nous servir pour l’interpr´etation des r´esultats). La d´ecomposition en valeurs singuli`eres ne permet donc pas d’exprimer un document comme une combinaison lin´eaire de documents type.
4.2 Factorisation en matrices non n´ egatives
La factorisation en matrices non n´egatives (FMN) est une m´ethode factorisa- tion matricielle, introduite par [25]. Elle permet d’approximer une matrice X de taille ( m ⇥ D) et dont les ´el´ements sont tous positifs, grˆace `a une d´ecomposition de la forme X ⇧ BC , o` u B et C sont des matrices (m ⇥ K) et (K ⇥ D). Les lignes de la matrice X d´ecrivent m objets par autant de vecteurs de dimension D, les lignes de la matrice B contiennent les repr´esentations des mˆemes objets dans un espace de dimension K < D, et la matrice C contient les K vecteurs de base.
L’originalit´e de la FMN r´eside dans les contraintes de non-n´egativit´e qu’elle impose `a B et C. Les auteurs montrent que ces contraintes obligent aux ´el´ements des matrices B et C `a comporter beaucoup de 0. En particulier pour la ma- trice C , ils montrent que les vecteurs de base (contenus dans les lignes de C) se chevauchent rarement. La repr´esentation d’un objet comme une com- binaison lin´eaire de ces vecteurs de base, correspond alors `a l’intuition d’une d´ecomposition par parties. Les conditions sous lesquelles la FMN permet ef- fectivement de retrouver les parties latentes d’un ensemble de donn´ees ont ´et´e
´etudi´ees par [16]. La FMN a ´et´e appliqu´ee avec succ`es, notamment en recon- naissance des visages [25] (voir l’illustration ) et en classification de documents textuels [34].
Revenons `a l’application de la FMN aux donn´ees textuelles. Les vecteurs de base C
k.↵
D+sont maintenant `a valeurs positives, et peuvent donc ˆetre interpr´et´es de la mani`ere suivante. Le vecteur C
k.d´efinit un document imagi- naire, appel´e ”document type”, et dans lequel le mot d’indice d est d’autant plus important que C
kdest ´elev´e. Chaque document i est donc une combinai- son lin´eaire de ces documents type. De plus les coe⌥cients de la combinaison lin´eaire (contenus dans le vecteur B
i.↵
K+) sont positifs. Nous pouvons donc interpr´eter le coe⌥cient B
ikcomme une mesure de l’importance du document type k dans le document i. Plus B
ikest grand, et plus le document type k ”ex- plique” le document i. Ce type d’interpr´etation n’est pas possible avec la DVS d´ecrite pr´ec´edemment `a cause de la pr´esence de coe⌥cients n´egatifs.
Vincent Guigue Analyse s´emantique 31/48
LSA: variante (2) k -means
I Trouver du sens = probl`eme de clustering
I Mod´elisation (toujours BOW):
X =
tj
↓ di →
x1,1 . . . x1,D ... . .. ... xN,1 . . . xN,D
I Algorithme (simple) pour arriver `a ¸ca: CEM
Appliquer sur la matrice d’occurrences avec une mod´elisation multinomiale, = k-means
Quelle m´etrique utiliser?
BOW Mod`eles proba. S´emantique LSA Usages
Distance euclidienne et mal´ ediction de la dimensionnalit´ e
Soit une matrice de document (fictive) en 3 dimensions:
I normalisation tf
[ 1. 0. 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ]
1 X = np . w h e r e ( r a n d . r a n d ( 3 , dim )>0 . 9 9 , 1 . , 0 . )
2 X [ : , : 3 ] = np . a r r a y ( [ [ 1 , 0 , 0 ] , [ 1 , 1 , 0 ] , [ 0 , 0 , 1 ] ] )
3 X /= X .sum( 1 ) . r e s h a p e ( 3 , 1 )
4 D = np . a r r a y ( [ [ ( ( X [ i ] − X [ j ] )∗ ∗2 ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )
5 D2 = np . a r r a y ( [ [ ( ( X [ i ] ∗ X [ j ] ) ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )
Distance euclidienne et mal´ ediction de la dimensionnalit´ e
Soit une matrice de document (fictive) en 3 dimensions:
I normalisation tf
[ 1. 0. 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ]
Ajout de dimensions:
1 X = np . w h e r e ( r a n d . r a n d ( 3 , dim )>0 . 9 9 , 1 . , 0 . )
2 X [ : , : 3 ] = np . a r r a y ( [ [ 1 , 0 , 0 ] , [ 1 , 1 , 0 ] , [ 0 , 0 , 1 ] ] )
3 X /= X .sum( 1 ) . r e s h a p e ( 3 , 1 )
4 D = np . a r r a y ( [ [ ( ( X [ i ] − X [ j ] )∗ ∗2 ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )
5 D2 = np . a r r a y ( [ [ ( ( X [ i ] ∗ X [ j ] ) ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )
Curse of dimensionality
Distance euclidienne Dim = 3
[ 0. 0.5 2. ] [ 0.5 0. 1.5]
[ 2. 1.5 0. ] Dim = 40
[ 0. 0.5 1.5 ] [ 0.5 0. 1.33]
[ 1.5 1.33 0. ] Dim = 1000
[ 0. 0.19 0.21]
[ 0.19 0. 0.13]
[ 0.21 0.13 0. ]
Produit scalaire (similarit´e cosinus) Dim = 3
[ 1. 0.5 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ] Dim = 40
[ 0.5 0.16 0. ] [ 0.16 0.33 0. ]
[ 0. 0. 1. ]
Dim=1000
[ 0.14 0.01 0. ] [ 0.01 0.07 0.00]
[ 0. 0.00 0.07]
G´ en´ eralisation probabiliste CEM
I k clusters
I Proba a priori : πk =p(clusterk)
I Probabilit´e d’un mot dans un cluster : p(wj|θk) =Ed∈Dk[wj]
I Affectation d’un document dans un cluster (hard assignment):
p(yi =k) = 1/0 yi = arg max
k p(di|θk) = arg max
k
X
wj∈di
logp(wj|θk)
yi = arg max
k
X
j
tijθjk, θjk = logp(wj|θk)
Algo:
Init. Param`etres OU affectation
C/E Calcul des affectations des documents M Mise `a jour des param`etres
BOW Mod`eles proba. S´emantique LSA Usages
PLSA
Probabilistic Latent Semantic Analysis
I Id´ee: CEM⇒EM (un peu plus complexe)
I Un mot appartient `a tous les clusters avec des probabilit´es
I Mod´elisation graphique (=comment sont g´en´erer les mots):
est une paire (d, w), c’est `a dire l’occurrence jointe des deux ´ev`enementdetw.
Remarquons que cela contraste fortement avec la repr´esentation vectorielle, o`u ce que nous entendons par ”observation” est l’observation d’un vecteur. En cen- trant ainsi la repr´esentation des donn´ees sur la notion de co-occurrence plutˆot que sur celle de vecteur, les donn´ees de co-occurrence permettent de mod´eliser de nouveaux ph´enom`enes.
Les donn´ees textuelles se prˆetent naturellement `a une mod´elisation mod´eliser comme des donn´ees de co-occurrence. Les deux variables discr`etes consid´er´ees sont un indicedidentifiant chaque document de la collection (d↵ {1, ..., D} ) et un indicew identifiant chaque mot de la collection (w↵ {1, ..., W}). La collection de documents est mod´elis´ee non plus comme un ensemble de vecteurs (o`u chaque vecteur repr´esente un document), mais comme un ensemble de paires (d, w), o`u chaque paire est l’observation de la r´ealisation de l’indice de motwet de l’indice de documentd. Autrement dit ce n’est plus le document n’est plus au centre de la mod´elisation des donn´ees textuelles, mais la paire de co-occurrence entre un mot et un document.
3.2.2 Probabilistic latent semantic analysis
Le mod`eleprobabilistic latent semantic analysis(PLSA) [21] est un mod`ele standard de la litt´erature pour mod´eliser des donn´ees textuelles. C’est une ex- tension probabiliste du mod`ele LSI [12]. Avec le mod`ele PLSA, une collection de documents est mod´elis´ee comme un ensemble de paires (d, w) o`ud↵ {1, ..., D} est un indice de document etw↵ {1, ..., W}est un indice de mot. Chaque do- cument est repr´esent´e par une distribution de probabilit´e sur lesK valeurs de la variable th´ematique latente , et chaque valeur de correspond `a une dis- tribution de probabilit´e sur l’ensemble des mots de la collection. Le processus g´en´eratif correspondant est le suivant :
– un documentdest tir´e suivant la probabilit´eP(d), – une th´ematique est tir´ee suivant la probabilit´eP( |d), – un motwest tir´e suivant la probabilit´eP(w| ).
Le mod`ele graphique de PLSA est illustr´e dans la figure 1.
Apprentissage du mod`ele Les param`etres du mod`eleP(d),P( |d), etP(w| ) sont estim´es suivant le principe du maximum de vraisemblance. La fonction de I On estime donc des matrices:
◦ p(d)
◦ p(α|d)
◦ p(w|α)
PLSA: algorithme
log-vraisemblance `a maximiser est :
L=
D
d=1 W
w=1
n(d, w)logP(d, w) (3)
La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :
P( |d, w) = P(d)P( |d)P(w| )
⌥
⇤AP(d)P( ⇥|d)P(w| ⇥)
L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :
P(d) =
⌥
w⇤Wn(d, w)
⌥
d⇤D
⌥
w⇤Wn(d⇥, w) P( |d) =
⌥
w⇤Wn(d, w)P( |d, w)
⌥
⇤A
⌥
w⇤Wn(d, w)P( ⇥|d, w) P(w| ) =
⌥
d⇤Dn(d, w)P( |d, w)
⌥
w⇤W
⌥
d⇤Dn(d, w⇥)P( |d, w⇥)
Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)}sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d⇥) pour un documentd⇥qui n’´etait pas dans la base d’ap- prentissage.
Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.
3.2.3 Extension de PLSA
Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,
I Expectation (proba des variables manquantes)
I Maximization
Vincent Guigue Analyse s´emantique 37/48
PLSA: algorithme
log-vraisemblance `a maximiser est :
L=
D
d=1 W
w=1
n(d, w)logP(d, w) (3)
La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :
P( |d, w) = P(d)P( |d)P(w| )
⌥
⇤AP(d)P( ⇥|d)P(w| ⇥)
L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :
P(d) =
⌥
w⇤Wn(d, w)
⌥
d⇤D
⌥
w⇤Wn(d⇥, w) P( |d) =
⌥
w⇤Wn(d, w)P( |d, w)
⌥
⇤A
⌥
w⇤Wn(d, w)P( ⇥|d, w) P(w| ) =
⌥
d⇤Dn(d, w)P( |d, w)
⌥
w⇤W
⌥
d⇤Dn(d, w⇥)P( |d, w⇥)
Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)}sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d⇥) pour un documentd⇥qui n’´etait pas dans la base d’ap- prentissage.
Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.
3.2.3 Extension de PLSA
Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,
7
I Expectation (proba des variables manquantes)
log-vraisemblance `a maximiser est :
L =
D
d=1 W
w=1
n(d, w)log P (d, w) (3)
La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :
P ( | d, w) = P (d)P ( | d)P (w | )
⌥
⇤A
P (d)P (
⇥| d)P (w |
⇥)
L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :
P (d) =
⌥
w⇤W
n(d, w)
⌥
d⇤D
⌥
w⇤W
n(d
⇥, w) P ( | d) =
⌥
w⇤W
n(d, w)P ( | d, w)
⌥
⇤A
⌥
w⇤W
n(d, w)P (
⇥| d, w) P (w | ) =
⌥
d⇤D
n(d, w)P ( | d, w)
⌥
w⇤W
⌥
d⇤D
n(d, w
⇥)P ( | d, w
⇥)
Limites du mod` ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e { p( = 1 | d), ..., p( = A | d) } sur les th´ematiques. Les probabilit´es p( | d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etres p( | d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etres p( | d
⇥) pour un document d
⇥qui n’´etait pas dans la base d’ap- prentissage.
Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.
3.2.3 Extension de PLSA
Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,
I Maximization
Vincent Guigue Analyse s´emantique 37/48
BOW Mod`eles proba. S´emantique LSA Usages
PLSA: algorithme
log-vraisemblance `a maximiser est :
L=
D
d=1 W
w=1
n(d, w)logP(d, w) (3)
La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´es a posteriori de la variable latente . La formule de mise `a jour est :
P( |d, w) = P(d)P( |d)P(w| )
⌥
⇤AP(d)P( ⇥|d)P(w| ⇥)
L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :
P(d) =
⌥
w⇤Wn(d, w)
⌥
d⇤D
⌥
w⇤Wn(d⇥, w) P( |d) =
⌥
w⇤Wn(d, w)P( |d, w)
⌥
⇤A
⌥
w⇤Wn(d, w)P( ⇥|d, w) P(w| ) =
⌥
d⇤Dn(d, w)P( |d, w)
⌥
w⇤W
⌥
d⇤Dn(d, w⇥)P( |d, w⇥)
Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)}sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d⇥) pour un documentd⇥qui n’´etait pas dans la base d’ap- prentissage.
Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.
3.2.3 Extension de PLSA
Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,
I Expectation (proba des variables manquantes)
I Maximization
L=
D
d=1 W
w=1
n(d, w)log P(d, w) (3)
La variable th´ematique n’´etant pas observ´ee, les param`etres du mod`ele sont estim´es suivant la proc´edure Esp´erance Maximisation (EM) [14]. L’´etape E consiste `a estimer les probabilit´esa posteriori de la variable latente . La formule de mise `a jour est :
P( |d, w) = P(d)P( |d)P(w| )
⌥
⇤AP(d)P( ⇥|d)P(w| ⇥)
L’´etape M consiste `a r´e-estimer les param`etres du mod`ele, afin qu’ils maxi- misent l’esp´erance de la log-vraisemblance. Les formules de mise `a jour corres- pondantes sont :
P(d) =
⌥
w⇤Wn(d, w)
⌥
d⇤D
⌥
w⇤Wn(d⇥, w) P( |d) =
⌥
w⇤Wn(d, w)P( |d, w)
⌥
⇤A
⌥
w⇤Wn(d, w)P( ⇥|d, w) P(w| ) =
⌥
d⇤Dn(d, w)P( |d, w)
⌥
w⇤W
⌥
d⇤Dn(d, w⇥)P( |d, w⇥)
Limites du mod`ele Comme nous l’avons soulign´e, le mod`ele PLSA repr´esente chaque document comme une distribution de probabilit´e{p( = 1|d), ..., p( = A|d)} sur les th´ematiques. Les probabilit´es p( |d) sont autant de param`etres appris par l’algorithme EM d´ecrit pr´ec´edemment, et en particulier il n’y a pas de processus g´en´eratif pour mod´eliser ces probabilit´es. Cela a deux cons´equences principales. Premi`erement, le nombre de param`etres du mod`ele augmente lin´eairement avec le nombre de documents dans la collection, ce qui peut causer des probl`emes de surapprentissage. Deuxi`emement, les param`etresp( |d) ne peuvent ˆetre es- tim´es que pour des documents pr´esents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est `a dire de d´eterminer les param`etresp( |d⇥) pour un document d⇥qui n’´etait pas dans la base d’ap- prentissage.
Remarquons ´egalement que le mod`ele PLSA n’est capable d’extraire qu’une liste ”plate” de th´ematiques. Or en pratique, il existe souvent des relations hi´erarchiques entre les di⌅´erentes th´ematiques pr´esentes dans un corpus de docu- ments. Une th´ematique g´en´erale sur le sport peut par exemple inclure plusieurs sous-th´ematiques relatives `a des sports di⌅´erents. Plusieurs travaux proposent de mod´eliser cet aspect hi´erarchique entre les th´ematiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.
3.2.3 Extension de PLSA
Dans cette section nous pr´esentons une extension du mod`ele PLSA propos´ee par [23]. Alors qu’avec PLSA les mots ne sont g´en´er´es que par les th´ematiques,
Vincent Guigue Analyse s´emantique 37/48
PLSA: r´ esultats
Apprentissage Statistique P. Gallinari 155
PLSA as a graphical model
z
d z P z w P d
w P
d w P d P w d P
) ( ) ( )
(
) (
* ) ( ) , (
Boxes represent repeated sampling
d z w
Corpus level Document
level
P(z|d) P(w|z)
D Nd
PLSA geometric interpretation
• Topiciis a point on the word simplex
• Documents are constrained to lie on the topic simplex
• Creates a bottleneck in document representation
Topic simplex
topic2
topic1
topic3
w w
w3 Word simplex
Document d
z
d z P z w P d w
P( ) ( ) ( )