TAL: traitement automatique de la langue Apprentissage d’une s´ emantique

(1)

TAL: traitement automatique de la langue Apprentissage d’une s´ emantique

Vincent Guigue UPMC - LIP6

(2)

Traitements pour la classification de textes

Les données textuelles sont difficiles à gérer:

1 Les corpus sontvolumineux, le vocabulaire est grand:

◦ il faut des algorithmes rapides,

◦ les donn´ees ne sont pas toujours stockables en m´emoire.

2 La structuredes phrases est difficile `a g´erer.

3 Les mots peuvent prendre plusieurs formes(pluriels...)

4 Machine learning + donn´ees engrande dimension= probl`emes

(3)

Traitements pour la classification de textes

Les données textuelles sont difficiles à gérer:

1 Les corpus sontvolumineux, le vocabulaire est grand:

◦ il faut des algorithmes rapides,

◦ les donn´ees ne sont pas toujours stockables en m´emoire.

Perceptron, SVM (en version rapide), Naive Bayes...

Boosting, Bagging... Algorithmes distribu´es

2 La structuredes phrases est difficile `a g´erer.

On supprime la structure...

3 Les mots peuvent prendre plusieurs formes(pluriels...) Plusieurs approches possibles... (cf plus loin)

4 Machine learning + donn´ees engrande dimension= probl`emes On cherche des heuristiques pour supprimer les mots inutiles.

(4)

Sacs de mots

Structure des phrases = coˆut important de traitement

⇒Elimination ! Document = comptage des diff´erents mots qui le composent:

Repr´ esentation bag of words

SoitV le vocabulaire etdun document: d∈N^|^V^|

NB:d est (presque toujours) un vecteursparse, c’est `a dire compos´e essentiellement de 0.

(5)

Sur un exemple (cr´ edit Sergio Jimenez)

(6)

Codage de l’information (sac de mots)

Document exemple:

I le bonheur est dans le pr´e

I la m´elodie du bonheur

Dictionnaire:le, la, du, bonheur, melodie, est, dans, pre

I Pr´esence

I Comptage

I Fr´equence

I tf-idf (cf cours sur la classification de documents)

(7)

Codage de l’information (sac de mots)

Document exemple:

I Pr´esence

le la du bonheur melodie est dans pre

doc₁ 1 0 0 1 0 1 1 1

doc2 0 1 1 1 1 0 0 0

I Comptage

I Fr´equence

(8)

Codage de l’information (sac de mots)

Document exemple:

I Pr´esence

I Comptage

doc1 2 0 0 1 0 1 1 1

doc₂ 0 1 1 1 1 0 0 0

I Fr´equence

(9)

Codage de l’information (sac de mots)

Document exemple:

I Pr´esence

I Comptage

I Fr´equence

doc₁ 0.33 0 0 0.17 0 0.17 0.17 0.17

doc₂ 0 0.25 0.25 0.25 0.25 0 0 0

Somme à 1 pour chaque document, importances des mots pondérées par la longueur du document

(10)

BOW Mod`eles proba. S´emantique LSA Usages

Aspects d’impl´ ementation

I Combien de mots distincts dans un corpus de 10000 revues de films (en anglais)?

Exemple:

Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it’s singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it’s better than you might think with some good cinematography by future great Vilmos Zsigmond.

Future stars Sally Kirkland and Frederic Forrest can be seen briefly.

I 10⁴×10⁵= 10⁹= 4Go... Contre 100Mo de donn´ees brutes sur le disque. Comment mieux g´erer cela?

I Codage sparse de l’information (seules les entrées non nulles sont codées). Quelle structure de données?

I Table de hash

(11)

Aspects d’impl´ ementation

Exemple:

I 104077 ... Quelle taille pour stocker ce corpus?

disque. Comment mieux g´erer cela?

I Table de hash

(12)

Aspects d’impl´ ementation

Exemple:

cod´ees). Quelle structure de donn´ees?

I Table de hash

(13)

Aspects d’impl´ ementation

Exemple:

(14)

Aspects d’impl´ ementation

Exemple:

I Table de hash

(15)

Impl´ ementation (2)

I Table de hash...

⇒aucun op´erateur !

sparse matrix

I Plusieurs options

◦ codage par ligne, par colonne, en liste chain´ee...

I Et faire le lien avec les biblioth`eque riches:

◦ en python les matricessparses fonctionnent plutˆot bien avec numpy

(16)

Impl´ ementation (2)

I Table de hash...

I Chercher des impl´ementation de table pour le codage de matrices = sparse matrix

(17)

Impl´ ementation (2)

I Table de hash...

I Plusieurs options

(18)

Impl´ ementation (2)

I Table de hash...

I Plusieurs options

(19)

Evolution du vocabulaire

I En général, on considère qu’il y a une loi logarithmique entre le nombre de documents et le nombre de mots.

I Sur l’exemple des revues de films:

0 5000 10000 15000 20000 25000 0

50000 100000 150000 200000

(20)

Evolution du vocabulaire

I En général, on considère qu’il y a une loi logarithmique entre le nombre de documents et le nombre de mots.

I Sur l’exemple des revues de films:

I Il y a également une règle sur les fréquences d’apparition des mots:

0 50 100 150 200 250 300

nb occurences

0 2 4 6 8 10 12

log nb mots

(21)

Extensions

I Mod`ele de N-grams: codage des groupes de mots

◦ very good

◦ not good

◦ sont des entr´ees du dictionnaire... dont la taille explose!

I Lemmatisation/racinisation

◦ 1 seule entr´ee pour les mots de mˆeme racine

(22)

Aspects industriels

1 R´ecup´eration/importation d’un corpus

◦ Lecture de format XML

◦ Template NLTK...

2 Optimisation d’un mod`ele.

◦ Campagne d’expérience (d’abord grossière - codage, choix modèle...-, puis fine - régularisation...)

◦ Assez long... Mais essentielle

◦ Le savoir-faire est ici

3 Evaluation des performances (souvent en mˆeme temps que la phase d’optimisation)

◦ Usage de la validation crois´ee

4 Apprentissage + packaging du mod`ele final

◦ D´efinition des formats IO

◦ Mode de fonctionnement : API, service web...

◦ Documentation

(23)

Evaluation de vos TP

I Montrer que vous êtes capables de réaliser une campagne d’expériences:

◦ Courbes de performances

◦ Analyse de ces courbes

I Montrer que vous ˆetes capable de valoriser un mod`ele

I Concr`etement:

◦ Mise au propre de votre code

◦ Int´egration des exp´eriences dans une boucle (ou plusieurs)

◦ Analyse qualitative du mod`ele final (tri des poids)

◦ OPT: construction de nuages de mots...

(24)

BOW

Mod`eles probabilistes

S´emantique

LSA

Usages

(25)

Caract´ eriser des distributions...

Motivations = r´ esumer des informations complexes

Distribution de lettres/mots/n-grammes de mots = ...

I caract´eriser une langue,

I caract´eriser un auteur,

I caract´eriser une th´ematique,

I caract´eriser une opinion,

I caract´eriser des sentiments,

I ...

⇒Comprendre/visualiser les objets que l’on manipule pour mieux les traiter

(26)

... Mais quelles distributions ?

I langue : distribution brute de lettres ?

I style : distribution des fins de mots, des espaces, des articles, des POS-tag ?

I th`eme : mots-cl´es, champs lexicaux ?

I ...

(1) chaque application requiert des traitements spécifiques (2) la représentation est souvent paramétrique

(27)

Extraire une distribution de lettres

I Processus:

1 Trouver une source... www.gutenberg.org

2 Les trois mousquetaires,Ars`ene Lupin,...

3 Comptage + normalisation

I R´esultat:

I Discussion:

(28)

Extraire une distribution de lettres

I Processus:

I R´esultat:

a b c d e f g h i j k l m n o p q r s t u v w x y z 0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18

proba

(29)

Extraire une distribution de lettres

I Processus:

I R´esultat:

I Discussion: choisir un r´ef´erentiel !

a b c d e f g h i j k l m n o p q r s t u v w x y z 0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18

proba

0 1 2 3 4 5 6 7 8 9 a b c d e f g h i j k l mn o p q r s t u v w x y z 0.00

0.05 0.10 0.15 0.20 0.25

proba

(30)

Extraire une distribution de mots

I Le mˆeme processus...

... Sur les mots

I ⇒choisir les d´elimiteurs de mots (pas toujours trivial: ’)

I Compter

I Calculer la distribution (=normaliser)

(31)

M´ etrique entre distributions

Comparer les objets, comprendre leurs positions

I Logique entropique (cf th´eorie de l’information, Shannon...)

Id´ ee:

Calculer un ´ecart entre distribution = entropie crois´ee = divergence de Kullback-Liebler

DKL(PkQ) =X

i

P(i) logP(i) Q(i)

Attention: asym´etrie de la mesure

I M´etrique euclidienne ...

I Similarit´e cosine ...

(32)

M´ etrique entre distributions

inefficace en grande dimension: toutes les distributions deviennent

´equidistantes

d(P,Q) =kP−Qk=sX

i

(P(i)−Q(i))²

(33)

M´ etrique entre distributions

Id´ ee:

Chercher les points communs plutˆot que les diff´erences : sim(P,Q) = P·Q

kPkkQk = cos(P, ~~dQ)∝X

i

P(i)Q(i)

⇒ ≈compter les points communs

(34)

Exp´ erience jouet

1 Gutenberg:

◦ Les 3 mousquetaires, Ars`ene Lupin

◦ Faust (Goethe), Kleine deutsche Sprachlehre

◦ Moby Dick, War and Peace KL

0 1 2 3 4 5

0 1 2 3 4

5

0.00 0.04 0.08 0.12 0.16 0.20 0.24 0.28 0.32

Eucl.

0 1 2 3 4 5

0 1 2 3 4

5

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

cos

0 1 2 3 4 5

0 1 2 3 4

5 0.944

0.952 0.960 0.968 0.976 0.984 0.992 1.000

(35)

Exp´ erience jouet

1 Gutenberg:

◦ Les 3 mousquetaires, Ars`ene Lupin

◦ Faust (Goethe), Kleine deutsche Sprachlehre

◦ Moby Dick, War and Peace Et avec les espaces et les nombres:

0 1 2 3 4 5

0 1 2 3 4

5

0.000 0.025 0.050 0.075 0.100 0.125 0.150 0.175 0.200 0.225

0 1 2 3 4 5

0 1 2 3 4

5

0.000 0.015 0.030 0.045 0.060 0.075 0.090 0.105

0 1 2 3 4 5

0 1 2 3 4

5 0.968

0.972 0.976 0.980 0.984 0.988 0.992 0.996 1.000

(36)

Distribution de mots

I Les 3 Mousquetaires, Ars`ene Lupin, Boule de Suif, Le Horla, Le Comte de Monte-Cristo

I Etape 1: trouver un dictionnaire commun:

1 # r e s = t o u s l e s d i c t i o n n a i r e s

2 d i c o = s e t( r e s [ 0 ] . k e y s ( ) )

3 p r i n t l e n( d i c o )

4 f o r i i n r a n g e( 1 ,l e n( r e s ) ) :

5 d i c o = d i c o . i n t e r s e c t i o n ( r e s [ i ] . k e y s ( ) )

6 p r i n t l e n( d i c o )

1 1 41 30

2 5525

3 3381

4 2669

5 2536

I Etape 2: m´etriques

0 1 2 3 4

0 1 2 3

4

0.00 0.04 0.08 0.12 0.16 0.20 0.24 0.28 0.32 0.36

0 1 2 3 4

0 1 2 3

4

0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032

0 1 2 3 4

0 1 2 3

4 0.954

0.960 0.966 0.972 0.978 0.984 0.990 0.996

(37)

dist (d

₁

, d

₂

) ≈ r´ eponse ` a une requˆ ete

Moteur de recherche :

I Répondre à une requêter: dist(r,d)

I Garantir une diversité des résultats affichés: dist(d_i,d_j)

I ...

(38)

dist (d

₁

, d

₂

) ≈ r´ eponse ` a une requˆ ete

I Garantir une diversité des résultats affichés: dist(d_i,d_j)

I Google: mesurer l’autorit´e de la source

I ...

(39)

dist (d

₁

, d

₂

) ≈ r´ eponse ` a une requˆ ete

I Garantir une diversité des résultats affichés: dist(di,dj)

I Google: mesurer l’autorit´e de la source

I ...

La m´etrique la plus utilis´ee: BM25

score(D,Q) = Xn

i=1

IDF(q_i)· f(q_i,D)·(k₁+ 1) f(qi,D) +k1·

1−b+b· avgdl^|^D^|

IDF(q_i) = logN−n(q_i) + 0.5

n(qi) + 0.5 , b= 0.75,k₁∈[1.2, 2.0]

... La suite en cours de RI !

(40)

BOW

Mod`eles probabilistes

S´emantique

LSA

Usages

(41)

La question de la s´ emantique

Objectif

(mieux) comprendre [automatiquement] la signification d’un mot, d’un texte

⇒Applications

I moteur de recherche

I classification th´ematique

I extraction d’informations

I r´esum´e automatique

I classification d’opinions

Corrolaire:

Eliminer lesemantic gap

(42)

Ressources linguistiques

WordNet (et wordnets)

I Description: Repr´esentation hi´erarchique des concepts.

◦ Nouns

◦ Verbs

◦ Adjectives

(43)

Ressources linguistiques

◦ Nouns

· hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog)

· hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)

· coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)

· meronym: Y is a meronym of X if Y is a part of X (window is a meronym of building)

· holonym: Y is a holonym of X if X is a part of Y (building is a holonym of window)

◦ Verbs

◦ Adjectives

(44)

Ressources linguistiques

◦ Nouns

◦ Verbs

· hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)

· troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)

· entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)

· coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)

◦ Adjectives

(45)

Ressources linguistiques

◦ Nouns

◦ Verbs

◦ Adjectives

· Antomyms / Synonyms

(46)

WordNet : Exemple

Exemples d’informations r´ecup´erables dog, domestic dog, Canis familiaris

=> canine, canid

=> carnivore

=> placental, placental mammal, eutherian, eutherian mammal

=> mammal

=> vertebrate, craniate

=> chordate

=> animal, animate being, beast, brute, creature, fauna

=> ...

Cr´edit: wikipedia

(47)

WordNet: Usages

I Notions de distance

◦ longueur du chemin dans l’arbre,

◦ longueur du chemin dans le graphe des synonymes,

◦ hauteur dans la hi´erarchie,

◦ cf: Leacock Chodorow (1998), Jiang Conrath (1997), Resnik (1995), Lin (1998), Wu Palmer (1993)

I Applications

◦ IR: Information Retrieval

◦ Word Desambiguation

◦ Text Classification

◦ Machine Translation

◦ Summarization

I Disponible dans NLTK (avec l’impl´ementation des distances)

(48)

WordNet: Limites

I D´epend des ressources existantes (langues...)

I Non adapté à des domaines spécifiques (uniquement pour un vocabulaire général)

Ouvertures:

I Extensions statistiques possibles (traductions, heuristiques de diffusion...)

(49)

Approche statistique: S´ emantique vectorielle

I Mod´elisation: comptage des occurrences

X =

tj

↓ di →





x_1,1 . . . x_1,D ... . .. ... x_N,1 . . . x_N,D





I Proposition: métrique (similarité) = corrélation entre les représentations des termes:

s(j,k) =ht_j,t_ki,Normalis´e: s_n(j,k) = cos(θ) = t_j·t_q ktjk ktqk

◦ Si les termes apparaissent dans les mˆemes documents, ils sont similaires

(50)

Approche statistique: LSA

I LSA: Latent Semantic Analysis

I Id´ee: factorisationde la matrice = regrouper les termes dont le sens est similaire

I Approche : d´ecomposition en valeurs singuli`eres

X^T = U Σ V^T

di dˆi

↓ ↓

tj→







x_1,1 . . . x_1,N

..

. . .. ...

x_D,1 . . . x_D,N







=











 u1





 . . .





 ul



















σ1 . . . 0

..

. . .. ...

0 . . . σl













v1 .. . vl







I Les similarit´e se calculent de la mˆeme fa¸con

cr´edit: wikipedia

(51)

Discussion : SVD, LSA

Lorsqu’on s´electionne les k plus grandes valeurs singuli`eres, ainsi que les vecteurs singuliers correspondants dans U et V, on obtient une

approximation de rang k de la matrice des occurrences

I M´etrique efficace entre les termes, entre les documents

◦ Amélioration qualitative par rapport à la métrique initiale

I Usages:

◦ Clustering (chaque valeur singuli`ere est untopic)

◦ D´etection des synonymes (pas toujours efficace)

◦ Am´elioration de la RI

◦ Repr´esentation des connaissances

◦ M´etrique entre documents/phrases:

· QA automatis´e

· R´esum´e automatique

Thomas K. Landauer, Peter W. Foltz et Darrell Laham,Introduction to Latent Semantic Analysis, Discourse Processes, vol. 25, 1998, p.

(52)

LSA: limites

I Repose sur les sacs de mots, pas de gestion :

◦ des n´egations,

◦ de la proximit´e dans le document (cf tailles des documents trait´es)

◦ de la structure des phrases/documents

I D´epend du corpus utilis´e

◦ probl`emes avec les mots peu fr´equents,

◦ biais li´es au domaine du corpus

I Pas de mod´elisation de la polys´emie

(53)

LSA: variante

I Factorisation matricielle non-n´egative

lis´e) du mot d’indice d dans le document d’indice i. Apr`es application de la DVS, nous obtenons la matrice B = U

K

, dont chaque ligne contient la nou- velle repr´esentation des documents dans

^K

, le nouvel espace d´efini par K vecteurs de base. Ces vecteurs de base sont donn´es par les lignes de la matrice C = ⇥

K

V

_K^T

. Le k-i`eme vecteur de base C

k.

↵

^d

est un vecteur dans l’espace des mots : la d-i`eme composante correspond au mot d’indice d.

Remarquons que la DVS pose des problèmes d’interprétabilité. En e⌅et, les composantes de C

k.

peuvent être positives ou négatives, et ne peuvent donc pas être interprétés comme les occurrences de mots dans un ”document type”

(un document imaginaire absent de la base de documents initiaux, dont nous aurions aimé nous servir pour l’interprétation des résultats). La décomposition en valeurs singulières ne permet donc pas d’exprimer un document comme une combinaison linéaire de documents type.

4.2 Factorisation en matrices non n´ egatives

La factorisation en matrices non négatives (FMN) est une méthode factorisa- tion matricielle, introduite par [25]. Elle permet d’approximer une matrice X de taille ( m ⇥ D) et dont les éléments sont tous positifs, grâce à une décomposition de la forme X ⇧ BC , o` u B et C sont des matrices (m ⇥ K) et (K ⇥ D). Les lignes de la matrice X décrivent m objets par autant de vecteurs de dimension D, les lignes de la matrice B contiennent les représentations des mêmes objets dans un espace de dimension K < D, et la matrice C contient les K vecteurs de base.

L’originalité de la FMN réside dans les contraintes de non-négativité qu’elle impose à B et C. Les auteurs montrent que ces contraintes obligent aux éléments des matrices B et C à comporter beaucoup de 0. En particulier pour la ma- trice C , ils montrent que les vecteurs de base (contenus dans les lignes de C) se chevauchent rarement. La représentation d’un objet comme une com- binaison linéaire de ces vecteurs de base, correspond alors à l’intuition d’une décomposition par parties. Les conditions sous lesquelles la FMN permet ef- fectivement de retrouver les parties latentes d’un ensemble de données ont été

étudiées par [16]. La FMN a été appliquée avec succès, notamment en recon- naissance des visages [25] (voir l’illustration ) et en classification de documents textuels [34].

Revenons `a l’application de la FMN aux donn´ees textuelles. Les vecteurs de base C

k.

↵

^D+

sont maintenant à valeurs positives, et peuvent donc être interprétés de la manière suivante. Le vecteur C

k.

d´efinit un document imagi- naire, appel´e ”document type”, et dans lequel le mot d’indice d est d’autant plus important que C

kd

est élevé. Chaque document i est donc une combinai- son linéaire de ces documents type. De plus les coe⌥cients de la combinaison linéaire (contenus dans le vecteur B

i.

↵

^K+

) sont positifs. Nous pouvons donc interpr´eter le coe⌥cient B

ik

comme une mesure de l’importance du document type k dans le document i. Plus B

ik

est grand, et plus le document type k ”ex- plique” le document i. Ce type d’interprétation n’est pas possible avec la DVS décrite précédemment à cause de la présence de coe⌥cients négatifs.

Vincent Guigue Analyse s´emantique 31/48

(54)

LSA: variante (2) k -means

I Trouver du sens = probl`eme de clustering

I Mod´elisation (toujours BOW):

X =

tj

↓ di →





x_1,1 . . . x_1,D ... . .. ... x_N,1 . . . x_N,D





I Algorithme (simple) pour arriver `a ¸ca: CEM

Appliquer sur la matrice d’occurrences avec une mod´elisation multinomiale, = k-means

Quelle m´etrique utiliser?

(55)

Distance euclidienne et mal´ ediction de la dimensionnalit´ e

Soit une matrice de document (fictive) en 3 dimensions:

I normalisation tf

[ 1. 0. 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ]

1 X = np . w h e r e ( r a n d . r a n d ( 3 , dim )>0 . 9 9 , 1 . , 0 . )

2 X [ : , : 3 ] = np . a r r a y ( [ [ 1 , 0 , 0 ] , [ 1 , 1 , 0 ] , [ 0 , 0 , 1 ] ] )

3 X /= X .sum( 1 ) . r e s h a p e ( 3 , 1 )

4 D = np . a r r a y ( [ [ ( ( X [ i ] − X [ j ] )∗ ∗2 ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

5 D2 = np . a r r a y ( [ [ ( ( X [ i ] ∗ X [ j ] ) ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

(56)

Distance euclidienne et mal´ ediction de la dimensionnalit´ e

Soit une matrice de document (fictive) en 3 dimensions:

I normalisation tf

[ 1. 0. 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ]

Ajout de dimensions:

1 X = np . w h e r e ( r a n d . r a n d ( 3 , dim )>0 . 9 9 , 1 . , 0 . )

2 X [ : , : 3 ] = np . a r r a y ( [ [ 1 , 0 , 0 ] , [ 1 , 1 , 0 ] , [ 0 , 0 , 1 ] ] )

3 X /= X .sum( 1 ) . r e s h a p e ( 3 , 1 )

4 D = np . a r r a y ( [ [ ( ( X [ i ] − X [ j ] )∗ ∗2 ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

5 D2 = np . a r r a y ( [ [ ( ( X [ i ] ∗ X [ j ] ) ) .sum( ) f o r i i n r a n g e(l e n(X ) ) ]f o r j i n r a n g e(l e n(X ) ) ] )

(57)

Curse of dimensionality

Distance euclidienne Dim = 3

[ 0. 0.5 2. ] [ 0.5 0. 1.5]

[ 2. 1.5 0. ] Dim = 40

[ 0. 0.5 1.5 ] [ 0.5 0. 1.33]

[ 1.5 1.33 0. ] Dim = 1000

[ 0. 0.19 0.21]

[ 0.19 0. 0.13]

[ 0.21 0.13 0. ]

Produit scalaire (similarit´e cosinus) Dim = 3

[ 1. 0.5 0. ] [ 0.5 0.5 0. ] [ 0. 0. 1. ] Dim = 40

[ 0.5 0.16 0. ] [ 0.16 0.33 0. ]

[ 0. 0. 1. ]

Dim=1000

[ 0.14 0.01 0. ] [ 0.01 0.07 0.00]

[ 0. 0.00 0.07]

(58)

G´ en´ eralisation probabiliste CEM

I k clusters

I Proba a priori : πk =p(clusterk)

I Probabilit´e d’un mot dans un cluster : p(w_j|θk) =E_d_∈D_k[w_j]

I Affectation d’un document dans un cluster (hard assignment):

p(yi =k) = 1/0 yi = arg max

k p(di|θk) = arg max

k

X

wj∈di

logp(wj|θk)

y_i = arg max

k

X

j

t_ijθjk, θjk = logp(w_j|θk)

Algo:

Init. Param`etres OU affectation

C/E Calcul des affectations des documents M Mise `a jour des param`etres

(59)

PLSA

Probabilistic Latent Semantic Analysis

I Id´ee: CEM⇒EM (un peu plus complexe)

I Un mot appartient `a tous les clusters avec des probabilit´es

I Modélisation graphique (=comment sont générer les mots):

est une paire (d, w), c’est à dire l’occurrence jointe des deux évènementdetw.

Remarquons que cela contraste fortement avec la représentation vectorielle, où ce que nous entendons par ”observation” est l’observation d’un vecteur. En cen- trant ainsi la représentation des données sur la notion de co-occurrence plutôt que sur celle de vecteur, les données de co-occurrence permettent de modéliser de nouveaux phénomènes.

Les données textuelles se prêtent naturellement à une modélisation modéliser comme des données de co-occurrence. Les deux variables discrètes considérées sont un indicedidentifiant chaque document de la collection (d↵ {1, ..., D} ) et un indicew identifiant chaque mot de la collection (w↵ {1, ..., W}). La collection de documents est modélisée non plus comme un ensemble de vecteurs (où chaque vecteur représente un document), mais comme un ensemble de paires (d, w), où chaque paire est l’observation de la réalisation de l’indice de motwet de l’indice de documentd. Autrement dit ce n’est plus le document n’est plus au centre de la modélisation des données textuelles, mais la paire de co-occurrence entre un mot et un document.

3.2.2 Probabilistic latent semantic analysis

Le modèleprobabilistic latent semantic analysis(PLSA) [21] est un modèle standard de la littérature pour modéliser des données textuelles. C’est une extension probabiliste du modèle LSI [12]. Avec le modèle PLSA, une collection de documents est modélisée comme un ensemble de paires (d, w) oùd↵ {1, ..., D} est un indice de document etw↵ {1, ..., W}est un indice de mot. Chaque document est représenté par une distribution de probabilité sur lesK valeurs de la variable thématique latente , et chaque valeur de correspond à une distribution de probabilité sur l’ensemble des mots de la collection. Le processus génératif correspondant est le suivant :

– un documentdest tiré suivant la probabilitéP(d), – une thématique est tirée suivant la probabilitéP( |d), – un motwest tiré suivant la probabilitéP(w| ).

Le mod`ele graphique de PLSA est illustr´e dans la figure 1.

Apprentissage du modèle Les paramètres du modèleP(d),P( |d), etP(w| ) sont estimés suivant le principe du maximum de vraisemblance. La fonction de I On estime donc des matrices:

◦ p(d)

◦ p(α|d)

◦ p(w|α)

(60)

PLSA: algorithme

log-vraisemblance `a maximiser est :

L=

D

d=1 W

w=1

n(d, w)logP(d, w) (3)

La variable thématique n’étant pas observée, les paramètres du modèle sont estimés suivant la procédure Espérance Maximisation (EM) [14]. L’étape E consiste à estimer les probabilités a posteriori de la variable latente . La formule de mise à jour est :

P( |d, w) = P(d)P( |d)P(w| )

⌥

⇤AP(d)P( ^⇥|d)P(w| ^⇥)

L’étape M consiste à ré-estimer les paramètres du modèle, afin qu’ils maxi- misent l’espérance de la log-vraisemblance. Les formules de mise à jour corres- pondantes sont :

P(d) =

⌥

w⇤Wn(d, w)

⌥

d⇤D

⌥

w⇤Wn(d^⇥, w) P( |d) =

⌥

w⇤Wn(d, w)P( |d, w)

⌥

⇤A

⌥

w⇤Wn(d, w)P( ^⇥|d, w) P(w| ) =

⌥

d⇤Dn(d, w)P( |d, w)

⌥

w⇤W

⌥

d⇤Dn(d, w^⇥)P( |d, w^⇥)

Limites du modèle Comme nous l’avons souligné, le modèle PLSA représente chaque document comme une distribution de probabilité{p( = 1|d), ..., p( = A|d)}sur les thématiques. Les probabilités p( |d) sont autant de paramètres appris par l’algorithme EM décrit précédemment, et en particulier il n’y a pas de processus génératif pour modéliser ces probabilités. Cela a deux conséquences principales. Premièrement, le nombre de paramètres du modèle augmente linéairement avec le nombre de documents dans la collection, ce qui peut causer des problèmes de surapprentissage. Deuxièmement, les paramètresp( |d) ne peuvent être es- timés que pour des documents présents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est à dire de déterminer les paramètresp( |d^⇥) pour un documentd^⇥qui n’était pas dans la base d’apprentissage.

Remarquons également que le modèle PLSA n’est capable d’extraire qu’une liste ”plate” de thématiques. Or en pratique, il existe souvent des relations hiérarchiques entre les di⌅érentes thématiques présentes dans un corpus de documents. Une thématique générale sur le sport peut par exemple inclure plusieurs sous-thématiques relatives à des sports di⌅érents. Plusieurs travaux proposent de modéliser cet aspect hiérarchique entre les thématiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.

3.2.3 Extension de PLSA

Dans cette section nous présentons une extension du modèle PLSA proposée par [23]. Alors qu’avec PLSA les mots ne sont générés que par les thématiques,

I Expectation (proba des variables manquantes)

I Maximization

(61)

PLSA: algorithme

L=

D

d=1 W

w=1

P( |d, w) = P(d)P( |d)P(w| )

⌥

⇤AP(d)P( ^⇥|d)P(w| ^⇥)

P(d) =

⌥

w⇤Wn(d, w)

⌥

d⇤D

⌥

w⇤Wn(d^⇥, w) P( |d) =

⌥

⇤A

⌥

w⇤Wn(d, w)P( ^⇥|d, w) P(w| ) =

⌥

w⇤W

⌥

d⇤Dn(d, w^⇥)P( |d, w^⇥)

7

log-vraisemblance `a maximiser est :

L =

D

d=1 W

w=1

n(d, w)log P (d, w) (3)

La variable thématique n’étant pas observée, les paramètres du modèle sont estimés suivant la procédure Espérance Maximisation (EM) [14]. L’étape E consiste à estimer les probabilités a posteriori de la variable latente . La formule de mise à jour est :

P ( | d, w) = P (d)P ( | d)P (w | )

⌥

⇤A

P (d)P (

^⇥

| d)P (w |

^⇥

)

L’étape M consiste à ré-estimer les paramètres du modèle, afin qu’ils maxi- misent l’espérance de la log-vraisemblance. Les formules de mise à jour corres- pondantes sont :

P (d) =

⌥

w⇤W

n(d, w)

⌥

d⇤D

⌥

w⇤W

n(d

^⇥

, w) P ( | d) =

⌥

w⇤W

n(d, w)P ( | d, w)

⌥

⇤A

⌥

w⇤W

n(d, w)P (

^⇥

| d, w) P (w | ) =

⌥

d⇤D

n(d, w)P ( | d, w)

⌥

w⇤W

⌥

d⇤D

n(d, w

^⇥

)P ( | d, w

^⇥

)

Limites du mod` ele Comme nous l’avons souligné, le modèle PLSA représente chaque document comme une distribution de probabilité { p( = 1 | d), ..., p( = A | d) } sur les thématiques. Les probabilités p( | d) sont autant de paramètres appris par l’algorithme EM décrit précédemment, et en particulier il n’y a pas de processus génératif pour modéliser ces probabilités. Cela a deux conséquences principales. Premièrement, le nombre de paramètres du modèle augmente linéairement avec le nombre de documents dans la collection, ce qui peut causer des problèmes de surapprentissage. Deuxièmement, les paramètres p( | d) ne peuvent être es- timés que pour des documents présents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est à dire de déterminer les paramètres p( | d

^⇥

) pour un document d

^⇥

qui n’´etait pas dans la base d’ap- prentissage.

Remarquons également que le modèle PLSA n’est capable d’extraire qu’une liste ”plate” de thématiques. Or en pratique, il existe souvent des relations hiérarchiques entre les di⌅érentes thématiques présentes dans un corpus de docu- ments. Une thématique générale sur le sport peut par exemple inclure plusieurs sous-thématiques relatives à des sports di⌅érents. Plusieurs travaux proposent de modéliser cet aspect hiérarchique entre les thématiques. Citons notamment [18] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents.

3.2.3 Extension de PLSA

Dans cette section nous présentons une extension du modèle PLSA proposée par [23]. Alors qu’avec PLSA les mots ne sont générés que par les thématiques,

I Maximization

(62)

PLSA: algorithme

L=

D

d=1 W

w=1

P( |d, w) = P(d)P( |d)P(w| )

⌥

⇤AP(d)P( ^⇥|d)P(w| ^⇥)

P(d) =

⌥

w⇤Wn(d, w)

⌥

d⇤D

⌥

w⇤Wn(d^⇥, w) P( |d) =

⌥

⇤A

⌥

w⇤Wn(d, w)P( ^⇥|d, w) P(w| ) =

⌥

w⇤W

⌥

d⇤Dn(d, w^⇥)P( |d, w^⇥)

I Maximization

L=

D

d=1 W

w=1

n(d, w)log P(d, w) (3)

La variable thématique n’étant pas observée, les paramètres du modèle sont estimés suivant la procédure Espérance Maximisation (EM) [14]. L’étape E consiste à estimer les probabilitésa posteriori de la variable latente . La formule de mise à jour est :

P( |d, w) = P(d)P( |d)P(w| )

⌥

⇤AP(d)P( ^⇥|d)P(w| ^⇥)

P(d) =

⌥

w⇤Wn(d, w)

⌥

d⇤D

⌥

w⇤Wn(d^⇥, w) P( |d) =

⌥

⇤A

⌥

w⇤Wn(d, w)P( ^⇥|d, w) P(w| ) =

⌥

w⇤W

⌥

d⇤Dn(d, w^⇥)P( |d, w^⇥)

Limites du modèle Comme nous l’avons souligné, le modèle PLSA représente chaque document comme une distribution de probabilité{p( = 1|d), ..., p( = A|d)} sur les thématiques. Les probabilités p( |d) sont autant de paramètres appris par l’algorithme EM décrit précédemment, et en particulier il n’y a pas de processus génératif pour modéliser ces probabilités. Cela a deux conséquences principales. Premièrement, le nombre de paramètres du modèle augmente linéairement avec le nombre de documents dans la collection, ce qui peut causer des problèmes de surapprentissage. Deuxièmement, les paramètresp( |d) ne peuvent être es- timés que pour des documents présents dans la base d’apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c’est à dire de déterminer les paramètresp( |d^⇥) pour un document d^⇥qui n’était pas dans la base d’apprentissage.

(63)

PLSA: r´ esultats

Apprentissage Statistique P. Gallinari 155

PLSA as a graphical model

z

d z P z w P d

w P

d w P d P w d P

) ( ) ( )

(

) (

* ) ( ) , (

Boxes represent repeated sampling

d z w

Corpus level Document

level

P(z|d) P(w|z)

D N_d

PLSA geometric interpretation

• Topic_iis a point on the word simplex

• Documents are constrained to lie on the topic simplex

• Creates a bottleneck in document representation

Topic simplex

topic₂

topic₁

topic₃

w w

w₃ Word simplex

Document d

z

d z P z w P d w

P( ) ( ) ( )