• Aucun résultat trouvé

3.2 L’allocation latente de Dirichlet

3.2.2 Présentation de notre approche

(3.6) L’apprentissage des paramètres (différentes variables aléatoires latentes) des mo-dèles graphiques probabilistes [Koller 2009] se fait par différentes méthodes comme l’algorithme de maximisation de l’espérance, les méthodes variationnelles (voir sous-section B.1.1) ou encore des algorithmes de simulation par chaîne de Markov avec des méthodes de Monte-Carlo (MCMC pour Monte-Carlo Markov Chain) ainsi que par l’algorithme de l’échantillonnage de Gibbs.

Nous utiliserons dans nos travaux l’algorithme de Gibbs pour sa capacité de si-mulation de distributions multidimensionnelles, ce qui fait de lui le candidat parfait pour calculer l’a posteriori d’un modèle bayésien hiérarchique. De plus, l’algorithme de Gibbs est un algorithme probabiliste par opposition par exemple à celui de la maximisation de l’espérance qui est déterministe. Cela revient à dire que nous adop-tons une stratégie où nous calculons une solution approximativement correcte en un temps réduit plutôt que de calculer une solution exacte en un temps arbitrairement lent. Enfin, l’échantillonnage de Gibbs est adapté à notre approche qui est fondée sur le modèle de l’allocation latente de Dirichlet qui est également probabiliste.

3.2.2 Présentation de notre approche

L’allocation latente de Dirichlet (LDA) de [Blei 2003] est un modèle probabiliste génératif, construit pour des collections de groupes de données à caractère discret. Chaque groupe est considéré comme un mélange aléatoire d’un ensemble de thèmes dits latents. Chaque thème est une distribution de probabilités sur le vocabulaire de la collection de documents. LDA étant applicable sur toute collection de données à caractère discret, nous utiliserons le modèle dans le cadre du traitement automati-que/statistique du langage naturel (NLP).

Nous nous référons à la collection de documents comme corpus et aux données comme des mots. LDA est un modèle de mélange de distributions dont l’hypothèse principale sur les données est que ces dernières sont générées à partir d’un mélange

wd,n z θθθd φ φ φk α β mots n documents d thèmes k

Figure 3.3 – Illustration du réseau bayésien de l’allocation latente de Dirichlet, les variables observées sont en gris, ici les mots wd,n.

de distributions, et non pas d’une seule distribution.

Le modèle probabiliste génératif de LDA est utilisé pour l’apprentissage non supervisé des variables latentes qui sont, le thèmez affecté au mot w, la distribution θd des thèmeszd dans chaque document et enfin la distribution φk des mots dans chaque thèmez. Ces variables aléatoires font partie d’un modèle génératif structuré avec les réseaux bayésiens.

(a) (b) (c)

Figure 3.4 – (a) Distribution presque uniforme de Dirichlet avec ααα = {0.99, 0.99, 0.99}. (b) Distribution symétrique de Dirichlet quand ααα → ∞ avec α

α

α ={50, 50, 50}. (c) Distribution asymétrique de Dirichlet ααα ={15, 2, 5}

Le modèle génératif de LDA illustré dans la figure 3.3 décrit la distribution jointe de l’équation 3.6 qui est un mélange des dépendances conditionnelles entre les différentes distributions de probabilités qui sont θd et φk. Chaque document d a différentes proportions de thèmes qui sont représentées par la distribution θd. À chaque position dans le document d, un thème z est échantillonné à partir de θd. Enfin un mot est choisi en fonction de la distribution des motsφk dans le thème z. Les deux distributionsθdetφksont représentées par deux distributions de Dirichlet avec α et β comme hyper-paramètres.

Définition 3.2 (Distribution de Dirichlet). Soientα1, α2, ..., αK des réels tous stric-tement positifs. Une distribution de Dirichlet d’exposants α1, α2, ..., αK (également

appelés les hyperparamètres) possède une densité de probabilité de la forme sui-vante : Dir(θθθ|ααα) = 1 B(ααα) K Y k=1 θαk−1

Cette densité de probabilité est définie sur le domaine du simplexe, i.e., l’ensemble des vecteurs sont définis tel que 0≤ θk≤ 1 et PKk=1θi = 1.

et oùB(α1, α2, ..., αK) est la généralisation de la fonction beta2de deux variables à K variables (voir annexeB.1.1) :

B(ααα) := QK i=1Γαi Γ(α0) où α0 :=PK i=kαk.

etΓ est la fonction Gamma, qui satisfait Γ(x + 1) = xΓ(x) et Γ(1) = 1.

Nous utiliserons dans nos travaux sur la catégorisation de textes des a priori modélisés par distributions de Dirichlet symétrique, avec α et β ayant une seule valeur. Les hyper-paramètres α et β spécifient la nature des a priori sur θd et φk. L’hyper paramètreα peut être interprété comme une observation a priori sur la taille du mélange des thèmes dans un documentd [Steyvers 2007]. L’hyper paramètreβ à son tour peut être interprété comme une observation a priori sur la taille du mélange des motsw dans un thème z [Steyvers 2007,Minka 2000].

LDA et les hyper-paramètres. Le choix de la distribution de Dirichlet est basé sur deux axes : le premier est que la distribution de Dirichlet est une distribution de probabilités sur des proportions multinomiales. C’est-à-dire au lieu de tirer di-rectement X (e.g. mots) de la distribution ααα (e.g. thème), on injecte un a priori avec un choix de α1, α2, ..., αK. L’a priori de Dirichlet nous dicte le choix de la distributionααα la plus probable de générer X. Le deuxième axe est que le choix des hyper-paramètres α joue le rôle de régulateur pour éviter le sur-apprentissage, par exemple dans la figure3.4ααα < 1 nous donne une distribution uniforme des propor-tions. Par exemple, dans le modèle LDA, une valeur deααα > 1, résulterait dans une taille plus grande du mélange de thèmes dans un document. Une forte valeur de βββ, résulterait dans une taille plus importante du mélange de mots dans un thème. C’est-à-dire, que le thème en question pourra comporter presque tous les mots du vocabulaireV de la collection de documents.

La partie graphique de la figure3.3est représentée par un graphe dont les som-mets (i.e. noeuds) sont des variables aléatoires X = X1, ..., Xn. La disposition des sommets dans la structure imposera des contraintes sur leurs dépendances (définition

B.2) permettant de ce fait une factorisation de la distribution jointe en un produit de facteurs. Cette factorisation permet d’écrire la distribution jointe (e.g. équation

3.6) de façon malléable ne faisant intervenir qu’un petit nombre de variables. Une

écriture plus simple (i.e courte) de la distribution jointe permet d’utiliser des algo-rithmes plus performants et plus rapides comparés à la palette d’algoalgo-rithmes que l’on peut utiliser sur des écritures plus formelles et plus longues [Koller 2009].

Avec l’utilisation du réseau bayésien illustré dans la figure3.3 il est possible de réécrire la distribution jointe de l’équation3.6 comme suit :

p(θ, φ, z|w, α, β) = p(θ, φ, z, wp(w, α, β)|α, β) (3.7) Avec l’équation 3.7, il y a une translation de la problématique de la détection de thème vers une problématique d’inférence bayésienne où il s’agit de calculer la distribution a posteriori p(θ, φ, z|w, α, β) (se référer à l’annexe B.1.1 pour un rappel sur le raisonnement bayésien). Ceci revient à inverser le processus génératif et apprendre les quantités latentes décrites dans le modèle en tenant compte des données observées.