Topic-modelling - Proposition de chaînage des connaissances historiques et patrimoniales Approc

Cette étape du processus est optionnelle mais fortement conseillée. Elle peut être employée avant ou après l’extraction de MWE. Après l’extraction d’expression-clés, on considère que les documents sont représentés par un vecteur d’expressions.

2.2.1 Objectif

Objectifs. Cette étape de préparation du corpus consiste à chercher des catégories latentes dans les pages du corpus. L’objectif est triple. (1) D’abord il s’agit de vérifier l’homogénéité du corpus. L’obtention d’un corpus homogène à moindre coût permet de diminuer le bruit des étapes suivantes. En effet à partir de la même page, les expressions extraites dépendent du contexte : les autres pages du corpus ou sous-corpus (voir section 3. Les pages d’un corpus homogène sont peu séparables en topics (figure 2.4b), voire tous les documents comportent une part égale de tous les topics (alors les topics sont peu séparables). Si le corpus n’est pas homogène (il existe des ensembles de documents presque disjoints) alors on sépare le corpus en sous-corpus homogènes avant de passer à l’étape suivante. On travaille alors séparément sur chaque cluster. Concrètement le clustering est conseillé quand le corpus dépasse 3.106mots et 200 pages (valeurs empiriques).

(2) Un objectif secondaire et complémentaire est de vérifier la qualité du corpus et éventuellement d’écarter les pages qui ne mériteraient pas de former un sous-corpus (hors-sujets), ou de repérer un topic de pages comportant une autre langue que le français ou l’anglais. (3) Le troisième objectif est de proposer un outil d’analyse à gros grain pour le corpus. En effet la contribution de chaque document à un topic et la définition de chaque topic en vecteur stochastique de lemmes peuvent produire une vue du corpus pour l’historien, améliorant sa compréhension, ou quantifiant des intuitions.

Choix d’une méthode. Les techniques de co-clustering sont jugées plus adéquates pour notre problème : vérifier la non- séparabilité des documents en topics malgré une séparabilité potentielle de topics (plusieurs topics distincts dans un document). Nous reprenons la notation décrite en état de l’art (section 4.2.3). À partir de notre matrice A, nous visons à obtenir un « topic- models » de 2 matrices de basses dimensionnalités : A ≈ H.W , avec W (n × k avec k << h) est une matrice page-topic et H (k × h) une matrice topic-lemmes (matrice des coefficients). Suite aux tests réalisés entre les 2 techniques les plus couramment utilisés : LDA et NMF, nous retenons la NMF. En effet cette technique permet un temps de traitement plus court et surtout, une meilleure séparabilité des topics, sans pour autant séparer les documents en topics. Ce choix pourrait être revu en fonction des avancées de l’état de l’art.

(a) Description des topics (ellipses) par des termes (caractères typographiques)

(b) Assignation des documents (numéros) dans des topics (ellipses)

FIGURE2.4 – Plusieurs topics (ellipses) aux termes (lettres à gauche) distincts peuvent être présent dans une même page (chiffres à droite). Par exemple la page 8 contient 2 topics bien distinct. À l’inverse des topics n’ayant aucune page commune peuvent partager des termes issus de plusieurs pages

2.2.2 Nombre de topics

Le nombre de topics cible est un hyper-paramètre. Demander un nombre trop élevé de topics implique la création de topics étriqués, aux contenus similaires, donc avec de fortes intersections. À l’inverse, demander un nombre insuffisant de topics implique la création de topics au contenu vague et hétérogène, qui sont en fait des regroupements de topics ou de parties de topics. Pour ces raisons, trouver le bon nombre de topics est un enjeu important et non-trivial. Des travaux récents proposent des méthodes pour aider à détecter le « bon » nombre de topics. Nous les présentons ci-après.

Stabilité. Le critère de stabilité proposé par Greene et al. (2014) suppose que retirer quelques pages du corpus n’affectera pas la définition des topics. D’autres travaux se concentrent sur la connectivité de la matrice page-topics (Brunet et al., 2004), ce qui implique l’hypothèse que les topics idéaux sont des topics de pages disjoints, c’est-à-dire que la matrice est initialement séparable. À l’inverse, la mesure de stabilité proposée s’intéresse à la définition des topics, la matrice topic-termes, ce qui suppose que les pages peuvent appartenir à plusieurs topics mais que ces topics doivent avoir un contour bien défini et stable.

Il propose alors une mesure de concordance entre les topics issus de 2 matrices topic-termes (voir équation 2.1). Cette mesure est l’Index de Jaccard moyen (AJ) sur la permutation optimale (π) maximisant l’Index de Jaccard entre les vecteurs topic-termes. En d’autre mot, il s’agit simplement de retrouver les paires de vecteurs topic-termes issus de 2 NMF et de calculer la variation moyenne.

La permutation optimale (π) (retrouver les paires de vecteurs) peut être trouvée rapidement en résolvant le problème des poids A1 A2 A3

B1 0.11 0.8 0.18 B2 0.58 0.15 0.07 B3 0.37 0.06 0.68

(a) Matrice des distances entre topics de 2 échantillons différents

t11 t12 t13 t21 0 0.74 0.11 t22 0.47 0.09 0 t23 0.26 0 0.61

(b) À chaque ligne puis colonne, soustraire la valeur minimale

t11 t12 t13

t21 0 0.74 0.11

t22 0.47 0.09 0

t23 0.26 0 0.61

TABLE2.1 – Exemple simple de la méthode hongroise. On note t1_ les topics issus du premier échantillonnage et t2_ ceux du second

minimaux (suffisant) pour créer un graphe biparti par la méthode Hongroise (Kuhn, 1955).

concordance(Hx, Hy) = 1 k k X i=1 AJ (Rxi, π(Ryi)) (2.1)

note : la formule originale de l’article est modifiée, car il semble qu’il y a une erreur : il s’agit de AJ (Rxi, π(Ryi) et non pas de

AJ (Rxi, π(Rxi).

Il propose alors de procéder comme présenté dans le pseudo-code 2.

kmin, kmaxsont les bornes du nombre cible de topics potentiels (définis par l’utilisateur)

Concrètement, les valeurs choisies sont souvent :

— τ le nombre de sub-corpus. τ =p(n) c’est-à-dire que le nombre de sub-corpus dépend du nombre de pages dans le corpus initial.

— β taux d’échantillonnage. β = 0.9

Algorithme 2 stabilité

1: générer τ sous-corpus (Ai; i ∈ [1, τ ]) composés de β.n pages ; β ∈ [0, 1]

2: pour k = kminto kmaxfaire

3: (H0,W0) ← NMF(A0)

4: pour i = 0 to τ faire 5: (Hi,Wi) ← NMF(Ai)

6: Si← concordance(H0, Hi) (voir eq. 2.1)

7: fin pour

8: Sk← moyenneτi=1(Si)

9: fin pour

10: choisir k qui maximise Sk : k ∈ [kmin, kmax]

— kmaxest toujours inférieure à n/4 et inférieure à 35 ; elle dépend des suspicions. Empiriquement kmax = 35 (35 sub-

division de corpus) est la limite de lisibilité.

Cette mesure peut être combinée avec d’autres mesures indépendantes, dans l’idée que l’intersection de plusieurs prédictions indépendantes est meilleure.

Divergence. La mesure proposée par Arun et al. (2010) suppose également que les topics doivent être définis par des ensembles de mots séparés, mais que les documents peuvent appartenir à plusieurs topics.

Il fait remarquer que si la matrice initiale contient uniquement le décompte des occurrences de chaque lemme dans chaque page (non-normalisée, donc non-stochastique) ; alors, la norme L1de chaque vecteur topic correspond à la proportion de chaque topic

dans le corpus. Cette proportion de topic dans le corpus est simplement comptée en quantité, en nombre de mots captés par chaque topic.

Il démontre que la séparation des vecteurs topic-termes est optimale lorsque les valeurs singulières de la matrice topics-termes (H) ont la même distribution que les normes euclidiennes (L2) des rangs de la matrice W . En effet lorsque les rangs sont bien

séparés, les vecteurs sont orthogonaux, alors les valeurs singulières (axes de l’hyper-ellipsoïde dans l’espace de projection) sont ces mêmes vecteurs.

En utilisant la divergence de KL symétrique, l’auteur propose alors de comparer deux distributions : CH : la distribution des valeurs singulières de H

CW : la distribution des valeurs normalisées du décompte de la proportion de chaque topic dans le corpus. Ce vecteur est calculé

par D ∗ W avec D un vecteur 1 × n contenant la longueur (en lemmes) de chaque document. Elle est proche de la norme L1de chaque vecteur topic.

Divergence = KL(CH||CW) + KL(CW||CH) (2.2)

Lorsque la divergence est la plus faible, c’est-à-dire lorsque la mesure proposée par l’équation 2.2 atteint un minimum alors on obtient la valeur optimale du nombre de topics. En effet, si la matrice initiale n’est pas aléatoire, alors lorsque le nombre optimal de topic est atteint, la divergence augmente. Ceci est dû au fait que la valeur de CW devient pénalisante, ajoutant un bruit

correspondant aux probabilités (faibles mais non-nulle) que des (nombreux) lemmes soient constitutifs de plusieurs topics. Concrètement cette mesure est moyennée sur plusieurs runs (entre 5 et 10) de la NMF pour chaque valeur de k topics cibles prévue dans l’intervalle (kmin, kmax).

Exemple d’application. Grâce aux méthodes précédemment énoncées, le nombre de topics cible idéal peut être déterminé. En effet, la complémentarité entre les mesures de stabilité et de divergence est souvent discriminante pour une valeur de k topics Déjà une première analyse distant reading peut être développée à partir des résultats de ces mesures. Un arbitrage humain entre la plus forte stabilité et la plus faible divergence est souvent nécessaire, plusieurs solutions sont parfois possibles. La figure 2.5 montre un exemple de mesure de stabilité et de divergence en fonction du nombre de topics. Dans ce cas il s’agit du corpus des expertises de l’ICOMOS relatifs à l’inscription des sites du patrimoine mondial de l’UNESCO. Ce corpus contient 1063 documents après un filtrage des documents anciens dont le contenu texte n’est pas accessible ou de très mauvaise qualité (OCR) ainsi que des documents bilingues. L’interprétation des figures 2.5 montre clairement que le nombre de topics cible doit être 8 ou 9. Pour les départager, on pourra regarder en détails les topics et identifier qualitativement si les lemmes définissant les topics sont plus cohérents avec 8 ou 9 topics.

2.2.3 Sparseness : les matrices creuses

Le corpus est une matrice de pages-lemmes, filtrée telle que décrite en section 2.1.3. On calcule que cette matrice est toujours très creuse. En effet, la sparsité est toujours supérieure à 0.4 et souvent à 0.6 d’après la mesure de Hoyer (2004) (voir equation 2.3). Cette mesure indique combien l’information est concentrée dans un nombre réduit de dimensions seulement. La figure 2.6a montre un vecteur pour lequel l’information est équitablement répartie sur ses 13 dimensions, tandis que pour le

FIGURE2.5 – Stabilité pour un nombre de topics compris entre 2 et 35 ; corpus des expertises de l’ICOMOS

(a) Sparseness = 0.1 (b) Sparseness = 0.4 (c) Sparseness = 0.7 (d) Sparseness = 0.9 FIGURE 2.6 – Représentation des valeurs (ordonnée) sur les 13 dimensions (abscisse) de 4 vecteurs ayant une sparseness très différente

vecteur représenté en 2.6d, presque toute l’information est contenue dans 2 dimensions seulement. Dans le cas d’une forte sparseness, on parle de matrices creuses (avec beaucoup de zéros). La sparsité d’une matrice correspond à la sparsité de ses vecteurs colonnes. La sparsité d’un vecteur X (un document) comportant n dimensions (lemmes) est donné par :

sparsness(X) =       √ n − n P i=0 |Xi| s n P i=0 X2 i       ×√ 1 n − 1 (2.3)

La sparsité des résultats de la NMF peut également servir d’indicateur, mais souvent elle est difficile à interpréter. On remarque néanmoins sur la figure 2.7 que la valeur de la répartition des pages en topics change de variation vers 8 ou 9 topics. Au-delà les topics ne séparent pas mieux les pages, mais ce n’est pas notre objectif. Sur cette figure (2.7) on note également que la

FIGURE2.7 – Sparseness des matrices produites par la NMF

séparabilité des topics en termes n’est pas excellente. Empiriquement cette valeur est toujours inférieure à celle de la sparseness de la matrice W . Une interprétation serait que la bonne séparabilité des pages en topics est artificielle puisque les topics restent similaires (partagent de nombreux mots).

2.2.4 La factorisation

La factorisation à proprement parler est réalisée par une implémentation de l’algorithme de Shahnaz et Berry (2006), qui reprend l’algorithme de mise à jour des multiplications (voir section 4.2.3) avec une contrainte de pénalité sur la non-sparsité de la matrice H. Dénommée algorithme du gradient avec une contrainte sur les moindre carrés (GD-CLS), cette méthode prend pour objectif la sparsité de la matrice H, ce qui a pour conséquence d’améliorer (densifier) la localisation des topics dans les pages(matrice W ).

FIGURE2.8 – Schéma SADT décrivant les activités contenues dans l’activité A2 : Extraction d’expressions-clés

3 Extraction d’expressions-clés

Choix. L’extraction de termes clés ou MWE a été étudiée en section “Extraction de terminologie” (4.1.1). De nombreux algo- rithmes existent, pour le français peu sont tolérants aux variations de composants : les skip-grams. Ici, nous visons les spécificités intra-corpus via l’extraction de MWE discriminants des sous-parties de corpus. Nous nous intéressons aux composants de liens thématiques latents qui lient les documents. Nous avons besoin d’une certaine flexibilité pour la construction des MWE : les skip-grams au moins. Les méthodes par apprentissage supervisé doivent être évitées. Les déterminants de l’extraction doivent être limités et internes au corpus, par exemple, aucun pré-conçu sur la forme grammaticale des MWE ou les éventuelles imprécisions du marqueur de PoS tagger ne doivent pas déterminer les extractions. Les résultats présentés par l’algorithme ANA (Enguehard et Pantera, 1995) était le plus précis sur le corpus de test, l’approche type « apprentissage automatique » semblait intéressante et prometteuse, notamment pour la grande flexibilité de longueur des skip-grams. La terminologie extraite était faiblement ambiguë car très orienté MWE.

Dans le document Proposition de chaînage des connaissances historiques et patrimoniales Approche multi-échelles et multi-critères de corpus textuels (Page 75-79)