Analyse des images de textes - Analyse de textes dans le cadre des humanités computationnelles

2.4 Analyse de textes dans le cadre des humanités computationnelles

2.4.2 Analyse des images de textes

Signal 38 40 96 190 45 79 146 186 159 182 200 182 184 196 188 194 (a) (b)

Figure 2.2 – (a) Exemple d’une page d’un manuscrit ancien écrit dans le script éthiopien. (b) L’interprétation numérique de l’image par l’ordinateur. La matrice des valeurs correspond à l’intensité des pixels dans le petit cadre en rouge de l’image (a).

Le domaine de l’analyse des images des documents est à mi-chemin entre la reconnaissance de formes et l’analyse des images. Le sujet de la deuxième partie de la thèse porte sur la reconnaissance des scripts ou langues écrites. Les images de textes sont divisées en des petites régions qui peuvent être de différentes tailles, se trouvant à des coordonnées aléatoires sur l’image. Un exemple d’une de ces régions est représenté par le petit carré rouge illustré dans la figure (a)2.2. L’interprétation numérique de la région qui correspond au carré rouge est illustrée dans la figure (b)

2.2, où les différentes valeurs correspondent à l’intensité des pixels de cette région. Nous appliquerons une suite de transformations linéaires sur les valeurs numé-riques de la figure (b) 7.3pour obtenir une autre suite de valeurs qui correspondra aux changements de la luminosité, du contraste ou d’autres caractéristiques. Nous utiliserons ces caractéristiques pour discriminer les régions qui contiennent un script c donné avec une forte probabilité présentée sous la forme suivante p(y = c | x) où x est le vecteur de caractéristiques. Le défi consiste à trouver le vecteur de caracté-ristiques qui nous donne une représentation effective de l’image et un bon taux de justesse dans les résultats de discrimination.

Figure 2.3 – Exemple des différentes variations manuscrites du chiffre 3 issu du jeu de données MNIST

Un exemple de jeu de données classique qui est utilisé dans la littérature et connu sous le nom de MNIST (pour Modified National Institute of Standards). MNIST est un jeu de données constitué des dix chiffres manuscrits, avec 60,000 images

consacrées à la phase d’entraînement et 10,000 images gardées pour la phase de test. Ce dernier a été introduit dans les travaux de [Lecun 1998b] sur la reconnaissance de l’écriture. Dans le cas des algorithmes entrainés sur MNIST, il s’agit de reconnaître les chiffres. Dans la figure2.3, nous avons illustré un exemple de quatre différentes écritures du chiffre 3.

MNIST est un jeu de données qui a été standardisé (i.e. les chiffres sont centrés, et la taille de l’image est la même,28×28 px). Dans cette thèse, nous nous intéresserons à l’inverse des jeux de données brutes où il n’y a pas eu d’intervention humaine, par exemple les images des documents anciens.

Nous abordons en effet dans la deuxième partie de cette thèse la problématique de l’identification des scripts dans les manuscrits anciens. Nous testons les réseaux de neurones comme des outils nous permettant d’apprendre les caractéristiques du tracé des scripts pour mieux les identifier au sein d’une image d’un texte sans traite-ment préalable. En particulier, nous souhaitons exploiter les dernières avancées des réseaux de neurones pour apprendre de manière non supervisée une représentation alternative des données en entrées et exploiter cette représentation au sein de la tâche de l’identification des scripts.

Nous proposons au sein de cette thèse un ensemble d’algorithmes d’apprentis-sage supervisé et non supervisé pour l’approche des problèmes dans le contexte des humanités computationnelles comme celui du traitement des textes numériques et numérisés sous forme d’images de documents. L’objectif est de fournir a posteriori une palette d’outils aux chercheurs en humanités numériques.

Analyse automatique des textes

numériques pour la classification

Structuration thématique des

corpus de textes

Résumé : Nous abordons le problème de la classification des textes avec la méthode LDA, allocation latente de Dirichlet. Cette méthode due à [Blei 2003] est décrite par un mélange de distributions multinomiales qui correspondent à la distribution des mots dans les thèmes et la distribution des thèmes dans les documents. LDA est un modèle génératif : chaque distribution est reliée à une autre par un lien de parenté, l’ensemble est ainsi décrit dans un réseau bayésien. Dans ce réseau, chaque distribution est représentée par une variable aléatoire qui peut être latente ou observée. Les variables latentes sont calculées par une approximation fondée sur les variables observées. Ce modèle génératif nous permet d’éviter la manipulation de matrices creuses de grandes dimensions sur laquelle le temps d’exécution des algorithmes de classification serait prohibitif. La première étape du travail consiste à calculer les thèmes qui sont présents dans la collection de textes. Un thème est représenté par une variable latente dans LDA. Nous avons donc implémenté l’échantillonnage de Gibbs qui est un algorithme d’approximation. Notre implémentation permet de calculer la distribution des mots dans les thèmes et la distribution des thèmes dans les documents. La seconde étape consiste à rapprocher les documents selon les thèmes qu’ils contiennent afin de les classifier. Pour ce faire, nous avons besoin d’obtenir une représentation flexible et opérationnelle de la proximité, ce qui nous a ramenés à introduire la prétopologie. Nous faisons dans ce chapitre des rappels nécessaires et ciblés pour notre cadre de travail. En effet, un espace prétopologique pour les documents est construit en utilisant une collection de relations binaires où le calcul des "fermés" permet de structurer cet espace selon les thèmes qu’ils partagent.

Nous nous plaçons dans le cadre de la classification des documents. Les parties présentées correspondent à une introduction conceptuelle et méthodologique des travaux de classification de textes que nous allons aborder dans les chapitres 4 et 5. L’intérêt de ces travaux consiste à : (i) organiser des documents donnés pour faciliter la recherche d’informations, (ii) générer automatiquement des résumés (iii) catégoriser les documents dans une structure définie, par exemple une archive web ou une hiérarchie de catégories partant de la plus générale vers la plus particulière. Afin de procéder à la classification, les textes sont représentés numériquement par les occurrences des mots qu’ils contiennent. La dimension de cette représentation est importante ; cependant, elle est creuse car un document ne peut contenir qu’un nombre réduit de mots qui sont tirés du lexique de toute la collection, nombre qui par exemple peut être de l’ordre de 10⁷. Cette problématique est mise en exergue

dans le cas des textes provenant des échanges sur les réseaux sociaux. Par exemple, dans le cas de Twitter les documents ne dépassent pas 140 caractères.

Nous utilisons dans nos travaux une méthode probabiliste pour décomposer la représentation initiale de la collection de documents en un ensemble de variables latentes. Ces variables latentes peuvent être considérées comme des portraits-robots de la représentation initiale, ils nous permettent de répondre au problème de la di-mensionnalité déjà évoqué. En pratique, ces portraits-robots ou variables latentes correspondent aux thèmes des différents textes. Ils nous permettent de construire un espace sémantique où les documents peuvent être rapprochés par leur proximité thématique à condition de définir une distance appropriée et un voisinage. Nous utilisons pour cela la prétoplogie un affaiblissement de la topologie. La prétopolo-gie est un outil de modélisation du concept de proximité dans les espaces discrets [Belmandt 2011]. Dans notre cas c’est l’espace sémantique composé d’un ensemble de documents.

Ce chapitre est organisé comme suit. Dans la première section, nous positionnons la problématique de la classification de documents par rapport à l’état de l’art. Dans la seconde section, nous détaillons la méthode utilisée pour la réduction de la matrice en composantes latentes (i.e. décrit par interdépendance avec d’autres variables). Enfin, dans la troisième section, nous présentons notre méthodologie pour modéliser la notion de voisinage.

3.1 Le problème de la classification des textes

La catégorisation ou classification automatique des textes est l’investigation par ordinateur des propriétés linguistiques des caractères ASCII qui forment le contenu textuel d’un document numérique. Dans le cadre de l’apprentissage automatique, nous nous référons à la littérature du traitement statistique du langage "naturel" (Natural Langage Processing, NLP) [Manning 2008].

Le processus de classification d’une collection de textes consiste à étiqueter chaque texte avec une ou plusieurs classes (catégories) prédéfinies. Dans ce pro-cessus, un algorithme est d’abord conçu, puis il est entraîné avec un ensemble de caractéristiques spécifiques, par exemple les occurrences de mots ou encore les dis-tributions de thèmes dans un document. Une fois entraîné, l’algorithme est utilisé pour étiqueter de nouveaux textes. Ces derniers sont différents des textes utilisés lors de l’entraînement. L’algorithme est évalué sur le nombre d’erreurs de classification obtenu lors de la phase d’apprentissage et lors de la phase de test (voir section2.2). Lors de l’entraînement de l’algorithme de classification, la phase d’extraction des caractéristiques utilisées pour l’apprentissage est cruciale. Les caractéristiques extraites à partir des textes sont typiquement issues d’un espace vectoriel de grande dimension. Cet espace est construit avec une modélisation vectorielle des mots à l’aide de la sémantique distributionnelle [Harris 1954].

Une fois les caractéristiques extraites, plusieurs algorithmes d’apprentissage (voir [Aggarwal 2012b]) peuvent être utilisés pour la classification automatique de textes,

pour citer les plus connus : algorithme de Rocchio’s, méthode des K plus proches voisins, classification naïve bayésienne, les arbres de décision, les séparateurs à vastes marges (SVM), les forêts aléatoires.

Nous abordons ci-après la représentation numérique d’une collection de docu-ments sous la forme d’une grande matrice creuse. En premier lieu, nous présente-rons les méthodes qui utilisent l’espace vectoriel issu de la matrice. En second lieu, nous détaillerons les méthodes probabilistes utilisées qui nous évitent une interaction directe avec la matrice creuse de grandes dimensions.

Dans le document Classification du texte numérique et numérisé. Approche fondée sur les algorithmes d'apprentissage automatique (Page 37-44)