• Aucun résultat trouvé

8.1 Conclusion

Cette thèse était dédiée à la tâche de la classification des textes saisi sur un or-dinateur (numérique) ou écrit à la main et ensuite numérisé dans une image. Dans les deux cas, nous avons représenté les textes par une matrice à grande dimension. Nos contributions présentées sous la forme d’algorithmes s’attaquent à deux problé-matiques : la réduction de la dimension de la matrice en des composantes caracté-ristiques et l’utilisation des composantes extraites pour améliorer les performances de la tâche de classification.

Nous avons consacré la première partie de la thèse aux textes numérique. Pour réduire la dimension de la matrice de co occurrences nous avons construit un es-pace sémantique latent, à partir d’un corpus de texte, où nous avons représenté les documents par des vecteurs de probabilités. Nous avons par la suite proposé deux méthodes de classification. Nous avons expliqué cette approche conceptuelle dans le chapitre 3.

Afin de suivre la dynamique des thèmes dans le corpus, nous avons besoin d’un algorithme de classification qui intègre à la fois les thèmes majeurs et les thèmes sus-ceptibles de l’être. La première méthode de classification, présentée dans le chapitre 4, permet donc de regrouper les documents selon deux critères. Le premier est qua-litatif et il est représenté par les thèmes majeurs dans la collection des documents. Le deuxième est quantitatif et il est représenté la distance entre la distribution des thèmes dans chaque document de la collection. Au sein de cette méthode, nous avons procédé à l’analyse de la structure de l’espace sémantique latent à l’aide des axiomes de la prétopologie. Ceci nous a permis de fournir, à la première méthode de classification, le nombre de classes ou groupes ainsi que leurs centroïdes respectifs. La méthode que nous avons développée, dans le chapitre 4, nous évite une initialisa-tion aléatoire de ces paramètres et nous permet d’obtenir une meilleure qualité dans les regroupements de documents. Le suivi dynamique des thèmes dans le corpus nécessite la gestion du passage à l’échelle. Nous avons proposé une implémentation

informatique pour distribuer le calcul de l’allocation latente de Dirichlet sur une grille d’ordinateurs.

Dans le chapitre 5, nous avons adressé la problématique de l’archivage des docu-ments textuels en prenant en compte la structure thématique des docudocu-ments. Ceci a un effet direct sur la phase de la recherche, les documents que l’algorithme a archivés automatiquement au travers une hiérarchie de catégories, sont accessible par des re-quêtes comportant les thèmes et non pas de simples mots clés. Pour mener ce travail, nous avons développé une version semi-supervisée de l’algorithme de l’allocation la-tente de Dirichlet et avons combiné sa sortie à l’algorithme des forêts aléatoires. Le résultat de ce mélange est un algorithme de classification capable d’archiver un document dans une hiérarchie de catégories qui commence par les catégories les plus générales vers les catégories les plus particulières.

Nous avons consacré la deuxième partie de la thèse aux textes numérisés. La tâche était de classifier des manuscrits selon le script (langue écrite) qu’ils continent et ce à partir d’une matrice de pixel qui représente l’image. Pour réduire la dimension de la matrice de pixels, nous avons appliqué trois principaux types de filtres pour faire émerger les composantes les plus caractéristiques. Ces composantes sont comme des profils du tracé du script et elles caractérisent soit la direction du tracé, la largeur ou le contraste. Notre approche consistait à prendre l’image de la page du document dans sa globabilité et à extraire des profils qui mélangent les caractéristiques du tracé. Mais aussi, celles de l’environnement où il se trouve par exemple, la qualité du papier, les images, et différents artefacts.

Afin d’extraire des profils mélangeant les caractéristiques du tracé aux caracté-ristiques de son environnement c’est-à-dire la page, nous avons utilisé les réseaux de neurones de types auto-encodeurs. Les auto-encodeurs nous fournissent des ca-ractéristiques qui sont issues de la représentation non supervisée qu’ils se font du signal. Dans le chapitre 7, nous avons mené une étude empirique où nous avons établi une comparaison avec les caractéristiques extraites avec l’algorithme HOG (en anglais Histogram Oriented Gradient) qui détermine la direction du tracé. Ces caractéristiques sont déterminées par des algorithmes conçus par des experts. Les ca-ractérstiques extraites par les architectures de réseaux de neuronnes que nous avons développé nous ont donné des résultats comparables aux caractéristiques HOG à hauteur de 89% de taux de justesse.

8.2 Perspectives

Deux directions sont esquissées pour nos travaux futurs.

Utilisation des réseaux de neurones récurrents

Dans la première partie de cette thèse, nous avons utilisé des modèlesn− gram pour approcher la problématique de la catégorisation des textes numériques. Comme ce type de modèle nécessite une décomposition du texte en terme unique, son appli-cation sur des langues non latines peut devenir problématique. Notamment, à cause

de la différence morphologique qu’il peut y avoir avec d’autres langues (e.g. l’arabe et ses différents dialectes).

Des travaux précédents ont montré le potentiel des modèles à caractères (charac-ter language model en anglais) et performances supérieures aux modèlesn− gram. Ce type de modèle peut être appliqué à n’importe quelle langue ou langage écrit par l’utilisation d’un alphabet et ne nécessite pas l’utilisation de termes uniques. Parmi ce type de modèles, les réseaux de neurones récurent de type LSTM ( pour Long Short Term Memory) sont d’un intérêt particulier pour nous. Car mal exploité dans l’état de l’art ils peuvent apporter des solutions intéressantes pour l’identification des dialectes arabes.

Utilisation de la fonction Relu et les réseaux de neurones résiduels En vue des récents résultats obtenus avec des architectures plus profondes 100 à 1000 couches, nous souhaitons dans des travaux futurs explorer ce terrain. Ceci nécessiterait l’utilisation de la fonction Relu au lieu de la fonction softsign. La fonc-tion Relu permet d’éviter l’explosion du gradient ou qu’il atteigne une valeur nulle. Les réseaux à plus d’une centaine de couches ont été récemment étudiés dans les travaux de [He 2015].

Les sujets de nos futurs travaux sont :

— La détection des passages parallèles dans un texte.

— L’identification des auteurs d’un manuscrit avec les auto-encodeurs et les méthodes variationnelles.

— Extraction des lignes dans les manuscrits avec une modification du seam carving.

Les défis de l’apprentissage

automatique

A.1 Apprentissage supervisé

La situation où se situe l’apprentissage supervisé est la suivante : face à une quantité de données qui est finie, nous souhaitons avoir la capacité d’induire une hypothèse optimale avec un algorithme d’apprentissage s’exécutant en un temps po-lynomial. Une hypothèse optimale doit être capable de recréer la catégorisation des donnéesX d’apprentissage avec une erreur minimale et généraliser son apprentissage au niveau des conceptsY avec une erreur minimale. Selon la nature des concepts Y la tâche de catégorisation est appelée classification ou régression. Nous limiterons notre synthèse, dans ce chapitre, aux problèmes de classification à deux classes. Il est à noter que les notions étudiées sont extensibles aux cas de plusieurs classes ou dans le cas de variables continues à la régression.

Définition A.1 (Classification). La classification est une opération qui consiste à associer à un ensemble de donnéesXi, 1≤ i ≤ N un ensemble de labels Yi, 1≤ i ≤ N où chaque label est relatif à une classe. Par exemple, un classifieur binaire h est définit de la façon suivante h : Xi, 1 ≤ i ≤ N → {−1, +1}, la sortie de h est qualitative.

Définition A.2 (Regression). La régression est une opération qui consiste à associer un ensemble de données Xi, 0 ≤ i ≤ N à un ensemble de sorties quantitatives Yi, 0 ≤ i ≤ N où Y ∈ R. Par exemple, prédire la température ou la valeur d’une action en bourse qui sont souvent des variables décrites par un nombre réel. L’analyse de la régression est souvent faite sur une erreur quadratique.

La problématique avec la configuration que nous venons de décrire est la sui-vante : nous n’avons pas de connaissance sur la provenance exacte de X et nous n’avons pas la liste des règles à utiliser pour faire apprendre à la machine et lui donner les moyens de reconnaitre les liens insoupçonnés avec les concepts Y. La solution au problème de l’apprentissage, c’est d’abord d’avoir une configuration pro-babiliste de l’environnement où l’on souhaite que notre machine apprenne. Ensuite, d’approcher le vrai modèle d’apprentissage par l’optimisation d’un modèle approxi-mativement vrai.

Dans ce qui suit, nous décrirons d’abord en nous basant sur une taxonomie dé-taillée issue de l’état de l’art, la configuration où l’on va situer la problématique du

modèle d’apprentissage. Nous présenterons ensuite, la transformation de la problé-matique d’origine en une probléproblé-matique d’optimisation. Nous discuterons enfin, de la faisabilité de l’apprentissage ce qui introduira le besoin des formalismes que l’on présentera par la suite.

f :X → Y Espace d’hypoth`esesH Hypoth`ese cible f Algorithme d’apprentissage Hypoth`ese finale h h :X → Y Distribution de probabilit´e Donne´es d’apprentissage P∗surX XN 1 ={x1, . . . , xN} (XN 1,YN 1)

Figure A.1 – Diagramme qui décrit le processus de l’apprentissage statistique. Diagramme inspiré des cours du Prof. Yasser Abu Moustafa

Nous nous situons dans le cadre de l’apprentissage supervisé dont le processus est décrit dans le diagramme illustré dans la figure A.1. Ce diagramme est présenté pour introduire un ensemble de taxonomies auxquelles nous nous référerons dans les parties suivantes de ce chapitre.

Nous cherchons à inférer un lien fonctionnel entre les donnéesX et les concepts Y. Nous nous munissons pour cela d’un échantillon d’apprentissage constitué de la paire (XN

1 ,YN

1 ). L’échantillon XN

1 ={x1, . . . , xN} est produit par une distribution P qui nous est inconnue. Le lien entre l’échantillon d’exemples XN

1 et les concepts qui leur sont associés YN

1 , est donné par l’hypothèse cible, appelée aussi oracle ou superviseur. La fonction cible nous est aussi inconnue.

La recherche du lien fonctionnel se fait par apprentissage où un algorithme est entrainé avec des paires (XN

1 ,YN

1 ). Le but est de trouver l’algorithme d’apprentis-sage capable de nous fournir une hypothèse finale h issue de l’espace d’hypothèses H. L’hypothèse h doit être capable de fournir la meilleure reproduction des asso-ciations X → Y issues de la fonction cible f. La recherche de la meilleure approxi-mation de la fonction cible f dépend de trois facteurs essentiels : la structure de l’espace d’hypothèse H, la structure de l’échantillon d’apprentissage et les critères avec lesquels nous évaluerons l’hypothèse finale h.

configuration probabiliste

Étant donné que, nous n’avons aucune information sur la provenance de X et Y, et que nous voulons éviter de poser des hypothèses fortes sur la provenance de la fonction cible f pour ne pas affecter l’apprentissage. Nous travaillerons dans un environnent probabiliste en supposons une certaine incertitude à propos des données d’apprentissage constituées de la paire(X , Y).

P(x, y) = PY|X(y|X = x)PX(x) (A.1) Sous cette configuration probabiliste, l’échantillon d’exemples(XN

1 ,YN

1 ) qui sert à l’entraînement, est tiré avec la distribution P(x, y), et est considéré comme une variable aléatoire (X, Y ). La distribution jointe P(x, y) est inconnue, où PY|X est

la distribution conditionnelle de Y et PX est la distribution marginale sur X (P dans la figure 2.1). L’algorithme d’apprentissage doit fournir l’hypothèseh optimale qui fournira la meilleure reproduction des associationsX → Y. Nous introduirons pour ce fait, un risque relatif au choix de h par rapport à d’autres hypothèses dans H.

Risque

Le but ici est de définir un critère d’évaluation et de l’optimiser afin d’augmenter la qualité d’un modèle d’apprentissage choisi. Le risqueR calculera le coût (en bits) pour chaque instance du modèle au moment de son utilisation. Ce coût est défini comme étant numérique et il est plus connu sous le nom de fonction objective. Étant donné la paire de variables aléatoires (X, Y ) tirée de la distribution de probabilité P , le risque R s’écrit par rapport à la distribution de probabilité P de la façon suivante :

R(h) = Z

1

2|Y − f(x, h)|dP (x, y) (A.2) Le problème d’origine est transféré vers un problème d’optimisation de la fonc-tion objective dans le but de minimiser le risque. L’hypothèse optimale s’écrit alors h = arg min R(h). Cependant, comme P est une distribution de probabilité qui nous est inconnue etR est non explicitement définie, deux solutions s’offrent à nous : la première est de raisonner par induction à partir de l’échantillon des exemplesXN

1 et la deuxième est de restreindre l’espace d’hypothèseH afin qu’il admette l’hypothèse h la plus proche de l’hypothèse optimale h. Identifier h pose donc un problème sur la structure de l’espace d’hypothèses H.