Notre approche pour la classification des scripts

6.4 Discussion de l’effet du nombre de caractères

7.1.3 Notre approche pour la classification des scripts

Nous avons considéré deux principales méthodes pour l’extraction de caractéris-tiques. Nous nous référons à la première méthode comme une extraction faite main des caractéristiques, en anglais handcrafted features method. Nous nous référons à la deuxième méthode comme une extraction des caractéristiques apprises, en anglais learned features method.

Signal 38 40 96 190 45 79 146 186 159 182 200 182 184 196 188 194 0 1 -1 0 1 -1 Signal Noyau sur x NoyauTsur y 38 40 96 190 45 79 146 186 159 182 200 182 184 196 188 194 (a) (b)

Figure 7.3 – (a) Extraction du signal au niveau du pixel de chaque image. (b) Application successive du masque [−1, 0, 1] sur l’axe des x et [−1, 0, 1]^T sur l’axe desy.

Comme dans tous les problèmes de traitement d’images, la page du manuscrit numérisé est représentée par une matrice de pixels. Nous nous référons à cette ma-trice comme étant un signal. L’extraction des caractéristiques à partir d’une image passe par la transformation du signal de cette dernière, usuellement représenté par une matrice de pixel, par exemple celle de la figure7.3. La transformation s’effectue par une application d’une fonction de pondération appelée aussi masque. En pra-tique ceci revient à appliquer par translation sur la matrice de l’image un vecteur. Par exemple, le vecteur[−1, 0, 1] traduit la différence entre la valeur du pixel d’avant et la valeur du pixel suivant. Comme c’est montré dans la figure7.3. Un masque est appliqué sur une surface de pixels qui va être utilisée pour un certain traitement.

L’application de [−1, 0, 1] sur l’axe x et de [−1, 0, 1]T sur l’axe y de l’image nous permet de calculer la dérivée du signal de l’image d’origine et de capturer

les changements au niveau des pixels. De grands changements nous permettront de capturer des traits ou de calculer les gradients dans une image. Notons que le processus que nous venons de décrire est commun à plusieurs techniques d’analyse des images nous y référons comme l’action d’appliquer un masque. Notamment lors de l’utilisation des réseaux de neurones artificiels, nous parlerons de filtre convolutif ou encore appliquer une convolution sur le signal de l’image.⁴.

(a) (b) (c)

Figure 7.4 – Exemple de l’application du masque [−1, 0, 1] sur l’axe x de l’image (a), obtention des caractéristiques représentées dans l’image (b). Application du masque [−1, 0, 1]T et obtention des caractéristiques représentées dans l’image (c).

Dans la figure7.4, nous avons appliqué le masque[−1, 0, 1] sur l’axe x de l’image (a), nous avons obtenu l’image (b). Ensuite, nous avons appliqué sa transposée sur l’axe y de l’image (a) et nous avons obtenu l’image (c). Ces caractéristiques obtenues sont qualifiées de faites main, car le masque [−1, 0, 1] est déjà prédéfini. Les caractéristiques sont donc rigoureusement choisies par un expert pour y être ensuite remises en entrée dans un algorithme de discrimination ou classification. Par exemple, dans le domaine d’analyse des documents à partir d’images, nous pouvons citer les caractéristiques de Gabor [Hamamoto 1998], la technique du motif binaire local [Mu 2008], l’histogramme de gradients orientés [Dalal 2005], la transformation de caractéristiques visuelles invariante à l’échelle plus connue sous l’acronyme SIFT [Lowe 2004], etc.

L’approche que nous proposons d’étudier consiste à discriminer les scripts avec des caractéristiques apprises au terme d’une suite de convolutions successives appli-quées sur les pixels au niveau de la page qui constituera notre ROI. Une convolution est une fonction qui est appliquée au signal, elle joue le rôle de filtre qui permet de distinguer certaines caractéristiques de ce signal par rapport à d’autres. Nous utili-serons une suite de convolutions, c’est-à-dire des convolutions de convolutions. Cette suite est structurée dans un ensemble de couches, l’ensemble de la structure est ap-pelé architecture profonde par référence à l’approche communément apap-pelée Deep Learning (voir la section7.2 pour plus de détails).

L’objectif de l’utilisation de ces architectures profondes consiste à extraire des

4. En pratique une convolution est décrite par une matrice que l’on applique sur le signal (ou la matrice de pixels de l’image) comme c’est montré dans la figure7.3

caractéristiques invisibles à l’oeil humain, mais interprétable et utiles pour les al-gorithmes de classification. Ces caractéristiques peuvent correspondre à des infor-mations diverses telles que la courbure des traits, la forme des mots. Mais aussi d’autres informations qui sont considérées, par les autres méthodes, comme un bruit, par exemple, les informations qui concernent l’arrière-plan, les images, et d’autres artefacts présents dans les manuscrits. Ces bruits sont souvent supprimés dans des procédures de prétraitement. Nous pensons qu’un environnement non contrôlé avec un minimum d’intervention sur le jeu de données permettrait de réduire le biais et d’avoir une meilleure généralisation sur d’autres jeux de données [Torralba 2011].

Cette approche ne requiert pas d’expertise préalable sur les images et permet d’obtenir une représentation différente, mais satisfaisante comparée à l’extraction faite main. Comme pour l’apprentissage automatique en général, l’apprentissage des caractéristiques peut être divisé en deux sous catégories : un apprentissage non supervisé des caractéristiques et un apprentissage supervisé. Nous utiliserons res-pectivement les deux types d’apprentissages dans la section 7.4 et dans la section

7.5.

L’apprentissage non supervisé des caractéristiques ne requiert pas un étique-tage préalable des données d’entraînement. Nous pouvons apprendre et extraire des caractéristiques d’une image en utilisant k-means [Coates 2011], l’analyse en compo-santes principales (PCA) [Dorko 2003], les auto-encodeurs [Chen 2015, Wei 2015], les machines de Boltzman [Sahu 2015], etc. En revanche, l’apprentissage supervisé des caractéristiques requiert l’utilisation de la vérité terrain où nous disposons d’un étiquetage rigoureux des données.

À travers notre étude empirique de différentes architectures profondes, présen-tées tout au long de cette partie, nous voulons étudier l’hypothèse qui stipule qu’une architecture profonde est capable de se construire une représentation des données à partir d’une quantité limitée d’exemples. Et qui de plus n’a pas subi de prétraite-ment.

En travaillant avec les architectures profondes, les problèmes auxquels nous nous confrontons sont : la perte du signal d’origine au cours des convolutions successives avec une mauvaise optimisation des algorithmes, la qualité des données disponibles, et le non-contrôle de ce qui peut être appris. Par exemple, l’algorithme peut se faire une représentation des données à travers les variations des contrastes dans l’image ou la largeur des traits dans le texte, etc.

Dans un autre registre, le défi avec les architectures profondes comme d’autres algorithmes d’apprentissage automatique est la réduction du coût relatif aux erreurs commises lors de l’apprentissage (e.g. une instance mal classifiée). En particulier, ceci revient à optimiser une fonction objectif non convexe dans un espace de paramètres à plusieurs solutions. La différence entre une fonction convexe et non convexe est illustrée en une dimension dans la figure 7.5 (a) et7.5 (b) respectivement. Dans la première, toute ligne reliant deux points sur (a) sera toujours au-dessus du minimum global ou de la solution optimale, tandis que pour la deuxième, toute ligne reliant deux points sur (b) peut être en dessous du minimum local.

pro-(a) (b)

Figure 7.5 – (a) Illustration d’une fonction convexe avec une seule solution re-présentée par un minimum global. (b) Illustration d’une fonction non convexe avec plusieurs solutions, dont un minimum global.

blème résolu théoriquement, la recherche d’un minimum global d’une fonction non convexe est sujette à l’application d’une heuristique qui parcourt l’espace sans être sûre de trouver la solution optimale. Car, elle peut être prise au piège dans un minimum local et ne plus jamais en sortir. L’approche d’un tel problème consiste à explorer, empiriquement, l’espace des solutions en entreprenant plusieurs expéri-mentations, expliquées au travers des trois sections centrales de ce chapitre.

Dans le document Classification du texte numérique et numérisé. Approche fondée sur les algorithmes d'apprentissage automatique (Page 118-121)