Contributions `a l’apprentissage profond, applications `a la reconnaissance d’ ´ecriture
manuscrite
Cl ´ement Chatelain
INSA Rouen Normandie - Normandie Universit ´e - LITIS Laurence LIKFORMAN Rapporteuse St ´ephane CANU Examinateur Christian VIARD-GAUDIN Rapporteur John Aldo LEE Examinateur Christian WOLF Rapporteur Thierry PAQUET Examinateur & Garant
21 novembre 2019
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
Curriculum Vitæ
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 3 / 39
Curriculum Vitæ
Curriculum Vitæ
Situation actuelle
Depuis 2007 : Maˆıtre de conf ´erences en 61eme section Depuis 2015 : Titulaire de la PEDR
INSA Rouen Normandie
INSA Rouen Normandie : Premi `ere ´ecole d’ing ´enieur Normande D ´epartement ASI≪Architecture des Syst `emes d’Information≫
Curriculum Vitæ
Enseignement
Enseignements traditionnels
Au d ´epartement ASI de l’INSA Rouen Normandie : Traitement du signal, Machine learning, Automatique En master SID : Deep Learning
Activit ´es p ´edagogiques innovantes
MOOC≪Initiez vous au deep learning≫(2019) Responsable des projets≪PIC≫depuis 2015
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 5 / 39
Curriculum Vitæ
Enseignement
Enseignements traditionnels
Au d ´epartement ASI de l’INSA Rouen Normandie : Traitement du signal, Machine learning, Automatique En master SID : Deep Learning
Activit ´es p ´edagogiques innovantes
MOOC≪Initiez vous au deep learning≫(2019)
Responsable des projets≪PIC≫depuis 2015
Curriculum Vitæ
Enseignement
Enseignements traditionnels
Au d ´epartement ASI de l’INSA Rouen Normandie : Traitement du signal, Machine learning, Automatique En master SID : Deep Learning
Activit ´es p ´edagogiques innovantes
MOOC≪Initiez vous au deep learning≫(2019) Responsable des projets≪PIC≫depuis 2015
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 5 / 39
Curriculum Vitæ
Les
≪PIC
≫: Projets INSA Certifi ´es
Projets ´etudiants pour des clients externes
Equipes de 6 `a 9 ´etudiants `a mi temps sur 1 an´ Projets certifi ´es ISO 9001
5/6 clients par an→≃50 Ke/an
Prospection, supervision tutorats, certification, contractualisation
Curriculum Vitæ
Les
≪PIC
≫: Projets INSA Certifi ´es
Des passerelles enseignement - recherche
Client PIC
Recherche
]]
Deux faits marquants r ´ecents
Prix Unicancer de l’Innovation 2017 (centre H. Becquerel) Brevet avec ESSILOR (2019)
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 7 / 39
Curriculum Vitæ
Recherche
Laboratoire LITIS EA 4108
INSA Rouen, Universit ´es de Rouen et du Havre
≈75 permanents et≈75 doctorants 7 ´equipes de recherche
Equipe Apprentissage (App) ´
≪Apprendre `a partir d’exemples et de connaissances a prioridans le cadre structurant de la reconnaissances de formes ≫
20 enseignants chercheurs, 20 doctorants
Curriculum Vitæ
Parcours de recherche
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
annees These
ATER
MCF INSA Rouen Normandie
PEDR S. Thomas
S. Belgacem G. Bideault
L. Mioulet
S. Belharbi B. Stuner
B. Deguerre D.Coquenet Co-encadrement de 9 stagiaires de M2
Contrat EMC
ANR ASAP
Contrat Airbus Contrat Itesoft
ANR LeMOn
ANR Nareca Contrat Solystic
ANR Labcom Inks
ANR Deep In France GRR DAISI
ANR HBDEX Contrat Actemium
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 9 / 39
Curriculum Vitæ
Production scientifique
Publications
Revues Index ´ees JCR : Pattern recognition×3, IJDAR×2, Image &
Vision Computing, Neurocomp., etc.
Conf ´erences avec actes et comit ´e de lecture dont 8 rang A et 12 rang B (sourcehttp://portal.core.edu.au/conf-ranks/)
Publication ≤2007 ’08 ’09 ’10 ’11 ’12 ’13 ’14 ’15 ’16 ’17 ’18 2019 Total
Revues Int. 2 1 2 2 2 3 2 14
Revues Nat. 1 1 2
Conf. Int. 5 1 1 2 1 2 3 8 4 2 2 3 34
Conf. Nat. 3 1 1 1 3 2 3 14
Ouvrage coll. 2 2
Curriculum Vitæ
Axes de recherche
M ´ethodologique : Mod `eles statistiques de s ´equences & Deep Learning
Mod `eles markoviens
▸ HMM, CRF [Belgacem, Bideault]
▸ Mod `eles neuro markoviens [Chatelain, Thomas]
Apprentissage profond
▸ Mod `eles d ´edi ´es aux s ´equences : RNN [Mioulet,Stuner], FCN [Renton]
▸ Probl `emes `a sorties structur ´ees [Belharbi]
Applicatifs : analyse et reconnaissance d’images
... de documents
▸ Reconnaissance d’ ´ecriture
▸ Analyse de structure ... m ´edicales
▸ Classification
▸ Segmentation s ´emantique
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 11 / 39
Travaux de recherche
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
Travaux de recherche Mod `eles statistiques de s ´equences
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 13 / 39
Travaux de recherche Mod `eles statistiques de s ´equences
Introduction
Estimation d’une fonctionf ∶X →Y `a partir d’exemples Espace d’entr ´ee X ∶x∈Rd,d >1
Avant le deep learning : Apprentissage du lien entre X et Y
X est l’espace de descripteurs extraits d’un signal
Maintenant : Apprentissage du lien entre X et Y
X est l’espace du signal brut
Implicitement : apprentissage des descripteurs dansX
→Deep learning : Apprentissage de repr ´esentation
Apprendre une repr ´esentation, c’est apprendre les d ´ependances spatiales, temporelles, etc. au sein de l’espace d’entr ´ee.
Travaux de recherche Mod `eles statistiques de s ´equences
Introduction
Cas des probl `emes `a sorties structur ´ees
Espace de sortieY∶y ∈Rd
′,d′≥1
Variables souvent interd ´ependantes : labels de pixels, caract `eres, etc.
La connaissance des d ´ependances dansYpermet d’am ´eliorer la pr ´ediction desy
L’apprentissage de f ∶ X → Y n ´ecessite :
→ L’apprentissage des repr ´esentations dansX
→ L’apprentissage des d ´ependances dansY
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 15 / 39
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y X
Classification, regression
Classification, regression multit ˆache
G ´en ´eration de s ´equences Classification multiple
de s ´equence
- ´Etiquetage de s ´equence - Reconnaissance - Sequence 2 sequence
Classification / regression
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y
X
Classification, regression multit ˆache
G ´en ´eration de s ´equences Classification multiple
de s ´equence
- ´Etiquetage de s ´equence - Reconnaissance - Sequence 2 sequence
Classification / regression (multit ˆache)
→
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 16 / 39
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y
X
Classification, regression multit ˆache
G ´en ´eration de s ´equences
Classification multiple de s ´equence
- ´Etiquetage de s ´equence - Reconnaissance - Sequence 2 sequence
Classification / regression (multit ˆache) de sequences
→”Donut”,”chocolate” →”Donut”,”strawberry”
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y
X
Classification, regression multit ˆache
G ´en ´eration de s ´equences Classification multiple
de s ´equence
- ´Etiquetage de s ´equence - Reconnaissance - Sequence 2 sequence
G ´en ´eration de s ´equence
[vinyals 2015]
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 16 / 39
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y
X
Classification, regression multit ˆache
G ´en ´eration de s ´equences Classification multiple
de s ´equence
- ´Etiquetage de s ´equence
- Reconnaissance - Sequence 2 sequence
Sid(n) =d′(n): ´Etiquetage de sequence
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y
X
Classification, regression multit ˆache
G ´en ´eration de s ´equences Classification multiple
de s ´equence
- ´Etiquetage de s ´equence - Reconnaissance
- Sequence 2 sequence
Sid(n)etd′(n)quelconques : Reconnaissance
→ ” Mod ´elisation de s ´equences ”
→ ” Mod ´elisation de s ´equences ”
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 16 / 39
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y
X
Classification, regression multit ˆache
G ´en ´eration de s ´equences Classification multiple
de s ´equence
- ´Etiquetage de s ´equence - Reconnaissance - Sequence 2 sequence
Six ety desynchronis ´es : Sequence 2 sequence
Travaux de recherche Mod `eles statistiques de s ´equences
Probl `emes `a sorties structur ´ees et s ´equences
Y
X
Classification, regression multit ˆache
G ´en ´eration de s ´equences Classification multiple
de s ´equence
- ´Etiquetage de s ´equence - Reconnaissance - Sequence 2 sequence
Probl `emes `a sorties structur ´ees (Structured Output Problems, SOP) On cherche `a estimeryˆ=argmaxy∈Yp(y∣x) =argmaxy∈Y p(x∣y)×p(yp(x) )
P(x)constant∀y :
yˆ=argmax
y∈Y p(x∣y)
´¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¶
Hypoth`eses
× p(y)
´Evaluation±
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 16 / 39
Travaux de recherche Mod `eles statistiques de s ´equences
Machine learning et s ´equences : les mod `eles
Estimation d’hypoth `eses p(x ∣y) par un classifieur
Six de taille fixe : mod `ele statique (Gaussiennes, NN, SVM, RF, etc.) Six de taille variable : mod `ele dynamique (Markov, RNN, FCN, etc.)
R ´e ´evaluation des hypoth `eses par p(y )
Nature binaire/probabiliste
▸ p(y)soft : favoriser/p ´enaliser des hypoth `eses (Ex. : Mod `ele de langage)
▸ p(y)binaire : limiter l’espace des possibles (Ex. : lexique) Estimation du p(y)
▸ Par apprentissage : Markov, RNN, DNN, FCN
▸ Par int ´egration de connaissancesa priori
Travaux de recherche Mod `eles statistiques de s ´equences
Machine learning et s ´equences : les mod `eles
Estimation d’hypoth `eses p(x ∣y) par un classifieur
Six de taille fixe : mod `ele statique (Gaussiennes, NN, SVM, RF, etc.) Six de taille variable : mod `ele dynamique (Markov, RNN, FCN, etc.)
R ´e ´evaluation des hypoth `eses par p(y )
Nature binaire/probabiliste
▸ p(y)soft : favoriser/p ´enaliser des hypoth `eses (Ex. : Mod `ele de langage)
▸ p(y)binaire : limiter l’espace des possibles (Ex. : lexique) Estimation du p(y)
▸ Par apprentissage : Markov, RNN, DNN, FCN
▸ Par int ´egration de connaissancesa priori
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 17 / 39
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP [S. Belharbi]
Soit un datasetDcontenant des(x,y), des(x, )et des(,y): Crit `ere pour l’estimation d’une fonctionf ∶X→Y
J(F) = Jsup(S)+λinJin(F)
J(D) = Jsup(S) +λin(t)Jin(F) +λout(t)Jout(L)
Jsup(S): T ˆache principale
▸ Apprentissage supervis ´e, n ´ecessite des couples(x,y) Jin(F): Apprentissage des repr ´esentations
▸ Apprentissage non supervis ´e : Utilisation possible de(x, )
Jout(L): Apprentissage des d ´ependances
▸ Apprentissage non supervis ´e : Utilisation possible de(,y) λin(t), λout(t): poids ´evolutifs
▸ Poids forts au d ´ebut, puis→0 [ESANN 2016]
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 19 / 39
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP [S. Belharbi]
Soit un datasetDcontenant des(x,y), des(x, )et des(,y): Crit `ere pour l’estimation d’une fonctionf ∶X→Y
J(D) = Jsup(S)+λinJin(F)+λoutJout(L)
J(D) = Jsup(S) +λin(t)Jin(F) +λout(t)Jout(L)
Jsup(S): T ˆache principale
▸ Apprentissage supervis ´e, n ´ecessite des couples(x,y) Jin(F): Apprentissage des repr ´esentations
▸ Apprentissage non supervis ´e : Utilisation possible de(x, ) Jout(L): Apprentissage des d ´ependances
▸ Apprentissage non supervis ´e : Utilisation possible de(,y)
λin(t), λout(t): poids ´evolutifs
▸ Poids forts au d ´ebut, puis→0 [ESANN 2016]
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP [S. Belharbi]
Soit un datasetDcontenant des(x,y), des(x, )et des(,y): Crit `ere pour l’estimation d’une fonctionf ∶X→Y
J(D) = Jsup(S) +λin(t)Jin(F) +λout(t)Jout(L)
Jsup(S): T ˆache principale
▸ Apprentissage supervis ´e, n ´ecessite des couples(x,y) Jin(F): Apprentissage des repr ´esentations
▸ Apprentissage non supervis ´e : Utilisation possible de(x, ) Jout(L): Apprentissage des d ´ependances
▸ Apprentissage non supervis ´e : Utilisation possible de(,y) λin(t), λout(t): poids ´evolutifs
▸ Poids forts au d ´ebut, puis→0 [ESANN 2016]
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 19 / 39
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP : mise en œuvre
Instanciation : r ´eseau profond avec autoencodeurs
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP : mise en œuvre
Instanciation : r ´eseau profond avec autoencodeurs
Apprentissage des repr ´esentations par autoencodeur : Jin(F;win) = 1
cardF∑
x∈FCin(Rin(x;win)
´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶
ˆx
,x)
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 20 / 39
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP : mise en œuvre
Instanciation : r ´eseau profond avec autoencodeurs
Apprentissage des d ´ependances par autoencodeur : J (L;w ) = 1
∑C (R (y;w ),y)
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP : mise en œuvre
Instanciation : r ´eseau profond avec autoencodeurs
Apprentissage de la t ˆache principale : Js(S;wsup) = 1
cardS ∑
(x,y)∈SCs(M(x;wsup),y)
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 20 / 39
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP : mise en œuvre
Instanciation : r ´eseau profond avec autoencodeurs
Inférence
Travaux de recherche R ´egularisation pour les probl `emes `a sorties structur ´ees
R ´egularisation pour les SOP : App. et perspectives
Segmentation S ´emantique
Coupe de scanner [PR 2015]
Regression multit ˆache
Landmark detection [NeuCom2017]
Perspectives
Autoencoders→Denses , Limit ´es auxx ety de taille fixe R ´ecurrence ?→Denses ,x ety de taille variable
Convolutions→L ´eg `eres ,x ety de taille variable si FCN
→ Apprentissage non supervis ´e de couches convolutionnelles
Conclusion
Cadre multit ˆache g ´en ´erique pour estimerp(y)≪soft≫
App. non supervis ´e : permet l’utilisation de donn ´ees(x, )et(,y).
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 21 / 39
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Reconnaissance d’ ´ecriture manuscrite
→ ” Herr Burgermaister ” yˆ=argmax
y∈Y p(x∣y)
´¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¶
Reconnaissance
× p(y)
la langue±
p(y ) : respect d’un mod `ele de langage, lexiques
G ´en ´eralement,p(y)ne peut ˆetre estim ´e surDqui est trop petit
→ Estimation sur des grandes quantit ´es dey ∉D
→ apprentissage dup(y) →exploitation dup(y)
→Probl ´ematique : int ´egration dep(y)lors de l’inf ´erence
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 23 / 39
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
D ´ecodage dirig ´e par le lexique : ´ Etat de l’art
[Kaltenmeier et al., 1993] GMM HMM
[Senior and Robinson, 1998] RNN HMM
[Menasri et al., 2012] BLSTM HMM
[Voigtlaender et al., 2016] CNN MDLSTM n-grams mots
→Les mod `eles optiques ont beaucoup progress ´e
→D ´ecodage : programmation dynamique
Equilibre taille du lexique / taux de couverture ´
Lexique trop petit : Taux de couverture faible Lexique trop grand : Temps de calcul ´elev ´e
[Hamdani et al., 2014] : lexique 200k mots sur OpenHart : OOV 3.5%
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Reconnaissance avec lexique gigantesque [B. Stuner]
Mod `ele Pr ´ecision Erreur Rejet
BLSTM +viterbi 91.48 8.52 -
BLSTM 66.37 33.63 -
BLSTM + v ´erif. 66.37 2.25 31.38 2×(BLSTM + v ´erif.) 73.84 3.38 22.78 3×(BLSTM + v ´erif.) 77.76 3.76 18.48
etc. ... ... ...
V ´erification lexicale (B.Stuner [ICPR 2016])
Si une hypoth `ese appartient au lexique on l’accepte sinon on rejette Rapidit ´e : moins d’une microseconde∀lexique
N ´ecessit ´e d’un grand nombre de classifieurs
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 25 / 39
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Reconnaissance avec lexique gigantesque [B. Stuner]
Mod `ele Pr ´ecision Erreur Rejet
BLSTM +viterbi 91.48 8.52 -
BLSTM 66.37 33.63 -
BLSTM + v ´erif. 66.37 2.25 31.38 2×(BLSTM + v ´erif.) 73.84 3.38 22.78 3×(BLSTM + v ´erif.) 77.76 3.76 18.48
etc. ... ... ...
V ´erification lexicale (B.Stuner [ICPR 2016])
Si une hypoth `ese appartient au lexique on l’accepte sinon on rejette Rapidit ´e : moins d’une microseconde∀lexique
N ´ecessit ´e d’un grand nombre de classifieurs
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Reconnaissance avec lexique gigantesque [B. Stuner]
Mod `ele Pr ´ecision Erreur Rejet
BLSTM +viterbi 91.48 8.52 -
BLSTM 66.37 33.63 -
BLSTM + v ´erif. 66.37 2.25 31.38
2×(BLSTM + v ´erif.) 73.84 3.38 22.78 3×(BLSTM + v ´erif.) 77.76 3.76 18.48
etc. ... ... ...
V ´erification lexicale (B.Stuner [ICPR 2016])
Si une hypoth `ese appartient au lexique on l’accepte sinon on rejette Rapidit ´e : moins d’une microseconde∀lexique
N ´ecessit ´e d’un grand nombre de classifieurs
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 25 / 39
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Reconnaissance avec lexique gigantesque [B. Stuner]
Mod `ele Pr ´ecision Erreur Rejet
BLSTM +viterbi 91.48 8.52 -
BLSTM 66.37 33.63 -
BLSTM + v ´erif. 66.37 2.25 31.38 2×(BLSTM + v ´erif.) 73.84 3.38 22.78
3×(BLSTM + v ´erif.) 77.76 3.76 18.48
etc. ... ... ...
V ´erification lexicale (B.Stuner [ICPR 2016])
Si une hypoth `ese appartient au lexique on l’accepte sinon on rejette Rapidit ´e : moins d’une microseconde∀lexique
N ´ecessit ´e d’un grand nombre de classifieurs
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Reconnaissance avec lexique gigantesque [B. Stuner]
Mod `ele Pr ´ecision Erreur Rejet
BLSTM +viterbi 91.48 8.52 -
BLSTM 66.37 33.63 -
BLSTM + v ´erif. 66.37 2.25 31.38 2×(BLSTM + v ´erif.) 73.84 3.38 22.78 3×(BLSTM + v ´erif.) 77.76 3.76 18.48
etc. ... ... ...
V ´erification lexicale (B.Stuner [ICPR 2016])
Si une hypoth `ese appartient au lexique on l’accepte sinon on rejette Rapidit ´e : moins d’une microseconde∀lexique
N ´ecessit ´e d’un grand nombre de classifieurs
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 25 / 39
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
Reconnaissance avec lexique gigantesque [B. Stuner]
Mod `ele Pr ´ecision Erreur Rejet
BLSTM +viterbi 91.48 8.52 -
BLSTM 66.37 33.63 -
BLSTM + v ´erif. 66.37 2.25 31.38 2×(BLSTM + v ´erif.) 73.84 3.38 22.78 3×(BLSTM + v ´erif.) 77.76 3.76 18.48
etc. ... ... ...
V ´erification lexicale (B.Stuner [ICPR 2016])
Si une hypoth `ese appartient au lexique on l’accepte sinon on rejette Rapidit ´e : moins d’une microseconde∀lexique
N ´ecessit ´e d’un grand nombre de classifieurs
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
G ´en ´eration d’une cohorte de classifieurs
Apprentissage d’un grand nombre de classifieurs compl ´ementaires, pour un co ˆut et un temps raisonnable ?
Travaux de [Choromanska et al., 2015] et [Kawaguchi, 2016] sur l’apprentissage profond :
→ Nombreux minimum locaux de magnitude de m ˆeme ordre
→ Minimum local⇔minimum global
Id ´ee : Exploitation de la diversit ´e au sein d’un seul apprentissage
Principe :
1 ´epoque = 1 r ´eseau 1 apprentissage = 1 cohorte
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 26 / 39
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
R ´esultats : Performances brutes (Rimes)
Syst `eme Pr ´ecision Erreur Rejet CER 1 r ´eseau + viterbi 91.48 8.52 - 2.77 Cascade 2100 r ´eseaux 95.60 3.00 1.40 0.99 Cascade 2100 + viterbi 96.52 3.48 - 1.34
[Menasri et al., 2012] 95.25 4.75 - -
[Poznanski and Wolf, 2016] 96.10 3.90 - 1.90
2100 r ´eseaux, c’est ´enorme !
Oui, mais ce n’est pas grave :
80% des mots sont reconnus en moins de 0.17s (14 r ´eseaux ou moins) Les 2100 r ´eseaux tiennent dans 6Gb de RAM
Elagage possible : 2100´ →118 r ´eseaux, erreur 3.48%→3.64%
Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque
R ´esultats : ´ Evaluation de la sensibilit ´e au lexique
Taille lexique Pr ´ecision Erreur Rejet
5744(Rimes) 95.60 3.00 1.40
342 2751 93.41 5.47 1.12
3 276 9942 90.25 8.98 0.77
1.: Fr. Gutemberg∪Rimes ; 2.: Wikipedia∪Wiktionnaire∪fr. Gutemberg∪Rimes (record pr ´ec ´edent : 200K)
G ´en ´eralisation aux lignes de texte [Arxiv 2018]
Inspir ´e de ROVER (Recognizer Output Voting Error Reduction) Alignement (programmation dynamique) + Vote (majoritaire) R ´esultats `a l’ ´etat de l’art ´egalement
Combinaison sans mod `ele de langage Conclusion
Faible sensibilit ´e `a la taille du lexique
Permet d’envisager des nouvelles applications : multilingues, etc.
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 28 / 39
Travaux de recherche Retrospective
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
Travaux de recherche Retrospective
13 ans de recherche en analyse d’images de documents ...
Extraction d’information
Mots clefs, s ´equences num ´eriques
→ Cat ´egorisation,
→ Identification exp ´editeur/destinataire,
→ Tri automatique,
→ etc.
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 30 / 39
Travaux de recherche Retrospective
13 ans de recherche en analyse d’images de documents ...
Ma th `ese [2003-2006]
Mod `ele de lignes pour l’extraction d’information
→ Features + Mod `ele neuro-markovien [ICPR2006, DAS2006]
Travaux de recherche Retrospective
13 ans de recherche en analyse d’images de documents ...
Th `ese de S. Thomas [2008-2012]
Mod `ele de lignes pour l’extraction d’information
→ Premier mod `ele ”profond” bas ´e sur des AE [ICPR 2010, ICFHR 2010]
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 30 / 39
Travaux de recherche Retrospective
13 ans de recherche en analyse d’images de documents ...
Th `ese de G. Bideault [2011-2015]
Mod `ele de lignes pour l’extraction d’information
→ LSTM + CTC [ICDAR 2015]
→ Extension des mod `eles pour la recherche de REGEX [ICDAR 2013, DRR 2015]
Travaux de recherche Retrospective
13 ans de recherche en analyse d’images de documents ...
Stage de G. Renton [2016], post Doc de Y. Soullard
Segmentation en lignes
→ FCN avec convolutions dilat ´ees [IJDAR 2017]
→ Multiscale gated FCN [Arxiv 2019]
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 30 / 39
Travaux de recherche Retrospective
13 ans de recherche en analyse d’images de documents ...
Le futur ?
Mod `ele unifi ´e de segmentation lignes et reconnaissance ? Apprentissage≪end-to-end≫?
Travaux de recherche Retrospective
13 ans de recherche sur l’analyse d’images m ´edicales
Calcul d’indices sur la composition corporelle
D ´eterminants dans le cadre de traitements de maladies
→ Dosage de chimioth ´erapie/radioth ´erapie,
→ Estimation de la survie du patient,
→ Adaptation des traitements,
→ etc.
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 31 / 39
Travaux de recherche Retrospective
13 ans de recherche sur l’analyse d’images m ´edicales
Exemple de l’estimation de la sarcop ´enie
Indice de fonte musculaire pouvant s’estimer sur la coupe Lombaire N°3 (L3) D ´etection de coupe :≃2 minutes par un radiologue
Segmentation de la coupe L3 :≃5 minutes par un radiologue Calcul de la sarcop ´enie (automatique)
Travaux de recherche Retrospective
13 ans de recherche sur l’analyse d’images m ´edicales
Segmentation de la coupe L3 [Lerouge 2015]
Cf. R ´egularisation pour les probl `emes `a sorties structur ´ees
→
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 31 / 39
Travaux de recherche Retrospective
13 ans de recherche sur l’analyse d’images m ´edicales
D ´etection de coupe automatique [Belharbi CBM 2017]
Transfert learning + CNN
Travaux de recherche Retrospective
13 ans de recherche sur l’analyse d’images m ´edicales
Le futur ?
Besoin :
Mod `ele d ´etection/segmentation unifi ´e
→ Apprentissage End-to-end ?
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 31 / 39
Travaux de recherche Retrospective
Mod `eles end-to-end ?
Chaine de traitement
Apprentissage ind ´ependant d’ ´etapes d ´ependantes N ´ecessite des espaces non latents = des annotations
Mod `eles Neuronaux
Nature modulaire : combinaison Convolution, r ´ecurrence, denses, etc.
R ´etropropagation du gradient + r ´egularisation(s)
Mod `eles end-to-end
Apprentissage de bout en bout Besoins en annotation all ´eg ´es
Perspectives
Plan
1 Curriculum Vitæ
2 Travaux de recherche
Mod `eles statistiques de s ´equences
R ´egularisation pour les probl `emes `a sorties structur ´ees Reconnaissance d’ ´ecriture avec lexique gigantesque Retrospective
3 Perspectives
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 33 / 39
Perspectives
Mod `eles end-to-end : les d ´efis
Espace d’entr ´ee
Espace grand→Pr ´eapprentissage/apprentissage non supervis ´e des repr ´esentations
Sens de lecture→Attention
Espace de sortie
Int ´egration de connaissances a priori→mod `ele d’attention en sortie pour contraindre les d ´ecisions
Mod `ele complet
VGG19 : 143M de param `etres, 575Mo.Less is more !
Mod `eles imposants, temps d’apprentissage, consommation
→r ´egularisation, connexions r ´esiduelles, depthwise separable conv., etc.
Perspectives
Mod `eles end-to-end : les d ´efis
Les donn ´ees ´etiquet ´ees
L’apprentissage profond n ´ecessite de grandes quantit ´es de donn ´ees (x,y)
Les acteurs souhaitant b ´en ´eficier de l’IA ont des(x, )ou des(,y)
Des solutions
Mod `eles pr ´e-appris
Apprentissage non supervis ´e
▸ Jigsaw Puzzle [Noroozi and Favaro, 2016]
▸ Sur les s ´equences : pr ´edire la prochaine trame [Srivastava et al., 2015]
Apprentissage avec supervision peu couteuse
▸ Multitask avec des ´etiquettes bon march ´e (ex. DICOM en m ´edical)
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 35 / 39
Perspectives
Mod `eles end-to-end
→de nouveaux champs d’applications ?
Analyse d’images de documents
Mod `ele unifi ´e seg.ligne / reconnaissance / mod ´elisation de la langue D. Coquenet :≪Doc2graph≫
Imagerie M ´edicale
scan complet→sarcop ´enie m ´edecine pr ´edictive (Deepart)
Route intelligente
≪Time to Cross prediction≫[Pop 2019])
Estimation du trafic et de la vitesse de flux de v ´ehicules [B. Deguerre]
Perspectives
Questions ?
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 37 / 39
Perspectives
Prix Unicancer de l’Innovation 2017
Logiciel
≪Bodycomp.ai
≫Estimation de la composition corporelle `a partir d’un scan complet : D ´etection de la coupe L3 (S.Belharbi [CBM2017])
Segmentation de la coupe L3 (J.Lerouge [PR2015]) Interface avec outils d’ ´edition ( ´Etudiants PIC 2017)
Perspectives
Regularisation pour les SOP : algorithme
Combinaison des t ˆaches :
J(D;w) =λsup(t)⋅Js(S;wsup) +λin(t)⋅Jin(F;win) +λout(t)⋅Jout(L;wout).
The framework training for one epoch
1: Dis a shuffled training set.Ba mini-batch.
2: forBinDdo
3: BS⇐examples ofBthat contain both(x,y).
4: BF⇐all thex samples ofB.
5: BL⇐all they samples ofB.
6: Make a gradient step towardλin⋅JinusingBF.# Update win 7: Make a gradient step towardλout⋅JoutusingBL.# Update wout 8: Make a gradient step towardλsup⋅JsusingBS.# Update wsup 9: end for
10: Updateλsup,λin andλout.
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 37 / 39
Perspectives
Combinaison de sorties de classifieurs
Contexte :
Combinaison de sorties issues de la cohorte Exploiter la v ´erification lexicale
→ Comment v ´erifier les mots d’une ligne ? O `u introduire la v ´erification ?
Probl `eme de l’alignement de sorties de classifieurs : Longueurs variables
Hypoth `eses de reconnaissances des caract `eres variables Exemple :
▸ de bien vouloir augurenter
▸ bieu vouvoir au gurent
▸ d bieu vouloir augmentr
▸ de bieu vouvoir au gmenter
Perspectives
LV-ROVER
LV-ROVER = Alignement + vote + V ´erification Lexicale
→ Alignement par nombre majoritaire de mots des hypoth `eses
→ Vote `a la majorit ´e avec v ´erification lexicale :
▸ Solution la plus fr ´equente dans le lexique suivant l’enchaˆınement de mots
▸ Solution dans le lexique ne suivant pas l’enchaˆınement de mots, de taille±1 caract `ere `a la solution hors lexique suivant l’enchaˆınement
▸ Solution la plus fr ´equente hors lexique suivant l’enchaˆınement de mots
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 37 / 39
Perspectives
LV-ROVER : module d’alignement
Perspectives
LV-ROVER : module de vote
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 37 / 39
Bibliographie
Bibliographie I
Belgacem, S., Chatelain, C., and Paquet, T. (2017).Gesture sequence recognition with one shot learned CRF/HMM hybrid model.
Image and Vision Computing, 61 :12–21.
Belharbi, S., Chatelain, C., H ´erault, R., Adam, S., Thureau, S., Chastan, M., and Modzelewski, R. (2017).Spotting l3 slice in ct scans using deep convolutional network and transfer learning.
Computers in Biology and Medicine.
Belharbi, S., R.H ´erault, Chatelain, C., and Adam, S. (2016).Deep multi-task learning with evolving weights.
In European Symposium on Artificial Neural Networks (ESANN), Bruges, Belgium.
Belharbi, S., R.H ´erault, Chatelain, C., and Adam, S. (2018).Deep Neural Networks Regularization for Structured Output Prediction.
Neurocomputing, 281 :169–177.
Bernard, S., Chatelain, C., Adam, S., and Sabourin, R. (2016).The multiclass ROC front method for cost-sensitive classification.
Pattern Recognition, 52 :46 – 60.
Chatelain, C. (2006).Extraction de sequences numeriques dans des documents manuscrits quelconques.
PhD thesis.
Chatelain, C., Adam, S., Lecourtier, Y., Heutte, L., and Paquet, T. (2010).A multi-model selection framework for unknown and/or evolutive misclassification cost problems.
Pattern Recognition, 43(3) :815–823.
Chatelain, C., Heutte, L., and Paquet, T. (2006).A two-stage outlier rejection strategy for numerical field extraction in handwritten documents.
In ICPR, volume 3, pages 224–227.
Bibliographie
Bibliographie II
Deguerre, B., Chatelain, C., and Gasso, G. (2019).Fast object detection in compressed JPEG images.
In IEEE Intelligent Transportation Systems Conference (ITSC).
Hamdani, M., Doetsch, P., Kozielski, M., Mousa, A., and Ney, H. (2014).The rwth large vocabulary arabic handwriting recognition system.
In IAPR International Workshop on Document Analysis Systems, pages 111–115.
Kaltenmeier, A., Caesar, T., Gloger, J. M., and Mandler, E. (1993).Sophisticated topology of hidden markov models for cursive script recognition.
In ICDAR, pages 139–142. IEEE.
Kawaguchi, K. (2016).Deep learning without poor local minima.
In Advances in Neural Information Processing Systems 29, pages 586–594. Curran Associates, Inc.
Lerouge, J., Herault, R., Chatelain, C., Jardin, F., and Modzelewski, R. (2015).IODA : An input output deep architecture for image labeling.
Pattern Recognition, 48(9) :2847–2858.
Menasri, F., Louradour, J., Bianne-Bernard, A., and Kermorvant, C. (2012).The a2ia handwriting recognition system at the rimes-icdar2011 competition.
In Document Recognition and Retrieval XIX, pages 82970Y–82970Y.
Noroozi, M. and Favaro, P. (2016).Unsupervised learning of visual representations by solving jigsaw puzzles.
CoRR, abs/1603.09246.
Pop, D., Rogozan, A., Chatelain, C., Nashashibi, F., and Bensrhair, A. (2019).Multi-task deep learning for pedestrian detection, action recognition and time to crossing prediction.
IEEE Access.
Poznanski, A. and Wolf, L. (2016).Cnn-n-gram for handwriting word recognition.
In CVPR, pages 2305–2314.
C.Chatelain (INSA Rouen) HDR 21 novembre 2019 38 / 39
Bibliographie
Bibliographie III
Renton, G., Soullard, Y., Chatelain, C., Adam, S., Kermorvant, C., and Paquet, T. (2018).Fully convolutional network with dilated convolutions for handwritten text line segmentation.
International Journal on Document Analysis and Recognition (IJDAR), 21 :177–186.
Senior, A. W. and Robinson, A. J. (1998).An off-line cursive handwriting recognition system.
IEEE transactions on pattern analysis and machine intelligence, 20(3) :309–321.
Srivastava, N., Mansimov, E., and Salakhudinov, R. (2015).Unsupervised learning of video representations using lstms.
In International conference on machine learning, pages 843–852.
Thomas, S., Chatelain, C., Heutte, L., and Paquet, T. (2010).An information extraction model for unconstrained handwritten documents.
In International Conference on Pattern Recognition (ICPR), Istanbul, Turkey, page 4.
Thomas, S., Chatelain, C., Heutte, L., Paquet, T., and Kessentini, Y. (2015).A deep HMM model for multiple keywords spotting in handwritten documents.
Pattern Analysis and Applications, 18(4) :1003–1015.
Voigtlaender, P., Doetsch, P., and Ney, H. (2016).Handwriting recognition with large multidimensional long short-term memory recurrent neural networks.
In Frontiers in Handwriting Recognition (ICFHR), pages 228–233. IEEE.