Contributions à l’apprentissage profond, applications à la reconnaissance d’écriture manuscrite

(1)

Contributions à l’apprentissage profond, applications à la reconnaissance d’ écriture

manuscrite

Cl ´ement Chatelain

INSA Rouen Normandie - Normandie Universit ´e - LITIS Laurence LIKFORMAN Rapporteuse St ´ephane CANU Examinateur Christian VIARD-GAUDIN Rapporteur John Aldo LEE Examinateur Christian WOLF Rapporteur Thierry PAQUET Examinateur & Garant

21 novembre 2019

(2)

Plan

1 Curriculum Vitæ

2 Travaux de recherche

Mod `eles statistiques de s ´equences

R égularisation pour les probl èmes à sorties structur ées Reconnaissance d’ écriture avec lexique gigantesque Retrospective

3 Perspectives

(3)

Curriculum Vitæ

Plan

1 Curriculum Vitæ

3 Perspectives

C.Chatelain (INSA Rouen) HDR 21 novembre 2019 3 / 39

(4)

Curriculum Vitæ

Situation actuelle

Depuis 2007 : Maˆıtre de conf ´erences en 61^eme section Depuis 2015 : Titulaire de la PEDR

INSA Rouen Normandie

INSA Rouen Normandie : Premi ère école d’ing énieur Normande D épartement ASI^≪Architecture des Syst èmes d’Information^≫

(5)

Curriculum Vitæ

Enseignement

Enseignements traditionnels

Au d ´epartement ASI de l’INSA Rouen Normandie : Traitement du signal, Machine learning, Automatique En master SID : Deep Learning

Activit ´es p ´edagogiques innovantes

MOOC^≪Initiez vous au deep learning^≫(2019) Responsable des projets^≪PIC^≫depuis 2015

(6)

Curriculum Vitæ

Enseignement

Enseignements traditionnels

Activit ´es p ´edagogiques innovantes

MOOC^≪Initiez vous au deep learning^≫(2019)

Responsable des projets^≪PIC^≫depuis 2015

(7)

Curriculum Vitæ

Enseignement

Enseignements traditionnels

Activit ´es p ´edagogiques innovantes

MOOC^≪Initiez vous au deep learning^≫(2019) Responsable des projets^≪PIC^≫depuis 2015

(8)

Curriculum Vitæ

Les

^≪

PIC

^≫

: Projets INSA Certifi ´es

Projets ´etudiants pour des clients externes

Equipes de 6 à 9 étudiants à mi temps sur 1 an´ Projets certifi és ISO 9001

5/6 clients par an→≃50 Ke/an

Prospection, supervision tutorats, certification, contractualisation

(9)

Curriculum Vitæ

Les

^≪

PIC

^≫

: Projets INSA Certifi ´es

Des passerelles enseignement - recherche

Client PIC

Recherche

]]

Deux faits marquants r ´ecents

Prix Unicancer de l’Innovation 2017 (centre H. Becquerel) Brevet avec ESSILOR (2019)

(10)

Curriculum Vitæ

Recherche

Laboratoire LITIS EA 4108

INSA Rouen, Universit ´es de Rouen et du Havre

≈75 permanents et≈75 doctorants 7 ´equipes de recherche

Equipe Apprentissage (App) ´

≪Apprendre `a partir d’exemples et de connaissances a prioridans le cadre structurant de la reconnaissances de formes ^≫

20 enseignants chercheurs, 20 doctorants

(11)

Curriculum Vitæ

Parcours de recherche

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019

annees These

ATER

MCF INSA Rouen Normandie

PEDR S. Thomas

S. Belgacem G. Bideault

L. Mioulet

S. Belharbi B. Stuner

B. Deguerre D.Coquenet Co-encadrement de 9 stagiaires de M2

Contrat EMC

ANR ASAP

Contrat Airbus Contrat Itesoft

ANR LeMOn

ANR Nareca Contrat Solystic

ANR Labcom Inks

ANR Deep In France GRR DAISI

ANR HBDEX Contrat Actemium

(12)

Curriculum Vitæ

Production scientifique

Publications

Revues Index ´ees JCR : Pattern recognition×3, IJDAR×2, Image &

Vision Computing, Neurocomp., etc.

Conf ´erences avec actes et comit ´e de lecture dont 8 rang A et 12 rang B (sourcehttp://portal.core.edu.au/conf-ranks/)

Publication ^≤2007 ^’08 ^’09 ^’10 ^’11 ^’12 ^’13 ^’14 ^’15 ^’16 ^’17 ^’18 ²⁰¹⁹ ^Total

Revues Int. 2 1 2 2 2 3 2 14

Revues Nat. 1 1 2

Conf. Int. 5 1 1 2 1 2 3 8 4 2 2 3 34

Conf. Nat. 3 1 1 1 3 2 3 14

Ouvrage coll. 2 2

(13)

Curriculum Vitæ

Axes de recherche

M éthodologique : Mod èles statistiques de s équences & Deep Learning

Mod `eles markoviens

▸ HMM, CRF [Belgacem, Bideault]

▸ Mod `eles neuro markoviens [Chatelain, Thomas]

Apprentissage profond

▸ Mod èles d édi és aux s équences : RNN [Mioulet,Stuner], FCN [Renton]

▸ Probl èmes à sorties structur ées [Belharbi]

Applicatifs : analyse et reconnaissance d’images

... de documents

▸ Reconnaissance d’ ´ecriture

▸ Analyse de structure ... m ´edicales

▸ Classification

▸ Segmentation s ´emantique

(14)

Travaux de recherche

Plan

1 Curriculum Vitæ

3 Perspectives

(15)

Travaux de recherche Mod `eles statistiques de s ´equences

Plan

1 Curriculum Vitæ

3 Perspectives

(16)

Introduction

Estimation d’une fonctionf ∶X →Y `a partir d’exemples Espace d’entr ´ee X ∶x∈R^d,d >1

Avant le deep learning : Apprentissage du lien entre X et Y

X est l’espace de descripteurs extraits d’un signal

Maintenant : Apprentissage du lien entre X et Y

X est l’espace du signal brut

Implicitement : apprentissage des descripteurs dansX

→Deep learning : Apprentissage de repr ´esentation

Apprendre une repr ésentation, c’est apprendre les d épendances spatiales, temporelles, etc. au sein de l’espace d’entr ée.

(17)

Introduction

Cas des probl èmes à sorties structur ées

Espace de sortieY∶y ∈R^d

′,d^′≥1

Variables souvent interd ´ependantes : labels de pixels, caract `eres, etc.

La connaissance des d épendances dansYpermet d’am éliorer la pr édiction desy

L’apprentissage de f ∶ X → Y n ´ecessite :

→ L’apprentissage des repr ´esentations dansX

→ L’apprentissage des d ´ependances dansY

(18)

Probl èmes à sorties structur ées et s équences

Y X

Classification, regression

Classification, regression multit ˆache

G én ération de s équences Classification multiple

de s ´equence

- ´Etiquetage de s ´equence - Reconnaissance - Sequence 2 sequence

Classification / regression

(19)

Probl èmes à sorties structur ées et s équences

Y

X

de s ´equence

Classification / regression (multit ˆache)

→

(20)

Probl èmes à sorties structur ées et s équences

Y

X

G én ération de s équences

Classification multiple de s ´equence

Classification / regression (multit ˆache) de sequences

→”Donut”,”chocolate” →”Donut”,”strawberry”

(21)

Probl èmes à sorties structur ées et s équences

Y

X

de s ´equence

G én ération de s équence

[vinyals 2015]

(22)

Probl èmes à sorties structur ées et s équences

Y

X

de s ´equence

- ´Etiquetage de s ´equence

- Reconnaissance - Sequence 2 sequence

Sid(n) =d^′(n): ´Etiquetage de sequence

(23)

Probl èmes à sorties structur ées et s équences

Y

X

de s ´equence

- ´Etiquetage de s ´equence - Reconnaissance

- Sequence 2 sequence

Sid(n)etd^′(n)quelconques : Reconnaissance

→ ” Mod ´elisation de s ´equences ”

(24)

Probl èmes à sorties structur ées et s équences

Y

X

de s ´equence

Six ety desynchronis ´es : Sequence 2 sequence

(25)

Probl èmes à sorties structur ées et s équences

Y

X

de s ´equence

Probl èmes à sorties structur ées (Structured Output Problems, SOP) On cherche à estimeryˆ=argmax_y∈Yp(y∣x) =argmax_y∈Y ^{p(x∣y)×p(y}_p(x) ⁾

P(x)constant∀y :

yˆ=argmax

y∈Y p(x∣y)

´¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¶

Hypoth`eses

× p(y)

´Evaluation±

(26)

Machine learning et s ´equences : les mod `eles

Estimation d’hypoth `eses p(x ∣y) par un classifieur

Six de taille fixe : mod `ele statique (Gaussiennes, NN, SVM, RF, etc.) Six de taille variable : mod `ele dynamique (Markov, RNN, FCN, etc.)

R é évaluation des hypoth èses par p(y )

Nature binaire/probabiliste

▸ p(y)soft : favoriser/p énaliser des hypoth èses (Ex. : Mod èle de langage)

▸ p(y)binaire : limiter l’espace des possibles (Ex. : lexique) Estimation du p(y)

▸ Par apprentissage : Markov, RNN, DNN, FCN

▸ Par int ´egration de connaissancesa priori

(27)

Machine learning et s ´equences : les mod `eles

Estimation d’hypoth `eses p(x ∣y) par un classifieur

Six de taille fixe : mod `ele statique (Gaussiennes, NN, SVM, RF, etc.) Six de taille variable : mod `ele dynamique (Markov, RNN, FCN, etc.)

R é évaluation des hypoth èses par p(y )

Nature binaire/probabiliste

▸ p(y)soft : favoriser/p énaliser des hypoth èses (Ex. : Mod èle de langage)

▸ p(y)binaire : limiter l’espace des possibles (Ex. : lexique) Estimation du p(y)

▸ Par apprentissage : Markov, RNN, DNN, FCN

▸ Par int ´egration de connaissancesa priori

(28)

Travaux de recherche R égularisation pour les probl èmes à sorties structur ées

Plan

1 Curriculum Vitæ

3 Perspectives

(29)

R ´egularisation pour les SOP [S. Belharbi]

Soit un datasetDcontenant des(x,y), des(x, )et des(,y): Crit `ere pour l’estimation d’une fonctionf ∶X→Y

J(F) = J_sup(S)+λ_inJ_in(F)

J(D) = J_sup(S) +λ_in(t)J_in(F) +λ_out(t)J_out(L)

Jsup(S): T ˆache principale

▸ Apprentissage supervis é, n écessite des couples(x,y) J_in(F): Apprentissage des repr ésentations

▸ Apprentissage non supervis ´e : Utilisation possible de(x, )

J_out(L): Apprentissage des d ´ependances

▸ Apprentissage non supervis ´e : Utilisation possible de(,y) λ_in(t), λ_out(t): poids ´evolutifs

▸ Poids forts au d ´ebut, puis→0 [ESANN 2016]

(30)

R ´egularisation pour les SOP [S. Belharbi]

J(D) = J_sup(S)+λ_inJ_in(F)+λ_outJ_out(L)

▸ Apprentissage non supervis ´e : Utilisation possible de(x, ) J_out(L): Apprentissage des d ´ependances

▸ Apprentissage non supervis ´e : Utilisation possible de(,y)

λ_in(t), λ_out(t): poids ´evolutifs

(31)

R ´egularisation pour les SOP [S. Belharbi]

▸ Apprentissage non supervis ´e : Utilisation possible de(x, ) J_out(L): Apprentissage des d ´ependances

▸ Apprentissage non supervis ´e : Utilisation possible de(,y) λ_in(t), λ_out(t): poids ´evolutifs

(32)

R ´egularisation pour les SOP : mise en œuvre

Instanciation : r ´eseau profond avec autoencodeurs

(33)

R ´egularisation pour les SOP : mise en œuvre

Apprentissage des repr ´esentations par autoencodeur : J_in(F;w_in) = 1

cardF∑

x∈FCin(Rin(x;w_in)

´¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¹¶

ˆx

,x)

(34)

R ´egularisation pour les SOP : mise en œuvre

Apprentissage des d ´ependances par autoencodeur : J (L;w ) = 1

∑C (R (y;w ),y)

(35)

R ´egularisation pour les SOP : mise en œuvre

Apprentissage de la t ˆache principale : J_s(S;w_sup) = 1

cardS ∑

(x,y)∈SCs(M(x;w_sup),y)

(36)

R ´egularisation pour les SOP : mise en œuvre

Inférence

(37)

R ´egularisation pour les SOP : App. et perspectives

Segmentation S ´emantique

Coupe de scanner [PR 2015]

Regression multit ˆache

Landmark detection [NeuCom2017]

Perspectives

Autoencoders→Denses , Limit ´es auxx ety de taille fixe R ´ecurrence ?→Denses ,x ety de taille variable

Convolutions→L ´eg `eres ,x ety de taille variable si FCN

→ Apprentissage non supervis ´e de couches convolutionnelles

Conclusion

Cadre multit âche g én érique pour estimerp(y)^≪soft^≫

App. non supervis ´e : permet l’utilisation de donn ´ees(x, )et(,y).

(38)

Travaux de recherche Reconnaissance d’ ´ecriture avec lexique gigantesque

Plan

1 Curriculum Vitæ

3 Perspectives

(39)

Reconnaissance d’ ´ecriture manuscrite

→ ” Herr Burgermaister ” yˆ=argmax

y∈Y p(x∣y)

´¹¹¹¹¹¹¹¹¸¹¹¹¹¹¹¹¶

Reconnaissance

× p(y)

la langue±

p(y ) : respect d’un mod `ele de langage, lexiques

G én éralement,p(y)ne peut être estim é surDqui est trop petit

→ Estimation sur des grandes quantit ´es dey ∉D

→ apprentissage dup(y) →exploitation dup(y)

→Probl ématique : int égration dep(y)lors de l’inf érence

(40)

D ´ecodage dirig ´e par le lexique : ´ Etat de l’art

[Kaltenmeier et al., 1993] GMM HMM

[Senior and Robinson, 1998] RNN HMM

[Menasri et al., 2012] BLSTM HMM

[Voigtlaender et al., 2016] CNN MDLSTM n-grams mots

→Les mod `eles optiques ont beaucoup progress ´e

→D ´ecodage : programmation dynamique

Equilibre taille du lexique / taux de couverture ´

Lexique trop petit : Taux de couverture faible Lexique trop grand : Temps de calcul ´elev ´e

[Hamdani et al., 2014] : lexique 200k mots sur OpenHart : OOV 3.5%

(41)

Reconnaissance avec lexique gigantesque [B. Stuner]

Mod `ele Pr ´ecision Erreur Rejet

BLSTM +viterbi 91.48 8.52 -

BLSTM 66.37 33.63 -

BLSTM + v érif. 66.37 2.25 31.38 2×(BLSTM + v érif.) 73.84 3.38 22.78 3×(BLSTM + v érif.) 77.76 3.76 18.48

etc. ... ... ...

V ´erification lexicale (B.Stuner [ICPR 2016])

Si une hypoth `ese appartient au lexique on l’accepte sinon on rejette Rapidit ´e : moins d’une microseconde∀lexique

N ´ecessit ´e d’un grand nombre de classifieurs

(42)

Reconnaissance avec lexique gigantesque [B. Stuner]

BLSTM 66.37 33.63 -

etc. ... ... ...

V ´erification lexicale (B.Stuner [ICPR 2016])

(43)

Reconnaissance avec lexique gigantesque [B. Stuner]

BLSTM 66.37 33.63 -

BLSTM + v ´erif. 66.37 2.25 31.38

2×(BLSTM + v ´erif.) 73.84 3.38 22.78 3×(BLSTM + v ´erif.) 77.76 3.76 18.48

etc. ... ... ...

V ´erification lexicale (B.Stuner [ICPR 2016])

(44)

Reconnaissance avec lexique gigantesque [B. Stuner]

BLSTM 66.37 33.63 -

BLSTM + v ´erif. 66.37 2.25 31.38 2×(BLSTM + v ´erif.) 73.84 3.38 22.78

3×(BLSTM + v ´erif.) 77.76 3.76 18.48

etc. ... ... ...

V ´erification lexicale (B.Stuner [ICPR 2016])

(45)

Reconnaissance avec lexique gigantesque [B. Stuner]

BLSTM 66.37 33.63 -

etc. ... ... ...

V ´erification lexicale (B.Stuner [ICPR 2016])

(46)

Reconnaissance avec lexique gigantesque [B. Stuner]

BLSTM 66.37 33.63 -

etc. ... ... ...

V ´erification lexicale (B.Stuner [ICPR 2016])

(47)

G ´en ´eration d’une cohorte de classifieurs

Apprentissage d’un grand nombre de classifieurs compl ´ementaires, pour un co ˆut et un temps raisonnable ?

Travaux de [Choromanska et al., 2015] et [Kawaguchi, 2016] sur l’apprentissage profond :

→ Nombreux minimum locaux de magnitude de m ˆeme ordre

→ Minimum local⇔minimum global

Id ´ee : Exploitation de la diversit ´e au sein d’un seul apprentissage

Principe :

1 ´epoque = 1 r ´eseau 1 apprentissage = 1 cohorte

(48)

R ´esultats : Performances brutes (Rimes)

Syst ème Pr écision Erreur Rejet CER 1 r éseau + viterbi 91.48 8.52 - 2.77 Cascade 2100 r éseaux 95.60 3.00 1.40 0.99 Cascade 2100 + viterbi 96.52 3.48 - 1.34

[Menasri et al., 2012] 95.25 4.75 - -

[Poznanski and Wolf, 2016] 96.10 3.90 - 1.90

2100 r ´eseaux, c’est ´enorme !

Oui, mais ce n’est pas grave :

80% des mots sont reconnus en moins de 0.17s (14 r ´eseaux ou moins) Les 2100 r ´eseaux tiennent dans 6Gb de RAM

Elagage possible : 2100´ →118 r ´eseaux, erreur 3.48%→3.64%

(49)

R ´esultats : ´ Evaluation de la sensibilit ´e au lexique

Taille lexique Pr ´ecision Erreur Rejet

5744(Rimes) 95.60 3.00 1.40

342 275¹ 93.41 5.47 1.12

3 276 994² 90.25 8.98 0.77

1.: Fr. Gutemberg∪Rimes ; 2.: Wikipedia∪Wiktionnaire∪fr. Gutemberg∪Rimes (record pr ´ec ´edent : 200K)

G ´en ´eralisation aux lignes de texte [Arxiv 2018]

Inspir é de ROVER (Recognizer Output Voting Error Reduction) Alignement (programmation dynamique) + Vote (majoritaire) R ésultats à l’ état de l’art également

Combinaison sans mod `ele de langage Conclusion

Faible sensibilit ´e `a la taille du lexique

Permet d’envisager des nouvelles applications : multilingues, etc.

(50)

Travaux de recherche Retrospective

Plan

1 Curriculum Vitæ

3 Perspectives

(51)

13 ans de recherche en analyse d’images de documents ...

Extraction d’information

Mots clefs, s ´equences num ´eriques

→ Cat ´egorisation,

→ Identification exp ´editeur/destinataire,

→ Tri automatique,

→ etc.

(52)

13 ans de recherche en analyse d’images de documents ...

Ma th `ese [2003-2006]

Mod `ele de lignes pour l’extraction d’information

→ Features + Mod `ele neuro-markovien [ICPR2006, DAS2006]

(53)

13 ans de recherche en analyse d’images de documents ...

Th `ese de S. Thomas [2008-2012]

→ Premier mod `ele ”profond” bas ´e sur des AE [ICPR 2010, ICFHR 2010]

(54)

13 ans de recherche en analyse d’images de documents ...

Th `ese de G. Bideault [2011-2015]

→ LSTM + CTC [ICDAR 2015]

→ Extension des mod `eles pour la recherche de REGEX [ICDAR 2013, DRR 2015]

(55)

13 ans de recherche en analyse d’images de documents ...

Stage de G. Renton [2016], post Doc de Y. Soullard

Segmentation en lignes

→ FCN avec convolutions dilat ´ees [IJDAR 2017]

→ Multiscale gated FCN [Arxiv 2019]

(56)

13 ans de recherche en analyse d’images de documents ...

Le futur ?

Mod `ele unifi ´e de segmentation lignes et reconnaissance ? Apprentissage^≪end-to-end^≫?

(57)

13 ans de recherche sur l’analyse d’images m ´edicales

Calcul d’indices sur la composition corporelle

D ´eterminants dans le cadre de traitements de maladies

→ Dosage de chimioth ´erapie/radioth ´erapie,

→ Estimation de la survie du patient,

→ Adaptation des traitements,

→ etc.

(58)

13 ans de recherche sur l’analyse d’images m ´edicales

Exemple de l’estimation de la sarcop ´enie

Indice de fonte musculaire pouvant s’estimer sur la coupe Lombaire N°3 (L3) D ´etection de coupe :≃2 minutes par un radiologue

Segmentation de la coupe L3 :≃5 minutes par un radiologue Calcul de la sarcop ´enie (automatique)

(59)

13 ans de recherche sur l’analyse d’images m ´edicales

Segmentation de la coupe L3 [Lerouge 2015]

Cf. R égularisation pour les probl èmes à sorties structur ées

→

(60)

13 ans de recherche sur l’analyse d’images m ´edicales

D ´etection de coupe automatique [Belharbi CBM 2017]

Transfert learning + CNN

(61)

13 ans de recherche sur l’analyse d’images m ´edicales

Le futur ?

Besoin :

Mod èle d étection/segmentation unifi é

→ Apprentissage End-to-end ?

(62)

Mod `eles end-to-end ?

Chaine de traitement

Apprentissage ind épendant d’ étapes d épendantes N écessite des espaces non latents = des annotations

Mod `eles Neuronaux

Nature modulaire : combinaison Convolution, r ´ecurrence, denses, etc.

R ´etropropagation du gradient + r ´egularisation(s)

Mod `eles end-to-end

Apprentissage de bout en bout Besoins en annotation all ´eg ´es

(63)

Perspectives

Plan

1 Curriculum Vitæ

3 Perspectives

(64)

Perspectives

Mod `eles end-to-end : les d ´efis

Espace d’entr ´ee

Espace grand→Pr éapprentissage/apprentissage non supervis é des repr ésentations

Sens de lecture→Attention

Espace de sortie

Int égration de connaissances a priori→mod èle d’attention en sortie pour contraindre les d écisions

Mod `ele complet

VGG19 : 143M de param `etres, 575Mo.Less is more !

Mod `eles imposants, temps d’apprentissage, consommation

→r ´egularisation, connexions r ´esiduelles, depthwise separable conv., etc.

(65)

Perspectives

Mod `eles end-to-end : les d ´efis

Les donn ées étiquet ées

L’apprentissage profond n écessite de grandes quantit és de donn ées (x,y)

Les acteurs souhaitant b ´en ´eficier de l’IA ont des(x, )ou des(,y)

Des solutions

Mod `eles pr ´e-appris

Apprentissage non supervis ´e

▸ Jigsaw Puzzle [Noroozi and Favaro, 2016]

▸ Sur les s ´equences : pr ´edire la prochaine trame [Srivastava et al., 2015]

Apprentissage avec supervision peu couteuse

▸ Multitask avec des étiquettes bon march é (ex. DICOM en m édical)

(66)

Perspectives

Mod `eles end-to-end

→de nouveaux champs d’applications ?

Analyse d’images de documents

Mod èle unifi é seg.ligne / reconnaissance / mod élisation de la langue D. Coquenet :^≪Doc2graph^≫

Imagerie M ´edicale

scan complet→sarcop énie m édecine pr édictive (Deepart)

Route intelligente

≪Time to Cross prediction^≫[Pop 2019])

Estimation du trafic et de la vitesse de flux de v ´ehicules [B. Deguerre]

(67)

Perspectives

Questions ?

(68)

Perspectives

Prix Unicancer de l’Innovation 2017

Logiciel

^≪

Bodycomp.ai

^≫

Estimation de la composition corporelle `a partir d’un scan complet : D ´etection de la coupe L3 (S.Belharbi [CBM2017])

Segmentation de la coupe L3 (J.Lerouge [PR2015]) Interface avec outils d’ ´edition ( ´Etudiants PIC 2017)

(69)

Perspectives

Regularisation pour les SOP : algorithme

Combinaison des t ˆaches :

J(D;w) =λsup(t)⋅Js(S;wsup) +λin(t)⋅Jin(F;win) +λout(t)⋅Jout(L;wout).

The framework training for one epoch

1: Dis a shuffled training set.Ba mini-batch.

2: forBinDdo

3: BS⇐examples ofBthat contain both(x,y).

4: BF⇐all thex samples ofB.

5: BL⇐all they samples ofB.

6: Make a gradient step towardλ_in⋅JinusingBF.# Update win 7: Make a gradient step towardλ_out⋅JoutusingBL.# Update wout 8: Make a gradient step towardλ_sup⋅JsusingBS.# Update wsup 9: end for

10: Updateλ_sup,λ_in andλ_out.

(70)

Perspectives

Combinaison de sorties de classifieurs

Contexte :

Combinaison de sorties issues de la cohorte Exploiter la v ´erification lexicale

→ Comment v érifier les mots d’une ligne ? O ù introduire la v érification ?

Probl `eme de l’alignement de sorties de classifieurs : Longueurs variables

Hypoth `eses de reconnaissances des caract `eres variables Exemple :

▸ de bien vouloir augurenter

▸ bieu vouvoir au gurent

▸ d bieu vouloir augmentr

▸ de bieu vouvoir au gmenter

(71)

Perspectives

LV-ROVER

LV-ROVER = Alignement + vote + V ´erification Lexicale

→ Alignement par nombre majoritaire de mots des hypoth `eses

→ Vote à la majorit é avec v érification lexicale :

▸ Solution la plus fr ´equente dans le lexique suivant l’enchaˆınement de mots

▸ Solution dans le lexique ne suivant pas l’enchaˆınement de mots, de taille±1 caract `ere `a la solution hors lexique suivant l’enchaˆınement

▸ Solution la plus fr ´equente hors lexique suivant l’enchaˆınement de mots

(72)

Perspectives

LV-ROVER : module d’alignement

(73)

Perspectives

LV-ROVER : module de vote

(74)

Bibliographie

Bibliographie I

Belgacem, S., Chatelain, C., and Paquet, T. (2017).Gesture sequence recognition with one shot learned CRF/HMM hybrid model.

Image and Vision Computing, 61 :12–21.

Belharbi, S., Chatelain, C., H ´erault, R., Adam, S., Thureau, S., Chastan, M., and Modzelewski, R. (2017).Spotting l3 slice in ct scans using deep convolutional network and transfer learning.

Computers in Biology and Medicine.

Belharbi, S., R.H ´erault, Chatelain, C., and Adam, S. (2016).Deep multi-task learning with evolving weights.

In European Symposium on Artificial Neural Networks (ESANN), Bruges, Belgium.

Belharbi, S., R.H ´erault, Chatelain, C., and Adam, S. (2018).Deep Neural Networks Regularization for Structured Output Prediction.

Neurocomputing, 281 :169–177.

Bernard, S., Chatelain, C., Adam, S., and Sabourin, R. (2016).The multiclass ROC front method for cost-sensitive classification.

Pattern Recognition, 52 :46 – 60.

Chatelain, C. (2006).Extraction de sequences numeriques dans des documents manuscrits quelconques.

PhD thesis.

Chatelain, C., Adam, S., Lecourtier, Y., Heutte, L., and Paquet, T. (2010).A multi-model selection framework for unknown and/or evolutive misclassification cost problems.

Pattern Recognition, 43(3) :815–823.

Chatelain, C., Heutte, L., and Paquet, T. (2006).A two-stage outlier rejection strategy for numerical field extraction in handwritten documents.

In ICPR, volume 3, pages 224–227.

(75)

Bibliographie

Bibliographie II

Deguerre, B., Chatelain, C., and Gasso, G. (2019).Fast object detection in compressed JPEG images.

In IEEE Intelligent Transportation Systems Conference (ITSC).

Hamdani, M., Doetsch, P., Kozielski, M., Mousa, A., and Ney, H. (2014).The rwth large vocabulary arabic handwriting recognition system.

In IAPR International Workshop on Document Analysis Systems, pages 111–115.

Kaltenmeier, A., Caesar, T., Gloger, J. M., and Mandler, E. (1993).Sophisticated topology of hidden markov models for cursive script recognition.

In ICDAR, pages 139–142. IEEE.

Kawaguchi, K. (2016).Deep learning without poor local minima.

In Advances in Neural Information Processing Systems 29, pages 586–594. Curran Associates, Inc.

Lerouge, J., Herault, R., Chatelain, C., Jardin, F., and Modzelewski, R. (2015).IODA : An input output deep architecture for image labeling.

Pattern Recognition, 48(9) :2847–2858.

Menasri, F., Louradour, J., Bianne-Bernard, A., and Kermorvant, C. (2012).The a2ia handwriting recognition system at the rimes-icdar2011 competition.

In Document Recognition and Retrieval XIX, pages 82970Y–82970Y.

Noroozi, M. and Favaro, P. (2016).Unsupervised learning of visual representations by solving jigsaw puzzles.

CoRR, abs/1603.09246.

Pop, D., Rogozan, A., Chatelain, C., Nashashibi, F., and Bensrhair, A. (2019).Multi-task deep learning for pedestrian detection, action recognition and time to crossing prediction.

IEEE Access.

Poznanski, A. and Wolf, L. (2016).Cnn-n-gram for handwriting word recognition.

In CVPR, pages 2305–2314.

(76)

Bibliographie

Bibliographie III

Renton, G., Soullard, Y., Chatelain, C., Adam, S., Kermorvant, C., and Paquet, T. (2018).Fully convolutional network with dilated convolutions for handwritten text line segmentation.

International Journal on Document Analysis and Recognition (IJDAR), 21 :177–186.

Senior, A. W. and Robinson, A. J. (1998).An off-line cursive handwriting recognition system.

IEEE transactions on pattern analysis and machine intelligence, 20(3) :309–321.

Srivastava, N., Mansimov, E., and Salakhudinov, R. (2015).Unsupervised learning of video representations using lstms.

In International conference on machine learning, pages 843–852.

Thomas, S., Chatelain, C., Heutte, L., and Paquet, T. (2010).An information extraction model for unconstrained handwritten documents.

In International Conference on Pattern Recognition (ICPR), Istanbul, Turkey, page 4.

Thomas, S., Chatelain, C., Heutte, L., Paquet, T., and Kessentini, Y. (2015).A deep HMM model for multiple keywords spotting in handwritten documents.

Pattern Analysis and Applications, 18(4) :1003–1015.

Voigtlaender, P., Doetsch, P., and Ney, H. (2016).Handwriting recognition with large multidimensional long short-term memory recurrent neural networks.

In Frontiers in Handwriting Recognition (ICFHR), pages 228–233. IEEE.