apprentissage Une Introduction artificiel à l’

(1)

Antoine Cornuéjols AgroParisTech – INRA MIA 518

Une Introduction

à l’apprentissage artificiel

(2)

« How can we build computer systems that automaGcally improve with experience, and

what are the fundamental laws that govern all learning processes? »

Tom Mitchell, 2006

Une science … son objet

(3)

Apprendre pour quoi faire ?

  Science de la modélisa3on

–  Recherche de régularités sous-‐jacentes aux données d’observa9on

•  Pour comprendre et expliquer

•  Pour prédire et décider

  Science de l’adaptaGon

–  Recherche de schémas situaGon -‐> acGon par interac9on avec le monde

•  Pour réagir et anGciper

(4)

Plan

1.  Des données aux régularités : l’induc3on selon l’ApprenGssage ArGﬁciel

2.   L’espace des hypothèses (modèle)

3.  Le Graal : trouver le bon changement de représenta3on

4.  Quelques extensions mais toujours dans le paradigme

5.   Conclusions … et nouvelles direc3ons ?

(5)

Des données aux régularités

L’induc3on

(6)

ApprenGssage à parGr d’exemples

  Concepts compliqués à programmer

–  Mouvements appropriés pour un robot –  Personne à recruter / ne pas recruter

–  Caractéris9ques prédisposant à un certains types de cancer

ApprenGssage à par3r d’exemples

(7)

Les données

  Vectorielles

  Séquences

  Structurés (ensemble de graphes ?)

  Temporelles

  SpaGales

(8)

Les données

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

(9)

Les données

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

La protéine « sp|P00004|CYC_HORSE » est acGvée par …

1 ocagogtg aatgaatgga cgtgccaaat agacgtgccg ccgccgctcg aocgcaco 61 tgcotcggt otgccgtcg otcacgcgt oagoccgt tcggocao cccagoco

121 aaataccgga cgtaaaaata cactctaacg gtcccgcgaa gaaaaagata aagacatctc 181 gtagaaatat taaaataaat tcctaaagtc goggotct cgocacot cgctgcctgc …

4021 agaacacgcc gaggctccat tcatagcacc acocgtcgt coaatcccc tccctcatcc 4081 gccatggcgg tgcaaaaaat aaaaagaact c

DEVICE=eth0 BOOTPROTO=none ONBOOT=yes

IPADDR=192.168.0.X

NETMASK=255.255.255.O

(10)

Les données

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

Logique du 1

^er

ordre :

bloc(B1) & surtable(B2) & au-‐dessus(B1,B2) & …

(11)

Les données

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

(12)

Les données

  Vectorielles

  Séquences

  Structurés

  Temporelles

  Spa3ales

(13)

Cadre non supervisé

(14)

Les données non supervisées

  Sans sor3es associées

–  Clustering

–  EsGmaGon de densité

(15)

L’apprenGssage non supervisé

  L’univers numérique

–  En 2007 : ~ 281 exabytes (281 milliards de gigabytes = 2,81 . 10

²⁰

) –  En 2011 : ~3 . 10

²¹

–  Surtout des images et des videos

S = { x ₁ , . . . , x _m }

Comment organiser ce2e masse énorme de données ?

(16)

Le clustering (catégorisaGon)

  Organiser un ensemble de « formes » en groupes contrastés

  Comprimer les données en y découvrant une structure

•  Aﬁn de

o   « comprendre » les données

o  Et de faire des prédicGons

(17)

Le clustering (catégorisaGon)

(18)

Le clustering (catégorisaGon)

(19)

Le clustering (catégorisaGon)

(20)

Le clustering (catégorisaGon)

(21)

Clustering

(22)

Clustering

(23)

Le clustering (catégorisaGon)

Number of Clusters Number of Clusters

!"#$%&'($&)*%+%,%- ;"0201'&%:'/' .&#)/$"012%30/4%+%,%5

Importance du choix du nombre de catégories aHendues

(24)

Le clustering (catégorisaGon)

Importance du choix de la distance u3lisée

(25)

Le clustering (catégorisaGon)

Importance du choix de la distance u3lisée

(26)

ApprenGssage non supervisé

  Clustering de courbes

(27)

Séries temporelles : QuesGons

1.   Représenta3on des séquences

2.   Alignement entre séquences

3.   Mesure de similarité ou de distance

(28)

Séries temporelles : QuesGons

  Trouver les k séquences les plus proches d’une séquence donnée

  Trouver les séquences à moins de ε d’une séquence donnée

•  Distances pour les séquences

•  Dynamic Time Warping (DTW)

•  Distances d’édi9on

•  Sous-‐séquence commune la plus longue

•  …

•  Distances classiques

•  Euclidienne

•  Normes diverses

–  Présupposent un espace vectoriel

Il faut transformer la représentaGon des séquences

(29)

La représentaGon des séquences

1.   Brute

2.   ReprésentaGons « analyGques »

–  Par combinaison de composantes choisies dans un dicGonnaire –  Composantes orthogonales

3.   Régularités supposées : représentaGons spéciﬁques

•  Grammaires

•  Chaînes de Markov

•  Réseaux de neurones

•  …

(30)

L’alignement

  Représenta3on brute

–  Problèmes

•  Très grande dimension

•  Pas nécessairement même dimension

–  DTW (Dynamic Time Warping)

•  Principe

–  Coût associé à appariement local (e.g. même proﬁl local) –  Coût associé à déplacement non simultané dans le temps –  MinimisaGon de la somme des coûts

•  Calcul

–  ProgrammaGon dynamique

–  Réalisable en-‐ligne

(31)

/ 169

Alignement par DTW

Sankoﬀ, D. et Kruskal, J. (1983). Time warps, string edits, and macromolecules : the theory and pracGce of sequence comparison. Reading : Addison-‐Wesley Publica9on, 1983, edited by Sankoﬀ, David ; Kruskal, Joseph B., 1

Contexte Appariement de séries temporelles Apprentissage app discriminants Classification de séries Applications Conclusion

Caractéristiques des alignements standards

Définition Un alignement de taille r (max (T 1 , T 2 ) < r < T 1 + T 2 )

(Sankoﬀ & Kruskal 1983, Cuturi & al 2007)

Φ : { 1 .. r } → { 1 .. T 1 } × { 1 .. T 2 } telle que :

� Φ(1) = (1; 1)

� Φ(r ) = (T 1 ; T 2 )

� ∀ t ∈ [1 , r − 1] , Φ(t + 1) = Φ(t ) + Ψ(t ) où Ψ(t ) ∈ C (par ex : { (1; 1) , (1; 0) , (0; 1) } )

Alignement des observations simultanées Alignement tenant compte des délais

Contexte Appariement de séries temporelles Apprentissage app discriminants Classification de séries Applications Conclusion

Caractéristiques des alignements standards

Définition Un alignement de taille r (max (T ₁ , T ₂ ) < r < T ₁ + T ₂ )

(Sankoﬀ & Kruskal 1983, Cuturi & al 2007)

Φ : { 1..r } → { 1..T ₁ } × { 1..T ₂ } telle que :

� Φ(1) = (1; 1)

� Φ(r ) = (T 1 ; T 2 )

� ∀ t ∈ [1 , r − 1] , Φ(t + 1) = Φ(t ) + Ψ(t ) où Ψ(t ) ∈ C (par ex : { (1; 1) , (1; 0) , (0; 1) } )

Alignement des observations simultanées Alignement tenant compte des délais

31

« IntroducGon à l’ApprenGssage ArGﬁciel » (A. Cornuéjols) EPAT-‐ 2014

(32)

/ 169

ReprésentaGons analyGques

 

Transformée de Fourier discrète

 

Transformée en ondeleoes discrète

 

ApproximaGon agrégée par morceaux

 

…

ReprésentaGon vectorielle

! "! #! $! %! &!! &"! ! "! #! $! %! &!! &"! ! "! #! $! %! &!!&"! ! "! #! $! %! &!! &"! ! "! #! $! %! &!!&"! ! "! #! $! %! &!!&"!

#$% #&% '(# )+) )) *,)

! "! #! $! %! &!!&"!

--...//.

- - . .

. / / . '01

!"#$%&''(")#&+",-%".%

+#$%-$($-/

00,"+$%+1&+%&22%$)3$'+%!45%

&($%($&2%6&27$8/

%2345'4624758496474:;-;2<:7

#-;-5)=-9;2>4

#-;-5)=-9;2>4 ?<:5#-;-5)=-9;2>4?<:5#-;-5)=-9;2>4

'94/;6-@

&->4@4;7 !"#$#%"&#

'(()#(*+#, '--)./"0*+".1

*24/4A2745

*<@B:<32-@ 2"1(34*) 'B3.<@2/

5*43# '--)./"0*+".1

6*17.0, 8*--"1(&

*24/4A274 ,2:4-6 )996<C23-;2<:

'7*-+"9#

!"#$#%"&# :.1&+*1+ '--)./"0*+".1

;"&$)#+#,

<.3)"#),

=)*1&>.)0

;"&$)#+# :.&"1#

=)*1&>.)0

?**) ;*3@#$A"#&, 7@1,,,1,B,C

:.">4#+& 2D04#+& 2.)+#7

:.#>>"$"#1+&,

D6;E<:<63-@ F2GD6;E<:<63-@

E1+#)-.4*+".1 6#()#&&".1

=)##&

F*+3)*4 G*1(3*(#,

';62:H7

2D0@.4"$ '(()#(*+# '--)./"0*+".1,,

?<: ,<A46 F<I:=2:H

:A#@D&A#9

!.4D1.0"*4&,

#-;-5#2/;-;4=

#-;-5#2/;-;4= 1<=4@5F-74=

1<=4@5F-74=

?"77#1, 8*)H.9, 8.7#4&

2+*+"&+"$*4, 8.7#4&

5*43#, I*&#7

24.-#, I*&#7

J)"7 :4"--#7

;*+*

J +64-;45-:5--)./"0+".1 <K5;E45=-;-L5AE2/E5A2@@5K2;52:53-2:5 343<6BL5B4;564;-2:75;E454774:;2-@5K4-;I6475<K52:;4647;

J )996<C23-;4@B57<@>45;E4596<.@435-;5E-:=52:53-2:5343<6B

J 1-M45NE<94KI@@B5>46B5K4AO5-//477475;<5;E45<62H2:-@5=-;-5<:5=27M5

;<5/<:K2635;E457<@I;2<:5<.;-2:4=52:5';495"L5<65;<53<=2KB5;E45

7<@I;2<:57<52;5-H64475A2;E5;E457<@I;2<:5A45A<I@=5E->45<.;-2:4=5<:5

;E45<62H2:-@5=-;-

**!"#$%#&#'()$*+,+$-(&(&.$/0.1'(,"2$3'#4(5(,#67$**

91-% ",2: ;"(<-%.%+1$%

&''(")#&+",%&22";-%

**!"#$%&'"()*+),**

J ,<A465.<I:=2:H534-:75;E4547;23-;4=5=27;-:/452:5;E4564=I/4=579-/45275-@A-B75@4775

;E-:5<654PI-@5;<5;E45=27;-:/452:5;E45<62H2:-@579-/4Q

8"+,$(5$91:#'$;1<&6(&.=

' (

! "

# $

%

&

1

"

K

"

&

"

!

"

!)('*

+

% #

⁸&

$

" _!

N &)

"

&)

" _!

ON K9

"

&9

"

O

^"

!

_"#

)$,*',+

!

_"#

)$,*',+

$,

%&

=";$(%>"7,8*,?%#$&,-%+1&+%."(%&22%@%&,8%

!A%;$%1&6$B ! _"# )$,',+ '''' !)(' +

**>+:$*+,+**

/??'1@(2+,(1&$ 1'$

A>#?'#5#&,+,(1&B

32

« IntroducGon à l’ApprenGssage ArGﬁciel » (A. Cornuéjols) EPAT-‐ 2014

(33)

ReprésentaGons parGculières (e.g. automates)

  QuesGons

–  Automate canonique ? (unicité ?) –  ApprenGssage ?

–   Et si bruit ?

1 a 2

3 b

a

4 b

b

a b

a

a b a a a b b a a b b a b b a b b a …

(34)

Clustering

(35)

Clustering

(36)

Le clustering (catégorisaGon)

  Ingrédients essenGels

–  Nombre de clusters –  Distance employée –  Algorithme

•  K-‐moyennes

•  Clustering Hiérarchique Ascendant (AHC)

•  Clustering descendant (e.g. Cobweb [Doug Fisher, 1987])

•  …

•  Peut-‐on les déterminer automa6quement ?

–  Nombre de clusters : OUI

–  Distance employée : Vous verrez

(37)

Cadre supervisé

(38)

Les données supervisées

  Avec sor3es associées

S ^{= {(x} ₁ ^{, y} ₁ ^{), (x} ₂ ^{, y} ₂ ^{), … , (x} _i ^{, y} _i ^{), … , (x} _m ^{, y} _m ^)}

–  ClassiﬁcaGon

–  Régression

(39)

Plus formellement

  EchanGllon d’apprenGssage

–  Données d’observaGon (supposées représentaGves)

^S ^{= {(x} 1 ), (x ₂ ), … , (x _i ), … , (x _m )}

S ^{= {(x} ₁ ^{, y} ₁ ^{), (x} ₂ ^{, y} ₂ ^{), … , (x} _i ^{, y} _i ^{), … , (x} _m ^{, y} _m ^)}

–  Dépendance entre X et Y

•  Densité de probabilité jointe : P

_X_x_Y

f

(40)

Le point de vue sta3s3que

Reconnaissance des formes

(41)

Dépendance = loi de distribuGon jointe

Approche bayésienne

  Soit un ensemble ﬁni de valeurs de sorGe : {y

_i

}

1 ≤ i ≤ K

  Si l’on connaissait les distribuGons P

_Y|X

(y

_i

|x) :

Approche « discriminaGve »

(42)

Dépendance = loi de distribuGon jointe

Approche bayésienne « généraGve »

(43)

Dépendance = loi de distribuGon jointe

  L’appren3ssage dans l’approche bayésienne

–  On considère des familles paramétrées de distribu3ons

–  On esGme θ à parGr des données :

•  MAP

•  MLE

(44)

L’approche staGsGque : bilan

  Importance cruciale du choix des distribuGons de probabilité

–  Sinon …

x

P

_x_|_C₂

P

_x_|_C₁

(45)

L’approche staGsGque : bilan

  Importance cruciale du choix des distribuGons de probabilité

–  Sinon …

  En savoir plus que nécessaire :

–  un péché de gourmandise selon Vapnik : qui peut être mortel

x

P

_x_|_C₂

P

_x_|_C₁

(46)

L’approche staGsGque : bilan

  Importance cruciale du choix des distribu3ons de probabilité

  Chercher à en savoir trop peut être dangereux

  Diﬃcultés techniques

–  La malédic6on de la dimensionalité –  Problèmes d’op6misa6on diﬃciles

•  Algorithmes EM

•  Algorithmes variaGonnels

•  MCMC (Markov Chains Monte Carlo)

•  …

(47)

Un pe3t exemple

Le point de vue de l’Appren3ssage Ar3ﬁciel

(48)

ApprenGssage de rectangle

  ÉchanGllon

–  D’exemples posiGfs –  D’exemples négaGfs

P ⁺ _X P ⁻ _X

x

y

(49)

ApprenGssage de rectangle

  Que cherche-‐t-‐on à apprendre ?

x y

!

(50)

ApprenGssage de rectangle

  Comment apprendre ?

x

y

(51)

ApprenGssage de rectangle

  Comment apprendre ?

–  Si je sais que le concept cible est un rectangle

y

(52)

ApprenGssage de rectangle

  Comment apprendre ?

–  Si je sais que le concept cible est un rectangle

x y

Hypothèses les

plus générales

(53)

ApprenGssage de rectangle

  Comment apprendre ?

–  Si je sais que le concept cible est un rectangle

x y

Hypothèses les

plus spéciﬁques

(54)

ApprenGssage de rectangle

  Comment apprendre ?

–  Choix d’une hypothèse h

x y

Espace des

versions

(55)

ApprenGssage de rectangle

  ApprenGssage : choix de h

–  Quelle performance ?

x y

h

(56)

1 ^ère étude sta3s3que de l’inducGon

Quelle performance ?

  Coût d’une erreur de prédicGon

–  La fonc6on de perte

  Quel coût à venir si je choisis h ?

–  Espérance de coût : le « risque réel »

R(h) = �

X ×Y

� �

h(x), y �

p _{X Y} (x, y) dx dy

� �

h(x), y �

(57)

1 ^ère étude sta3s3que de l’inducGon

  Quelle performance aoendue pour h ?

–  Erreur moyenne sur l’ échanGllon d’apprenGssage S

x y

h

Le « risque empirique »

R(h) = ˆ 1 m

� m

i=1

� � h(x _i ), y _i �

(58)

1 ^ère étude sta3s3que de l’inducGon

  Stratégie d’apprenGssage :

–  choix d’une hypothèse de risque empirique nul (pas d’erreur sur l’ échanGllon d’apprenGssage S)

–  Quelle performance aoendue pour h ?

x y

h

x y

f

h

(59)

1 ^ère étude sta3s3que de l’inducGon

–  choix d’une hypothèse de risque empirique nul (pas d’erreur sur l’ échanGllon d’apprenGssage S)

–  Quelle performance aoendue pour h ?

–  Quel est le risque d’avoir une erreur R(h) > ε ?

y

f

h

h ∆ f

y

f

h

(60)

1 ^ère étude sta3s3que de l’inducGon

  Supposons h tq.

  Quelle est la probabilité que pourtant h ait été sélecGonnée ?

x y

f

h

h ∆ f

R(h) ≥ ε

R(h) = p _X (h ∆ f )

Après un exemple : p � R(h ˆ �

= 0) ≤ 1 − ε

Après m exemple (i.i.d.) :

p ^m � R(h ˆ �

= 0) ≤ (1 − ε) ^m

On veut : ∀ ε, δ ∈ [0, 1] : p ^m �

R(h �

≥ ε) ≤ δ

« tombe » en dehors de h ∆ f

(61)

1 ^ère étude sta3s3que de l’inducGon

  On cherche :

x y

f

h

h ∆ f

Soit :

D’où :

∀ ε, δ ∈ [0, 1] : p ^m �

R(h �

≥ ε) ≤ δ

(1 − ε) ^m ≤ δ

e ⁻ ^ε ^m ≤ δ

− ε m ≤ ln(δ)

m ≥ ln(1/δ)

ε

(62)

2 ^ème étude sta3s3que de l’inducGon

  L’hypothèse est choisie sur la base de S

  On veut donc en fait :

•  On suppose :

Alors :

|H| < ∞

« cas réalisable »

∀ ε, δ ∈ [0, 1] : p ^m �

∃ h : R(h �

≥ ε) ≤ δ

m ≥ 1

ε ln |H|

δ

− ε m ≤ ln(δ) − ln( |H| )

|H| (1 − ε) ^m ≤ |H| e ⁻ ^ε ^m = δ

(63)

Cas « non réalisable »

  _H ≠ F

x y

f

x y

f

h

Il n’existe plus d’hypothèse de risque réel nul.

(64)

3 ^ème étude sta3s3que de l’inducGon

Théorème 1 (Inégalité de Hoeffding). Si les ξ

_i

sont des variables al´eatoires, tir´ees ind´ ependamment et selon une mˆ eme distribution et prenant leur valeur dans l’intervalle [a, b], alors :

P �� 1 m

�

m

i=1

ξ

_i

− E (ξ)

� �

� � ≥ ε

�

≤ 2 exp

�

− 2 m ε

²

(b − a)

²

�

Appliquée au risque empirique et au risque réel, cette inégalité nous donne : P �

| R

_Emp

(h) − R

_R´_eel

(h) | ≥ ε �

≤ 2 exp �

− 2 m ε

²

(b − a)

²

� (1)

si la fonction de perte � est d´efinie sur l’intervalle [a, b].

P

^m

[ ∃ h ∈ H : R

_R´_eel

(h) − R

_Emp

(h) > ε] ≤

�

|H|

i=1

P

^m

[R

_R´_eel

(h

ⁱ

) − R

_Emp

(h

ⁱ

) > ε]

≤ |H| exp( − 2 m ε

²

) = δ

en supposant ici que la fonction de perte � prend ses valeurs dans l’intervalle

« H ^{ﬁni »}

(65)

3 ^ème étude sta3s3que de l’inducGon

  On en Gre :

•  Au lieu de (« cas réalisable ») :

ε =

� log |H| + log

¹_δ

2 m et

ε = log |H| + log

¹_δ

m et _m _≥ ^log ^|H| ^{+ log}

¹^δ

ε

m ≥ log |H| + log

¹_δ

2 ε

²

(66)

Lien entre risque réel et risque empirique

  _H ﬁni, cas réalisable

  _H ﬁni, cas non réalisable

∀ h ∈ H , ∀ δ ≤ 1 : P

^m

�

R

_R´_eel

(h) ≤ R

_Emp

(h) +

� log |H| + log

¹_δ

2 m

�

> 1 − δ

∀ h ∈ H , ∀ δ ≤ 1 : P

^m

�

R

_R´_eel

(h) ≤ R

_Emp

(h) + log |H| + log

¹_δ

m

�

> 1 − δ

(67)

4 ^ème étude sta3s3que de l’inducGon

  Cas non réalisable et H non ﬁnie

Comment faire ?

–  Principe général :

1.  Réduire l’étude du cas inﬁni à celui de l’analyse d’un ensemble ﬁni d’hypothèses

2.   Mesurer à quel point, pour n’importe quel échan3llon S de points éGquetés,

on peut trouver une hypothèse de H pouvant s’adapter à S

(68)

4 ^ème étude sta3s3que de l’inducGon

  La complexité de Rademacher

–  Soit :

–  Mesure de la corrélaGon entre les prédicGons et les éGqueoes :

–  L’hypothèse maximisant ceoe corrélaGon :

–  Mesure caractérisant l’adéquaGon de H avec S .

S = { (x ₁ , y ₁ ), . . . , (x _m , y _m ) } = { z ₁ , . . . , z _m }

1 m

� m

i=1

y _i h(x _i )

h ^∗ = ArgMax

h ∈H

1 m

� m i=1

y _i h(x _i )

(69)

4 ^ème étude sta3s3que de l’inducGon

  La complexité de Rademacher (suite)

–  Supposons que les éGqueoes soient choisies au hasard

•  Chaque y

_i

est remplacée par une variable aléatoire σ

_i

= -‐1 ou +1

–  On peut mesurer comment H peut s’ajuster à ce bruit par l’espérance : R _S ( H ) = E ^σ

�

Max h ∈H

1 m

� m

i=1

σ _i h(x _i )

�

On en Gre la borne :

� �

log

²

�

(70)

4 ^ème étude sta3s3que de l’inducGon

  Mesure par la fonc6on de croissance

–  Critère purement combinatoire, ne dépendant pas de la distribuGon P

_XY

–  Nombre maximal de manière disGnctes d’éGqueter m points de X en

uGlisant une hypothèse de H

On en Gre la borne :

∀ h ∈ H , ∀ δ ≤ 1 : P

^m

�

R

_R´_eel

(h) ≤ R

_Emp

(h) +

� 2 log Π

_H

(m)

m +

� log

¹_δ

2 m

�

> 1 − δ

∀ m ∈ N , Π

_H

(m) = max

{x1,...,xm}⊆X

� �

� � ��

h(x

₁

), . . . , h(x

_m

) �

: h ∈ H � � � � �

(71)

4 ^ème étude sta3s3que de l’inducGon

  Mesure par la dimension de Vapnik-‐Chervonenkis

–  Critère purement combinatoire, ne dépendant pas du nombre d’exemples –  Taille du plus grand ensemble de points pouvant être éGquetés de

n’importe quelle manière par les hypothèses Grées de H

On en Gre la borne :

d _{V C} ( H ) = max �

m : Π _H (m) = 2 ^m �

∀ h ∈ H , ∀ δ ≤ 1 : P

^m

�

R

_R´_eel

(h) ≤ R

_Emp

(h) +

� 8 d

_{V C}

( H ) log

_d²^{e m}

V C(H)

+ 8 log

⁴_δ

m

�

> 1 − δ

(72)

VC dim : illustraGon

  d

_VC

(séparateurs linéraires) = ?

+

+ -

+

+ - -

+ +

- +

+

(a) (b) (c)

•  d

_VC

(rectangles) = ?

+

- - +

+ -

+ +

+ - +

+ -

(a) (b) (c) (d)

+

(73)

Étude staGsGque de l’inducGon

1.  Ces mesures de capacité ne dépendent pas de la dimension de X !!

2.   La complexité de Rademacher de l’enveloppe convexe d’espaces H n’est pas plus grande que celle de H !

–  Intéressant pour les méthodes d’ensemble et les méthodes collaboraGves

(74)

Quelques remarques

1.   On n’a pas vraiment parlé d’algorithme d’appren6ssage !?

–  Où est l’apprenGssage ?

2.   Importance cruciale de l’hypothèse de sta6onnarité et d’indépendance : Grage i.i.d.

3.   Importance du choix de H

–  Mais étude « contre toute distribuGon »

Ne présuppose pas un certain type de distribuGon

(75)

Fondamentalement

1.   Appren3ssage = problème inverse mal-‐posé

(76)

Fondamentalement

1.   Appren3ssage = problème inverse mal-‐posé

2.   Le principe de minimisaGon du risque empirique est naïf

3.   À remplacer par un principe de minimisa3on d’un risque régularisé

(77)

Le critère inducGf

  Critère de subs3tu3on à la place du risque réel

1.   Risque empirique régularisé

2.   Fonc3on de perte de subs3tu3on

(surrogate funcGon)

(78)

L’inducGon supervisée

en trois quesGons

(79)

Trois ingrédients essenGels

1.   Choix de l’espace des hypothèses H

–  Contrôler sa « capacité »

2.   Choix du critère à op6miser R(h)

–  Risque empirique régularisé

3.   Choix de la méthode d’explora6on de H

–  Plus facile si R(.) convexe

(80)

Panorama de quelques

espaces d’hypothèses

(81)

+ ⁺ ⁺

+

+ ⁺

+

-

Espace des exemples : X

+/-‐ ?

Apprendre sans espace d’hypothèses

(82)

Espace des exemples : X Espace des hypothèses : H

L _H

➥   Comment choisir l’espace des hypothèses (i.e. le langage L

_H

) ?

+ ⁺ ⁺

+

+ ⁺

+

-

- ^-

-

x h

Le rôle de l’espace des hypothèses

(83)

ExploraGon de l’espace des versions [Tom Mitchell, 1979]

  Introduit explicitement l’idée de recherche dans un espace d’hypothèses

(84)

Types d’ espaces d’hypothèses

(85)

H = combinaison de foncGons de base

(86)

Combinaisons linéaires de foncGons de base

(87)

Combinaisons linéaires de foncGons de base

  Le Perceptron : Frank Rosenblao (1958 – 1962)

(88)

  Méthode d’exploration de H

–  Recherche par gradient

•  Minimisation de la fonction d’erreur

–  Algorithme :

si la forme est correctement classée : ne rien faire sinon :

boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

w(t + 1) = w(t ) − η x _i u _i

Le perceptron : algorithme de gradient

(89)

Combinaisons linéaires de foncGons de base

  Souvent possible d’avoir un op3mum unique

–  Critère d’op3misa3on convexe

  Interprétabilité facilitée

–  Critère d’opGmisaGon favorisant la parcimonie

•  Norme L1 (e.g. LASSO)

  Algorithmes

–  Gradient

–  ItéraGvement pour chaque terme

(90)

–  Rosenblao (1958-‐1962)

Le Perceptron

(91)

Combinaisons non linéaires de foncGons de base

  Une réponse :

–  À la recherche d’une bonne

représentaGon

(92)

Combinaisons non linéaires de foncGons de base

  QuesGons :

–  Comment apprendre les paramètres (poids des connexions) ?

–  Comment déterminer l’architecture du réseau ?

(93)

IllustraGon

(94)

Combinaisons non linéaires de foncGons de base

  Souvent des opGma mulGples

–  OpGmisaGon diﬃcile

  Interprétabilité pas immédiate

–  InteracGons mulGples

  Algorithmes

–  Gradient

(95)

H = modèles non paramétriques

déﬁnis à parGr des exemples d’apprenGssage

(96)

Les séparateurs à Vastes Marges (SVM)

h ^� (x) = sign � �

i ∈P

α ^� _i y _i � φ(x), φ(x _i ) � + w ₀ ^�

�

(97)

Hypothèses exprimées à parGr des exemples

  Séparateurs à Vastes Marges (SVM)

(98)

Hypothèses exprimées à parGr des exemples

(99)

Hypothèses exprimées à parGr des exemples

  Recherche de critères convexes

–  OpGmisaGon « facile »

  Interprétabilité pas immédiate

–  À parGr de cas non typiques (mais « near-‐misses »)

  Algorithmes

–  Gradient sophis3qué

(100)

H = par apprenGssage construcGf

(101)

Modèles construcGfs

  Arbre de décision

(102)

Modèles construcGfs

  Modèles graphiques

(103)

Modèles « symboliques »

(104)

ApprenGssage construcGf

  Souvent des opGma mulGples

–  E.g. Espace des versions

  Interprétabilité aisée

–  « Fait pour »

–  Plus proche de la cogniGon humaine

  Algorithmes

–  Mise en jeu d’opérateurs spéciﬁques

•  E.g. Spécialisa9on / généralisa9on

–  Algorithmes d’explora3on +/-‐ heurisGques +/-‐ ad hoc

(105)

ApprenGssage de l’espace des versions [Tom Mitchell, 1979]

« Learning

as search »

(106)

ApprenGssage de l’espace des versions [Tom Mitchell, 1979]

(107)

ApprenGssage de l’espace des versions [Tom Mitchell, 1979]

(108)

Le Graal :

Trouver le bon changement de représenta3on

(109)

PrédéﬁniGon d’un espace foncGonnel

Les méthodes paramétriques

(110)

IdenGﬁer le bon espace H

•  Oui

•  Non

(111)

Modèles non linéaires : les réseaux connecGonnistes

  QuesGons :

–  Comment apprendre les paramètres (poids des connexions) ?

–  Comment déterminer l’architecture du réseau ?

(112)

Le changement de représentaGon : l’architecture

–  Quelle représenta3on (variables latentes) ?

–  Comment choisir l’architecture ?

(113)

ReprésentaGon dépendante des données

Méthodes non paramétriques

(114)

Changer de représentaGon

  Changement dépendant des données :

méthodes non paramétriques

–  Méthodes à noyaux

–  Méthodes d’ensemble

–  Méthodes construc3ves de H

•  ProgrammaGon Logique InducGve, …

(115)

SVM et méthodes à noyaux

–  Plus robuste à variaGons de l’échanGllon d’apprenGssage –  Validé par analyse théorique

  Séparateur linéaire à plus V aste Marge

(116)

SVM et méthodes à noyaux

  La recherche de la marge maximale conduit au critère :

Risque empirique Marge

FoncGon de perte

de subs9tu9on

(surrogate loss)

(117)

SVM et méthodes à noyaux

  Trois idées

–  Hypothèses comme combinaison linéaire

–  Directement foncGon des exemples (exemples support)

–  Minimise un risque régularisé dans lequel la marge mesure la versaGlité

  Expression de l’hypothèse (fameuse « forme duale »)

(118)

SVM et méthodes à noyaux

(119)

SVM et méthodes à noyaux

(120)

Méthodes à noyaux : dans quel espace ?

  Changement de représentaGon

(121)

Méthodes collaboraGves

Oliver Selfridge (1956) :

« Pandemonium: A Paradigm

for Learning ».

(122)

BoosGng et redescripGon

  ConstrucGon itéra3ve de l’espace de redescripGon

(123)

apprentissage Une Introduction artificiel à l’

Antoine Cornuéjols AgroParisTech – INRA MIA 518

Une Introduction

à l’apprentissage artificiel

« How can we build computer systems that automaGcally improve with experience, and

what are the fundamental laws that govern all learning processes? »

Tom Mitchell, 2006

Une science … son objet

Apprendre pour quoi faire ?

 Science de la modélisa3on

– Recherche de régularités sous-­‐jacentes aux données d’observa9on

• Pour comprendre et expliquer

• Pour prédire et décider

 Science de l’adaptaGon

– Recherche de schémas situaGon -­‐> acGon par interac9on avec le monde

• Pour réagir et anGciper

Plan

1. Des données aux régularités : l’induc3on selon l’ApprenGssage ArGﬁciel

2. L’espace des hypothèses (modèle)

3. Le Graal : trouver le bon changement de représenta3on

4. Quelques extensions mais toujours dans le paradigme

5. Conclusions … et nouvelles direc3ons ?

Des données aux régularités

L’induc3on

ApprenGssage à parGr d’exemples

 Concepts compliqués à programmer

– Mouvements appropriés pour un robot – Personne à recruter / ne pas recruter

– Caractéris9ques prédisposant à un certains types de cancer

ApprenGssage à par3r d’exemples

Les données

 Vectorielles

 Séquences

 Structurés (ensemble de graphes ?)

 Temporelles

 SpaGales

Les données

 Vectorielles

 Séquences

 Structurés

 Temporelles

 SpaGales

Les données

 Vectorielles

 Séquences

 Structurés

 Temporelles

 SpaGales

La protéine « sp|P00004|CYC_HORSE » est acGvée par …

1 ocagogtg aatgaatgga cgtgccaaat agacgtgccg ccgccgctcg aocgcaco 61 tgcotcggt otgccgtcg otcacgcgt oagoccgt tcggocao cccagoco

121 aaataccgga cgtaaaaata cactctaacg gtcccgcgaa gaaaaagata aagacatctc 181 gtagaaatat taaaataaat tcctaaagtc goggotct cgocacot cgctgcctgc …

4021 agaacacgcc gaggctccat tcatagcacc acocgtcgt coaatcccc tccctcatcc 4081 gccatggcgg tgcaaaaaat aaaaagaact c

DEVICE=eth0 BOOTPROTO=none ONBOOT=yes

IPADDR=192.168.0.X

NETMASK=255.255.255.O

Les données

 Vectorielles

 Séquences

 Structurés

 Temporelles

 SpaGales

Logique du 1

ordre :

bloc(B1) & surtable(B2) & au-­‐dessus(B1,B2) & …

Les données

 Vectorielles

 Séquences

 Structurés

 Temporelles

 SpaGales

Les données

 Vectorielles

 Séquences

 Structurés

 Temporelles

 Spa3ales

Cadre non supervisé

Les données non supervisées

 Sans sor3es associées

– Clustering

– EsGmaGon de densité

  Science de la modélisa3on

–  Recherche de régularités sous-‐jacentes aux données d’observa9on

•  Pour comprendre et expliquer

•  Pour prédire et décider

  Science de l’adaptaGon

–  Recherche de schémas situaGon -‐> acGon par interac9on avec le monde

•  Pour réagir et anGciper

1.  Des données aux régularités : l’induc3on selon l’ApprenGssage ArGﬁciel

2.   L’espace des hypothèses (modèle)

3.  Le Graal : trouver le bon changement de représenta3on

4.  Quelques extensions mais toujours dans le paradigme

5.   Conclusions … et nouvelles direc3ons ?

  Concepts compliqués à programmer

–  Mouvements appropriés pour un robot –  Personne à recruter / ne pas recruter

–  Caractéris9ques prédisposant à un certains types de cancer

  Vectorielles

  Séquences

  Structurés (ensemble de graphes ?)

  Temporelles

  SpaGales

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

bloc(B1) & surtable(B2) & au-‐dessus(B1,B2) & …

  Vectorielles

  Séquences

  Structurés

  Temporelles

  SpaGales

  Vectorielles

  Séquences

  Structurés

  Temporelles

  Spa3ales

  Sans sor3es associées

–  Clustering

–  EsGmaGon de densité

  L’univers numérique

–  En 2007 : ~ 281 exabytes (281 milliards de gigabytes = 2,81 . 10

) –  En 2011 : ~3 . 10

–  Surtout des images et des videos

S = { x ₁ , . . . , x _m }

  Organiser un ensemble de « formes » en groupes contrastés

  Comprimer les données en y découvrant une structure

•  Aﬁn de

o   « comprendre » les données

o  Et de faire des prédicGons

  Clustering de courbes

1.   Représenta3on des séquences

2.   Alignement entre séquences

3.   Mesure de similarité ou de distance

  Trouver les k séquences les plus proches d’une séquence donnée

  Trouver les séquences à moins de ε d’une séquence donnée

•  Distances pour les séquences

•  Dynamic Time Warping (DTW)

•  Distances d’édi9on

•  Sous-‐séquence commune la plus longue

•  …

•  Distances classiques

•  Euclidienne

•  Normes diverses

–  Présupposent un espace vectoriel

1.   Brute

2.   ReprésentaGons « analyGques »

–  Par combinaison de composantes choisies dans un dicGonnaire –  Composantes orthogonales

3.   Régularités supposées : représentaGons spéciﬁques

•  Grammaires

•  Chaînes de Markov