• Aucun résultat trouvé

apprentissage Une Introduction artificiel à l’

N/A
N/A
Protected

Academic year: 2022

Partager "apprentissage Une Introduction artificiel à l’"

Copied!
169
0
0

Texte intégral

(1)

Antoine  Cornuéjols   AgroParisTech  –  INRA      MIA  518  

Une Introduction

à l’apprentissage artificiel    

(2)

«       How   can  we  build   computer  systems  that     automaGcally  improve  with  experience,          and    

what  are   the  fundamental  laws  that     govern    all  learning  processes?  »  

Tom  Mitchell,  2006              

Une  science  …    son  objet  

(3)

Apprendre  pour  quoi  faire  ?  

  Science  de  la  modélisa3on    

–  Recherche  de  régularités  sous-­‐jacentes  aux  données  d’observa9on  

•  Pour  comprendre  et  expliquer  

•  Pour  prédire  et  décider  

  Science  de  l’adaptaGon  

–  Recherche  de  schémas  situaGon  -­‐>  acGon  par  interac9on  avec  le   monde  

•  Pour  réagir  et  anGciper  

(4)

Plan  

1.   Des  données  aux  régularités  :  l’induc3on  selon  l’ApprenGssage  ArGficiel  

2.    L’espace  des  hypothèses  (modèle)  

3.   Le  Graal  :  trouver  le  bon  changement  de  représenta3on  

4.   Quelques  extensions  mais  toujours  dans  le  paradigme  

5.    Conclusions  …  et  nouvelles  direc3ons  ?  

(5)

Des  données  aux  régularités  

L’induc3on  

(6)

ApprenGssage  à  parGr  d’exemples  

  Concepts  compliqués  à  programmer  

–  Mouvements  appropriés  pour  un  robot   –  Personne  à  recruter  /  ne  pas  recruter  

–  Caractéris9ques  prédisposant  à  un  certains  types  de  cancer  

   ApprenGssage  à  par3r  d’exemples  

(7)

Les  données  

  Vectorielles  

  Séquences  

  Structurés      (ensemble  de  graphes  ?)  

  Temporelles  

  SpaGales  

(8)

Les  données  

  Vectorielles  

  Séquences  

  Structurés  

  Temporelles  

  SpaGales  

(9)

Les  données  

  Vectorielles  

  Séquences  

  Structurés  

  Temporelles  

  SpaGales  

La  protéine  «  sp|P00004|CYC_HORSE  »  est  acGvée   par  …  

 1        ocagogtg  aatgaatgga  cgtgccaaat  agacgtgccg  ccgccgctcg  aocgcaco               61      tgcotcggt  otgccgtcg  otcacgcgt  oagoccgt  tcggocao  cccagoco            

121  aaataccgga  cgtaaaaata  cactctaacg  gtcccgcgaa  gaaaaagata  aagacatctc             181  gtagaaatat  taaaataaat  tcctaaagtc  goggotct  cgocacot  cgctgcctgc            …  

4021  agaacacgcc  gaggctccat  tcatagcacc  acocgtcgt  coaatcccc  tccctcatcc           4081  gccatggcgg  tgcaaaaaat  aaaaagaact  c  

DEVICE=eth0     BOOTPROTO=none     ONBOOT=yes    

IPADDR=192.168.0.X    

NETMASK=255.255.255.O    

(10)

Les  données  

  Vectorielles  

  Séquences  

  Structurés  

  Temporelles  

  SpaGales  

Logique  du  1

er

 ordre  :  

                   bloc(B1)  &  surtable(B2)  &  au-­‐dessus(B1,B2)  &  …    

(11)

Les  données  

  Vectorielles  

  Séquences  

  Structurés  

  Temporelles  

  SpaGales  

(12)

Les  données  

  Vectorielles  

  Séquences  

  Structurés  

  Temporelles  

  Spa3ales  

(13)

Cadre    non  supervisé  

(14)

Les  données  non  supervisées    

  Sans  sor3es  associées  

–  Clustering  

–  EsGmaGon  de  densité  

(15)

L’apprenGssage  non  supervisé  

  L’univers  numérique    

–  En  2007  :  ~  281  exabytes    (281  milliards  de  gigabytes  =  2,81  .  10

20

)   –  En  2011  :  ~3  .  10

21

   

–  Surtout  des  images  et  des  videos  

S = { x 1 , . . . , x m }

Comment  organiser  ce2e  masse  énorme  de  données  ?    

(16)

Le  clustering    (catégorisaGon)  

  Organiser  un  ensemble  de  «  formes  »  en  groupes  contrastés  

  Comprimer  les  données  en  y  découvrant  une  structure  

•  Afin  de      

o   «  comprendre  »  les  données  

o  Et  de  faire  des  prédicGons  

(17)

Le  clustering    (catégorisaGon)  

(18)

Le  clustering    (catégorisaGon)  

(19)

Le  clustering    (catégorisaGon)  

(20)

Le  clustering    (catégorisaGon)  

(21)

Clustering  

(22)

Clustering  

(23)

Le  clustering    (catégorisaGon)  

Number of Clusters Number of Clusters

!"#$%&'($&)*%+%,%- ;"0201'&%:'/' .&#)/$"012%30/4%+%,%5

Importance  du  choix  du  nombre  de  catégories  aHendues  

(24)

Le  clustering    (catégorisaGon)  

Importance  du  choix  de  la  distance  u3lisée  

(25)

Le  clustering    (catégorisaGon)  

Importance  du  choix  de  la  distance  u3lisée  

(26)

ApprenGssage  non  supervisé  

  Clustering  de  courbes  

(27)

Séries  temporelles  :  QuesGons  

1.    Représenta3on  des  séquences  

2.    Alignement  entre  séquences  

3.    Mesure  de  similarité  ou  de  distance  

(28)

Séries  temporelles  :  QuesGons  

  Trouver  les  k  séquences  les  plus  proches  d’une  séquence  donnée  

  Trouver  les  séquences  à  moins  de  ε  d’une  séquence  donnée  

•  Distances  pour  les  séquences  

•  Dynamic  Time  Warping  (DTW)  

•  Distances  d’édi9on  

•  Sous-­‐séquence  commune  la  plus  longue  

•  …  

•  Distances  classiques  

•  Euclidienne  

•  Normes  diverses  

–  Présupposent  un  espace  vectoriel  

 Il  faut  transformer  la  représentaGon  des  séquences  

(29)

La  représentaGon  des  séquences  

1.    Brute  

2.      ReprésentaGons  «  analyGques  »  

–  Par  combinaison  de  composantes  choisies  dans  un  dicGonnaire   –  Composantes  orthogonales  

3.    Régularités  supposées  :  représentaGons  spécifiques  

•  Grammaires  

•  Chaînes  de  Markov  

•  Réseaux  de  neurones  

•  …    

(30)

L’alignement  

  Représenta3on  brute  

–  Problèmes  

•  Très  grande  dimension  

•  Pas  nécessairement  même  dimension  

–  DTW  (Dynamic  Time  Warping)  

•  Principe  

–  Coût  associé  à  appariement  local  (e.g.  même  profil  local)   –  Coût  associé  à  déplacement  non  simultané  dans  le  temps   –  MinimisaGon  de  la  somme  des  coûts  

•  Calcul    

–  ProgrammaGon  dynamique  

–  Réalisable  en-­‐ligne  

(31)

/  169  

Alignement  par  DTW  

Sankoff,  D.  et  Kruskal,  J.  (1983).      Time  warps,  string  edits,  and  macromolecules  :  the  theory  and  pracGce  of  sequence   comparison.      Reading  :  Addison-­‐Wesley  Publica9on,  1983,  edited  by  Sankoff,  David  ;  Kruskal,  Joseph  B.,  1  

Contexte Appariement de séries temporelles Apprentissage app discriminants Classification de séries Applications Conclusion

Caractéristiques des alignements standards

Définition Un alignement de taille r (max (T 1 , T 2 ) < r < T 1 + T 2 )

(Sankoff & Kruskal 1983, Cuturi & al 2007)

Φ : { 1 .. r } → { 1 .. T 1 } × { 1 .. T 2 } telle que :

� Φ(1) = (1; 1)

� Φ(r ) = (T 1 ; T 2 )

� ∀ t ∈ [1 , r − 1] , Φ(t + 1) = Φ(t ) + Ψ(t ) où Ψ(t ) ∈ C (par ex : { (1; 1) , (1; 0) , (0; 1) } )

Alignement des observations simultanées Alignement tenant compte des délais

Contexte Appariement de séries temporelles Apprentissage app discriminants Classification de séries Applications Conclusion

Caractéristiques des alignements standards

Définition Un alignement de taille r (max (T 1 , T 2 ) < r < T 1 + T 2 )

(Sankoff & Kruskal 1983, Cuturi & al 2007)

Φ : { 1..r } → { 1..T 1 } × { 1..T 2 } telle que :

� Φ(1) = (1; 1)

� Φ(r ) = (T 1 ; T 2 )

� ∀ t ∈ [1 , r − 1] , Φ(t + 1) = Φ(t ) + Ψ(t ) où Ψ(t ) ∈ C (par ex : { (1; 1) , (1; 0) , (0; 1) } )

Alignement des observations simultanées Alignement tenant compte des délais

31  

«  IntroducGon  à  l’ApprenGssage  ArGficiel  »              (A.  Cornuéjols)                          EPAT-­‐  2014  

(32)

/  169  

ReprésentaGons  analyGques  

 

Transformée  de  Fourier  discrète  

 

Transformée  en  ondeleoes  discrète  

 

ApproximaGon  agrégée  par  morceaux  

 

…  

ReprésentaGon  vectorielle  

! "! #! $! %! &!! &"! ! "! #! $! %! &!! &"! ! "! #! $! %! &!!&"! ! "! #! $! %! &!! &"! ! "! #! $! %! &!!&"! ! "! #! $! %! &!!&"!

#$% #&% '(# )*+) *)) *,)

! "! #! $! %! &!!&"!

--...//.

- - . .

. / / . '01

!"#$%&''(")*#&+*",-%".%

+*#$%-$(*$-/

00,"+$%+1&+%&22%$)3$'+%!45%

00,"+$%+1&+%&22%$)3$'+%!45%

&($%($&2%6&27$8/

%2345'4624758496474:;-;2<:7

%2345'4624758496474:;-;2<:7

#-;-5)=-9;2>4

#-;-5)=-9;2>4 ?<:5#-;-5)=-9;2>4?<:5#-;-5)=-9;2>4

'94/;6-@

&->4@4;7 !"#$#%"&#

'(()#(*+#, '--)./"0*+".1

*24/4A2745

*<@B:<32-@ 2"1(34*) 'B3.<@2/

5*43# '--)./"0*+".1

6*17.0, 8*--"1(&

*24/4A274 ,2:4-6 )996<C23-;2<:

'7*-+"9#

!"#$#%"&# :.1&+*1+ '--)./"0*+".1

;"&$)#+#,

<.3)"#),

=)*1&>.)0

;"&$)#+# :.&"1#

=)*1&>.)0

?**) ;*3@#$A"#&, 7@1,,,1,B,C

:.">4#+& 2D04#+& 2.)+#7

:.#>>"$"#1+&,

D6;E<:<63-@ F2GD6;E<:<63-@

E1+#)-.4*+".1 6#()#&&".1

=)##&

F*+3)*4 G*1(3*(#,

';62:H7

2D0@.4"$ '(()#(*+# '--)./"0*+".1,,

?<: ,<A46 F<I:=2:H

:A#@D&A#9

!.4D1.0"*4&,

#-;-5#2/;-;4=

#-;-5#2/;-;4= 1<=4@5F-74=

1<=4@5F-74=

?"77#1, 8*)H.9, 8.7#4&

2+*+"&+"$*4, 8.7#4&

5*43#, I*&#7

24.-#, I*&#7

J)"7 :4"--#7

;*+*

J +64-;45-:5*--)./"0*+".1 <K5;E45=-;-L5AE2/E5A2@@5K2;52:53-2:5 343<6BL5B4;564;-2:75;E454774:;2-@5K4-;I6475<K52:;4647;

J )996<C23-;4@B57<@>45;E4596<.@435-;5E-:=52:53-2:5343<6B

J 1-M45NE<94KI@@B5>46B5K4AO5-//477475;<5;E45<62H2:-@5=-;-5<:5=27M5

;<5/<:K2635;E457<@I;2<:5<.;-2:4=52:5';495"L5<65;<53<=2KB5;E45

7<@I;2<:57<52;5-H64475A2;E5;E457<@I;2<:5A45A<I@=5E->45<.;-2:4=5<:5

;E45<62H2:-@5=-;-

!"#$%#&#'()$*+,+$-(&(&.$/0.1'(,"2$3'#4(5(,#67$

!"#$%#&#'()$*+,+$-(&(&.$/0.1'(,"2$3'#4(5(,#67$

91*-% ",2: ;"(<-%*.%+1$%

&''(")*#&+*",%&22";-%

!"#$%&'"()*+),

J ,<A465.<I:=2:H534-:75;E4547;23-;4=5=27;-:/452:5;E4564=I/4=579-/45275-@A-B75@4775

;E-:5<654PI-@5;<5;E45=27;-:/452:5;E45<62H2:-@579-/4Q

8"+,$(5$91:#'$;1<&6(&.=

8"+,$(5$91:#'$;1<&6(&.=

' (

! "

# $

%

&

1

"

K

"

&

"

!

"

!)(*'

+

% #

8&

$

$

$

" !

N &)

"

&)

" !

ON K9

"

&9

"

O

"

!

"#

)$,*',+

!

"#

)$,*',+

$,

%&

=";$(%>"7,8*,?%#$&,-%+1&+%."(%&22%@%&,8%

!A%;$%1&6$B ! "# )$,*',+ '''' !)(*' +

>+:$*+,+

/??'1@(2+,(1&$ 1'$

A>#?'#5#&,+,(1&B

32  

«  IntroducGon  à  l’ApprenGssage  ArGficiel  »              (A.  Cornuéjols)                          EPAT-­‐  2014  

(33)

ReprésentaGons  parGculières  (e.g.  automates)  

  QuesGons    

–  Automate  canonique  ?  (unicité  ?)   –  ApprenGssage  ?  

–   Et  si  bruit  ?  

1

a 2

3 b

a

4 b

b

a b

a

a  b  a  a  a  b  b  a  a  b  b  a  b  b  a  b  b  a  …  

(34)

Clustering  

(35)

Clustering  

(36)

Le  clustering    (catégorisaGon)  

  Ingrédients  essenGels  

–  Nombre  de  clusters   –  Distance  employée   –  Algorithme  

•  K-­‐moyennes  

•  Clustering  Hiérarchique  Ascendant  (AHC)  

•  Clustering  descendant  (e.g.  Cobweb  [Doug  Fisher,  1987])  

•  …  

•  Peut-­‐on  les  déterminer  automa6quement  ?  

–   Nombre  de  clusters    :    OUI  

–   Distance  employée      :    Vous  verrez  

(37)

Cadre    supervisé  

(38)

Les  données  supervisées    

  Avec  sor3es  associées  

S = {(x 1 , y 1 ), (x 2 , y 2 ), … , (x i , y i ), … , (x m , y m )}  

–  ClassificaGon    

–  Régression    

(39)

Plus  formellement  

  EchanGllon  d’apprenGssage    

–  Données  d’observaGon  (supposées  représentaGves)  

S = {(x 1 ), (x 2 ), … , (x i ), … , (x m )}

S = {(x 1 , y 1 ), (x 2 , y 2 ), … , (x i , y i ), … , (x m , y m )}

–  Dépendance entre X et Y

•  Densité de probabilité jointe : P

XxY

f  

(40)

Le  point  de  vue  sta3s3que  

Reconnaissance  des  formes  

(41)

Dépendance  =  loi  de  distribuGon  jointe  

Approche  bayésienne  

  Soit  un  ensemble  fini  de  valeurs  de  sorGe  :  {y

i

}

1  ≤  i  ≤  K

     

  Si  l’on  connaissait  les  distribuGons  P

Y|X

 (y

i

|x)  :  

Approche  «  discriminaGve  »  

(42)

Dépendance  =  loi  de  distribuGon  jointe  

Approche  bayésienne  «  généraGve  »  

(43)

Dépendance  =  loi  de  distribuGon  jointe  

  L’appren3ssage  dans  l’approche  bayésienne  

–  On  considère  des  familles  paramétrées     de  distribu3ons  

–  On  esGme  θ    à  parGr  des  données  :  

•  MAP    

•  MLE  

(44)

L’approche  staGsGque  :  bilan  

  Importance  cruciale  du  choix  des  distribuGons  de  probabilité    

–  Sinon  …  

x

P

x|C2

P

x|C1

(45)

L’approche  staGsGque  :  bilan  

  Importance  cruciale  du  choix  des  distribuGons  de  probabilité    

–  Sinon  …  

  En  savoir  plus  que  nécessaire  :  

–  un  péché  de  gourmandise  selon  Vapnik  :  qui  peut  être  mortel  

x

P

x|C2

P

x|C1

(46)

L’approche  staGsGque  :  bilan  

  Importance  cruciale  du  choix  des  distribu3ons  de  probabilité  

  Chercher  à  en  savoir  trop  peut  être  dangereux  

  Difficultés  techniques  

–  La  malédic6on  de  la  dimensionalité   –  Problèmes  d’op6misa6on  difficiles    

•  Algorithmes  EM  

•  Algorithmes  variaGonnels  

•  MCMC  (Markov  Chains  Monte  Carlo)  

•  …  

(47)

Un  pe3t  exemple  

Le  point  de  vue  de  l’Appren3ssage  Ar3ficiel  

(48)

ApprenGssage  de  rectangle  

  ÉchanGllon  

–  D’exemples  posiGfs   –  D’exemples  négaGfs  

P + X P X

x

y

(49)

ApprenGssage  de  rectangle  

  Que  cherche-­‐t-­‐on  à  apprendre  ?  

x y

!

(50)

ApprenGssage  de  rectangle  

  Comment  apprendre  ?  

x

y

(51)

ApprenGssage  de  rectangle  

   Comment  apprendre  ?  

–  Si  je  sais  que  le  concept  cible  est  un  rectangle  

y

(52)

ApprenGssage  de  rectangle  

   Comment  apprendre  ?  

–  Si  je  sais  que  le  concept  cible  est  un  rectangle  

x y

Hypothèses  les    

plus  générales  

(53)

ApprenGssage  de  rectangle  

   Comment  apprendre  ?  

–  Si  je  sais  que  le  concept  cible  est  un  rectangle  

x y

Hypothèses  les    

plus  spécifiques  

(54)

ApprenGssage  de  rectangle  

   Comment  apprendre  ?  

–  Choix  d’une  hypothèse  h    

x y

Espace  des  

versions  

(55)

ApprenGssage  de  rectangle  

   ApprenGssage  :  choix  de  h    

–  Quelle  performance  ?  

x y

h

(56)

1 ère  étude  sta3s3que  de  l’inducGon  

 Quelle  performance  ?  

   Coût  d’une  erreur  de  prédicGon  

–  La  fonc6on  de  perte  

   Quel  coût  à  venir  si  je  choisis  h  ?  

–  Espérance  de  coût  :  le  «  risque  réel  »      

R(h) = �

X ×Y

� �

h(x), y �

p X Y (x, y) dx dy

� �

h(x), y �

(57)

1 ère  étude  sta3s3que  de  l’inducGon  

   Quelle  performance  aoendue  pour    h  ?    

–  Erreur  moyenne  sur  l’ échanGllon  d’apprenGssage  S    

x y

h

Le  «  risque  empirique  »  

R(h) = ˆ 1 m

� m

i=1

� � h(x i ), y i

(58)

1 ère  étude  sta3s3que  de  l’inducGon  

  Stratégie  d’apprenGssage  :    

–  choix  d’une  hypothèse  de  risque  empirique  nul  (pas  d’erreur  sur   l’ échanGllon  d’apprenGssage  S)    

–  Quelle  performance  aoendue  pour    h  ?    

x y

h

x y

f

h

(59)

1 ère  étude  sta3s3que  de  l’inducGon  

–  choix  d’une  hypothèse  de  risque  empirique  nul  (pas  d’erreur  sur   l’ échanGllon  d’apprenGssage  S)    

–  Quelle  performance  aoendue  pour    h  ?    

–  Quel  est  le  risque  d’avoir  une  erreur  R(h)  >  ε  ?    

y

f

h

h ∆ f

y

f

h

(60)

1 ère  étude  sta3s3que  de  l’inducGon  

  Supposons  h  tq.    

  Quelle  est  la  probabilité  que  pourtant  h  ait  été  sélecGonnée  ?  

x y

f

h

h ∆ f

R(h) ≥ ε

R(h) = p X (h ∆ f )

Après  un  exemple  :     p � R(h ˆ �

= 0) ≤ 1 − ε

Après  m  exemple  (i.i.d.)  :    

p m � R(h ˆ �

= 0) ≤ (1 − ε) m

On  veut  :     ∀ ε, δ ∈ [0, 1] : p m

R(h �

≥ ε) ≤ δ

«  tombe  »  en  dehors  de     h ∆ f

(61)

1 ère  étude  sta3s3que  de  l’inducGon  

  On  cherche  :  

x y

f

h

h ∆ f

Soit  :    

D’où  :    

∀ ε, δ ∈ [0, 1] : p m

R(h �

≥ ε) ≤ δ

(1 − ε) m ≤ δ

e ε m ≤ δ

− ε m ≤ ln(δ)

m ≥ ln(1/δ)

ε

(62)

2 ème  étude  sta3s3que  de  l’inducGon  

  L’hypothèse  est  choisie  sur  la  base  de  S    

  On  veut  donc  en  fait  :    

•  On  suppose  :  

Alors  :    

|H| < ∞

«  cas  réalisable  »  

∀ ε, δ ∈ [0, 1] : p m

∃ h : R(h �

≥ ε) ≤ δ

m ≥ 1

ε ln |H|

δ

− ε m ≤ ln(δ) − ln( |H| )

|H| (1 − ε) m ≤ |H| e ε m = δ

(63)

Cas  «  non  réalisable  »  

  H  ≠   F    

x y

f

x y

f

h

Il  n’existe  plus  d’hypothèse  de  risque  réel  nul.    

(64)

3 ème  étude  sta3s3que  de  l’inducGon  

Th´eor`eme 1 (In´egalit´e de Hoeffding). Si les ξ

i

sont des variables al´eatoires, tir´ees ind´ ependamment et selon une mˆ eme distribution et prenant leur valeur dans l’intervalle [a, b], alors :

P ��� � � 1 m

m

i=1

ξ

i

− E (ξ)

� �

� � ≥ ε

≤ 2 exp

− 2 m ε

2

(b − a)

2

Appliqu´ee au risque empirique et au risque r´eel, cette in´egalit´e nous donne : P �

| R

Emp

(h) − R

eel

(h) | ≥ ε �

≤ 2 exp �

− 2 m ε

2

(b − a)

2

� (1)

si la fonction de perte � est d´efinie sur l’intervalle [a, b].

P

m

[ ∃ h ∈ H : R

eel

(h) − R

Emp

(h) > ε] ≤

|H|

i=1

P

m

[R

eel

(h

i

) − R

Emp

(h

i

) > ε]

≤ |H| exp( − 2 m ε

2

) = δ

en supposant ici que la fonction de perte � prend ses valeurs dans l’intervalle

«   H fini  »  

(65)

3 ème  étude  sta3s3que  de  l’inducGon  

  On  en  Gre  :  

•  Au  lieu  de  («  cas  réalisable  »)  :  

ε =

� log |H| + log

1δ

2 m et      

ε = log |H| + log

1δ

m et       m log |H| + log

1δ

ε

m ≥ log |H| + log

1δ

2 ε

2

(66)

Lien  entre  risque  réel  et  risque  empirique  

  H  fini,  cas  réalisable  

  H  fini,  cas  non  réalisable    

∀ h ∈ H , ∀ δ ≤ 1 : P

m

R

eel

(h) ≤ R

Emp

(h) +

� log |H| + log

1δ

2 m

> 1 − δ

∀ h ∈ H , ∀ δ ≤ 1 : P

m

R

eel

(h) ≤ R

Emp

(h) + log |H| + log

1δ

m

> 1 − δ

(67)

4 ème  étude  sta3s3que  de  l’inducGon  

  Cas  non  réalisable  et   H  non  finie      

Comment  faire  ?  

–  Principe  général  :    

1.  Réduire  l’étude  du  cas  infini  à  celui  de  l’analyse  d’un  ensemble  fini   d’hypothèses    

2. Mesurer  à  quel  point,  pour  n’importe  quel  échan3llon   S  de  points  éGquetés,  

on  peut  trouver  une  hypothèse  de   H  pouvant  s’adapter  à   S      

(68)

4 ème  étude  sta3s3que  de  l’inducGon  

  La  complexité  de  Rademacher    

–  Soit  :  

–  Mesure  de  la  corrélaGon  entre  les  prédicGons     et  les  éGqueoes  :  

–  L’hypothèse  maximisant  ceoe  corrélaGon  :    

–  Mesure  caractérisant  l’adéquaGon  de   H  avec   S .  

S = { (x 1 , y 1 ), . . . , (x m , y m ) } = { z 1 , . . . , z m }

1 m

� m

i=1

y i h(x i )

h = ArgMax

h ∈H

1 m

� m i=1

y i h(x i )

(69)

4 ème  étude  sta3s3que  de  l’inducGon  

  La  complexité  de  Rademacher  (suite)  

–  Supposons  que  les  éGqueoes  soient  choisies  au  hasard  

•  Chaque  y

i

 est  remplacée  par  une  variable  aléatoire  σ

i

 =  -­‐1  ou  +1  

–  On  peut  mesurer  comment  H  peut  s’ajuster  à  ce  bruit  par  l’espérance  :   R S ( H ) = E σ

Max h ∈H

1 m

� m

i=1

σ i h(x i )

On  en  Gre  la  borne  :  

� �

log

2

(70)

4 ème  étude  sta3s3que  de  l’inducGon  

  Mesure  par  la  fonc6on  de  croissance  

–  Critère  purement  combinatoire,  ne  dépendant  pas  de  la  distribuGon  P

XY

–  Nombre  maximal  de  manière  disGnctes  d’éGqueter  m  points  de   X  en  

uGlisant  une  hypothèse  de  H        

On  en  Gre  la  borne  :  

∀ h ∈ H , ∀ δ ≤ 1 : P

m

R

eel

(h) ≤ R

Emp

(h) +

� 2 log Π

H

(m)

m +

� log

1δ

2 m

> 1 − δ

∀ m ∈ N , Π

H

(m) = max

{x1,...,xm}⊆X

� �

� � ��

h(x

1

), . . . , h(x

m

) �

: h ∈ H � � � � �

(71)

4 ème  étude  sta3s3que  de  l’inducGon  

  Mesure  par  la  dimension  de  Vapnik-­‐Chervonenkis  

–  Critère  purement  combinatoire,  ne  dépendant  pas  du  nombre  d’exemples   –  Taille  du  plus  grand  ensemble  de  points  pouvant  être  éGquetés  de  

n’importe  quelle  manière  par  les  hypothèses  Grées  de  H    

On  en  Gre  la  borne  :  

d V C ( H ) = max �

m : Π H (m) = 2 m

∀ h ∈ H , ∀ δ ≤ 1 : P

m

R

eel

(h) ≤ R

Emp

(h) +

� 8 d

V C

( H ) log

d2e m

V C(H)

+ 8 log

4δ

m

> 1 − δ

(72)

VC  dim  :  illustraGon  

  d

VC

(séparateurs  linéraires)  =  ?  

+

+ -

+

+ - -

+ +

- +

+

(a) (b) (c)

•  d

VC

(rectangles)  =  ?  

+

+

- - +

+ -

+ +

+ - +

+ -

(a) (b) (c) (d)

+

(73)

Étude  staGsGque  de  l’inducGon  

1.  Ces  mesures  de  capacité  ne  dépendent  pas  de  la  dimension  de   X  !!  

2.   La  complexité  de  Rademacher  de  l’enveloppe  convexe  d’espaces  H  n’est  pas   plus  grande  que  celle  de  H  !  

–  Intéressant  pour  les  méthodes  d’ensemble  et  les  méthodes  collaboraGves        

(74)

Quelques  remarques  

1.   On  n’a  pas  vraiment  parlé  d’algorithme  d’appren6ssage  !?  

–  Où  est  l’apprenGssage  ?  

2.   Importance  cruciale  de  l’hypothèse  de  sta6onnarité  et   d’indépendance  :  Grage  i.i.d.    

3.   Importance  du  choix  de   H      

–  Mais  étude  «  contre  toute  distribuGon  »  

 Ne  présuppose  pas  un  certain  type  de  distribuGon  

(75)

Fondamentalement  

1. Appren3ssage      =    problème  inverse  mal-­‐posé  

(76)

Fondamentalement  

1. Appren3ssage      =    problème  inverse  mal-­‐posé  

2.   Le  principe  de  minimisaGon  du  risque  empirique  est  naïf  

3.   À  remplacer  par  un  principe  de  minimisa3on  d’un  risque  régularisé  

(77)

Le  critère  inducGf  

  Critère  de  subs3tu3on  à  la  place  du  risque  réel  

1. Risque  empirique  régularisé  

2.   Fonc3on  de  perte  de  subs3tu3on    

(surrogate  funcGon)  

(78)

L’inducGon  supervisée  

en  trois  quesGons  

(79)

Trois  ingrédients  essenGels  

1.    Choix  de  l’espace  des  hypothèses   H      

–  Contrôler  sa  «  capacité  »  

2.    Choix  du  critère  à  op6miser  R(h)  

–  Risque  empirique  régularisé  

3.    Choix  de  la  méthode  d’explora6on  de   H      

–  Plus  facile  si  R(.)  convexe  

(80)

Panorama  de  quelques  

espaces  d’hypothèses    

(81)

+   +   +  

+  

+   +  

+  

-  

-  

-  

-  

-  

-  

-  

-  

-  

Espace  des  exemples  :   X    

+/-­‐  ?  

Apprendre  sans  espace  d’hypothèses  

(82)

Espace  des  exemples  :   X     Espace  des  hypothèses  :   H      

L H

➥       Comment  choisir  l’espace  des  hypothèses  (i.e.  le  langage   L

H  

)  ?  

+   +   +  

+  

+   +  

+  

-  

-  

-  

-  

-  

-  

-   -  

-  

x h  

Le  rôle  de  l’espace  des  hypothèses  

(83)

ExploraGon  de  l’espace  des  versions   [Tom  Mitchell,  1979]  

  Introduit  explicitement  l’idée  de  recherche  dans  un  espace  d’hypothèses  

(84)

Types  d’  espaces  d’hypothèses  

(85)

H  =  combinaison  de  foncGons  de  base  

(86)

Combinaisons  linéaires  de  foncGons  de  base  

(87)

Combinaisons  linéaires  de  foncGons  de  base  

  Le  Perceptron  :  Frank  Rosenblao  (1958  –  1962)  

(88)

  Méthode d’exploration de H  

–  Recherche par gradient

•  Minimisation de la fonction d’erreur

–  Algorithme :

si la forme est correctement classée : ne rien faire sinon :

boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

w(t + 1) = w(t ) − η x i u i

Le  perceptron  :  algorithme  de  gradient  

(89)

Combinaisons  linéaires  de  foncGons  de  base  

  Souvent  possible  d’avoir  un  op3mum  unique  

–  Critère  d’op3misa3on  convexe  

  Interprétabilité  facilitée  

–  Critère  d’opGmisaGon  favorisant  la  parcimonie  

•  Norme  L1  (e.g.  LASSO)  

  Algorithmes  

–  Gradient  

–  ItéraGvement  pour  chaque  terme  

(90)

–  Rosenblao  (1958-­‐1962)  

Le  Perceptron  

(91)

Combinaisons  non  linéaires  de  foncGons  de  base  

  Une  réponse  :  

–  À  la  recherche  d’une  bonne  

représentaGon  

(92)

Combinaisons  non  linéaires  de  foncGons  de  base  

  QuesGons  :  

–  Comment  apprendre  les  paramètres  (poids  des  connexions)  ?  

–  Comment  déterminer  l’architecture  du  réseau  ?  

(93)

IllustraGon  

(94)

Combinaisons  non  linéaires  de  foncGons  de  base  

  Souvent  des  opGma  mulGples  

–  OpGmisaGon  difficile  

  Interprétabilité  pas  immédiate  

–  InteracGons  mulGples  

  Algorithmes  

–  Gradient  

(95)

H  =  modèles  non  paramétriques  

définis  à  parGr  des  exemples  d’apprenGssage  

(96)

Les  séparateurs  à  Vastes  Marges  (SVM)  

h (x) = sign � �

i ∈P

α i y i � φ(x), φ(x i ) � + w 0

(97)

Hypothèses  exprimées  à  parGr  des  exemples  

  Séparateurs  à  Vastes  Marges  (SVM)  

(98)

Hypothèses  exprimées  à  parGr  des  exemples  

(99)

Hypothèses  exprimées  à  parGr  des  exemples  

  Recherche  de  critères  convexes  

–  OpGmisaGon  «  facile  »  

  Interprétabilité  pas  immédiate  

–  À  parGr  de  cas  non  typiques  (mais  «  near-­‐misses  »)  

  Algorithmes  

–  Gradient  sophis3qué  

(100)

H  =  par  apprenGssage  construcGf  

(101)

Modèles  construcGfs  

  Arbre  de  décision  

(102)

Modèles  construcGfs  

  Modèles  graphiques    

(103)

Modèles  «  symboliques  »  

(104)

ApprenGssage  construcGf  

  Souvent  des  opGma  mulGples  

–  E.g.    Espace  des  versions  

  Interprétabilité  aisée  

–  «  Fait  pour  »  

–  Plus  proche  de  la  cogniGon  humaine  

  Algorithmes  

–  Mise  en  jeu  d’opérateurs  spécifiques  

•  E.g.    Spécialisa9on  /  généralisa9on  

–  Algorithmes  d’explora3on  +/-­‐  heurisGques  +/-­‐  ad  hoc  

(105)

ApprenGssage  de  l’espace  des  versions   [Tom  Mitchell,  1979]  

«  Learning    

         as  search  »    

(106)

ApprenGssage  de  l’espace  des  versions   [Tom  Mitchell,  1979]  

(107)

ApprenGssage  de  l’espace  des  versions   [Tom  Mitchell,  1979]  

(108)

Le  Graal  :  

Trouver  le  bon  changement  de  représenta3on  

(109)

PrédéfiniGon  d’un  espace  foncGonnel  

Les  méthodes  paramétriques  

(110)

IdenGfier  le  bon  espace  H  

•  Oui  

•  Oui  

•  Non  

(111)

Modèles  non  linéaires  :  les  réseaux  connecGonnistes  

  QuesGons  :  

–  Comment  apprendre  les  paramètres  (poids  des  connexions)  ?  

–  Comment  déterminer  l’architecture  du  réseau  ?  

(112)

Le  changement  de  représentaGon  :  l’architecture  

–  Quelle  représenta3on  (variables  latentes)  ?  

–  Comment  choisir  l’architecture  ?  

(113)

ReprésentaGon  dépendante  des  données  

Méthodes  non  paramétriques  

(114)

Changer  de  représentaGon  

  Changement  dépendant  des  données  :      

                                                                                                             méthodes  non  paramétriques  

–  Méthodes  à  noyaux  

–  Méthodes  d’ensemble  

–  Méthodes  construc3ves  de  H    

•  ProgrammaGon  Logique  InducGve,  …  

(115)

SVM  et  méthodes  à  noyaux  

–  Plus  robuste  à  variaGons  de  l’échanGllon  d’apprenGssage   –  Validé  par  analyse  théorique    

  Séparateur  linéaire  à  plus  V aste  Marge  

(116)

SVM  et  méthodes  à  noyaux  

  La  recherche  de  la  marge  maximale  conduit  au  critère  :  

Risque  empirique   Marge  

FoncGon  de  perte  

de  subs9tu9on  

(surrogate  loss)  

(117)

SVM  et  méthodes  à  noyaux  

  Trois  idées    

–  Hypothèses  comme  combinaison  linéaire    

–  Directement  foncGon  des  exemples  (exemples  support)  

–  Minimise  un  risque  régularisé  dans  lequel  la  marge  mesure  la  versaGlité  

  Expression  de  l’hypothèse       (fameuse  «  forme  duale  »)        

(118)

SVM  et  méthodes  à  noyaux  

(119)

SVM  et  méthodes  à  noyaux  

(120)

Méthodes  à  noyaux  :  dans  quel  espace  ?  

  Changement  de  représentaGon  

(121)

Méthodes  collaboraGves  

Oliver  Selfridge  (1956)  :  

 «  Pandemonium:  A  Paradigm    

for  Learning  ».    

(122)

BoosGng  et  redescripGon  

  ConstrucGon  itéra3ve  de  l’espace  de  redescripGon  

(123)

Une  idée  intrigante  :  le  «  reservoir  compuGng  »  

  Idée  :  

–  UGliser  un  réseau  récurrent  sans  l’entraîner  explicitement   –  Entraîner  une  seule  couche  de  sorGe  

•  Ré-­‐introduit  une  

«  dynamique  »  

❏  Séries  temporelles  

Références

Documents relatifs

Par exemple, nous considérons le problème bidimensionnel de la figure 8 comme un problème de classification médicale, où chaque point de cet espace peut

Les options xlab et ylab permettent de modifier le nom des axes tandis que l’option main permet d’ajouter un titre (toutes les options disponibles sont d´ etaill´ ees dans la

– « « la cognition est l’histoire du couplage structurel entre un la cognition est l’histoire du couplage structurel entre un système autopoiétique et son environnementC.

Nous aurons souvent besoin de la proposition suivante qui joue un rˆ ole central dans la th´ eorie des groupes alg´ ebriques et qui affirme que tout espace homog` ene G/H de

— Mode intéractif : pour celà il vous suffit de taper python dans votre console ou votre envi- ronnement.. Il est très utile pour rapidement tester du code ou

I Apprentissage artificiel : Recherche automatique d’un modèle à partir de données pouvant être réutilisé dans un nouvel environnement ou une nouvelle situation (ex prédiction)..

I Arbre peu performant pour la prédiction Le bruit dans les exemples peut conduire à un surajustement de l ’arbre. I E15= (Soleil,Chaude,Normale,

Utiliser l'algorithme du perceptron pour apprendre les valeurs du réseau τ = 0.5... Utiliser l'algorithme du perceptron pour apprendre les valeurs du réseau τ