Master 2 Recherche
Apprentissage Statistique et Optimisation
Fran¸cois Yvon−Mich`ele Sebag Alexandre Allauzen−Marc Schoenauer
http://www.limsi.fr/Individu/allauzen/wiki/index.php/TSI09−http://tao.lri.fr/tiki-index.php
30 septembre 2010
Pour quoi faire
I Pr´ediction
pannes, maladies, achats, pr´ef´erences,...
I Compr´ehension, Mod´elisation facteurs de risque, analyse de survie e-Science
I Interaction
Jeux ; “Super-Google”;
Brain Computer Interface
I Optimisation−Conception
d´ecision et conception optimale: des jeux aux politiques d’´energie
10 30 50 70 90
300 400 500 600
heavy smokers light smokers median
Apprentissage et Optimisation: un nouveau mode de programmation
Le contexte international
L’id´eal le si`ecle des connaissances
La r´ealit´e des connaissances pointues et morcel´ees des sp´ecialistes, un dialogue difficile Le besoin la gestion humaine des connaissances
ne passe pas `a l’´echelle L’opportunit´e les donn´ees sont accessibles
les connaissances `a l’´etat de traces dans les donn´ees OBJECTIF
fournir [`a l’expert]
des connaissances nouvelles, utiles, valides L’une des 10 technologies ´emergentes du 21e si`ecle
(MIT Review, 2001)
Le contexte, Master Informatique Paris-Sud
Modules ayant un rapport
I Donn´ees semi-structur´ees et XML ...
I Apprentissage, Optimisation et Applications O
I Int´egration de donn´ees et Web s´emantique ...
I Mod`ele de raisonnement distribu´e ...
I Reconnaissance vocale, indexation multilingue O
I Robotique et agents autonomes O
I Syst`emes multi-agents O
I Traitement automatique des langues O
I Interaction Homme-Machine o
I R´ealit´e Virtuelle et Augment´ee ...
Le contexte, Master Informatique Paris-Sud, suite
Ce module
I Th´eorie
I Applications
I TP
I Pr´esentations d’articles 10 mn / volontaires Examen
I Questions de cours
I Au choix:
I Expos´e (pr´esentation orale + r´esum´e) d’un article
I Projet
Plan du Module
1. Introduction
pourquoi, mise en jambe, d´efinitions, gradients, quelques exemples
2. Statistiques
3. R´eseaux de neurones 4. Apprentissage de s´equences 5. Apprentissage non supervis´e 6. Changements de repr´esentation 7. Etre Bay´esien
8. Optimiser
Quelques bonnes adresses
I O`u sont les cours :
http://tao.lri.fr/tiki-index.php?page=Courses
http://www.limsi.fr/Individu/allauzen/wiki/index.php/TSI09
I Les cours (transparents) d’Andrew Moore http://www.autonlab.org/tutorials/index.html
I Les cours (videos) de PASCAL http://videolectures.net/pascal/
I Les tutoriels de NIPS Neuro Information Processing Systems http://nips.cc/Conferences/2006/Media/
I Des questions int´eressantes http://hunch.net/
Plan de ce cours
1. Partie 1. G´en´eralit´es
2. Partie 2. Apprentissage supervis´e, 1
Partie 1. G´ en´ eralit´ es
1. Objectifs: Apprentissage supervis´e, non supervis´e, fouille de donn´ees
2. Quelques d´efinitions 3. Domaines d’applications 4. Quelles sont les difficult´es ? 5. M´ethodologie
Apprentissage supervis´ e
Contexte
Monde→instance xi →
Oracle
↓ yi
Input: Base d’apprentissageE ={(xi,yi),i = 1. . .n,xi ∈ X,yi ∈ Y}
Output: Hypoth`ese h:X 7→ Y
Crit`ere: pas d’erreur (precisions bientot)
Apprentissage non supervis´ e
Base d’apprentissageE
I E ={xi,xi ∈ X,i = 1. . .n}
I Objectif : partitionner les xi; d´efinir des clusters
I Rˆole : analyse de donn´ees exploratoire
Fouille de donn´ ees
Des sp´ecifications... Fayyad et al. 1996 Automatic extraction of
novel, useful and valid knowledge from large sets of data.
...impr´ecises...
des connaissances
nouvelles % au sens commun
utiles pour qui
valides un pb multi-crit`eres
Extraction de r´ egularit´ es
Exemple
I Base de donn´ees
Tickets de caisse dans un supermarch´e Dossiers clients d’une compagnie d’assurances
I Itemsets fr´equents seuil de fr´equence I ={Vendredi, bi`ere, couches}
I ={Pain, beurre, confiture }
I R`egles d’association seuil de confiance Vendredi, couches ⇒ bi`ere
Pain, beurre ⇒ Confiture
Quelques d´ efinitions
Exemple
I ligne : exemple/
cas/individus/transactions
I colonne : attribut/
feature/variables/
items
I (optionnel) : attribut classe
Espace des instances X
I Propositionnel : X ≡IRd
I Relationnel : ex.
chimie. mol´ecule alanine
Partie 1. G´ en´ eralit´ es
1. Objectifs: Apprentissage supervis´e, non supervis´e, fouille de donn´ees
2. Quelques d´efinitions 3. Domaines d’applications 4. Quelles sont les difficult´es ? 5. M´ethodologie
Domaines d’application
Domaine But : Mod´elisation
Ph´enom`enes physiques analyse & synth`ese/contrˆole Applications industrielles, sciences exp´erimentales, calcul num´erique Vision, voix, parole, robotique..
Ph´enom`enes sociaux + confidentialit´e Hˆopitaux, Assurances, Banques, ...
Ph´enom`enes individuels + dynamique rapide Consumer Relationship Management, User Modelling
R´eseaux sociaux, jeux...
PASCAL : http://pascallin2.ecs.soton.ac.uk/
Banques, Telecom, Vente
Ex: KDD 2009 −Orange 1. Churn
2. Appetency 3. Up-selling Objectifs
1. Pub plus efficace 2. Moins de fraude 3. Moins de risque
M´ edecine, Bio-Informatique, S´ ecurit´ e
Ex: Facteurs de risque
1. Maladies cardio-vasculaires 2. Mol´ecules canc´erig`enes 3. G`enes de l’ob´esit´e...
Objectifs
1. Diagnostic, pr´evention 2. M´edecine personnalis´ee 3. Identification
Auteurs, conf´ erences, th` emes
Questions
1. Qui fait quoi ?
2. Quelles sont les bonnes conf´erences ? 3. Quels sont les th`emes qui montent ?
4. Mr Q. Lee est-il le mˆeme que Mr Quoc N. Lee ?
[tr. Jiawei Han, 2010]
e-Science, Conception
Numerical Engineering
I De gros codes de calcul
I Chers en temps calcul
I Chers en expertise
Fusion par confinement inertiel, ICF
e-Science, Conception (2)
Buts
I Un r´esultat approch´e
I Pour une fraction du temps de calcul
I Raccourcir le cycle de conception
I Conception optimale More is Different
Robotique autonome
Complexe, monde ferm´e simple, random
Conception
[tr. Hod Lipson, 2010]
Robotique autonome, 2
Reality Gap
I Concevoir en simulation (in silico)
I Essayer la solution sur le vrai robot (in vivo)
I Catastrophe ! Closing the reality Gap
1. Concevoir en simulation
2. Essayer sur le vrai robot environnement prot´eg´e 3. Logger les donn´ees et mettre `a jour le simulateur
4. Goto 1
Apprentissage actif Co-´evolution
[tr. Hod Lipson, 2010]
Robotique autonome, 2
Reality Gap
I Concevoir en simulation (in silico)
I Essayer la solution sur le vrai robot (in vivo)
I Catastrophe ! Closing the reality Gap
1. Concevoir en simulation
2. Essayer sur le vrai robot environnement prot´eg´e 3. Logger les donn´ees et mettre `a jour le simulateur
4. Goto 1
Apprentissage actif Co-´evolution
[tr. Hod Lipson, 2010]
Donn´ ees / Applications
I Donn´ees propositionnelles 80% des applis.
I Donn´ees spatiales, temporelles alarmes, gisements, accidents
I Donn´ees relationnelles chimie, biologie
I Donn´ees semi-structur´ees texte, Web
I Donn´ees multi-media images, sons, films,..
Partie 1. G´ en´ eralit´ es
1. Objectifs: Apprentissage supervis´e, non supervis´e, fouille de donn´ees
2. Quelques d´efinitions 3. Domaines d’applications 4. Quelles sont les difficult´es ? 5. M´ethodologie
Sources de difficult´ e
Qualit´e des donn´ees / de la repr´esentation
− Bruit ; donn´ees manquantes
+ Attributs pertinents Feature extraction
− Donn´ees structur´ees : spatio-temporelles, relationnelles, textes, videos ..
Distribution des donn´ees
+ Exemples ind´ependants, identiquement distribu´es
− Autres cas: robotique; flots de donn´ees; donn´ees h´et´erog`enes...
Connaissances a priori + Crit`eres d’int´erˆet
+ Contraintes sur la solution
Sources de difficult´ e (2)
Crit`ere d’apprentissage
+ Fonction convexe : un seul optimum
& Complexit´e : n,nlogn, n2 Passage `a l’´echelle
− Optimisation combinatoire H. Simon, 1958:
In complex real-world situations, optimization becomes
approximate optimization since the description of the real-world is radically simplified until reduced to a degree of complication that the decision maker can handle.
Satisficing seeks simplification in a somewhat different direction, retaining more of the detail of the real-world situation, but settling for a satisfactory, rather than approximate-best, decision.
Crit` eres, suite
Crit`eres de l’utilisateur
I Pertinence, Causalit´e
I INTELLIGIBILITE
I Simplicit´e
I Stabilit´e
I Interactivit´e, rapidit´e, visualisation
I ... Apprentissage de pr´ef´erences
Sources de difficult´ e (3)
Crossing the chasm
I Pas de killer algorithm
I Peu de recommandations a priori Crit`eres de performance d’un algorithme
I Consistance
Quand le nombre n d’exemples tend vers l’infini et que le concept cible h∗ est dans H
l’algorithme le trouve.
limn→∞hn=h∗
I Vitesse de convergence
||h∗−hn||=O(1/n),O(1/√
n),O(1/lnn)
Contexte
Disciplines et crit`eres
I Bases/Fouille de Donn´ees
Passage `a l’´echelle ; au plus pr`es des donn´ees
I Statistiques et analyse de donn´ees
Mod`eles pr´ed´efinis ; ´evaluation
I Apprentissage artificiel
Connaissances du domaine ; repr´esentations complexes
I Optimisation
probl`emes bien ou mal pos´es
I Interface Homme Machine
Pas de solution finale : un dialogue
I Calcul hautes performances
Donn´ees r´eparties, confidentialit´e
Partie 1. G´ en´ eralit´ es
1. Objectifs: Apprentissage supervis´e, non supervis´e, fouille de donn´ees
2. Quelques d´efinitions 3. Domaines d’applications 4. Quelles sont les difficult´es ? 5. M´ethodologie
Processus (Vision apprentissage)
1. Collecter les donn´ees
2. Choisir les attributs connaissance a priori 3. Choisir le mod`ele connaissance a priori 4. Apprendre
5. Valider 6. Fin
CMPT884, Introduction 12
Data Mining: A KDD Process
– Data mining: the core of knowledge discovery process.
Data Cleaning
Data Integration
Databases Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
Processus (vision Fouille de Donn´ ees)
Les ´etapes
1. Collecte des donn´ees expert, DB
2. Nettoyage stat, expert
3. S´election stat, expert
4. Fouille / Apprentissage
I Description Qu’y a-t-il ds les donn´ees ?
I Pr´ediction D´ecider sur un cas
I Agr´egation Prendre une d´ecision globale
5. Visualisation chm
6. Evaluation stat, chm
7. Recherche de nouvelles donn´ees expert, stat Un processus it´eratif en fonction
des attentes, des donn´ees initiales, et des connaissances a priori.
CMPT884, Introduction 14
Data Mining and Business Intelligence
Increasing potential to support
business decisions End User
Business Analyst
Data Analyst
DBA Making
Decisions Data Presentation Visualization Techniques
Data Mining Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Partie 2. Apprentissage Supervis´ e
1. Poser le probl`eme
2. Quelques espaces d’hypoth`eses 3. Le cas le plus simple
4. Quel est le crit`ere ? th´eorie
Suffisamment compliqu´e, mais pas plus 5. Arbres de d´ecision
6. Valider pratique
7. Etude de cas: SKICAT 8. Etude de cas: Stanley
Apprentissage supervis´ e
Contexte
Monde→instance xi →
Oracle
↓ yi
Input: Base d’apprentissageE ={(xi,yi),i = 1. . .n,xi ∈ X,yi ∈ Y}
Output: Hypoth`ese h:X 7→ Y Crit`ere: Qualit´e de h
Apprentissage supervis´ e, 2
D´efinitions
I E ={(xi,yi),xi ∈ X,yi ∈ Y,i = 1. . .n}
I Classification : Y fini (ex, nom de maladie)
I R´egression : Y ⊆IR(ex, dur´ee de survie)
I Espace des hypoth`esesH:X → Y Tˆaches
I ChoisirH s´election de mod`ele
I Evaluer h∈ H score(h)
I Choisirh∗ dansH argmax score(h)
Espace d’hypoth` eses
Hypoth`eses num´eriques
I Fonctions lin´eaires
h(x) = 3x1+ 2.17x2−5x3
x
x x
x
o o
o o x
o
Hypoth` eses num´ eriques, 2
Un neurone
Un r´eseau neuronal
I Fonction d’activation f(X) = 1+e1−X
I Connexion des neurones
Hypoth` eses discr` etes
Formules bool´eennes
I Conjonctions
Panne si ¬Essence Malade si(Temperature >39.5)
I Liste de d´ecision
L1∧L2. . . Panne L01∧L02. . . non Panne . . .
default non Panne
Partie 2. Apprentissage Supervis´ e
1. Poser le probl`eme
2. Quelques espaces d’hypoth`eses 3. Le cas le plus simple
4. Quel est le crit`ere ? th´eorie
Suffisamment compliqu´e, mais pas plus 5. Arbres de d´ecision
6. Valider pratique
7. Etude de cas: SKICAT 8. Etude de cas: Stanley
Pourquoi l’optimisation
Cas de la r´egression E ={(xi,yi),xi ∈IRd,yi ∈IR,i = 1. . .n}
Score: moindre carr´es least mean square
Apprentissage = Optimisation Etant donn´e E, trouver
h∗∈ H minimisant
n
X
i=1
(h(xi)−yi)2 L’espace d’hypoth`eses le plus simple
H: fonctions lin´eaires surX =IRd h:IRd 7→IR
Pourquoi l’optimisation, 2
Fonction lin´eaire produit scalaire
h(z) =h(z1, ..zd) =X
i
wizi+w0 =<w,z > +w0
x x
x x
x x x
x x
Erreur quadratique
w∗ =argmin{Err(w) =
n
X
i=1
(<w,xi > −yi)2} (NB: On sait trouver analytiquementw∗ dans ce cas; mais regardons le cas general).
Good News
une fonction quadratique est une fonction convexe Fonction convexe, d´efinition
∀t ∈[0,1],f(tx1+ (1−t)x2)≤tf(x1) + (1−t)f(x2)
Propri´et´es
I Une fonction convexe admet un unique minimum global.
I Et on sait le trouver: suivre le gradient...
Good News
une fonction quadratique est une fonction convexe Fonction convexe, d´efinition
∀t ∈[0,1],f(tx1+ (1−t)x2)≤tf(x1) + (1−t)f(x2)
Propri´et´es
I Une fonction convexe admet un unique minimum global.
I Et on sait le trouver: suivre le gradient...
Gradient − D´ eriv´ ees
D´eriv´ee dimension 1
∂f/∂t =limt→0
f(x+t)−f(x) t
Gradient dimension d
∇f = (∂f
∂t1
, . . . , ∂f
∂td) Exemple
∂Err(w)
∂w1 = 2
n
X
i=1
(<w,xi > −yi).xi,1
Gradient − D´ eriv´ ees
D´eriv´ee dimension 1
∂f/∂t =limt→0
f(x+t)−f(x) t
Gradient dimension d
∇f = (∂f
∂t1
, . . . , ∂f
∂td)
Exemple
∂Err(w)
∂w1 = 2
n
X
i=1
(<w,xi > −yi).xi,1
Gradient − D´ eriv´ ees
D´eriv´ee dimension 1
∂f/∂t =limt→0
f(x+t)−f(x) t
Gradient dimension d
∇f = (∂f
∂t1
, . . . , ∂f
∂td) Exemple
∂Err(w)
∂w1 = 2
n
X
i=1
(<w,xi > −yi).xi,1
Optimisation, m´ ethodes de gradient
Gradient et optima
On est `a l’optimum⇔ le gradient est nul
M´ethode de gradient
wt =wt−1−αt∇f(wt−1) Arrˆet: quand||wt−wt−1||petit.
M´ ethodes de gradient
Pour
I En g´en´eral facile de calculer le gradient
I On peut essayer (long) de trouver le αt (le pas) optimal Limites
I Nombre d’it´erations possiblement grand.
I Si la fonction pr´esente une grande vall´ee plate ( high condition number), on fait des pas minuscules...
(Rem`ede g´en´eral: aller chercher la d´eriv´ee d’ordre 2: le Hessien).
Quand le probl` eme admet une solution analytique
Cas unidimensionel E ={(xi,yi),xi ∈IR,yi ∈IR,i = 1. . .n}
Y =wX +w0+ bruit
Calculus: moyenne ¯x = 1nP
ixi ˆ
w =
Pn
i=1(xi−¯x)(yi−¯y) Pn
i=1(xi−¯x)2 =
Pn
i=1xiyi−Pn i=1xiPn
j=1yj/n Pn
i=1(xi2)−(Pn i=1xi)2/n
= xy−¯x¯y
x2−¯x2 = Cov[x,y]Var[x] =rxysy
sx, ˆ
w0 = ¯y−wˆ¯x,
Quand le probl` eme admet une solution analytique
Cas multidimensionel E={(xi,yi),xi ∈IRd,yi ∈RR,i = 1. . .n}
Y =XW + bruit avec
Y =
y1 y2 ... yn
X =
x11 · · · x1d x21 · · · x2d ... . .. ... xn1 · · · xnd
W =
w1 w2 ... wd
Calculus:
XtY =XtXW W = (XtX)−1XtY
“A mature technology” (45’)
http://videolectures.net/stanfordee364aw08 boyd lec01/
Partie 2. Apprentissage Supervis´ e
1. Poser le probl`eme
2. Quelques espaces d’hypoth`eses 3. Le cas le plus simple
4. Quel est le crit`ere ? th´eorie
Suffisamment compliqu´e, mais pas plus 5. Arbres de d´ecision
6. Valider pratique
7. Etude de cas: SKICAT 8. Etude de cas: Stanley
Choisir l’espace d’hypoth` eses
Remarque: le but n’est pas de ne faire aucune erreur sur l’ensemble d’apprentissage...
Quel est l’objectif ? Qualit´ e de h
Etre bonsur les futurs exemples Condition n´ecessaire:
qu’ils ressemblent aux exemples d’entrainement
“mˆeme distribution“
Prendre en compte le coˆut des erreurs `(h(x),y)≥0 toutes les erreurs ne sont pas aussi graves...
Apprentissage Statistique
Minimiser l’esp´erance du coˆut de l’erreur MinimizeE[`(h(x),y)]
Principe
Sih “se comporte bien” surE, et h est “assez r´egulier”, h se comporte bien en esp´erance.
E[F]≤ PN
i=1F(xi)
n +c(F,n)
Apprentissage Statistique
Minimiser l’esp´erance du coˆut de l’erreur
MinimizeE[`(h(x),y)]
Principe
Sih “se comporte bien” surE, et h est “assez r´egulier”, h se comporte bien en esp´erance.
E[F]≤ PN
i=1F(xi)
n +c(F,n)
Classification, Probl` eme pos´ e
INPUT ∼P(x,y)
E={(xi,yi),xi ∈ X,yi ∈ {0,1},i = 1. . .n}
ESPACE des HYPOTHESES
H h:X 7→ {0,1}
FONCTION de PERTE
`:Y × Y 7→IR OUTPUT
h∗ =arg max{score(h),h∈ H}
Classification, crit` eres
Erreur en g´en´eralisation
Err(h) =E[`(y,h(x))] = Z
`(y,h(x))dP(x,y)
Erreur empirique
Erre(h) = 1 n
n
X
i=1
`(yi,h(xi))
Borne
risque structurel Err(h)<Erre(h) +F(n,d(H))
d(H) = dimension de VC deH, voir apr`es
Dimension de Vapnik Cervonenkis
Principe
SoitHun ensemble d’hypoth`eses: X 7→ {0,1}
Soitx1, . . . ,xn un ensemble de points deX. Si,∀(yi)ni=1 ∈ {0,1}n,∃h∈ H/h(xi) =yi,
H pulv´erise {x1, . . . ,xn}
Exemple: X =IRp d(hyperplans de IRp) =p+ 1 Rq: siHpulv´erise E,E ne nous apprend rien...
o
o
o
o
o o o
3 pts pulv´eris´es par une droite 4 points, non
D´efinition
d(H) =max{n/∃(x1. . . ,xn} pulv´eris´e par H}
Classification, termes d’erreur
Biais
Biais (H): erreur de la meilleure hypoth`ese h∗ deH Variance
Variance dehn en fonction deE
concept cible h*
h
Biais h
Variance h
Espace des fonctions H
Erreur d’optimisation n´egligeable `a la petite ´echelle
prend le dessus `a la grande ´echelle (Google)
Classification, termes d’erreur
Biais
Biais (H): erreur de la meilleure hypoth`ese h∗ deH Variance
Variance dehn en fonction deE
concept cible h*
h
Biais h
Variance h
Espace des fonctions H
Erreur d’optimisation n´egligeable `a la petite ´echelle
prend le dessus `a la grande ´echelle (Google)
Partie 2. Apprentissage Supervis´ e
1. Poser le probl`eme
2. Quelques espaces d’hypoth`eses 3. Le cas le plus simple
4. Quel est le crit`ere ? th´eorie
Suffisamment compliqu´e, mais pas plus 5. Arbres de d´ecision
6. Valider pratique
7. Etude de cas: SKICAT 8. Etude de cas: Stanley
Arbres de d´ ecision
C4.5 (Quinlan 86)
I Parmi les algorithmes les plus utilis´es
I Facile
I `a comprendre
I `a impl´ementer
I `a utiliser
I et peu cher en temps calcul
I J48, Weka
Arbres de d´ ecision, 2
Principe
1. PourE ={(xi,yi)ni=1, xi ∈IRD, yi ∈ {0,1}}
• SiE monoclasse (∀i,j,yi =yj), stop
• Sin trop petit, stop
• Sinon, trouver l’attributatt le plus informatif 2. Pour toute valeurval deatt
• Consid´erer Eval =E ∩ [att =val].
• Goto 1.
Crit`ere gain d’information
p = Pr(Class= 1|att =val) I([att =val]) = −p log p−(1−p)log(1−p)
I(att) = P
iPr(att=vali)I([att=vali])
Arbres de d´ ecision, 3
Table de contingence
Quantite d’information
03/11/09, 08:40, michele, fich: f(x)=-x*log(x)-(1-x)*log(1-x)
p
QI
0.1 0.3 0.5 0.7 0.9 0.1
0.3 0.5
0.7 Quantite d’Information
Calcul
value p(value) p(poor|value) QI (value) p(value) * QI (value)
[0,10[ 0.051 0.999 0.00924 0.000474
[10,20[ 0.25 0.938 0.232 0.0570323
[20,30[ 0.26 0.732 0.581 0.153715
Arbres de d´ ecision, 4
Limitations
I Cas du XOR
I Attributs avec de nombreuses valeurs
I Attributs num´eriques
I Overfitting
Limitations
Attributs num´eriques
I Ordonner les valeurs val1 < . . . <valt
I Calculer QI ([att<vali])
I QI(att) = maxi QI([att <vali]) XOR
Biaiser la distribution des exemples
Complexit´ e
Quantit´e d’information d’un attribut
nlnn Pour construire un noeud
D×nlnn
Limitations, 2
Overfitting
I Le but n’est pas de coller aux donn´ees d’apprentissage
I ... mais d’ˆetre bon en g´en´eral
I Il faut ajuster le compromis
erreur empirique/g´en´eralit´e de l’arbre
(biais / variance)
I Comment : Validation crois´ee
Validation crois´ ee
param = param`etres de l’algorithme Principe
I D´ecouperE en 10 sous-ensemblesEi stratifi´es
I Ei =E \Ei
I Apprendre hi(param) `a partir de Ei
I scorei(param) : Evaluer hi(param) sur Ei
I score(param) =P10
i=1scorei(param) Retenirparam∗=argmax{score(param)}
Partie 2. Apprentissage Supervis´ e
1. Poser le probl`eme
2. Quelques espaces d’hypoth`eses 3. Le cas le plus simple
4. Quel est le crit`ere ? th´eorie
Suffisamment compliqu´e, mais pas plus 5. Arbres de d´ecision
6. Valider pratique
7. Etude de cas: SKICAT 8. Etude de cas: Stanley
Skicat
U. M. Fayyad, S. G. Djorgovski, and N. Weir. 1996 Jet Propulsion Lab., Caltech
I Quel secteur du ciel regarder ?
I T´erabytes de donn´ees
I Classification : ´etoiles, ´etoiles radiantes, galaxies, artefacts
I Arbres de d´ecision
I Nb ´etoiles d´ecouvertes/nuit d’observation
Gain d’un facteur 40
http://www-aig.jpl.nasa.gov/public/mls/skicat/skicat home.html
SKICAT, 2
Objectif final Caltech, release 93
catalogue du ciel ≈40,000 volumes
objets d’un ordre de grandeur moins brillants Le probl`eme
trop nombreux candidats : artefacts ? 3 T´era bytes.
tera Terrorbytes
Skicat, 3
L’opportunit´e
I photos `a haute pr´ecision (longue mise au point)
I ... permettant l’´etiquetage par les experts
I photos `a basse pr´ecision
I ... inutilisable par les experts
Skicat, 4
Variabilit´e
entre g´eologistes
pour un mˆeme g´eologiste Crit`ere
non pas la v´erit´e absolue
des performances de mˆeme ordre
Skicat, 5
Mise en œuvre
apprentissage % photos de mise au point.
pr´e-traitement
I brillance, surface, voisinage,...
I extraction d’un ´echantillon
I analyse en composantes principales
I recodage Plus d’informations:
http://www.astro.caltech.edu/∼george/dposs/DPOSS III.pdf
Skicat, fin
Impact
Automate a task ≈tens of man years.
Provide a consistent and objective means for a comprehensive analysis of a scientifically important data set.
Achievements
94% classification accuracy
Classified objects: one magnitude fainter than previously 200% increase in size of data usable in analysis.
Exceeds human ability in classifying faint objects, solution achieved automatically using learning algorithms on
astronomer-provided training data.
Skicat, fin, 2
The classification rules produced by the inductive learning techniques form an objective, repeatable, examinable basis for classifying sky objects.
Since the automated approach allows us to classify faint sky objects that cannot be processed visually or by traditional computational techniques, the content of the catalog produced from the survey is increased by three-fold, since the majority of objects in each image are faint.
The training data for faint sky objects was obtained by examining a limited set of higher resolution CCD images covering minute portions of the survey. The learning algorithms are trained to predict the class (only obtainable by humans from higher resolution images) based on measurements from the survey. We thus classify objects that have to date not been classifiable by known
techniques.
http://www-aig.jpl.nasa.gov/public/mls/skicat/skicat home.html
A posteriori
Fayyad, nov. 2003
Personne ne connaissait les donn´ees mieux que les astronomes (30 ans).
Mais le concept (une fois r´esolu) fait intervenir 8 variables/attributs parmi 40
Partie 2. Apprentissage Supervis´ e
1. Poser le probl`eme
2. Quelques espaces d’hypoth`eses 3. Arbres de d´ecision
4. Etude de cas: SKICAT 5. Etude de cas: Stanley
DARPA Challenge - 2005
Navigating: Perception is the issue
The 2005 Darpa Challenge The terrain
The sensors
Lifelong learning
Detection from high-definition, low-range camera: accurate
...used to label long-range sensor data S. Thrun, Burgard and Fox 2005 http://sss.stanford.edu/coverage/powerpoints/sss-thrun.ppt
Le¸cons
Le but de la collecte
Les donn´ees sont-elles collect´ees pour l’analyse ? NON Usage d´eriv´e, reformulation des donn´ees.
Passage `a l’´echelle
efficacit´e quand les donn´ees ne tiennent pas en m´emoire donn´ees (mˆeme al´eatoires) de grande taille
⇒ contiennent des motifs r´eguliers.
besoin de mesures de qualit´e et test d’hypoth`eses.