Master 2 Recherche Apprentissage Statistique et Optimisation

(1)

Master 2 Recherche

Apprentissage Statistique et Optimisation

Fran¸cois Yvon−Mich`ele Sebag Alexandre Allauzen−Marc Schoenauer

http://www.limsi.fr/Individu/allauzen/wiki/index.php/TSI09−http://tao.lri.fr/tiki-index.php

30 septembre 2010

(2)

Pour quoi faire

I Pr´ediction

pannes, maladies, achats, pr´ef´erences,...

I Compr´ehension, Mod´elisation facteurs de risque, analyse de survie e-Science

I Interaction

Jeux ; “Super-Google”;

Brain Computer Interface

I Optimisation−Conception

d´ecision et conception optimale: des jeux aux politiques d’´energie

10 30 50 70 90

300 400 500 600

heavy smokers light smokers median

Apprentissage et Optimisation: un nouveau mode de programmation

(3)

Le contexte international

L’id´eal le si`ecle des connaissances

La réalité des connaissances pointues et morcelées des spécialistes, un dialogue difficile Le besoin la gestion humaine des connaissances

ne passe pas à l’échelle L’opportunité les données sont accessibles

les connaissances à l’état de traces dans les données OBJECTIF

fournir [`a l’expert]

des connaissances nouvelles, utiles, valides L’une des 10 technologies émergentes du 21ê siècle

(MIT Review, 2001)

(4)

Le contexte, Master Informatique Paris-Sud

Modules ayant un rapport

I Donn´ees semi-structur´ees et XML ...

I Apprentissage, Optimisation et Applications O

I Intégration de données et Web sémantique ...

I Mod`ele de raisonnement distribu´e ...

I Reconnaissance vocale, indexation multilingue O

I Robotique et agents autonomes O

I Syst`emes multi-agents O

I Traitement automatique des langues O

I Interaction Homme-Machine o

I Réalité Virtuelle et Augmentée ...

(5)

Le contexte, Master Informatique Paris-Sud, suite

Ce module

I Th´eorie

I Applications

I TP

I Pr´esentations d’articles 10 mn / volontaires Examen

I Questions de cours

I Au choix:

I Exposé (présentation orale + résumé) d’un article

I Projet

(6)

Plan du Module

1. Introduction

pourquoi, mise en jambe, d´efinitions, gradients, quelques exemples

2. Statistiques

3. Réseaux de neurones 4. Apprentissage de séquences 5. Apprentissage non supervisé 6. Changements de représentation 7. Etre Bayésien

8. Optimiser

(7)

Quelques bonnes adresses

I O`u sont les cours :

http://tao.lri.fr/tiki-index.php?page=Courses

http://www.limsi.fr/Individu/allauzen/wiki/index.php/TSI09

I Les cours (transparents) d’Andrew Moore http://www.autonlab.org/tutorials/index.html

I Les cours (videos) de PASCAL http://videolectures.net/pascal/

I Les tutoriels de NIPS Neuro Information Processing Systems http://nips.cc/Conferences/2006/Media/

I Des questions int´eressantes http://hunch.net/

(8)

Plan de ce cours

1. Partie 1. Généralités

2. Partie 2. Apprentissage supervis´e, 1

(9)

Partie 1. G´ en´ eralit´ es

1. Objectifs: Apprentissage supervisé, non supervisé, fouille de données

2. Quelques définitions 3. Domaines d’applications 4. Quelles sont les difficultés ? 5. Méthodologie

(10)

Apprentissage supervis´ e

Contexte

Monde→instance xi →

Oracle

↓ y_i

Input: Base d’apprentissageE ={(x_i,y_i),i = 1. . .n,x_i ∈ X,y_i ∈ Y}

Output: Hypoth`ese h:X 7→ Y

Crit`ere: pas d’erreur (precisions bientot)

(11)

Apprentissage non supervis´ e

Base d’apprentissageE

I E ={x_i,x_i ∈ X,i = 1. . .n}

I Objectif : partitionner les x_i; d´efinir des clusters

I Rˆole : analyse de donn´ees exploratoire

(12)

Fouille de donn´ ees

Des sp´ecifications... Fayyad et al. 1996 Automatic extraction of

novel, useful and valid knowledge from large sets of data.

...impr´ecises...

des connaissances







nouvelles % au sens commun

utiles pour qui

valides un pb multi-crit`eres

(13)

Extraction de r´ egularit´ es

Exemple

I Base de donn´ees

Tickets de caisse dans un supermarch´e Dossiers clients d’une compagnie d’assurances

I Itemsets fréquents seuil de fréquence I ={Vendredi, bière, couches}

I ={Pain, beurre, confiture }

I R`egles d’association seuil de confiance Vendredi, couches ⇒ bi`ere

Pain, beurre ⇒ Confiture

(14)

Quelques d´ efinitions

Exemple

I ligne : exemple/

cas/individus/transactions

I colonne : attribut/

feature/variables/

items

I (optionnel) : attribut classe

Espace des instances X

I Propositionnel : X ≡IR^d

I Relationnel : ex.

chimie. mol´ecule alanine

(15)

Partie 1. G´ en´ eralit´ es

(16)

Domaines d’application

Domaine But : Mod´elisation

Phénomènes physiques analyse & synthèse/contrôle Applications industrielles, sciences expérimentales, calcul numérique Vision, voix, parole, robotique..

Phénomènes sociaux + confidentialité Hôpitaux, Assurances, Banques, ...

Ph´enom`enes individuels + dynamique rapide Consumer Relationship Management, User Modelling

R´eseaux sociaux, jeux...

PASCAL : http://pascallin2.ecs.soton.ac.uk/

(17)

Banques, Telecom, Vente

Ex: KDD 2009 −Orange 1. Churn

2. Appetency 3. Up-selling Objectifs

1. Pub plus efficace 2. Moins de fraude 3. Moins de risque

(18)

M´ edecine, Bio-Informatique, S´ ecurit´ e

Ex: Facteurs de risque

1. Maladies cardio-vasculaires 2. Molécules cancérigènes 3. Gènes de l’obésité...

Objectifs

1. Diagnostic, prévention 2. Médecine personnalisée 3. Identification

(19)

Auteurs, conf´ erences, th` emes

Questions

1. Qui fait quoi ?

2. Quelles sont les bonnes conf´erences ? 3. Quels sont les th`emes qui montent ?

4. Mr Q. Lee est-il le mˆeme que Mr Quoc N. Lee ?

[tr. Jiawei Han, 2010]

(20)

e-Science, Conception

Numerical Engineering

I De gros codes de calcul

I Chers en temps calcul

I Chers en expertise

Fusion par confinement inertiel, ICF

(21)

e-Science, Conception (2)

Buts

I Un r´esultat approch´e

I Pour une fraction du temps de calcul

I Raccourcir le cycle de conception

I Conception optimale More is Different

(22)

Robotique autonome

Complexe, monde ferm´e simple, random

Conception

[tr. Hod Lipson, 2010]

(23)

Robotique autonome, 2

Reality Gap

I Concevoir en simulation (in silico)

I Essayer la solution sur le vrai robot (in vivo)

I Catastrophe ! Closing the reality Gap

1. Concevoir en simulation

2. Essayer sur le vrai robot environnement protégé 3. Logger les données et mettre à jour le simulateur

4. Goto 1

Apprentissage actif Co-´evolution

(24)

Robotique autonome, 2

Reality Gap

I Concevoir en simulation (in silico)

I Essayer la solution sur le vrai robot (in vivo)

I Catastrophe ! Closing the reality Gap

1. Concevoir en simulation

2. Essayer sur le vrai robot environnement protégé 3. Logger les données et mettre à jour le simulateur

4. Goto 1

Apprentissage actif Co-´evolution

(25)

Donn´ ees / Applications

I Donn´ees propositionnelles 80% des applis.

I Donn´ees spatiales, temporelles alarmes, gisements, accidents

I Donn´ees relationnelles chimie, biologie

I Donn´ees semi-structur´ees texte, Web

I Donn´ees multi-media images, sons, films,..

(26)

Partie 1. G´ en´ eralit´ es

(27)

Sources de difficult´ e

Qualité des données / de la représentation

− Bruit ; donn´ees manquantes

+ Attributs pertinents Feature extraction

− Donn´ees structur´ees : spatio-temporelles, relationnelles, textes, videos ..

Distribution des donn´ees

+ Exemples ind´ependants, identiquement distribu´es

− Autres cas: robotique; flots de données; données hétérogènes...

Connaissances a priori + Critères d’intérêt

+ Contraintes sur la solution

(28)

Sources de difficult´ e (2)

Crit`ere d’apprentissage

+ Fonction convexe : un seul optimum

& Complexité : n,nlogn, n² Passage à l’échelle

− Optimisation combinatoire H. Simon, 1958:

In complex real-world situations, optimization becomes

approximate optimization since the description of the real-world is radically simplified until reduced to a degree of complication that the decision maker can handle.

Satisficing seeks simplification in a somewhat different direction, retaining more of the detail of the real-world situation, but settling for a satisfactory, rather than approximate-best, decision.

(29)

Crit` eres, suite

Crit`eres de l’utilisateur

I Pertinence, Causalit´e

I INTELLIGIBILITE

I Simplicit´e

I Stabilit´e

I Interactivit´e, rapidit´e, visualisation

I ... Apprentissage de pr´ef´erences

(30)

Sources de difficult´ e (3)

Crossing the chasm

I Pas de killer algorithm

I Peu de recommandations a priori Crit`eres de performance d’un algorithme

I Consistance

Quand le nombre n d’exemples tend vers l’infini et que le concept cible h^∗ est dans H

l’algorithme le trouve.

limn→∞hn=h^∗

I Vitesse de convergence

||h^∗−h_n||=O(1/n),O(1/√

n),O(1/lnn)

(31)

Contexte

Disciplines et crit`eres

I Bases/Fouille de Donn´ees

Passage à l’échelle ; au plus près des données

I Statistiques et analyse de donn´ees

Modèles prédéfinis ; évaluation

I Apprentissage artificiel

Connaissances du domaine ; repr´esentations complexes

I Optimisation

probl`emes bien ou mal pos´es

I Interface Homme Machine

Pas de solution finale : un dialogue

I Calcul hautes performances

Données réparties, confidentialité

(32)

Partie 1. G´ en´ eralit´ es

(33)

Processus (Vision apprentissage)

1. Collecter les donn´ees

2. Choisir les attributs connaissance a priori 3. Choisir le mod`ele connaissance a priori 4. Apprendre

5. Valider 6. Fin

(34)

CMPT884, Introduction 12

Data Mining: A KDD Process

– Data mining: the core of knowledge discovery process.

Data Cleaning

Data Integration

Databases Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

(35)

Processus (vision Fouille de Donn´ ees)

Les ´etapes

1. Collecte des donn´ees expert, DB

2. Nettoyage stat, expert

3. S´election stat, expert

4. Fouille / Apprentissage

I Description Qu’y a-t-il ds les donn´ees ?

I Pr´ediction D´ecider sur un cas

I Agr´egation Prendre une d´ecision globale

5. Visualisation chm

6. Evaluation stat, chm

7. Recherche de nouvelles donn´ees expert, stat Un processus it´eratif en fonction

des attentes, des donn´ees initiales, et des connaissances a priori.

(36)

CMPT884, Introduction 14

Data Mining and Business Intelligence

Increasing potential to support

business decisions End User

Business Analyst

Data Analyst

DBA Making

Decisions Data Presentation Visualization Techniques

Data Mining Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts Data Sources

Paper, Files, Information Providers, Database Systems, OLTP

(37)

Partie 2. Apprentissage Supervis´ e

1. Poser le probl`eme

2. Quelques espaces d’hypoth`eses 3. Le cas le plus simple

4. Quel est le crit`ere ? th´eorie

Suffisamment compliqu´e, mais pas plus 5. Arbres de d´ecision

6. Valider pratique

7. Etude de cas: SKICAT 8. Etude de cas: Stanley

(38)

Apprentissage supervis´ e

Contexte

Monde→instance xi →

Oracle

↓ y_i

Input: Base d’apprentissageE ={(x_i,y_i),i = 1. . .n,x_i ∈ X,y_i ∈ Y}

Output: Hypothèse h:X 7→ Y Critère: Qualité de h

(39)

Apprentissage supervis´ e, 2

D´efinitions

I E ={(x_i,yi),xi ∈ X,yi ∈ Y,i = 1. . .n}

I Classification : Y fini (ex, nom de maladie)

I R´egression : Y ⊆IR(ex, dur´ee de survie)

I Espace des hypoth`esesH:X → Y Tˆaches

I ChoisirH s´election de mod`ele

I Evaluer h∈ H score(h)

I Choisirh^∗ dansH argmax score(h)

(40)

Espace d’hypoth` eses

Hypoth`eses num´eriques

I Fonctions lin´eaires

h(x) = 3x₁+ 2.17x₂−5x₃

x

x x

x

o o

o o x

o

(41)

Hypoth` eses num´ eriques, 2

Un neurone

Un r´eseau neuronal

I Fonction d’activation f(X) = _1+e¹−X

I Connexion des neurones

(42)

Hypoth` eses discr` etes

Formules bool´eennes

I Conjonctions

Panne si ¬Essence Malade si(Temperature >39.5)

I Liste de d´ecision

L₁∧L₂. . . Panne L⁰₁∧L⁰₂. . . non Panne . . .

default non Panne

(43)

Partie 2. Apprentissage Supervis´ e

6. Valider pratique

(44)

Pourquoi l’optimisation

Cas de la r´egression E ={(x_i,yi),xi ∈IR^d,yi ∈IR,i = 1. . .n}

Score: moindre carr´es least mean square

Apprentissage = Optimisation Etant donn´e E, trouver

h^∗∈ H minimisant

n

X

i=1

(h(xi)−yi)² L’espace d’hypoth`eses le plus simple

H: fonctions lin´eaires surX =IR^d h:IR^d 7→IR

(45)

Pourquoi l’optimisation, 2

Fonction lin´eaire produit scalaire

h(z) =h(z1, ..zd) =X

i

wizi+w0 =<w,z > +w0

x x

x x x

x x

Erreur quadratique

w^∗ =argmin{Err(w) =

n

X

i=1

(<w,xi > −y_i)²} (NB: On sait trouver analytiquementw^∗ dans ce cas; mais regardons le cas general).

(46)

Good News

une fonction quadratique est une fonction convexe Fonction convexe, d´efinition

∀t ∈[0,1],f(tx₁+ (1−t)x₂)≤tf(x₁) + (1−t)f(x₂)

Propri´et´es

I Une fonction convexe admet un unique minimum global.

I Et on sait le trouver: suivre le gradient...

(47)

Good News

une fonction quadratique est une fonction convexe Fonction convexe, d´efinition

∀t ∈[0,1],f(tx₁+ (1−t)x₂)≤tf(x₁) + (1−t)f(x₂)

Propri´et´es

I Une fonction convexe admet un unique minimum global.

I Et on sait le trouver: suivre le gradient...

(48)

Gradient − D´ eriv´ ees

D´eriv´ee dimension 1

∂f/∂t =limt→0

f(x+t)−f(x) t

Gradient dimension d

∇f = (∂f

∂t1

, . . . , ∂f

∂t_d) Exemple

∂Err(w)

∂w₁ = 2

n

X

i=1

(<w,x_i > −y_i).x_i,1

(49)

Gradient − D´ eriv´ ees

∂f/∂t =limt→0

f(x+t)−f(x) t

∇f = (∂f

∂t1

, . . . , ∂f

∂t_d)

Exemple

∂Err(w)

∂w₁ = 2

n

X

i=1

(<w,x_i > −y_i).x_i,1

(50)

Gradient − D´ eriv´ ees

∂f/∂t =limt→0

f(x+t)−f(x) t

∇f = (∂f

∂t1

, . . . , ∂f

∂t_d) Exemple

∂Err(w)

∂w₁ = 2

n

X

i=1

(<w,x_i > −y_i).x_i,1

(51)

Optimisation, m´ ethodes de gradient

Gradient et optima

On est `a l’optimum⇔ le gradient est nul

M´ethode de gradient

w_t =wt−1−α_t∇f(wt−1) Arrˆet: quand||w_t−wt−1||petit.

(52)

M´ ethodes de gradient

Pour

I En g´en´eral facile de calculer le gradient

I On peut essayer (long) de trouver le α_t (le pas) optimal Limites

I Nombre d’it´erations possiblement grand.

I Si la fonction pr´esente une grande vall´ee plate ( high condition number), on fait des pas minuscules...

(Remède général: aller chercher la dérivée d’ordre 2: le Hessien).

(53)

Quand le probl` eme admet une solution analytique

Cas unidimensionel E ={(x_i,yi),xi ∈IR,yi ∈IR,i = 1. . .n}

Y =wX +w₀+ bruit

Calculus: moyenne ¯x = ¹_nP

ix_i ˆ

w =

Pn

i=1(xi−¯x)(yi−¯y) Pn

i=1(xi−¯x)² =

Pn

i=1xiyi−Pn i=1xiPn

j=1yj/n Pn

i=1(x_i²)−(Pn i=1x_i)²/n

= ^xy−¯^x¯^y

x²−¯x² = ^Cov[x,y]_Var[x] =rxysy

sx, ˆ

w0 = ¯y−wˆ¯x,

(54)

Quand le probl` eme admet une solution analytique

Cas multidimensionel E={(x_i,yi),xi ∈IR^d,yi ∈RR,i = 1. . .n}

Y =XW + bruit avec

Y =





 y₁ y₂ ... y_n





 X =







x₁₁ · · · x_1d x₂₁ · · · x_2d ... . .. ... x_n1 · · · x_nd







W =





 w₁ w₂ ... w_d







Calculus:

X^tY =X^tXW W = (X^tX)⁻¹X^tY

“A mature technology” (45’)

http://videolectures.net/stanfordee364aw08 boyd lec01/

(55)

Partie 2. Apprentissage Supervis´ e

6. Valider pratique

(56)

Choisir l’espace d’hypoth` eses

Remarque: le but n’est pas de ne faire aucune erreur sur l’ensemble d’apprentissage...

(57)

Quel est l’objectif ? Qualit´ e de h

Etre bonsur les futurs exemples Condition n´ecessaire:

qu’ils ressemblent aux exemples d’entrainement

“mˆeme distribution“

Prendre en compte le coˆut des erreurs `(h(x),y)≥0 toutes les erreurs ne sont pas aussi graves...

(58)

Apprentissage Statistique

Minimiser l’esp´erance du coˆut de l’erreur MinimizeE[`(h(x),y)]

Principe

Sih “se comporte bien” surE, et h est “assez r´egulier”, h se comporte bien en esp´erance.

E[F]≤ PN

i=1F(xi)

n +c(F,n)

(59)

Apprentissage Statistique

Minimiser l’esp´erance du coˆut de l’erreur

MinimizeE[`(h(x),y)]

Principe

Sih “se comporte bien” surE, et h est “assez r´egulier”, h se comporte bien en esp´erance.

E[F]≤ PN

i=1F(xi)

n +c(F,n)

(60)

Classification, Probl` eme pos´ e

INPUT ∼P(x,y)

E={(x_i,y_i),x_i ∈ X,y_i ∈ {0,1},i = 1. . .n}

ESPACE des HYPOTHESES

H h:X 7→ {0,1}

FONCTION de PERTE

`:Y × Y 7→IR OUTPUT

h^∗ =arg max{score(h),h∈ H}

(61)

Classification, crit` eres

Erreur en g´en´eralisation

Err(h) =E[`(y,h(x))] = Z

`(y,h(x))dP(x,y)

Erreur empirique

Err_e(h) = 1 n

n

X

i=1

`(y_i,h(x_i))

Borne

risque structurel Err(h)<Erre(h) +F(n,d(H))

d(H) = dimension de VC deH, voir apr`es

(62)

Dimension de Vapnik Cervonenkis

Principe

SoitHun ensemble d’hypoth`eses: X 7→ {0,1}

Soitx₁, . . . ,x_n un ensemble de points deX. Si,∀(y_i)ⁿ_i=1 ∈ {0,1}ⁿ,∃h∈ H/h(x_i) =yi,

H pulv´erise {x₁, . . . ,x_n}

Exemple: X =IR^p d(hyperplans de IR^p) =p+ 1 Rq: siHpulv´erise E,E ne nous apprend rien...

o

o o o

3 pts pulv´eris´es par une droite 4 points, non

D´efinition

d(H) =max{n/∃(x₁. . . ,xn} pulv´eris´e par H}

(63)

Classification, termes d’erreur

Biais

Biais (H): erreur de la meilleure hypoth`ese h^∗ deH Variance

Variance dehn en fonction deE

concept cible h*

h

Biais h

Variance h

Espace des fonctions H

Erreur d’optimisation négligeable à la petite échelle

prend le dessus `a la grande ´echelle (Google)

(64)

Classification, termes d’erreur

Biais

Biais (H): erreur de la meilleure hypoth`ese h^∗ deH Variance

Variance dehn en fonction deE

concept cible h*

h

Biais h

Variance h

Espace des fonctions H

Erreur d’optimisation négligeable à la petite échelle

prend le dessus `a la grande ´echelle (Google)

(65)

Partie 2. Apprentissage Supervis´ e

6. Valider pratique

(66)

Arbres de d´ ecision

C4.5 (Quinlan 86)

I Parmi les algorithmes les plus utilis´es

I Facile

I `a comprendre

I `a impl´ementer

I `a utiliser

I et peu cher en temps calcul

I J48, Weka

(67)

Arbres de d´ ecision, 2

Principe

1. PourE ={(x_i,y_i)ⁿ_i=1, x_i ∈IR^D, y_i ∈ {0,1}}

• SiE monoclasse (∀i,j,yi =yj), stop

• Sin trop petit, stop

• Sinon, trouver l’attributatt le plus informatif 2. Pour toute valeurval deatt

• Consid´erer E_val =E ∩ [att =val].

• Goto 1.

Crit`ere gain d’information

p = Pr(Class= 1|att =val) I([att =val]) = −p log p−(1−p)log(1−p)

I(att) = P

iPr(att=val_i)I([att=val_i])

(68)

Arbres de d´ ecision, 3

Table de contingence

Quantite d’information

03/11/09, 08:40, michele, fich: f(x)=-x*log(x)-(1-x)*log(1-x)

p

QI

0.1 0.3 0.5 0.7 0.9 0.1

0.3 0.5

0.7 Quantite d’Information

Calcul

value p(value) p(poor|value) QI (value) p(value) * QI (value)

[0,10[ 0.051 0.999 0.00924 0.000474

[10,20[ 0.25 0.938 0.232 0.0570323

[20,30[ 0.26 0.732 0.581 0.153715

(69)

Arbres de d´ ecision, 4

Limitations

I Cas du XOR

I Attributs avec de nombreuses valeurs

I Attributs num´eriques

I Overfitting

(70)

Limitations

Attributs num´eriques

I Ordonner les valeurs val₁ < . . . <val_t

I Calculer QI ([att<val_i])

I QI(att) = max_i QI([att <val_i]) XOR

Biaiser la distribution des exemples

(71)

Complexit´ e

Quantit´e d’information d’un attribut

nlnn Pour construire un noeud

D×nlnn

(72)

Limitations, 2

Overfitting

I Le but n’est pas de coller aux donn´ees d’apprentissage

I ... mais d’être bon en général

I Il faut ajuster le compromis

erreur empirique/généralité de l’arbre

(biais / variance)

I Comment : Validation crois´ee

(73)

Validation crois´ ee

param = param`etres de l’algorithme Principe

I D´ecouperE en 10 sous-ensemblesE_i stratifi´es

I Eⁱ =E \E_i

I Apprendre h_i(param) `a partir de Eⁱ

I scorei(param) : Evaluer hi(param) sur E_i

I score(param) =P10

i=1scorei(param) Retenirparam^∗=argmax{score(param)}

(74)

Partie 2. Apprentissage Supervis´ e

6. Valider pratique

(75)

Skicat

U. M. Fayyad, S. G. Djorgovski, and N. Weir. 1996 Jet Propulsion Lab., Caltech

I Quel secteur du ciel regarder ?

I T´erabytes de donn´ees

I Classification : ´etoiles, ´etoiles radiantes, galaxies, artefacts

I Arbres de d´ecision

I Nb ´etoiles d´ecouvertes/nuit d’observation

Gain d’un facteur 40

(76)

http://www-aig.jpl.nasa.gov/public/mls/skicat/skicat home.html

(77)

SKICAT, 2

Objectif final Caltech, release 93

catalogue du ciel ≈40,000 volumes

objets d’un ordre de grandeur moins brillants Le probl`eme

trop nombreux candidats : artefacts ? 3 T´era bytes.

tera Terrorbytes

(78)

Skicat, 3

L’opportunit´e

I photos `a haute pr´ecision (longue mise au point)

I ... permettant l’´etiquetage par les experts

I photos `a basse pr´ecision

I ... inutilisable par les experts

(79)

Skicat, 4

Variabilit´e

entre g´eologistes

pour un même géologiste Critère

non pas la v´erit´e absolue

des performances de mˆeme ordre

(80)

(81)

Skicat, 5

Mise en œuvre

apprentissage % photos de mise au point.

pr´e-traitement

I brillance, surface, voisinage,...

I extraction d’un ´echantillon

I analyse en composantes principales

I recodage Plus d’informations:

http://www.astro.caltech.edu/∼george/dposs/DPOSS III.pdf

(82)

Skicat, fin

Impact

Automate a task ≈tens of man years.

Provide a consistent and objective means for a comprehensive analysis of a scientifically important data set.

Achievements

94% classification accuracy

Classified objects: one magnitude fainter than previously 200% increase in size of data usable in analysis.

Exceeds human ability in classifying faint objects, solution achieved automatically using learning algorithms on

astronomer-provided training data.

(83)

Skicat, fin, 2

The classification rules produced by the inductive learning techniques form an objective, repeatable, examinable basis for classifying sky objects.

Since the automated approach allows us to classify faint sky objects that cannot be processed visually or by traditional computational techniques, the content of the catalog produced from the survey is increased by three-fold, since the majority of objects in each image are faint.

The training data for faint sky objects was obtained by examining a limited set of higher resolution CCD images covering minute portions of the survey. The learning algorithms are trained to predict the class (only obtainable by humans from higher resolution images) based on measurements from the survey. We thus classify objects that have to date not been classifiable by known

techniques.

(84)

http://www-aig.jpl.nasa.gov/public/mls/skicat/skicat home.html

(85)

A posteriori

Fayyad, nov. 2003

Personne ne connaissait les donn´ees mieux que les astronomes (30 ans).

Mais le concept (une fois r´esolu) fait intervenir 8 variables/attributs parmi 40

(86)

Partie 2. Apprentissage Supervis´ e

2. Quelques espaces d’hypoth`eses 3. Arbres de d´ecision

(87)

DARPA Challenge - 2005

(88)

Navigating: Perception is the issue

The 2005 Darpa Challenge The terrain

The sensors

(89)

Lifelong learning

Detection from high-definition, low-range camera: accurate

...used to label long-range sensor data S. Thrun, Burgard and Fox 2005 http://sss.stanford.edu/coverage/powerpoints/sss-thrun.ppt

(90)

Le¸cons

Le but de la collecte

Les données sont-elles collectées pour l’analyse ? NON Usage dérivé, reformulation des données.

Passage `a l’´echelle

efficacité quand les données ne tiennent pas en mémoire données (même aléatoires) de grande taille

⇒ contiennent des motifs r´eguliers.

besoin de mesures de qualit´e et test d’hypoth`eses.