• Aucun résultat trouvé

High frequenciesLowfrequencies

N/A
N/A
Protected

Academic year: 2022

Partager "High frequenciesLowfrequencies"

Copied!
54
0
0

Texte intégral

(1)

Expertise Données

Extraction Extraction

de connaissances de connaissances

Méthodes

Applications

Apprentissage

Bernard FERTIL Directeur de Recherche CNRS Équipe 4, Unité INSERM U678

Année 2006

(2)

Acquisition, Représentation, Transmission, Compression Réhaussement, Restauration

Détection de contours, Segmentation, Mesures de

caractéristiques Reconnaissance Vision

assistée par ordinateur

Traitement d’images

Haut niveau

Bas niveau

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

(3)

• Modèle (hypothèse) : les bars sont généralement plus longs que les saumons

• Caractéristique : longueur

• Ensemble d’entraînement : seuil l* à partir de l’histogramme de la longueur des poissons

• l* plutôt mauvais car chevauchement trop important

(4)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

Prétraitement :

– Rehaussement et restauration de l’image prise par la caméra

– Segmentation

Extraction de caractéristiques :

– Pour réduire la quantité de données (e.g. 1024 x 1024 x 8 bits)

– Propriétés de l’objet qui serviront à la classification

Classification :

– Algorithme qui va évaluer les évidences qui lui sont présentées et prendra une décision finale

(5)

Modèle (hypothèse) : les bars sont généralement plus clairs que les saumons.

Caractéristique : luminosité (environnement contrôlé)

Ensemble d'entraînement : seuil x* à partir de l’histogramme de la longueur des poissons

x* plus satisfaisant qui minimise l’erreur (coût)

Si les consommateurs acceptent sans trop de problèmes de retrouver dans une boîte de bar un peu de saumon l’inverse n’est pas vrai ! Alors…

(6)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

Peut on améliorer les résultats avec plus d’une caractéristique

?

Le seuil devient une courbe !

Ex. : La droite qui minimise le coût (erreur)

Peut-on améliorer en ajoutant d’autres caractéristiques ?

A l’infini ? (malédiction de la

dimensionnalité)

(7)

Pourquoi ne pas adopter un modèle (frontière de décision) plus complexe ?

Erreur = 0 sur l’ensemble d’entraînement

Quelle sera l’erreur pour de nouveaux tests (poissons) ?

Généralisation

(8)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

Le modèle préférable est peut-être un compromis entre les deux précédents ?

Même s’il n’est pas le meilleur pour l’ensemble d'entraînement ?

Comment prédire lequel se

comportera le mieux en

situation réelle ?

(9)

La réponse à ces questions est fournie par la RF statistique qui est basée sur la théorie des statistiques

Les réseaux de neurones sont intimement liés à la RF statistique et peuvent être considérés comme descendants

La RF syntaxique est différente

et basée sur des règles (ou une

grammaire) explicites.

(10)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

Le transducteur permet d’acquérir les données butes.

– Caméra, microphone, capteur

– Ses caractéristiques et limitations : largeur de bande, S/B, distorsion, résolution, sensibilité, latence (temps de réponse)…vont influencer la difficulté de la RF

La segmentation permet d’isoler les objets à connaître

– Par ex. les poissons présents dans une image et ce même s’ils se touchent ou se recouvrent partiellement.

(11)

La phrase d’extraction des caractéristiques consiste à calculer un ensemble de mesures permettant de représenter chaque classe de façon aussi unique que possible

– Par ex. longueurs, largeurs, luminosité, couleur, texture, paramètres morpho- logiques (angle des nageoires, distance entre les yeux)

– L’invariance des mesures en fonction de la translation, de la rotation et du changement d'échelle est souvent souhaitable puisque ces transformations ne sont pas pertinentes à la RF

(12)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

La classification permet d’associer une classe à chaque objet traité

Saumons vs. Bars

Ajustement lorsque certaines caractéristiques ne sont pas disponibles

Ajustement en fonction du contexte

• Un objet sur une route (automobile)

• Un objet sur un lac (bateau)

Enfin le post-traitement

Minimiser le taux d’erreur Minimiser le risque (coût)

• Prendre en compte la préférence pour le saumon

Utilisation de plusieurs classificateurs afin d’obtenir un surper-classificateur (points de vue différents)

(13)

Acquérir les données

– Souvent une part importante de la réalisation du système

– effectif ?

– Spécificité de l’Imagerie médicale (éthique)

Choix des caractéristiques

– Connaissances à priori

• Par ex. luminosité ou longueur des poissons – Simples à extraire (segmentation)

– Invariantes

– Robustes au bruit

– Caractérisent bien chacune des classes (variance intra classe faible) tout en les séparant bien (variance interclasse élevée)

(14)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

Choix de l’algorithme de classification

– Simplicité, performance

• Tester toute les solutions pour la segmentation d’une image binaire 20 x 20 est simple mais : 2

20x20

= 2

120

tests !

Entraînement du classificateur

– Apprentissage par exemple a fait ses preuves depuis 30 ans

– Non nécessaire lorsque non supervisé

Évaluation des performances

– Une, deux ou plusieurs caractéristiques ?

– Généralisation adéquate ou «overfitting»

(15)

2 classes

saumons : 1 Bars : 2

Aucune mesure

Aucun prétraitement

Aucune extraction de caractéristiques

Classification

Basée sur les probabilités à priori P(1)

Choisir 1 si P(1) > P(2 ) sinon 2

Erreur

Min[P(1), P(2)]

(16)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

2 classes

– saumons : 1 – Bars : 2

Extraction de caractéristiques :

– Une mesure x est faite

Classification

– Basée sur la vraisemblance ou densité de probabilité de x pour chacune des classes

– Choisir 1 si p(xl1) > p(xl2 ) sinon

2

Erreur

– Qu’arrive-t-il si les saumons ne comptent que pour 1 poisson sur 10 dans les prises ?

(17)

Un classificateur Bayesien tient compte des deux facteurs précédents pour calculer la Probabilité a posteriori

La probabilité jointe qu’une observation provienne d’une classe

i

avec comme caractéristique la valeur x est donnée par :

p(

i , x) = P(

i) p (x |

i)=p (x) P (

i |

x)

D’où le théorème de Bayes :

P( i x) = P (

i

)p(x

i

)

p(x)

(18)

Méthodes en RF

• Visualisation

• Classification

• Classement

• Evaluation

Supervisé non supervisé

(19)

2-letter word 3-letter 4-letter 6-letter word

High frequenciesLow frequencies

(20)

A fulgidus B subtilis C jejeuni

D radiodurans E coli H influenzae H pylori

H sapiens

C elegans

M jannaschii P horikoshi R prowazekii

Synechocystis sp T pallidum

S cerevisiae

Diversity of genomic signatures

(21)

Visualisation - classification - classement / régression

Extraction de

caractéristiques projection

DIM = 16384

Factor 2

(22)

Méthodes en RF

• Visualisation

• Classification

• Classement

• Evaluation

Analyse en Composantes Principales

Multi-Dimensional Scaling

Cartes de Kohonen

Régression PLS

Factor 2

(23)
(24)

Projections (mapping)

mapping

Distances dans l’espace d’origine distances dans l’espace de projection

Pour réduire l’importance des grandes distances

[Sammon 1969]

E = ( X

ij

Y

ij

)

2

j=1 N

i=1 N

/ X

ij

(25)
(26)

1ère composante 2ème composante

Composante 1

VIRUSES

Composante 2

Analyse en Composantes principales

Visualisation des proximités

entre signatures génomiques

(27)

Taxonomically close species show similar signatures

Bombyx mori

(28)

Méthodes en RF

Visualisation - classification - classement / régression

Extraction de

caractéristiques clustering

DIM = 16384

(29)

• Visualisation

• Classification

• Classement

• Evaluation

K-means

Nuées dynamiques

Classification ascendante hierarchique

Cartes de kohonen

(30)
(31)

• Visualisation

• Classification

• Classement

• Evaluation

Arbres de décision

Régression logistique

Réseaux de neurones

K plus proches voisins

(32)

Méthodes en RF

Visualisation - classification - classement / régression

(33)
(34)

Neurone formel

(35)
(36)
(37)

DIM = 1,000,000

Caractéristiques

A : asymétrie B : Bords C : couleur D : Diamètre

Diagnostic :

Mélanome ?

(38)

y=?

Sunspots / year

données: - passé x(t-i)

- variables externes

Prédiction

y = f x (

tDIM+1

, K x

t1

, x

t

)

x

tDIM+1

, K x

t1

, x

t

Visualisation - classification - classement / régression

Méthodes en RF

(39)
(40)

Méthodes en RF

de métrique

d apprentissage

de validation

de grande dimension

de modèles implicites (point de vue)

de données manquantes, de données atypiques…

Supervisé non

supervisé

Je n’ai pas parlé :

(41)

Lordre et le corps des lettres...

Sleon une édtue de l’Uvinertisé de Cmabrigde, l’odrre des ltteers dnas un mot n’a pas

d’ipmrotncae, la suele coshe ipmrotnate est que la pmeirère et la drenèire soeint à la bnnoe

pclae. Le rsete peut êrte dnas un dsérorde ttoal et

vuos puoevz tujoruos lrie snas porlbème. C’est

prace que le creaveu hmauin ne lit pa chuaqe

ltetre elle-mmêe, mias le mot cmome un tuot.

(42)

+++++++++++++++++++++++++++

FINISHED FILES ARE THE RE- SULT OF YEARS OF SCIENTIF- IC STUDY COMBINED WITH THE

EXPERIENCE OF YEARS +++++++++++++++++++++++++++

COMPTER

(Focalisation)

(43)

+++++++++++++++++++++++++++

FINISHED FILES ARE THE RE- SULT OF YEARS OF SCIENTIF- IC STUDY COMBINED WITH THE

EXPERIENCE OF YEARS

+++++++++++++++++++++++++++

(44)

INTERPRETER

(prototypes)

(45)
(46)
(47)
(48)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

(49)
(50)

D’après les notes de cours de Jean Meunier (Montréal) 2004 http://www.iro.umontreal.ca/~dift6141/

(51)
(52)

Livres et autres documents

• Richard Duda, Peter Hart, David Stork, Pattern

Classification, 2éme édition, Wiley-Interscience, 2001

• Stéphane Tufféry, Data mining et statistique décisionnelle, Editions Technip, 2005

• Notes de cours de Jean Meunier (Montréal) 2004

http://www.iro.umontreal.ca/~dift6141/

(53)

Supervisé

Prochains cours :

Techniques de visualisation

Analyse en composantes principales

Techniques de classification

K means

Réseaux de Kohonen

Techniques de classement

Régression logistique Perceptron multicouches K plus proches voisins

Individus

Variables

Métriques

Validation

(54)

Références

Documents relatifs

Played his 1st game of the season after missing the 6 first due to a facial fracture (suffered on Sept. 20 at OTT… Tied a personal-high with 3 blocked shots on Nov. 6 at NYR… Scored

Plus généralement, ce cours vise à donner aux étudiants la capacité de comprendre et de participer à de grandes

• R `egles lexicales, syntaxiques, de typage et d’ ´evaluation Techniques d’interpr ´etation. • Analyse syntaxique, interpr `etes, gestion m ´emoire Techniques

Recorded 1 assist, 3 shots and 2 blocked shots on Oct. TOR… Had a +1 differential on Oct. PHI… Blocked 3 shots on Oct. 10 at EDM… Registered 2 assists on Oct. 15 at WPG… Produced

Earned his 1st point (assist) of the season and had a +1 differential on Oct. 6 at PIT… Returned to action on Dec. NYR after missing 14 games due to a lower-body injury… Scored 2

La surface d’un quadrilatère est maximum quand celui-ci est inscriptible dans un cercle.. Cette propriété résulte de la formule de Bretscheider qui donne l’aire A

select nom, prenom from Acteur order by nom asc limit 2,1; 1 item à partir du 2e select * from Acteur where prenom like '%a%'; case insensitive select * from Acteur where prenom

UN PANORAMA DES MONNAIES COMPLEMENTAIRES EN EuROPE III LE DEVELOPPEMENT DES SYSTEMES DE COMPENSATION POUR DYNAMISER L'ECONOMIE SUR DES TERRITOIRES LIMITES 119. La