• Aucun résultat trouvé

Classification supervisée et non supervisée

N/A
N/A
Protected

Academic year: 2022

Partager "Classification supervisée et non supervisée"

Copied!
104
0
0

Texte intégral

(1)

Master 1 Informatique – Université Marne-la-Vallée (IGM) 14/02/2014 – Cours 3

Ingéniérie Linguistique

Classification supervisée et non supervisée

Philippe Gambette

(2)

• Cours de Matthieu Constant, Ingéniérie Informatique 1

http://igm.univ-mlv.fr/ens/Master/M1/2010-2011/IngenierieLinguistique1/cours.php

• Cours d'Alexandre Allauzen et Jérôme Azé, Université Paris-Sud

http://www.bioinfo-biostats-etudiants.u-psud.fr/Ressources/Cours/Master%202/ECT/

• Cours de Guillaume Wisniewski, Université Paris-Sud

http://perso.limsi.fr/Individu/wisniews/enseignement/old/10-11/10-11_rdf_m1/

Sources du cours

(3)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(4)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(5)

Classification supervisée :

• On dispose d'éléments déjà classés

Exemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élément

Exemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classés Exemple : mots d'un texte

• On veut les regrouper en classes

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

(6)

Classification supervisée :

• On dispose d'éléments déjà classés

Exemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élément

Exemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classés Exemple : mots d'un texte

• On veut les regrouper en classes

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

(7)

Classification supervisée :

• On dispose d'éléments déjà classés

Exemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élément

Exemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classés Exemple : mots d'un texte

• On veut les regrouper en classes

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

?

(8)

?

Classification supervisée :

• On dispose d'éléments déjà classés

Exemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élément

Exemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classés Exemple : mots d'un texte

• On veut les regrouper en classes

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

(9)

?

Classification supervisée :

• On dispose d'éléments déjà classés

Exemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élément

Exemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classés Exemple : mots d'un texte

• On veut les regrouper en classes

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

(10)

?

Classification supervisée :

• On dispose d'éléments déjà classés

Exemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élément

Exemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classés Exemple : mots d'un texte

• On veut les regrouper en classes

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

(11)

Classification supervisée :

• On dispose d'éléments déjà classés

Exemple : articles en rubrique économie, politique, sport, culture...

• On veut classer un nouvel élément

Exemple : lui attribuer une étiquette parmi économie, politique, sport, culture...

Classification non supervisée

• On dispose d'éléments non classés Exemple : mots d'un texte

• On veut les regrouper en classes

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même thématique...

Introduction

?

(12)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(13)

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

(14)

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais

documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document + document classé + vrai document + document classé +

(15)

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais

documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document + document classé + vrai document - document classé - précision = 0.5

rappel = 1 précision = 1 rappel = 0 précision = 0.75

rappel = 0.5

(16)

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais

documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document + document classé + vrai document - document classé - précision = 0.625 rappel = 1

précision = 1 rappel = 0.4 précision = 0.8125

rappel = 0.7

(17)

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais

documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document + document classé + vrai document - document classé - précision = 0.667 rappel = 0.3

précision = 0.571 rappel = 0.8 précision = 0.619

rappel = 0.65

(18)

Conception d'une méthode

Étiquetage manuel du corpus + partitionnement du corpus en deux :

• un corpus d'apprentissage APP : éléments déjà classés + ou - (80%)

• un corpus d'évaluation EVAL : éléments à classer (20%)

• (si on organise un concours, un corpus de test TEST est fourni aux candidats)

Classification supervisée à deux classes

Évaluation

• Précision : moyenne de la proportion de vrais documents + parmi les documents classés +, et de la proportion de vrais documents - parmi les documents classés -

• Rappel : moyenne de la proportion parmi les vrais

documents +, des documents classés +, et de la proportion, parmi les vrais documents -, des documents classés -.

vrai document + document classé + vrai document - document classé - précision = 1

rappel = 0 précision = 0.5 rappel = 1 précision = 0.75

rappel = 0.5

(19)

Étiquettes non binaires, scores entre -1 et 1 :

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

(20)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

(21)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Exemple : s=0 (4 vrais positifs → fraction des vrais + classés + : 0.8) (1 faux positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

(22)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Exemple : s=0 (4 vrais-positifs → fraction des vrais + classés + : 0.8) (1 faux-positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

0 0 1

1 vrais-positifs

faux-positif

(23)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Exemple : s=1.1 (0 vrai-positif → fraction des vrais + classés + : 0) (0 faux-positif → fraction des vrais - classés + : 0)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

0 0 1

1 vrais-positifs

faux-positif

(24)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Exemple : s=-1.1 (5 vrais-positifs → fraction des vrais + classés + : 1) (5 faux-positif → fraction des vrais - classés + : 1)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

0 0 1

1 vrais-positifs

faux-positif

(25)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Exemple : s=0.4 (3 vrais-positifs → fraction des vrais + classés + : 0.6) (1 faux-positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

0 0 1

1 vrais-positifs

faux-positif

(26)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Exemple : s=-0.4 (5 vrais-positifs → fraction des vrais + classés + : 1) (1 faux-positif → fraction des vrais - classés + : 0.2)

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

0 0 1

1 vrais-positifs

faux-positif

(27)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

0 0 1

1 vrais-positifs

faux-positif

(28)

Étiquettes non binaires, scores entre -1 et 1 :

→ choix d'un seuil s pour attribuer l'étiquette – ou +

La courbe ROC doit se rapprocher le plus possible de (0,1) pour un bon classifieur.

Classification supervisée à deux classes

-0.7

-0.8

0.6

-0.9

-0.1

0.5 -0.5

0.8 1 0.2

vrai document + document classé + vrai document - document classé - vrai-positif

faux-positif

0 0 1

1 vrais-positifs

faux-positif courbe ROC

“Receiver Operating Characteristic”

(29)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(30)

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres.

Approche du centroïde

(31)

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres.

Exemple en dimension 2 :

Approche du centroïde

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

Document D11(3,3) à classer

?

(32)

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

C1

C2

C3

7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7

Document D11(3,3) à classer

?

(33)

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

C1

C2

C3

7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7

i-ième coordonnée du centroïde de la classe k : Cki =

Σ Dji

|classe k|

Dj ϵ classe k

Document D11(3,3) à classer

?

(34)

7 6 5 4 3 2 1 0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

i-ième coordonnée du centroïde de la classe k : Cki =

Σ Dji

|classe k|

Document D11(3,3) à classer

?

Dj ϵ classe k

(35)

7 6 5 4 3 2 1 0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

i-ième coordonnée du centroïde de la classe k : Cki =

Σ Dji

|classe k|

Document D11(3,3) à classer

?

Dj ϵ classe k

(36)

7 6 5 4 3 2 1 0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

Document D11(3,3) à classer

Carrés des distances euclidiennes aux centroïdes

?

(37)

7 6 5 4 3 2 1 0

Idée :

Représenter chaque classe par son centre et classer le nouvel élément en fonction de sa distance aux centres (= centroïdes, barycentres, moyennes).

Exemple en dimension 2 :

Approche du centroïde

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

C1(1.333,1.333)

C2(3.667,4)

C3(4.75,1.5)

0 1 2 3 4 5 6 7

Document D11(3,3) à classer

Carrés des distances euclidiennes aux centroïdes

→ Classe 2 !

?

(38)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(39)

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=3 :

Approche des k plus proches voisins

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

Document D11(3,3) à classer

?

(40)

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=3 :

Approche des k plus proches voisins

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

Document D11(3,3) à classer

?

(41)

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=3 :

Approche des k plus proches voisins

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

Document D11(3,3) à classer

?

(42)

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=10 :

Approche des k plus proches voisins

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

Document D11(3,3) à classer

?

(43)

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=10 :

Approche des k plus proches voisins

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

Document D11(3,3) à classer

?

(44)

Idée :

Choisir pour chaque sommet la classe majoritaire parmi ses k plus proches voisins.

Exemple en dimension 2, k=10 :

Approche des k plus proches voisins

Classe 1 : D1 (1,1) D2 (1,2) D3 (2,1) Classe 2 : D4 (3,4) D5 (4,5) D6 (4,3) Classe 3 : D7 (4,2) D8 (5,2) D9 (6,1) D10(4,1)

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

Document D11(3,3) à classer

?

(45)

Cas d'égalité ?

• Augmenter k de 1 ? Fonctionnera si classification à 2 classes, risque d'échouer sinon.

• Tirage au hasard.

• Pondération des voisins par rapport à leur distance au point à classer.

Approche des k plus proches voisins

(46)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(47)

Idée pour une classification supervisée à 2 classes : Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

?

(48)

Idée pour une classification supervisée à 2 classes : Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

?

Classifieur linéaire : d'un côté bleu, de l'autre rouge.

(49)

Idée pour une classification supervisée à 2 classes : Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

?

Classifieur linéaire : d'un côté bleu, de l'autre rouge.

(50)

Idée pour une classification supervisée à 2 classes : Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

?

Quelle droite choisir ?

(51)

Idée pour une classification supervisée à 2 classes : Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires - SVM

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

?

Quelle droite choisir ?

Séparateur à Vastes Marges : maximiser la marge de part et d'autre du classifieur linéaire.

(52)

Idée pour une classification supervisée à 2 classes : Choisir une ligne qui sépare le mieux les deux classes

Exemple en dimension 2 :

Classifieurs linéaires - SVM

0 1 2 3 4 5 6 7 7

6 5 4 3 2 1 0

?

Quelle droite choisir ?

Séparateur à Vastes Marges : maximiser la marge de part et d'autre du classifieur linéaire.

+ généralisation à des classifieurs non linéaires par transformation dans un espace de plus grande dimension où il existe un hyperplan linéaire séparateur “kernel trick”

https://www.lri.fr/~sebag/Slides/Cachan_5_2013.pdf

(53)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(54)

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

Qualité des partitions calculées ?

• Formule de Rand entre deux partitions P1 et P2 :

Rand(P1,P2) = ratio de paires d'éléments se comportant pareil dans P1 et P2

http://en.wikipedia.org/wiki/Rand_index

(55)

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

• Si aucune partition de référence n'est connue, vérifier que :

- les éléments proches sont dans un même ensemble (ou “cluster”) de la partition

- les éléments éloignés sont dans deux ensembles différents de la partition

• Si une partition de référence est connue :

→ distance avec la partition de référence ?

(56)

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

Qualité des partitions calculées si une partition de référence P1 est connue ?

• Formule de Rand entre deux partitions P1 et P2 :

Rand(P1,P2) = ratio de paires d'éléments se comportant pareil dans P1 et P2

http://en.wikipedia.org/wiki/Rand_index

réunies dans P1 et dans P2 ou séparées dans P1 et dans P2

(57)

Classification non supervisée

Objectif : trouver une partition des données

Évaluation

Qualité des partitions calculées si une partition de référence P1 est connue ?

• Formule de Rand entre deux partitions P1 et P2 :

Rand(P1,P2) = ratio de paires d'éléments se comportant pareil dans P1 et P2

• Formule “adjusted Rand” entre deux partitions P1 et P2 :

Prise en compte du fait que certaines paires se comportent pareil par hasard.

http://en.wikipedia.org/wiki/Rand_index

(58)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(59)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(60)

5 4 3 2 1 0

Idée :

Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(61)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(62)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(63)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(64)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(65)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(66)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(67)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

(68)

5 4 3 2 1 0

Idée :

• Choisir k points au hasard, et les considérer comme des centroïdes

• Distribuer les points dans les k classes ainsi formées selon leur proximité au centroïde

• Utiliser les barycentres des classes comme nouveaux centroïdes et répéter jusqu'à ce qu'il n'y ait plus de changement.

Exemple en dimension 2 avec k=3 :

k-moyennes

0 1 2 3 4 5 6 7

Diagramme de Voronoi

(69)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(70)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(71)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(72)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(73)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(74)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(75)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(76)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(77)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(78)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(79)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(80)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(81)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(82)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(83)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(84)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(85)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(86)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(87)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(88)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

(89)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Fonctionne aussi si on n'a pas les coordonnées des points mais seulement

les distances entre paires de points !

(90)

5 4 3 2 1 0

Idée :

Prendre les deux points les plus proches, les fusionner, considérer leur moyenne par la suite.

• Répéter jusqu'à un critère d'arrêt (par exemple distance supérieure à une certaine valeur)

• Ou bien découper l'arbre des fusions pour obtenir des classes Exemple en dimension 2 :

Classification hiérarchique

0 1 2 3 4 5 6 7

Arbre construit de bas en haut Méthode bottom-up

(91)

Variantes de la classification hiérarchiques

Pour calculer la distance entre deux classes C1 et C2 :

• calculer la moyenne des distances entre les éléments de C1 et les éléments de C2

• calculer le minimum des distances entre les éléments de C1 et les éléments de C2

• calculer le maximum des distances entre les éléments de C1 et les éléments de C2

Méthodes par division (top-down) plutôt que par agglomération (bottom-up)

Classification hiérarchique

(92)

• Introduction

• Classification supervisée de documents

• Approche du centroïde

• k-plus proches voisins

• Classifieurs linéaires et SVM

• Classification non supervisée

• k-moyennes

• Classification hiérarchique

• Partitionnement de graphes et modularité

Plan

(93)

Classification non supervisée des sommets d'un graphe :

Une arête relie deux sommets à petite distance (forte similarité).

Partitionnement de graphes

(94)

Classification non supervisée des sommets d'un graphe :

Une arête relie deux sommets à petite distance (forte similarité).

Score de qualité du partitionnement ? La modularité

Girvan & Newman 2004

Pas besoin de paramètres : nombre de classes et tailles des classes fixées automatiquement par l'optimisation de la modularité

Partitionnement de graphes et modularité

(95)

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

Modularité : qualité du partitionnement Girvan & Newman 2004

M(G,P) =

Σ

M(Ci )

M(Ci ) = eii -

(

eii +

Σ

eij /2

eij = proportion d'arêtes avec un sommet dans Ci et l'autre dans Cj

j≠i

Ci Є P

(96)

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

proportion d'arêtes observées dans la classe Ci

proportion d'arêtes attendues dans la classe C s'il n'y avait pas de communauté, et répartition au hasard en respectant les degrés

Modularité : qualité du partitionnement Girvan & Newman 2004

M(G,P) =

Σ

M(Ci )

M(Ci ) = eii -

(

eii +

Σ

eij /2

eij = proportion d'arêtes avec un sommet dans Ci et l'autre dans Cj

Ci Є P

j≠i

(97)

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

Ci Є P

Modularité : qualité du partitionnement Girvan & Newman 2004

M(G,P) =

Σ

M(Ci )

M(Ci ) = eii -

(

eii +

Σ

eij /2

eij = proportion d'arêtes avec un sommet dans Ci et l'autre dans Cj

C1

C2 C3

C4

e11 = 3 ; e12 = 2 ; e13 = 1 ; e14 = 1 M(C1) = 3/100 – (5/100)²

= 0.0275

proportion d'arêtes observées dans la classe Ci

proportion d'arêtes attendues dans la classe C s'il n'y avait pas de communauté, et répartition au hasard en respectant les degrés

j≠i

(98)

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalente

Newman 2004

1 2m

d(u)d(v)

M(G,P) =

Σ

(Guv - )α2m uv

Guv = 1 si u et v adjacents 0 sinon

αuv = 1 si u et v dans la même classe 0 sinon

(99)

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalente

Newman 2004

1 2m

d(u)d(v)

M(G,P) =

Σ

(Guv - )α2m uv

Guv = 1 si u et v adjacents 0 sinon

αuv = 1 si u et v dans la même classe 0 sinon

Possibilité d'étendre aux graphes aux arêtes pondérées

(100)

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalente

Newman 2004

1 2m

d(u)d(v)

M(G,P) =

Σ

(Guv - )α2m uv

Guv = 1 si u et v adjacents 0 sinon

αuv = 1 si u et v dans la même classe 0 sinon

wuv

(101)

Partitionnement de graphes et modularité

Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

u,v

Modularité : formule équivalente

Newman 2004

1 2m

d(u)d(v)

M(G,P) =

Σ

(Guv - )α2m uv

Problème d'optimisation NP-complet Brandes et al. 2008

wuv

• Même si la solution recherchée a 2 classes et que le graphe est peu dense

DasGupta & Desai, 2011

Références

Documents relatifs

It has been shown that IL- 21 inhibits thymocyte apoptosis (Rafei et al. This suggests that the observed changes in IL-21 expression may be related to the differences in apoptosis.

18 we show that decreasing the number of snapshots used for the training of the network leads to an increase of the number of neurons in the hidden layer needed for an equiv-

We use the k−means algorithm (that we initialize many times, retaining the minimum within cluster distance solution) where the input data are the selected scales of the (AR) and

Dans la suite des expériences, HDDA et HDDC seront comparées à différents modèles classiques de mélange gaussien : modèle gaussien avec une matrice de covariance pleine pour

C’est dans ce but que l’on s’int´eresse aux cartes auto-organisatrices de Kohonen qui sont issues d’un algorithme de classification non supervis´ee.. Cependant il faut ajouter

Se fondant ainsi sur des données et une mesure de proximité quantifiant la ressemblance ou la dissemblance entre les individus, nous pouvons désormais définir de manière informelle

— nous avons développé un générateur qui produit des points avec un nombre variable de groupes, une orientation variable des nuages, un écart (distance) aléatoire entre les nuages

Beaucoup de parcelles n’étant pas des vergers (env. 20 %) Beaucoup de vergers non référencés dans ces bases. Comparaison entre bases de données : peu de chevauchement