Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé

(1)

HAL Id: tel-02965215

https://tel.archives-ouvertes.fr/tel-02965215

Submitted on 13 Oct 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l’apprentissage partagé

Nassara Elhadji Ille Gado

To cite this version:

Nassara Elhadji Ille Gado. Méthodes aléatoires pour l’apprentissage de données en grande dimension :

application à l’apprentissage partagé. Apprentissage [cs.LG]. Université de Technologie de Troyes,

2017. Français. �NNT : 2017TROY0032�. �tel-02965215�

(2)

(3)

THESE

pour l’obtention du grade de

D OCTEUR de l’U NIVERSITE DE T ECHNOLOGIE DE T ROYES

Spécialité : OPTIMISATION ET SURETE DES SYSTEMES

présentée et soutenue par

Nassara ELHADJI ILLE GADO

le 5 décembre 2017

Méthodes aléatoires pour l’apprentissage de données en grande dimension - Application à l'apprentissage partagé

JURY

M. P. BEAUSEROY PROFESSEUR DES UNIVERSITES Président

M. S. CANU PROFESSEUR DES UNIVERSITES Rapporteur

Mme É. GRALL-MAËS MAITRE DE CONFERENCES Directrice de thèse

M. P. HONEINE PROFESSEUR DES UNIVERSITES Examinateur

Mme M. KHAROUF MAITRE DE CONFERENCES Directrice de thèse

M. M. SAYED-MOUCHAWEH PROFESSEUR IMT LILLE DOUAI - HDR Rapporteur

(4)

D´ edicaces

A `

♥ Ma fille ch´ erie, Nisrine AMADOU, source de motivation incontestable, c’est ` a toi

que revient toutes ces ann´ ees d’acharnement, sans nulle doute tu es celle qui as souffert

le plus durant ces ann´ ees...

(5)

Remerciements

Je tiens ` a remercier vivement tous ceux ou celles qui m’ont accompagn´ e tout le long de ces longues ann´ ees d’´ etudes et plus particuli` erement durant cette th` ese. Ces trois derni` eres ann´ ees ont ´ et´ e pleines d’exp´ eriences in´ edites sur un travail fastidieux, de belles opportunit´ es d’´ echanges et de belles rencontres. J’adresse ici mes plus sinc` eres remerciements :

• A mes directrices de th` ese : Edith GRALL-MA ¨ ES et Malika KHAROUF, sans vous, ce travail de th` ese n’aurait pu ˆ etre possible, je tiens ` a exprimer toute ma gratitude.

Je vous remercie tr` es chaleureusement de m’avoir donn´ e la chance de r´ ealiser mon voeu sous votre direction. Je vous remercie ´ egalement de m’avoir fait confiance et je ne saurai vous remercier pour tout l’enseignement, les conseils constructifs que vous m’avez transmis durant ces trois ans, pour me faire progresser et me propulser jusqu’au sommet. Merci encore pour votre int´ erˆ et, votre soutien, votre disponibilit´ e et surtout pour votre patience dans les moments difficiles que nous avons travers´ e ensemble.

• Aux membres du jury qui m’ont fait l’honneur d’accepter d’´ evaluer ce travail. Je re- mercie particuli` erement Mr. St´ ephane CANU, Mr. Moamar SAYED-MOUCHAWEH, Mr Paul HONEINE et Mr. Pierre BEAUSEROY. Merci pour votre lecture attentive de ma th` ese ainsi que les remarques que vous avez m’adress´ e lors de la soutenance afin de permettre l”am´ elioration de mon travail.

• L’´ equipe administrative de l’UTT : Mme Denis, Mme Leclercq, Mme Kazarian, Ber- nadette, V´ eronique et Patricia.

• Tous mes amis et coll` egues de l’UTT et d’ailleurs, au terme de ce parcours je vous remercie infiniment pour tous vos encouragements.

• Tous mes enseignants tout au long de mes ´ etudes, a tous ceux qui ont particip´ e de

pr` es ou de loin ` a la r´ ealisation de ce travail et ` a ceux qui ont eu la p´ enible tˆ ache de

soulager et diminuer la souffrance encourue.

(6)

R´ esum´ e

Cette th` ese porte sur l’´ etude de m´ ethodes al´ eatoires pour l’apprentissage de donn´ ees

en grande dimension. Nous proposons d’abord une approche non supervis´ ee consistant en

l’estimation des composantes principales, lorsque la taille de l’´ echantillon et la dimension

de l’observation tendent vers l’infini. Cette approche est bas´ ee sur les matrices al´ eatoires et

utilise des estimateurs consistants de valeurs propres et vecteurs propres de la matrice de co-

variance. Ensuite, dans le cadre de l’apprentissage supervis´ e, nous proposons une approche

qui consiste ` a, d’abord r´ eduire la dimension grˆ ace ` a une approximation de la matrice de

donn´ ees originale, et ensuite r´ ealiser une LDA dans l’espace r´ eduit. La r´ eduction de dimen-

sion est bas´ ee sur l’approximation de matrices de rang faible par l’utilisation de matrices

al´ eatoires. Un algorithme d’approximation rapide de la SVD, puis une version modifi´ ee

permettant l’approximation rapide par saut spectral sont d´ evelopp´ es. Les approches sont

appliqu´ ees ` a des donn´ ees r´ eelles images et textes. Elles permettent, par rapport ` a d’autres

m´ ethodes, d’obtenir un taux d’erreur assez souvent optimal, avec un temps de calcul r´ e-

duit. Enfin, dans le cadre de l’apprentissage par transfert, notre contribution consiste en

l’utilisation de l’alignement des sous-espaces caract´ eristiques et l’approximation de matrices

de rang faible par projections al´ eatoires. La m´ ethode propos´ ee est appliqu´ ee ` a des donn´ ees

issues d’une base de donn´ ees de r´ ef´ erence ; elle pr´ esente l’avantage d’ˆ etre performante et

adapt´ ee ` a des donn´ ees de grande dimension.

(7)

Abstract

This thesis deals with the study of random methods for learning large-scale data. Firstly,

we propose an unsupervised approach consisting in the estimation of the principal compo-

nents, when the sample size and the observation dimension tend towards infinity. This

approach is based on random matrices and uses consistent estimators of eigenvalues and

eigenvectors of the covariance matrix. Then, in the case of supervised learning, we propose

an approach which consists in reducing the dimension by an approximation of the original

data matrix and then realizing LDA in the reduced space. Dimension reduction is based

on low–rank approximation matrices by the use of random matrices. A fast approximation

algorithm of the SVD and a modified version as fast approximation by spectral gap are

developed. Experiments are done with real images and text data. Compared to other me-

thods, the proposed approaches provide an error rate that is often optimal, with a small

computation time. Finally, our contribution in transfer learning consists in the use of the

subspace alignment and the low-rank approximation of matrices by random projections. The

proposed method is applied to data derived from benchmark database ; it has the advantage

of being efficient and adapted to large-scale data.

(8)

Notations

Symbole Signification

d Nombre de variables

N Nombre d’´ echantillons

K Nombre de classes (ou clusters) x

_i

i

^ème

´ echantillon observ´ e sur les (d) variables X

_j

j

^ème

variable d´ ecrit sur les (N ) ´ echantillons

X Matrice des donn´ ees

a

^T

Transpos´ ee de a

ˆ a Estim´ ee de a

˜ a Approxim´ ee de a

¯ a Matrice de donn´ ees centr´ ees S

_b

Matrice variance-covariance inter classes S

_w

Matrice variance-covariance intra classes

S

_t

Matrice variance-covariance totale W Matrice de similarit´ e (affinit´ e)

D Matrice diagonale des degr´ es du graphe

L Matrice du graphe Laplacien

Y Vecteur des ´ etiquettes des classes y

_i

´ etiquette de la classe num´ ero i

λ Valeur propre

∆ Matrice diagonale contenant les valeurs propres

u Vecteur propre

U Matrice des vecteurs propres P Matrice de projection orthogonale

I Matrice identit´ e

(9)

Table des mati` eres

1 Introduction g´ en´ erale 1

1.1 Contexte g´ en´ eral . . . . 1

1.2 Objectifs et structure de la th` ese . . . . 3

2 G´ en´ eralit´ es sur l’apprentissage automatique 5 2.1 Introduction . . . . 5

2.2 Apprentissage non supervis´ e . . . . 6

2.2.1 Nu´ ees dynamiques . . . . 6

2.2.2 Partitionnement hi´ erarchique . . . . 8

2.2.3 Partitionnement spectral . . . . 9

2.3 Apprentissage supervis´ e . . . . 11

2.3.1 Plus proches voisins . . . . 13

2.3.2 Moyenne la plus proche . . . . 13

2.3.3 Analyse lin´ eaire discriminante . . . . 14

2.3.4 S´ eparateurs ` a vaste marge . . . . 15

2.4 R´ eduction de dimension . . . . 17

2.4.1 Analyse en composante principale . . . . 18

2.4.1.1 Avec la covariance . . . . 19

2.4.1.2 Avec la d´ ecomposition en valeurs singuli` eres . . . . 20

2.4.1.3 Analyse en composante principale ` a noyau . . . . 21

2.4.2 R´ eduction de dimension avec matrices al´ eatoires . . . . 22

2.4.2.1 Projection al´ eatoire . . . . 22

2.4.2.2 Approximation de la SVD . . . . 23

2.5 Apprentissage supervis´ e pour les donn´ ees en grande dimension . . . . 25

2.6 Apprentissage partag´ e . . . . 25

2.6.1 Principes . . . . 26

2.6.2 Synth` ese de m´ ethodes existantes . . . . 27

2.7 Conclusion . . . . 30

i

(10)

3 Estimation de la covariance pour les donn´ ees en grande dimension 32

3.1 Introduction . . . . 32

3.2 Estimation de la covariance bas´ ee sur les matrices al´ eatoires . . . . 33

3.2.1 Outils des matrices al´ eatoires . . . . 34

3.2.2 Estimation (N, d)-consistante de la matrice de covariance . . . . 37

3.3 Partitionnement bas´ e sur la covariance empirique . . . . 39

3.3.1 Analyse en composantes principales : nouvelle alternative . . . . 39

3.3.2 Partitionnement par ACP . . . . 40

3.3.3 Indicateurs de performance . . . . 41

3.4 R´ esultats et discussion . . . . 43

3.5 Conclusion . . . . 45

4 Analyse discriminante lin´ eaire pour les donn´ ees en grande dimension 47 4.1 Introduction . . . . 47

4.2 Description de m´ ethodes existantes . . . . 48

4.2.1 R´ egression spectrale . . . . 48

4.2.2 D´ ecomposition QR . . . . 54

4.2.3 Projection al´ eatoire . . . . 55

4.3 Analyse discriminante lin´ eaire rapide . . . . 56

4.3.1 Principes et motivations de la m´ ethode propos´ ee . . . . 56

4.3.2 Approches pour la r´ eduction de dimension ` a l’aide de l’approximation de la SVD . . . . 58

4.3.2.1 Approximation classique . . . . 58

4.3.2.2 Approximation rapide . . . . 60

4.3.2.3 Approximation rapide par saut spectral . . . . 60

4.3.3 Description de la m´ ethode . . . . 64

4.3.4 Complexit´ e de la m´ ethode . . . . 64

4.4 Pr´ esentation des donn´ ees . . . . 65

4.4.1 Donn´ ees images . . . . 65

4.4.2 Donn´ ees textes . . . . 66

4.4.3 Normalisation des donn´ ees . . . . 66

4.5 R´ esultats d’exp´ erimentation . . . . 68

4.5.1 Impl´ ementation et param´ etrage . . . . 68

4.5.2 R´ esultats et analyse . . . . 69

4.6 Conclusion . . . . 70

5 Apprentissage partag´ e pour les donn´ ees en grande dimension 74

5.1 Introduction . . . . 74

(11)

5.2 Formulation du probl` eme . . . . 75

5.3 Adaptation par transfert partag´ e entre les domaines . . . . 76

5.3.1 M´ ethode d’alignement des sous-espaces . . . . 77

5.3.2 Approximation rapide d’alignement des sous-espaces . . . . 78

5.4 Exp´ erimentation . . . . 79

5.4.1 Pr´ esentation des donn´ ees . . . . 80

5.4.2 M´ ethodes de comparaison . . . . 81

5.4.3 Impl´ ementation et param´ etrage . . . . 83

5.4.4 R´ esultats et analyse . . . . 84

5.5 Conclusion . . . . 86

6 Conclusion et perspectives 87 6.1 Conclusion et travaux effectu´ es . . . . 87

6.2 Perspectives . . . . 89

Bibliographie 91

(12)

Table des figures

2.1 Donn´ ees originales 2.1(a) ; R´ esultats de partitionnement de l’algorithme k- means obtenus avec une seule it´ eration 2.1(b) ; deux it´ erations 2.1(c) ; cinq

it´ erations 2.1(d). . . . 8

2.2 Exemple de classification ascendante hi´ erarchique. . . . . 9

2.3 Matrice d’adjacence et graphe correspondant . . . . 9

2.4 2.4(a) Donn´ ees originales ; 2.4(b) avec la matrice de Laplacien normalis´ ee sy- m´ etrique avec diff´ erentes similarit´ es : (1) voisinage = 2, (2) normal KNN=3 et (3) mutuel KNN=5 ; 2.4(c) r´ esultats partitionnement obtenus avec Lapla- cien normalis´ e et similarit´ e totalement connect´ ee ; 2.4(d) par k-means. . . . 12

2.5 Exemple de k plus proches voisins. Dans le cercle en pointill´ e, le point A dispose de 5 plus proches voisins, et dans le cercle sup´ erieur, le point A dispose de 10 voisins. . . . . 13

2.6 Exemple d’illustration du principe de la moyenne la plus proche. Les distances d

₁

et d

₂

caract´ erisent la classe d’appartenance du point inconnue mat´ erialis´ e en vert. . . . 14

2.7 Principe de l’analyse lin´ eaire discriminante . . . . 15

2.8 S´ eparateurs vaste marge. . . . 17

3.1 Densit´ e Marchenko-Pastur et l’histogramme des valeurs empiriques pour N=1000 et trois diff´ erentes valeurs de y =

_N^d

. . . . 36

3.2 Entropie et information mutuelle d’un couple de variables al´ eatoires (W,Z). 42 3.3 R´ esultats du partitionnement . . . . 45

4.1 Repr´ esentation de la liste des sommets adjacents ` a cot´ e de chaque sommet du graphe. . . . 49

4.2 Exemple de graphe de Scree. . . . . 62

4.3 Echantillons d’exemples illustratifs ^´ . . . . 67

4.4 R´ esultats de simulation sur les donn´ ees MINST. . . . . 70

4.5 R´ esultats de simulation sur les donn´ ees COIL20. . . . 71

4.6 R´ esultats de simulation sur les donn´ ees Reuters21578. . . . 71

4.7 R´ esultats de simulation sur les donn´ ees TDT2. . . . 71

4.8 R´ esultats de simulation sur les donn´ ees 20NewsGroups. . . . . 72

iv

(13)

4.9 R´ esultats de simulation sur les donn´ ees ORL. . . . 72 4.10 Influence du param` etre p sur l’accuracy et le temps de calcul sur les donn´ ees

COIL20, avec k = p fix´ e et TN=30%. . . . 72 4.11 Influence du param` etre k sur l’accuracy et le temps de calcul sur les donn´ ees

COIL20, avec TN=30% et p=70. . . . 73 5.1 Positionnement de l’adaptation entre les domaine au sein de l’apprentissage

automatique . . . . 76 5.2 Variation du taux d’erreur en fonction de la dimension r´ eduite sur donn´ ees

20Newsgroups. Nombre de plus proches voisins KN N = 10. . . . . 84 5.3 Variation du taux d’erreur en fonction du nombre de plus proches voisins

KN N sur donn´ ees 20Newsgroups. Dimension sous-espace k = 100. . . . 84 5.4 Variation du taux d’erreur en fonction de la dimension r´ eduite sur les donn´ ees

Reuters. Nombre de plus proches voisins KNN=10. . . . . 85 5.5 Variation du taux d’erreur en fonction du nombre de plus proches voisins

KN N sur donn´ ees Reuters. Dimension sous-espace k = 50. . . . 85

(14)

Liste des tableaux

3.1 Information mutuelle normalis´ ee (m=moyenne, σ=´ ecart-type) . . . . 44

3.2 Taux d’erreur (m=moyenne, σ=´ ecart-type) . . . . 44

4.1 Statistique des donn´ ees et valeurs des param` etres . . . . 66

5.2 Statistique des donn´ ees Reuters-21578 data . . . . 81

5.1 Description des donn´ ees 20Newsgroups . . . . 82

5.3 Taux d’erreur (%). k = 20 et KN N = 10. . . . 83

5.4 Temps d’ex´ ecution pour les donn´ ees images (s). k = 20 et KN N = 10. . . . 85

vi

(15)

Chapitre 1

Introduction g´ en´ erale

1.1 Contexte g´ en´ eral

Dans les diff´ erents domaines de recherches scientifiques, le d´ eveloppement technologique et le besoin de superviser des syst` emes de plus en plus complexes n´ ecessitent l’analyse de bases de donn´ ees de taille importante (signaux, images, documents, sc` enes audio/vid´ eo, ...).

A titre d’exemples, dans le domaine de la reconnaissance d’objets, du multim´ edia, de la vision par ordinateur et de classification de documents, pr` es de 500 heures de fichiers vid´ eo sont t´ el´ echarg´ es sur Youtube chaque minute

¹

, Google a r´ epertori´ e plus de 1000 milliards de pages web dans le monde

²

, environ 3 millions d’applications mobiles se partagent entre Google app store, Apple app store et Windows phone store

³

, [1, 2]. En r´ eponse aux difficult´ es d’encodage de ces volumes de donn´ ees en perp´ etuelle croissance, de nombreux chercheurs ont r´ ecemment tourn´ e leur attention vers l’apprentissage automatique des donn´ ees en grande dimension comme un moyen de surmonter le goulet d’´ etranglement de leur traitement.

Toutefois, si l’on est sˆ ur d’avoir une information assez compl` ete lors de l’acquisition de ces donn´ ees, celle-ci risque d’ˆ etre ”immerg´ ee” dans le lot (ou noy´ ee dans la masse de donn´ ees). Ceci pose les probl` emes de la structuration des donn´ ees et de l’extraction des connaissances ou d’informations. En effet, les bases de donn´ ees sont en g´ en´ eral d´ efinies par des tableaux ` a deux dimensions : le nombre de variables et le nombre d’´ echantillons.

Ces deux dimensions peuvent prendre des valeurs tr` es ´ elev´ ees, ce qui peut poser un pro- bl` eme lors du stockage, de l’exploration et de l’analyse. Pour cela, il est fondamental de mettre en place des outils de traitement de donn´ ees permettant l’extraction des connais- sances sous-jacentes. L’extraction de connaissances ` a partir des donn´ ees se d´ efinit comme l’acquisition de connaissances nouvelles, intelligibles et potentiellement utiles ` a partir de faits cach´ es au sein de grandes quantit´ es de donn´ ees [3]. En fait, on cherche surtout ` a isoler des traits structuraux ou sch´ emas (patterns) qui soient valides, non triviaux, utilisables et surtout compr´ ehensibles ou explicables. L’extraction des connaissances s’effectue selon deux directions, la cat´ egorisation des donn´ ees (par regroupement en classes) ou la r´ eduction de

1. http ://tubularinsights.com/hours-minute-uploaded-youtube/

2. http ://www.webrankinfo.com/dossiers/indexation

3. http ://www.geeksandcom.com/2015/04/15/applications-mobiles-chiffres/

1

(16)

Section 1.1 – Contexte g´ en´ eral

la dimension de l’espace de repr´ esentation de ces donn´ ees (par s´ election ou extraction des variables).

La r´ eduction de la dimension se pose comme une ´ etape primordiale dans le processus de pr´ e-traitement des donn´ ees (compression, nettoyage, ´ elimination des points aberrants, etc.).

Son but principal est de s´ electionner ou d’extraire un sous-ensemble optimal de variables pertinentes. En effet, pour des donn´ ees appartenant ` a un espace de grande dimension, cer- taines variables n’apportent aucune information, d’autres sont simplement redondantes ou corr´ el´ ees. Ceci rend les algorithmes de d´ ecision complexes, inefficaces, moins g´ en´ eralisables dans certaines situations ou pr´ esentent une interpr´ etation assez d´ elicate. La s´ election d’un sous-ensemble permet d’´ eliminer les informations non-pertinentes et redondantes selon un crit` ere d´ efini. Les m´ ethodes de r´ eduction de la dimension de l’espace de repr´ esentation des donn´ ees peuvent ˆ etre divis´ ees en deux parties principales : les m´ ethodes d’extraction de variables et m´ ethodes de s´ election de variables. L’extraction d’attributs transforme l’espace d’attributs de d´ epart en un nouvel espace form´ e par une combinaison lin´ eaire ou non lin´ eaire des attributs initiaux. La s´ election d’attributs choisit les attributs les plus pertinents selon un crit` ere donn´ e.

La complexit´ e du traitement des donn´ ees observ´ ees diff` ere g´ en´ eralement selon leur type.

On parle de base de donn´ ees massive lorsque le nombre d’´ echantillons observ´ es N est large- ment sup´ erieur au nombre de variables (d), dans le cas contraire on parle des donn´ ees ` a tr` es grande dimension. On distingue les donn´ ees clairsem´ ees ou creuses (’sparses’ en anglais) des deux autres types de donn´ ees lorsque la grande majorit´ e des valeurs prises pour les variables explicatives sont absentes ou nulles. Ces donn´ ees ` a faible densit´ e en information sont caract´ eristiques du Big Data. Le nombre d’´ echantillons dans ce cas et le nombre des variables sont g´ en´ eralement tous deux grands. Face au d´ efi de grande dimension des don- n´ ees, les m´ ethodes d’apprentissage se focalisent sur la recherche d’informations pertinentes ou des “p´ epites” d’informations pour l’aide ` a la d´ ecision et ` a la pr´ evision. Elles mettent en œuvre des techniques statistiques d’apprentissage en tenant compte de la volum´ etrie de la base de donn´ ees.

Une hypoth` ese majeure des m´ ethodes traditionnelles d’apprentissage automatique est que les donn´ ees d’apprentissage (training) et les donn´ ees et de validation (testing) sont is- sues du mˆ eme domaine, de sorte que l’espace des variables en entr´ ee et la distribution des donn´ ees sont les mˆ emes. Cependant, dans beaucoup de sc´ enarios d’apprentissage super- vis´ e, cette hypoth` ese forte n’est pas toujours v´ erifi´ ee en pratique. Par exemple, tr` es souvent lorsqu’on effectue une tˆ ache de classification dans un domaine, on dispose g´ en´ eralement de donn´ ees suffisamment abondantes dans un autre domaine d’int´ erˆ et diff´ erent du premier domaine. Dans ce domaine, les donn´ ees peuvent avoir des variables diff´ erentes (espace de fonctionnalit´ e diff´ erent) ou suivre une distribution diff´ erente du premier domaine. Il est donc important de d´ evelopper des m´ ethodes d’apprentissage performantes form´ ees ` a partir de donn´ ees plus facilement r´ ecup´ erables, voir simplement les seules disponibles. L’apprentis- sage partag´ e ou l’apprentissage par transfert des connaissances entre les domaines (transfer learning) donne des ´ el´ ements de r´ eponse ` a ce type de probl´ ematique. L’id´ ee g´ en´ erale consiste

`

a trouver un espace commun ou interm´ ediaire entre les domaines, dans lequel les donn´ ees

Chapitre 1. Introduction g´ en´ erale Page 2

(17)

Section 1.2 – Objectifs et structure de la th` ese

d’un domaine source D

_S

et d’un domaine cible D

_T

, partagent le maximum d’informations communes ou peuvent avoir une distribution marginale assez similaire.

1.2 Objectifs et structure de la th` ese

L’objectif principal de cette th` ese est le d´ eveloppement d’algorithmes d’apprentissage automatique pour les donn´ ees en grande dimension. En utilisant des m´ ethodes al´ eatoires pour l’extraction des variables, le but est de contribuer ` a une am´ elioration des performance en temps de calcul des m´ ethodes existantes. Le travail est r´ ealis´ e sur diff´ erentes probl´ ema- tiques.

La premi` ere probl´ ematique r´ eside sur le fait que, les m´ ethodes traditionnelles de traite- ment des donn´ ees peuvent donner des temps de calcul excessifs et pr´ esenter des difficult´ es de stockage des grandes matrices de donn´ ees. En se basant sur des techniques d’apprentissage supervis´ e et non supervis´ e, le but est de proposer une approche qui permet une manipu- lation plus ais´ ee de donn´ ees issues d’un environnement complexe et en grande dimension.

De ce fait, l’objectif d’une part, est de d´ evelopper une technique de r´ eduction de dimension qui permet la suppression d’information redondante et non informative au sein des don- n´ ees. D’autre part, l’application des m´ ethodes classiques sur les grandes bases de donn´ ees est parfois infaisable. Pour ce faire, la r´ eduction de dimension de l’espace initial permet de pouvoir effectuer les m´ ethodes d’apprentissage classique dans le nouvel espace r´ eduit, tout en limitant la perte d’information au sein des donn´ ees. La seconde probl´ ematique de cette th` ese est l’utilisation des techniques d’apprentissage partag´ e (ou apprentissage par trans- fert) dans le cas des donn´ ees en grande dimension. En effet, les donn´ ees d’apprentissage et de validation des mod` eles d’apprentissage peuvent provenir de sources diff´ erentes. Dans ce genre de contexte, un mod` ele d’apprentissage construit sur une base de donn´ ees peut ˆ etre confront´ e ` a une d´ egradation de performance lorsqu’il est test´ e ou valid´ e sur une nouvelle base de donn´ ees provenant d’une autre source. Le principe de transfert de connaissance entre les domaines permet d’utiliser l’information du premier domaine pour la transf´ erer au deuxi` eme domaine dans le but de pr´ edire uniquement le deuxi` eme domaine. Ainsi, un mod` ele d’apprentissage construit dans un nouvel espace o` u les deux domaines partagent conjointement certaines caract´ eristiques pourrait convenablement pr´ edire les donn´ ees du deuxi` eme domaine.

Le chapitre 2 est consacr´ e ` a des g´ en´ eralit´ es des m´ ethodes d’apprentissage des donn´ ees n´ ecessaires ` a la suite du document. Des techniques en apprentissage supervis´ e et non super- vis´ e, les plus couramment utilis´ ees dans la litt´ erature, ont ´ et´ e d’abord introduites. Ensuite des m´ ethodes de la r´ eduction de dimension des donn´ ees sont pr´ esent´ ees ainsi que des ap- proches utilis´ ees pour l’apprentissage des donn´ ees en grande dimension. Puis le principe d’apprentissage partag´ e ainsi que des techniques d´ evelopp´ ees dans cette th´ ematique sont

´ egalement pr´ esent´ ees. Enfin, une conclusion clˆ oture ce chapitre.

Le chapitre 3 pr´ esente une approche propos´ ee dans ce travail de th` ese pour l’analyse des

donn´ ees en grande dimension dans le cas de l’apprentissage non supervis´ e. Une technique

d’analyse en composantes principales bas´ ee sur des nouveaux estimateurs de la matrice de

(18)

Section 1.2 – Objectifs et structure de la th` ese

covariance est propos´ ee. Le chapitre pr´ esente dans un premier temps les outils des matrices al´ eatoires commun´ ement utilis´ es dans la litt´ erature pour l’analyse des grandes matrices de donn´ ees. Le principe consiste d’utiliser ces outils des matrices al´ eatoires pour calculer de nouveaux estimateurs de vecteurs propres et valeurs propres afin de trouver un sous espace de projection optimal, o` u il est possible de calculer les composantes principales. A cet effet, une application du partitionnement spectral est r´ ealis´ ee dans le sous espace engendr´ e par les vecteurs propres calcul´ es. Pour ´ evaluer la m´ ethode propos´ ee, deux indicateurs de performance sont utilis´ es et test´ es sur des donn´ ees synth´ etiques.

Le chapitre 4 pr´ esente d’abord une description d´ etaill´ ee de m´ ethodes existantes d’ap- prentissage de donn´ ees en grande dimension bas´ ees sur la technique d’analyse lin´ eaire dis- criminante. Principalement, trois m´ ethodes utilis´ ees par la suite sont pr´ esent´ ees ` a savoir la r´ egression spectrale, la d´ ecomposition QR et la projection al´ eatoire. Ensuite une nouvelle approche de l’analyse lin´ eaire discriminante (LDA) est propos´ ee sur la base d’une approxi- mation de la d´ ecomposition en valeurs singuli` eres ainsi que deux versions am´ elior´ ees. Une pr´ esentation d´ etaill´ ee des bases de donn´ ees utilis´ ees dans les exp´ eriences est introduite.

Les r´ esultats d’exp´ erimentation sur l’ensemble des m´ ethodes comprenant les m´ ethodes de comparaison ainsi que approches propos´ ees ont ´ et´ e report´ es.

Le chapitre 5 est consacr´ e ` a l’adaptation des approches propos´ ees dans le chapitre 4 dans le cadre de l’apprentissage partag´ e ou transfert de connaissance entre les domaines.

Dans ce chapitre, tout d’abord le probl` eme de transfert est introduit. Ensuite une technique permettant le transfert, afin d’adapter les domaines, bas´ ee sur l’alignement des sous espaces est pr´ esent´ ee. Une nouvelle approche de l’alignement des sous espace pour le transfert est introduite en utilisant la technique de l’approximation rapide de la d´ ecomposition en valeurs singuli` eres. Sont ensuite pr´ esent´ ees les bases de donn´ ees et les m´ ethodes utilis´ ees pour la comparaison ainsi que l’impl´ ementation et param´ etrage des m´ ethodes. Puis les r´ esulats sont expos´ es et discut´ es.

Une conclusion g´ en´ erale termine ce manuscrit en synth´ etisant les points forts des diff´ e-

rents travaux r´ ealis´ es ainsi que les perspectives et extensions pour des travaux futurs.

(19)

Chapitre 2

G´ en´ eralit´ es sur l’apprentissage automatique

2.1 Introduction

L’apprentissage automatique -Machine learning- d´ esigne un ensemble de m´ ethodes et d’algorithmes permettant d’extraire de l’information pertinente au sein de donn´ ees ou d’ap- prendre un comportement ` a partir de l’observation d’un ph´ enom` ene. Il permet aux ordi- nateurs d’utiliser des donn´ ees pr´ ealablement recueillies afin de pr´ evoir les comportements, les r´ esultats et les ´ evolutions/tendences futures. L’apprentissage automatique est consid´ er´ e comme un champ d’´ etude de l’intelligence artificielle (IA) o` u les pr´ evisions sont ´ etablies

`

a partir de techniques d’apprentissage. Dans plusieurs domaines d’int´ erˆ et, ces techniques peuvent rendre les applications et les appareils plus intelligents. Par exemple, lorsque nous faisons nos achats en ligne, l’apprentissage automatique permet de recommander d’autres produits susceptibles de nous int´ eresser en fonction de nos historiques d’achats. Ou lors- qu’on utilise une carte de cr´ edit pour effectuer une transaction, l’apprentissage automatique compare la transaction encours ` a une base de donn´ ees de transactions et aide la banque ` a d´ etecter des fraudes. Pour la reconnaissance des formes, la d´ etection d’anomalies, et pour plein d’autres applications, l’apprentissage automatique est de nos jours devenu chose incon- tournable. Il se caract´ erise par un ensemble de r` egles utilis´ ees pour r´ esoudre les probl` emes de traitement et d’analyse des donn´ ees, de calcul math´ ematique ou de d´ eduction automatis´ ee.

La construction d’un mod` ele d’apprentissage est une abstraction de la question ` a laquelle on essaie de r´ epondre ou le r´ esultat que l’on souhaite pr´ edire. Ainsi, les m´ ethodes d’appren- tissage automatique consistent ` a la recherche d’information v´ ehicul´ ee au sein d’un ensemble d’observations recueillies sur un quelconque prototype ou syst` eme donn´ e en construisant des mod` eles math´ ematiques ` a des fins pr´ evisionnelles et/ou d´ ecisionnelles.

Ce chapitre pr´ esente diff´ erents types de m´ ethodes d’apprentissage automatique. Nous

pr´ esentons dans la section 2.2 des techniques d’apprentissage non supervis´ e dont entre

autres, la m´ ethode de nu´ ees dynamiques, le partitionnement hi´ erarchique et le partitionne-

ment spectral. Ensuite, nous pr´ esentons dans la section 2.3 des techniques d’apprentissage

supervis´ e ` a savoir la moyenne la plus proche, l’analyse lin´ eaire discriminante et les s´ epara-

(20)

Section 2.2 – Apprentissage non supervis´ e

teurs ` a vaste marge. Puis dans la section 2.4 nous pr´ esentons des techniques de r´ eduction de dimension o` u nous d´ etaillons des algorithmes bas´ es sur l’analyse en composantes prin- cipales et sur les matrices al´ eatoires. Puis la section 2.5 pr´ esente des approches adapt´ ees pour l’apprentissage des donn´ ees en grande dimension. Ensuite la section 2.6 introduit le principe g´ en´ eral de l’apprentissage partag´ e et la synth` ese de approches existantes.

2.2 Apprentissage non supervis´ e

On parle d’apprentissage non supervis´ e lorsque l’on dispose uniquement d’un ensemble d’´ echantillons ` a partir duquel on cherche ` a inf´ erer des connaissances ou des structures na- turellement pr´ esentes. Le but est de trouver des relations entre les donn´ ees sans disposer d’aucune information a priori sur le jeu de donn´ ees. Il existe des techniques bas´ ees sur l’es- timation de la densit´ e o` u l’on cherche au mieux ` a d´ eceler l’existence de classes ou groupes dans les donn´ ees en utilisant la th´ eorie Bay´ esienne sur la base des probabilit´ es a posteriori.

Dans ce travail de th` ese, nous pr´ esentons de techniques de classification non supervis´ ee qui d´ eborde le cadre strictement exploratoire correspondant ` a la recherche d’une typologie ou d’une partition d’individus en classes ou cat´ egories. Ceci est effectu´ e en optimisant un crit` ere visant ` a regrouper les individus homog` enes dans la mˆ eme classe et ceux qui sont distincts dans des classes diff´ erentes. La classification non supervis´ ee se distingue des proc´ edures de discrimination, ou encore de classement (classification en anglais) pour lesquelles une r´ e- partition est a priori connue. Nous pr´ esentons trois principales m´ ethodes de classification non supervis´ ee, ` a savoir le nu´ ees dynamiques (K-means), le partitionnement hi´ erarchique et le partitionnement spectral (spectral clustering). Nous allons rappeler le principe de ces m´ ethodes.

2.2.1 Nu´ ees dynamiques

La m´ ethode K-means ou nu´ ees dynamiques [4] est une technique bien connue de clas- sification qui propose une solution au probl` eme d’optimisation d’un crit` ere des moindres carr´ es (appel´ e aussi crit` ere de variance intra-classe). Ce crit` ere favorise les partitions dont les classes pr´ esentent une faible variance, c’est-` a-dire que les objets ` a l’int´ erieur d’une mˆ eme classe sont faiblement dispers´ es. L’algorithme s’effectue de mani` ere it´ erative.

Etant donn´ ´ e un ensemble Ω de N ´ echantillons de donn´ ees d´ ecrites par d variables ` a

valeurs dans R et D une distance sur R

^d

, l’algorithme K-means cherche ` a regrouper ces

donn´ ees en K groupes homog` enes Ω

₁

, · · · , Ω

_K

, inconnus a priori. Il cherche ` a minimiser

la distance D entre les ´ echantillons ` a l’int´ erieur de chaque groupe Ω

_i

, i = 1, · · · , K . Cette

m´ ethode produit exactement K diff´ erents clusters, avec le param` etre K fix´ e a priori. L’id´ ee

principale est de d´ efinir K centres, chacun ´ emane d’un cluster. Chaque ´ echantillon est plac´ e

dans le cluster dont la distance au centre de ce cluster est la plus petite par rapport aux

autres centres. On s’int´ eresse souvent ` a un crit` ere qui correspond ` a la somme des inerties

intra-classe des groupes. Ce crit` ere correspond ` a la fonction d’optimisation de K-means qui

(21)

Section 2.2 – Apprentissage non supervis´ e

vise ` a trouver l’optimum de l’expression suivante : J

_Ω

(V ) = arg min

Ω K

X

i=1

X

xj∈Ωi

D(x

_j

, µ

_i

)

²

, (2.1)

avec V = {µ

_i

, 1 ≤ j ≤ K} l’ensemble des centres des K ensembles Ω

_i

pour {Ω}

_i=1,...,K

. Pour Ω et K donn´ es, plus la valeur de J

_Ω

(V) est faible, plus les groupes sont ”compacts” autour de leurs centres, et donc meilleure est la qualit´ e du partitionnement obtenu. Trouver le minimum global de la fonction J

_Ω

(V) est un probl` eme difficile, mais on dispose d’algorithmes de complexit´ e polynomiale par rapport au nombre de donn´ ees N qui produisent une solution en g´ en´ eral sous-optimale. Un tel algorithme est l’algorithme des centres mobiles d´ ecrit ci- dessous :

Initialisation : le nombre de classes K ´ etant impos´ e, choisir K points al´ eatoirement pour constituer initialement les repr´ esentants de chaque classe.

Pour chaque point :

1. Calculer les distances entre ce point et les repr´ esentants des classes, 2. Affecter ` a ce point la classe pour laquelle la distance est minimale,

3. Connaissant les membres de chaque classe, on recalcule les repr´ esentants de chaque classe (centres d’inertie),

4. On redistribue les objets dans la classe qui leur est la plus proche en tenant compte des nouveaux centres de classe calcul´ es ` a l’´ etape pr´ ec´ edente,

5. On retourne ` a l’´ etape 3 jusqu’` a ce qu’il y est convergence, c’est-` a-dire jusqu’` a ce qu’il n’y a plus aucun individu qui change de classe.

La valeur de J

_Ω

(V) diminue lors de chacune des deux ´ etapes du processus it´ eratif (affec- tation de chaque donn´ ee ` a un groupe, calcule des centres). Comme J

_Ω

(V ) ≥ 0, le processus it´ eratif converge. La solution obtenue est en g´ en´ eral un minimum local, d´ ependant de l’ini- tialisation, de valeur J

_Ω

(V ) pouvant ˆ etre plus ´ elev´ ee que celle correspondant au minimum global qui est g´ en´ eralement inconnu. La figure 2.1 donne un exemple illustrant les ´ etapes de l’algorithme K-means. Les donn´ ees initiales sont mat´ erialis´ ees en point et les centres en croix. A chaque it´ eration, on affecte chaque ´ echantillon ` a un centre qui lui est proche.

Ensuite, on met ` a jour la valeur du nouveau centre jusqu’` a ce que les centres ne bougent plus.

L’algorithme K-means a l’avantage d’ˆ etre une m´ ethode extrˆ emement simple ` a appliquer,

mais il est peu robuste car il est tr` es sensible aux outliers (valeurs aberrantes). Ainsi,

ajouter un ´ el´ ement atypique les donn´ ees peut compl` etement modifier le partitionnement

des donn´ ees [5]. Il existe diverses variantes de la m´ ethode concernant la sensibilit´ e des

r´ esultats en fonction des conditions d’initialisation de la m´ ethode. Diff´ erentes initialisations

des centro¨ıdes au d´ emarrage de l’algorithme peuvent parfois influencer les r´ esultats finaux

obtenus [6], [7].

(22)

Section 2.2 – Apprentissage non supervis´ e

0 5 10 15

14 16 18 20 22 24 26 28

Classe 1 Classe 2

(a)

0 5 10 15

14 16 18 20 22 24 26 28

Classe 1 Classe 2 Centroids

(b)

0 5 10 15

14 16 18 20 22 24 26 28

(c)

0 5 10 15

14 16 18 20 22 24 26 28

(d)

Figure 2.1 – Donn´ ees originales 2.1(a) ; R´ esultats de partitionnement de l’algorithme k- means obtenus avec une seule it´ eration 2.1(b) ; deux it´ erations 2.1(c) ; cinq it´ erations 2.1(d).

2.2.2 Partitionnement hi´ erarchique

On distingue deux types d’approches de classification hi´ erarchique : les m´ ethodes des-

cendantes ou divisives et les m´ ethodes ascendantes ou agglom´ eratives [8]. Ces m´ ethodes

peuvent s’appliquer ` a des tableaux de dissimilarit´ es ou des tableaux num´ eriques. Les algo-

rithmes construisent des partitions emboˆıt´ ees (hi´ erarchies) avec un nombre K de partitions

variant de N ` a 1 pour une classification hi´ erarchique ascendante, ou de 1 ` a N pour une

classification hi´ erarchique descendante. Le partitionnement hi´ erarchique vise ` a obtenir une

agr´ egation de regroupements. Par rapport au partitionnement des donn´ ees classiques, il

fournit une information riche concernant la structure de similarit´ e des donn´ ees. La classifi-

cation ascendante proc` ede par agr´ egations successives de groupes. A partir de la hi´ erarchie

de groupes r´ esultante, le partitionnement hi´ erarchique permet d’observer l’ordre des agr´ ega-

tions de groupes, d’examiner les rapports des similarit´ es entre groupes, ainsi que d’obtenir

plusieurs partitionnements ` a des niveaux de similarit´ e diff´ erents. Il existe plusieurs algo-

rithmes pour choisir comment agr´ eger les classes. La figure 2.2 montre un exemple d’un cas

particulier de la hi´ erarchie de groupes (ou dendogramme) obtenue par agr´ egations succes-

sives ` a partir d’un petit ensemble de donn´ ees bi-dimensionnelles :

(23)

Section 2.2 – Apprentissage non supervis´ e

Figure 2.2 – Exemple de classification ascendante hi´ erarchique.

La m´ ethode suppose qu’on dispose d’une mesure de dis-similarit´ e entre les individus ; dans le cas de points situ´ es dans un espace euclidien, on peut utiliser la distance comme mesure de dissimilarit´ e. Le principe est de regrouper (ou d’agr´ eger), ` a chaque it´ eration, les donn´ ees et/ou les groupes les plus proches qui n’ont pas encore ´ et´ e regroup´ e(e)s. Ini- tialement, chaque individu forme une classe. On cherche ` a r´ eduire it´ erativement le nombre de classes ` a nb

_classes

< N. ` A chaque ´ etape, on fusionne deux classes, conduisant ainsi ` a r´ eduire le nombre de classes. Les deux classes choisies pour ˆ etre fusionn´ ees sont celles qui sont les plus proches selon le respect d’une certaine m´ etrique de distance. Les classes dont la dissimilarit´ e entre elles est minimale seront fusionn´ ees et la valeur de la dis-similarit´ e est consid´ er´ ee comme indice d’agr´ egation. Ainsi, on rassemble d’abord les individus les plus proches donnant ` a la premi` ere it´ eration un indice d’agr´ egation faible, puis celui-ci augmente d’it´ eration en it´ eration.

2.2.3 Partitionnement spectral

Etant donn´ ´ e un ensemble de N ´ echantillons, il est possible d’obtenir une repr´ esentation d´ etaill´ ee de cet ensemble sous la forme d’un graphe pond´ er´ e, not´ e G(V, E, W ). V d´ esigne l’ensemble des N nœuds du graphe, correspondant aux ´ echantillons, E est l’ensemble des liaisons ou arcs entre les nœuds du graphe, et W est la matrice de poids des arcs (ou matrice d’adjacence figure 2.3), sym´ etrique et non n´ egative (l’´ el´ ement w

_ij

indique la similarit´ e entre les ´ echantillons x

_i

et x

_j

).

Figure 2.3 – Matrice d’adjacence et graphe correspondant

Le partitionnement spectral est une des techniques de partitionnement qui est bas´ ee sur

la matrice de similarit´ e entre les ´ echantillons [9]. La technique consiste ` a calculer les valeurs

(24)

Section 2.2 – Apprentissage non supervis´ e

propres et les vecteurs propres associ´ es de la matrice de similarit´ e. Une partie de ces vecteurs propres forme un sous-espace de faible dimension. Le fondement du partitionnement spectral consiste ` a projeter les ´ echantillons sur ce sous-espace. Dans ce sous-espace, on utilise une m´ ethode de partitionnement (K-means le plus souvent) pour identifier les clusters.

L’objectif de la construction d’un graphe pond´ er´ e est de mod´ eliser les relations de voi- sinage entre les ´ echantillons. Il existe plusieurs fa¸ cons de d´ efinir cette relation de voisinage entre les points dont :

— Graphe de voisinage : chaque sommet est reli´ e ` a des sommets compris dans une balle de rayon o` u est une valeur r´ eelle qui doit ˆ etre accord´ ee pour capter la structure locale des donn´ ees,

— Graphe des k plus proches voisins : chaque sommet est connect´ e ` a ses k voisins les plus proches o` u k est un nombre entier qui contrˆ ole les relations locales de donn´ ees. Il existe deux types de similarit´ e dans ce cas : le k-NN mutuel o` u la relation du voisinage est d´ efinie comme ´ etant un ”ET EXCLUSIF”, c’est ` a dire que les k individus doivent ˆ etre mutuellement voisins, et le k-NN normal o` u le voisinage est ´ etabli par un ”OU EXCLUSIF”.

— Graphe totalement connect´ e : tous les sommets (nœuds) ayant des similitudes non nulles sont connect´ es entre eux.

La construction de la matrice W est bas´ ee sur le choix de la fonction de similarit´ e.

Cette fonction d´ epend essentiellement du domaine de provenance des donn´ ees (par exemple, fouille de documents, fouille de donn´ ees web, etc.), mais ´ egalement du type de donn´ ees ` a traiter (qui peuvent ˆ etre d´ ecrites par des variables num´ eriques, cat´ egorielles, binaires, etc.).

Dans la litt´ erature, il existe plusieurs techniques permettant d’obtenir la similarit´ e entre deux ´ echantillons. La matrice d´ efinie ` a partir du noyau repr´ esente la similarit´ e entre les

´ echantillons, et est donn´ ee par :

w

ij

= exp −D

²

(x

_i

, x

_j

) 2σ

²

!

(2.2) avec D une mesure de distance (de type Euclidienne, Manhattan, Minkowski, etc.), et σ, un param` etre d’´ echelle dont la valeur est fix´ ee a priori.

Afin de d´ etecter la structure des donn´ ees, les m´ ethodes de partitionnement utilisent les vecteurs propres d’une matrice Laplacienne L. Pour calculer cette matrice L, on pose D, la matrice diagonale des degr´ es d´ efinie par

D =







d

11

0 · · · 0 0 d

₂₂

· · · 0 .. . .. . . .. .. . 0 0 · · · d

N N







o` u d

ii

= ^P

^N_j=1

w

ij

, repr´ esente le degr´ e du i

^ème

nœud du graphe G. Il est alors possible

de construire la matrice Laplacienne L en utilisant une normalisation parmi les diff´ erentes

possibilit´ es dans [9] ` a savoir :

(25)

Section 2.3 – Apprentissage supervis´ e

— L = W sans aucune normalisation,

— L = D

⁻¹

W avec normalisation par division,

— L = D

⁻¹²

WD

⁻¹²

avec normalisation par division sym´ etrique,

— L =

^W+d_d^max^I−D

max

avec normalisation additive o` u d

_max

= max(d

_ii

), d´ esignant le degr´ e maximum de D et I ´ etant la matrice identit´ e.

Pour obtenir k clusters, les premiers k vecteurs propres orthogonaux associ´ es aux k plus grandes valeurs propres de la matrice L ∈ R

^N×N

sont calcul´ es [10]. Ces vecteurs sont rang´ es dans une matrice U telle que U = [u

₁

, u

₂

, ..., u

_k

]. Ensuite, diff´ erentes techniques peuvent ˆ etre appliquer sur la matrice U, pour obtenir une partition. L’algorithme le plus utilis´ e pour le partitionnement dans le nouvel espace est de type K-means [11].

La phase de pr´ e-traitement sur la matrice L permet de tirer profit des propri´ et´ es spec- trales de cette matrice pour capter le maximum d’information intrins` eque au sein des don- n´ ees. La repr´ esentation spectrale obtenue, U, permet de se placer dans un sous-espace o` u la diff´ erence entre les groupements de donn´ ees est plus importante que dans l’espace ini- tial. En consid´ erant diff´ erents concepts de similarit´ e entre les points ` a travers la matrice Laplacienne, on constate une meilleure r´ epartition des donn´ ees [11]. La figure 2.4 donne une illustration d’un exemple de r´ esultats obtenus sur des ´ echantillons de donn´ ees synth´ etiques dans R

²

avec trois diff´ erentes classes. Sur les r´ esultats obtenus en utilisant la m´ ethode K- means directement sur les donn´ ees (2.4(a)) et en faisant la m´ ethode de partitionnement spectral, on constate la capacit´ e qu’a la m´ ethode de partitionnement spectral de d´ etecter des clusters assez complexes. En effet sur la figure 2.4(b), la m´ ethode de partitionnement en combinaison avec l’algorithme K-means permet de d´ etecter des clusters dont il serait difficile que l’algorithme K-means seul puisse les d´ etecter comme le montre les r´ esultats de la figure 2.4(d). Cependant cette m´ ethode reste assez sensible au choix du param` etre σ de la matrice d’affinit´ e. Diff´ erentes valeurs de σ peuvent conduire ` a diff´ erents r´ esultats de partitionnement.

2.3 Apprentissage supervis´ e

En apprentissage supervis´ e, le but est de d´ eterminer une nouvelle sortie y

_i

` a partir d’une nouvelle entr´ ee x

_i

, connaissant un ensemble d’observations {(x

₁

, y

1

), · · · , (x

_nl

, y

nl

)}, o` u pour chaque ´ echantillon de donn´ ees on donne l’indice de sa classe d’appartenance. Lorsque les y

i

prennent des valeurs discr` etes, on parle d’un probl` eme de classification. En classification binaire, par exemple, on cherche ` a attribuer ` a x une ´ etiquette ”0” ou ”1”, tandis que des y

i

`

a valeurs r´ eelles nous placent dans le cadre de la r´ egression. Dans ce travail de th` ese, nous pr´ esentons de techniques de classification supervis´ ee o` u l’objectif est d’estimer la classe d’ap- partenance non connue (ou ´ etiquette) y _b

_i

= f (x

_i

), des ´ echantillons non ´ etiquet´ es {x

_i

}

^nl+nu_i=nl+1

, avec nl et nu qui repr´ esentent respectivement le nombre d’´ echantillons ´ etiquet´ es et non

´ etiquet´ es.

(26)

Section 2.3 – Apprentissage supervis´ e

0 5 10 15 20 25 30 35

Classe1 Classe2 Classe3

(a)

0 5 10 15 20 25 30 35

(b)

0 5 10 15 20 25 30 35

(c)

0 5 10 15 20 25 30 35

(d)

Figure 2.4 – 2.4(a) Donn´ ees originales ; 2.4(b) avec la matrice de Laplacien normalis´ ee

sym´ etrique avec diff´ erentes similarit´ es : (1) voisinage = 2, (2) normal KNN=3 et (3) mutuel

KNN=5 ; 2.4(c) r´ esultats partitionnement obtenus avec Laplacien normalis´ e et similarit´ e

totalement connect´ ee ; 2.4(d) par k-means.

(27)

Section 2.3 – Apprentissage supervis´ e 2.3.1 Plus proches voisins

La m´ ethode des k plus proches voisins (k-PP)[12]-k-nearest neighbors (k-NN)- raisonne avec le principe sous-jacent : ”dis moi qui sont tes amis, je te dirai qui tu es”. Plus pr´ ecis´ e- ment, k-NN a pour but de classifier des points cibles appartenant ` a des classes inconnues en fonction de leurs distances par rapport ` a des points constituant un ´ echantillon d’ap- prentissage dont la classe est connue a priori. Il s’agit d’une g´ en´ eralisation de la m´ ethode du 1-plus proche voisin (NN). Elle consiste ` a trouver un voisinage de taille ´ egale ` a k, qui repr´ esente l’ensemble des ´ el´ ements les plus proches de l’´ echantillon ` a classer. Formellement, soit Ω = {(x

_i

, y

i

)}

^N_i=1

l’ensemble d’apprentissage o` u y

i

∈ {1, · · · , K } d´ enote la classe des diff´ erents individus. G´ en´ eralement, pour estimer la sortie y associ´ ee ` a une nouvelle entr´ ee x, la m´ ethode consiste ` a prendre en compte les ´ echantillons d’apprentissage dont l’entr´ ee est la plus proche de la nouvelle entr´ ee, selon un crit` ere de similarit´ e d´ efini. L’affectation est donn´ ee par un vote majoritaire des ´ echantillons les plus proches de x mesur´ es par une fonction de distance. Si k = 1, le cas est simplement assign´ e ` a la classe de son voisin le plus proche. Lorsque k ≥ 2, la classe qui repr´ esente le maximum d’appartenance parmi les k plus proches voisins de x est s´ electionn´ ee pour la pr´ ediction de y. La figure 2.5 donne un exemple de donn´ ees issues de deux diff´ erentes classes mat´ erialis´ ees par les triangles et les ´ etoiles. La d´ ecision de classement de l’´ echantillon ”A” est bas´ ee sur le nombre de ses plus proches voisins. Le point ”A” serait affect´ e ` a la classe dont la distance entre les points est la plus petite. La m´ ethode de k plus proches voisins n´ ecessite une capacit´ e importante d’espace m´ emoire et un temps de calcul important pour r´ ealiser les calculs des distances (afin de comparer et ne retenir que les plus petites), et ceci peut rendre la m´ ethode assez complexe pour des grandes bases de donn´ ees.

k=10 k=5

A

Classe 1 Classe 2

Figure 2.5 – Exemple de k plus proches voisins. Dans le cercle en pointill´ e, le point A dispose de 5 plus proches voisins, et dans le cercle sup´ erieur, le point A dispose de 10 voisins.

2.3.2 Moyenne la plus proche

Cette m´ ethode consiste ` a classer un nouvel ´ echantillon de donn´ ees dans une classe dont la distance est minimale entre cet ´ echantillon et une des moyennes repr´ esentatives des clusters de la base d’apprentissage [13]. Consid´ erons un jeu de donn´ ees {(x

₁

, y

₁

), · · · , (x

_N

, y

_N

)}

appartenant ` a K diff´ erentes classes avec y

_i

∈ {1, · · · , K}, o` u le nombre de classe K est

(28)

Section 2.3 – Apprentissage supervis´ e

connu a priori. Les K ensembles sont r´ epartis en {ω

₁

, ω

₂

, · · · , ω

_K

} avec (K ≤ N ) et ω

_i

un ensemble qui contient les ´ echantillons de la classe i de taille N

_k

´ equivalente au nombre de points appartenant ` a un mˆ eme groupe et N = ^P

^K_k=1

N

_k

. L’objectif de la m´ ethode c’est d’utiliser les moyennes pour classer un nouveau ´ echantillon. Les K moyennes des diff´ erents groupes d´ efinies telles que :

m

k

= 1 N

_k

X

xi∈ω_k i=1,···,Nk

x

_i

.

permettent de classer un ´ echantillon x donn´ e, dont on souhaite pr´ edire sa classe d’apparte- nance. Le principe consiste simplement ` a calculer la distance euclidienne entre ce point et les K moyennes des groupes. Il est alors affect´ e au groupe de moyenne la plus proche.

Classe 1 Classe 2 𝑚1

𝑚₂ 𝑑₁

𝑑2

?

Figure 2.6 – Exemple d’illustration du principe de la moyenne la plus proche. Les distances d

₁

et d

₂

caract´ erisent la classe d’appartenance du point inconnue mat´ erialis´ e en vert.

2.3.3 Analyse lin´ eaire discriminante

L’analyse discriminante lin´ eaire(LDA) [14] est une g´ en´ eralisation de la m´ ethode de Fi- sher [15], utilis´ ee en apprentissage automatique pour trouver une combinaison lin´ eaire de variables qui caract´ erisent ou s´ eparent deux ou plusieurs classes d’objets. La combinaison r´ esultante peut ˆ etre utilis´ ee comme classificateur lin´ eaire ou, plus commun´ ement, pour la r´ eduction de la dimension avant une classification ult´ erieure. Elle permet d’expliquer et de pr´ edire l’appartenance d’un individu ` a une classe donn´ ee en consid´ erant la connaissance a priori des ´ etiquettes des ´ echantillons d’apprentissage [16]. Le principe de la m´ ethode de LDA est de transformer les donn´ ees initiales en les projetant dans un sous-espace de dimension r´ eduite de telle sorte que les ´ echantillons d’une mˆ eme classe soient peu dispers´ es et ceux d’une classe ` a l’autre soient ´ eloign´ es. La figure 2.7 montre un exemple qui illustre le principe de la m´ ethode.

Afin de r´ ealiser cette tˆ ache, la m´ ethode se base sur la mise en ´ evidence des matrices de variance-covariance inter-classe et intra-classe. En consid´ erant une matrice de donn´ ees X ∈ R

^N×d

, qui contient un ensemble de N ´ echantillons observ´ es sur d variables r´ epartis en K groupes o` u chaque groupe poss` ede N

_k

´ echantillons, la LDA se base sur la recherche d’une matrice de projection q qui maximise le crit` ere de Fisher d´ efini par :

J(q) = argmax

qopt

det(q

^T

S

b

q)

det(q

^T

S

w

q) (2.3)

(29)

Section 2.3 – Apprentissage supervis´ e

Figure 2.7 – Principe de l’analyse lin´ eaire discriminante

o` u S

_b

, S

_w

d´ esignent les matrices de variance inter-classe et intra-classe, respectivement d´ e- finies par :

S

_b

=

K

X

k=1

N

_k

(m

_k

− m)

^T

(m

_k

− m), S

w

=

K

X

k=1

X

xj∈ω_k

(x

_j

− m

k

)

^T

(x

_j

− m

k

), (2.4) avec m =

_N¹

^P

^N_i=1

(x

_i

) le vecteur contenant la moyenne totale des N ´ echantillons, m

_k

le vecteur contenant la moyenne de la k

^ème

classe.

La solution optimale q

_opt

de l’´ equation (2.3) est donn´ ee par les vecteurs propres de la matrice S

⁻¹_w

S

b

[15, 17, 18]. Le rang de la matrice S

b

est born´ e par K − 1 [19], il en d´ ecoule l’existence d’au plus K −1 vecteurs propres discriminants correspondant aux valeurs propres non nulles. L’obtention de la matrice de projection q, d’une part, n´ ecessite que la matrice de variance S

w

soit non singuli` ere pour ˆ etre inversible. D’autre part, la d´ ecomposition spectrale de la matrice S

_w⁻¹

S

_b

peut s’av´ erer complexe lorsque les donn´ ees poss` edent un grand nombre de variables initiales (large valeur de d). Ceci rend la r´ ealisation de la m´ ethode difficile, et il est fondamental de trouver des approches n´ ecessaires afin de contourner ces probl` emes.

2.3.4 S´ eparateurs ` a vaste marge

Le s´ eparateur ` a vaste marge (SVM)-machine ` a vecteurs de support- est une technique d’apprentissage supervis´ ee destin´ ee ` a r´ esoudre des probl` emes de discrimination ou de r´ egres- sion [20, 21, 22]. La m´ ethode SVM est bien connue pour la classification binaire o` u les classes sont lin´ eairement s´ eparables. Dans le cas o` u la variable de sortie compte plus de deux mo- dalit´ es, il existe plusieurs fa¸ con d’´ etendre directement le cas binaire au cas multi-classe [23].

La m´ ethode SVM repose sur l’application d’algorithmes de recherche de r` egles de d´ ecision

lin´ eaires et ram` ene le probl` eme de la discrimination ` a celui de la recherche d’un hyperplan

(30)

Section 2.3 – Apprentissage supervis´ e

s´ eparateur qui maximise la marge d´ efinie par la distance entre la fronti` ere s´ eparatrice et les

´ echantillons les plus proches.

Supposons que nous disposons des ´ echantillons de donn´ ees i.i.d. dans un espace Hilber- tien {(x

_i

, y

i

)}

^N_i=1

, x

_i

∈ H, y

_i

∈ {+1, −1}. Chaque hyperplan de H peut ˆ etre ´ ecrit par

{x ∈ H| hω, xi + b = 0}, w ∈ H, b ∈ R .

La surface s´ eparatrice associ´ ee ` a la r` egle de d´ ecision correspond ` a l’hyperplan dont l’expres- sion

hω, xi + b = 0 (2.5)

est v´ erifi´ ee o` u ω est un vecteur orthogonal ` a l’hyperplan et b un scalaire d’ajustement du plan discriminant. Le probl` eme de la maximisation de la marge peut ˆ etre r´ esolu en utilisant un probl` eme d’optimisation sous contraintes lin´ eaires tel que :

minimiser 1 2 kωk

²

sous les contraintes : y

_i

(hω, xi +b) > 1, ∀i = 1, · · · , N . Ceci peut se r´ esoudre par la m´ ethode classique des multiplicateurs de Lagrange, o` u le lagrangien est donn´ e par

L(w, b, α) = 1

2 ||w||

²

−

N

X

i=1

α

_i

(y

_i

(hω, x

_i

i + b) − 1) ,

avec α

_i

> 0 qui sont les coefficients de Lagrange. La solution ω d´ etermine l’orientation de l’hyperplan et est g´ en´ eralement donn´ ee sous la forme

ω =

N

X

i=1

α

_i

y

_i

x

_i

,

avec les coefficients α

_i

qui d´ esignent les solutions du probl` eme quadratique dual donn´ e par : maximiser

α∈R^N N

X

i=1

α

i

− 1 2

N

X

i=1

α

i

α

j

y

i

y

j

hx

_i

, x

_j

i

sous les contraintes : ∀i, α

_i

> 0 et ^P

^N_i=1

α

_i

y

_i

= 0. Les points x

_i

, pour lesquels les coeffi- cients α

_i

sont positifs, sont appel´ es vecteurs de supports. La solution g´ en´ erale de la surface s´ eparatrice de l’´ equation (2.5) a la forme :

f (x) = sign(hω, xi + b).

qui peut s’exprimer aussi sous forme du produit scalaire : f (x) = sign

N

X

i=1

α

i

y

i

hx, x

_i

i + b

! .

La figure 2.8 donne un exemple illustratif du principe de la m´ ethode, o` u l’objectif est de pouvoir maximiser la marge d´ elimit´ ee par l’hyperplan s´ eparateur.