3 h Exercise 1 L’éclat (de rire de) moi hyène 7 points

(1)

ASI -

APPC - Examen final -

3 h Exercise 1 L’éclat (de rire de) moi hyène 7 points

L’algorithme desK-moyennes est une procédure qui vise à partitionner un ensemble de données en K clusters distincts (d’intersection nulle). Considéronsn>1 observations (X1, . . . , Xn)à valeurs dans R^p. L’algorithme des K-moyennes cherche à minimiser sur toutes les partitions C = (C1, . . . , CK) de {1, . . . , n} le critère suivant :

J(C) =

K

X

k=1

1 2|C_k|

X

a,b∈Ck

kXa−Xbk²,

où pour tout 16i6n,16k6K,i∈C_k si et seulement siX_i est dans le cluster k.

1. Symétrisation (a) Montrez que

J(C) =

K

X

k=1

1

|Ck| X

a,b∈Ck

hXa, Xa−Xbi=

K

X

k=1

X

a∈Ck

kXa−X¯C_kk²,

où

X¯_C_k= 1

|Ck| X

b∈Ck

X_b.

2. Supposons que les observations soient aléatoires et indépendantes et que, pour tout 1 6 a6n, IE[Xa] =µa ∈IR^pde sorte queXa =µa+εa ,avec(ε1, . . . , εn)des variables aléatoires centrées et indépendantes. Pour tout16a6n, notons va=trace(cov(Xa)).

(a) Vérifiez que l’espérance du critère est

IE[J(C)] = 1 2

K

X

k=1

1

|Ck| X

a,b∈Ck

kµ_a−µ_bk²+v_a+v_b 1a6=b .

(b) Que devient cette valeur de IE[J(C)]quand, pout tout 16k6K, il existmk ∈IR^p tel que, pour touta∈Ck, µa=mk?

3. Supposons maintenant qu’il existe une partition C^∗ = (C₁^∗, . . . , C_K^∗)telle qu’il existe m^∗₁, . . . , m^∗_K inIR^petγ₁^∗, . . . , γ_K^∗ dansIR^∗₊vérifiantµa=m^∗_k etva =γ_k^∗pour touta∈C_k^∗etk= 1, . . . , K. Nous allons maintenant étudier dans quelles conditions la valeur attendue du critère desK-moyenne est minimum pourC^∗.

(a) Quelle est dans ce cas la valeur deIE[J(C^∗)]?

(b) Dans le cas particulier où γ₁^∗ =. . . =γ_K^∗ = γ, quelle est la partition C = (C1, . . . , CK) qui minimiseIE[J(C)]? Sous quelle(s) hypothèse(s) cette solution est-elle unique ?

(c) Supposons maintenant queC^∗contienneK= 3groupes de tailles(avecspair), m1= (1,0,0)^T, m2= (0,1,0)^T, m3= (0,1−τ,p

1−(1−τ)²)^T, avecτ >0, et

γ1=γ+, γ2=γ3=γ₋. Quelle est alors la valeur dekm2−m3k²?

(d) Calculer IE[J(C^∗)].

(e) DéfinirC⁰ obtenu en divisantC₁^∗en deux groupesC₁⁰, C₂⁰ de même taille ^s₂ et en fusionnantC₂^∗ etC₃^∗ dans un seul et même groupeC₃⁰ de taille 2s. Vérifier que, dans ce cas,

IE[J(C⁰)] =s(γ++ 2γ−+τ)−(2γ++γ−). (f) Sous quelle(s) hypothèse(s)IE[J(C^∗)]<IE[J(C⁰)]?

1

(2)

Exercise 2 L’épreuve du réel 8 points

Le but de cet exercice est d’écrire la fonction en python, Julia, R ou matlab permettant de prédire une sortie associée à un vecteur X de 64 composants. Pour ce faire, nous allons utiliser les données présentes dans le fichierdigits disponible dans l’API sklearn qui contient :

— observations (entrées)X

— étiquettesy

Pour accéder à ces données, vous pourrez utiliser les instructions suivantes :

f r o m s k l e a r n . d a t a s e t s i m p o r t l o a d _ d i g i t s X , y = l o a d _ d i g i t s ( n _ c l a s s =10 , r e t u r n _ X _ y = T r u e )

% w h o s

V a r i a b l e T y p e D a t a / I n f o - - - -

X n d a r r a y 1 7 9 7 x64 : 1 1 5 0 0 8 elems , t y p e ‘ float64 ‘ , 9 2 0 0 6 4 b y t e s ( 8 9 8 . 5 kb )

l o a d _ d i g i t s f u n c t i o n < f u n c t i o n l o a d _ d i g i t s at 0 x 1 2 0 f 9 8 0 4 8 >

y n d a r r a y 1 7 9 7 : 1 7 9 7 elems , t y p e ‘ int64 ‘ , 1 4 3 7 6 b y t e s

1. Traitement des données en mode non supervisé (en ignorant les étiquettesy) a) Visualisez l’ensemble des données.

b) Proposez un découpage non supervisée des données en groupes homogènes.

2. Traitement des données en mode supervisé (en utilisant les étiquettesy). Donner un programme (en python, R ou matlab) permettant de prédire si une entrée futurexf, un vecteur de 64 composants représente un chiffre pair ou impair. On insistera sur la méthodologie mise en œuvre et sur la mesure des performances.

Exercise 3 Questions courtes 5 points

1. Que’est-ce que la malédiction de la dimensionnalité ?

2. Quel est le rôle de la programmation quadratique dans le Lasso ? 3. Quel est le rôle du stacking dans les méthodes de type autoML ?

4. Quel est le rôle du graphe de proximité en l’apprentissage non supervisé ? 5. Expliquez le principe d’une attaque en machine learning.

2