• Aucun résultat trouvé

Sujet UE RCP208 Reconnaissance des formes et m´ethodes neuronales

N/A
N/A
Protected

Academic year: 2022

Partager "Sujet UE RCP208 Reconnaissance des formes et m´ethodes neuronales"

Copied!
6
0
0

Texte intégral

(1)

Sujet UE RCP208

Reconnaissance des formes et m´ethodes neuronales

Ann´ee universitaire 2018–2019

Examen 1`ere session : 31 janvier 2019 Responsable : Michel CRUCIANU Dur´ee : 2h00

Seul document autoris´e : 2 pages A4 recto-verso, manuscrites.

Les t´el´ephones mobiles et autres ´equipements communicants (PC, tablette, etc.) doivent ˆetre ´eteints et rang´es dans les sacs pendant toute la dur´ee de l’´epreuve.

Calculatrices autoris´ees.

Sujet de 6 pages, celle-ci comprise.

V´erifiez que vous disposez bien de la totalit´e des pages du sujet en d´ebut d’´epreuve et signalez tout probl`eme de reprographie le cas ´ech´eant.

(2)

1. Expliquez bri`evement pourquoi, lorsque le nombre de donn´ees (observations) N est tr`es grand, le calcul de la densit´e par la m´ethode des noyaux pr´esente un coˆut bien plus ´elev´e que le calcul de la densit´e par un mod`ele de m´elange gaussien avec un nombre faible de composantes.(2 points)

Correction:

Pour calculer la densit´e dans un point x, par la m´ethode des noyaux il est n´ecessaire de calculerN noyaux (entrexet chacune desN donn´ees) alors que par un mod`ele de m´elange seulementklois normales,k ´etant le nombre de lois du m´elange, suppos´e faible (k N).

2. Consid´erons les donn´ees bidimensionnelles (∈R2) de la figure suivante :

A B x

y

(a) Si une ACP centr´ee ´etait r´ealis´ee sur ces donn´ees, les valeurs propres obtenues seraient proches l’une de l’autre ou tr`es diff´erentes ? Expliquez bri`evement. (2 points)

(b) Supposons que les donn´ees de la couronne externe forment une classe et les donn´ees centrales une autre classe. L’analyse factorielle discriminante est une m´ethode d’ana- lyse ad´equate dans ce cas ou non ? Justifiez bri`evement. (2 points)

(c) Indiquez un r´esultat probable de l’estimation d’un m´elange de 5 lois normales bidimen- sionnelles sans contraintes sur les matrices de variances-covariance (fulldans Scikit- learn) avec ces donn´ees, en dessinant des ellipses illustrant ces lois normales (une seule ellipse par loi). Et si on impose la contrainte d’avoir des matrices de variances- covariances diagonales (diagdans Scikit-learn) ? (2 points)

(d) Quelle m´ethode de classification automatique serait appropri´ee pour ces donn´ees ? Jus- tifiez bri`evement. (2 points)

(e) Deux observations incompl`etes, A et B, pour lesquelles seule l’abscisse (axe x) est connue, sont repr´esent´ee dans la figure par les traits horizontaux (l’ordonn´ee, ou l’axe y, ´etant `a chaque fois inconnue). Quel serait le r´esultat d’une imputation par la moyenne dans ce cas ? Et celui d’une imputation par les 3 plus proches voisins ? Vous ne pouvez

(3)

pas obtenir un r´esultat exact `a partir de la seule illustration, expliquez seulement l’id´ee de la r´eponse. (2 points)

Correction:

(a) Le nuage d’observations ´etant relativement sph´erique, les deux valeurs propres d’une ACP centr´ee seront proches l’une de l’autre. En effet, la dispersion des projections des observations sur une droite passant par le centre de gravit´e du nuage sera approximati- vement la mˆeme, quelle que soit l’orientation de cette droite.

(b) Le centre de gravit´e des donn´ees de la couronne externe est pratiquement le mˆeme que le centre de gravit´e des donn´ees centrales et les nuages sont relativement sph´eriques autour de ces centres de gravit´e, les projections des deux classes sur une droite passant par le centre de gravit´e du nuage seront superpos´ees presque de la mˆeme fac¸on, quelle que soit l’orientation de la droite. L’AFD a alors comme effet une perte d’information discriminante et est donc inadapt´ee dans ce cas.

(c) Un r´esultat possible est pr´esent´e dans la figure suivante. La sp´ecialisation des quatre gaussiennes se partageant les donn´ees de la couronne peut varier suivant l’ini- tialisation de l’algorithme. Avec la contraintediag (variances quelconques mais co- variances nulles), le r´esultat sera proche de la figure ci-dessous.

x y

(d) En raison de la pr´esence de la couronne, le partitionnement par densit´e serait mieux appropri´e que le partitionnement en groupes compacts et bien s´epar´es entre eux. Donc, parmi les m´ethodes vues en cours, la CAH avec le crit`ere du lien minimum et la clas- sification spectrale sont mieux adapt´ees que la CAH avec un autre crit`ere d’agr´egation ou queK-means.

(e) La figure suivante illustre les r´esultats de ces deux m´ethodes d’imputation. L’imputa- tion par la moyenne donnera exactement le mˆeme r´esultat pour l’ordonn´ee de A et pour l’ordonn´ee de B. L’imputation par les 3 plus proches voisins (3ppv) sera pratiquement la mˆeme pour B. Pour A, en revanche, deux points dans la partie haute de la couronne

(4)

et 2 points dans la partie basse de la couronne seront pratiquement `a la mˆeme distance surx(seule coordonn´ee connue pour A) de A, donc suivant le r´esultat exact du calcul de proximit´e les 3ppv seront soit 2 points du haut et un du bas, soit deux points du bas et un du haut ; l’ordonn´ee obtenue pour A sera donc une des deux illustr´ees.

A B x

y

imputations possibles par les 3ppv

imputations par la moyenne

3. On veut r´esoudre un probl`eme de classification `a l’aide d’un perceptron (sans couche cach´ee).

(a) Si le probl`eme est lin´eairement s´eparable, le perceptron converge vers une solution (s’arrˆete lorsque tous lesEk sont nuls). Expliquez bri`evement pourquoi cette solution peut ne pas ˆetre robuste. (1 point)

(b) Si le probl`eme n’est pas lin´eairement s´eparable, pourquoi le perceptron ne trouve pas une solution finale sur laquelle s’arrˆeter (il oscille entre plusieurs solutions possibles) ? (1 point)

Correction:

(a) Seuls les exemples en erreur contribuent `a la correction des poids et l’algorithme s’arrˆetera `a la premi`ere solution trouv´ee (lorsque tous les Ek sont nuls). Donc rien ne garantit que cette solution sera robuste, c’est `a dire qu’elle puisse donner de bonnes r´eponses pour des exemples non appris (c’est la notion de g´en´eralisation). (Avec la r`egle de Widrow-Hoff, tous les exemples participent `a la mise `a jour des poids et on obtient une solution qui est souvent plus robuste).

(b) L’algorithme du perceptron ne peut s’arrˆeter que lorsque tous les E k sont nuls, c’est

`a dire lorsqu’il classifie correctement l’´echantillon d’apprentissage. Mais le perceptron

(5)

ne peut r´esoudre que des probl`emes lin´eairement s´eparables. Donc si l’´echantillon n’est pas lin´eairement s´eparable, le perceptron ne peut pas trouver une solution finale sur laquelle s’arrˆeter, il oscille alors entre plusieurs solutions possibles. (Avec la r`egle de Widrow-Hoff, on aboutit toujours `a une solution acceptable)

4. On veut r´esoudre un probl`eme de pr´ediction `a l’aide d’un perceptron multicouches. Pour ce probl`eme, on essaie de pr´edire une valeur en utilisant les 12 valeurs pr´ec´edentes (comme pour le probl`emesunspot, vu en TP). Le r´eseau de neurones utilis´e poss`ede une couche cach´ee de 10 neurones. La fonction d’activation des neurones cach´es est une tangente hy- perbolique.

(a) Quel est le nombre de poids (biais ou seuil + poids) de ce r´eseau ?(1 point)

(b) Quelle fonction d’activation utilisez-vous pour les neurones de la couche de sortie ?(1 point)

(c) Pourquoi il est n´ecessaire de normaliser les entr´ees (que se passe-t-il si on a une entr´ee tr`es grande) ?(1 point)

Correction:

(a) Quel est le nombre de poids (biais ou seuil + poids) de ce r´eseau ?

— Nombre de poids de la couche d’entr´ee vers la couche cach´ee : 12 x 10

— Nombre de poids de la couche cach´ee vers la couche de sortie : 10 x 1

— Nombre de biais de la couche cach´ee : 10

— Nombre de biais de la couche de sortie : 1 Total : (12 x 10) + (10 x 1) + 10 + 1 = 141

(b) Quelle fonction d’activation utilisez-vous pour les neurones de la couche de sortie ? Pour un probl`eme de r´egression il vaut mieux utiliser une fonction d’activation lin´eaire dans la couche de sortie.

(c) Pourquoi il est n´ecessaire de normaliser les entr´ees (que se passe-t-il si on a une entr´ee tr`es grande) ?

La fonction d’activation des neurones cach´es est une tangente hyperbolique. Il est imp´eratif que les entr´ees soient de moyenne pas trop loin de z´ero et de variance pas trop loin de 1. Si on a une entr´ee tr`es grande, elle fait saturer plusieurs neurones et bloque l’apprentissage pour cet exemple.

(6)

5. Expliquez, avec vos propres mots, pourquoi l’apprentissage des cartes topologiques fait d´ecroˆıter le param`etre T (la temp´erature) dans un intervalle. Expliquez comment se forme l’ordre topologique durant l’apprentissage.(3 points)

Correction:

Lorsqu’on utilisait une valeur de T fix´ee, on s’est aperc¸u qu’une valeur ´elev´ee de T favorisait la formation d’un ordre sur la carte mais que cette derni`ere ne parvenait pas `a se d´eployer sur l’ensemble des donn´ees ; au contraire, une petite valeur de T permettait le d´eploiement de la carte sur les donn´ees, mais la carte obtenue n’´etait pas n´ecessairement bien ordonn´ee.

Pour r´epondre `a cet antagonisme, la proc´edure utilis´ee consiste `a initialiser la temp´erature T `a une valeur ´elev´ee, favorisant ainsi l’apparition de l’ordre, puis `a la faire d´ecroˆıtre pro- gressivement au cours des it´erations de minimisation, permettant `a la carte de recouvrir peu

`a peu la distribution r´eelle des observations.

Références

Documents relatifs

[r]

Que peut-on en d´ eduire pour cette inter- section.. D´ eterminer le module et un argument de

Le milieu des deux diagonales est M donc ABDC est un parall´ elogramme.. ABC est rectangle en A donc ABDC est

Compl´ eter l’algorithme ci-dessous pour qu’il affiche les quatre solutions trouv´ ees dans la question pr´ ec´ edente.. Alice peut-elle connaˆıtre la premi` ere lettre du

La m´ emoire utilis´ ee d´ epend donc uniquement du nombre de points dans l’image en entr´ ee (et la fa¸ con dont ces points sont repr´ esent´ es), et non de la taille des

Les vecteurs −−→ MN et −−→ MP ne sont pas colinéaires, les droites (MN) et (MP) ne sont pas parallèles donc les points M, N et P ne sont pas alignés.. L’algorithme 1

Donc Int(A)

[r]