• Aucun résultat trouvé

Nous proposons maintenant les pistes de poursuite de nos travaux.

Tout d’abord, la prédiction de l’impact du bruit de mesure sur les mé- triques de test ne peut être conduite qu’avec l’hypothèse de bruit additif. L’intégration de ce résultat dans la méthode proposé pourrait être améliorée en relâchant cette hypothèse. L’hypothèse de bruit additif doit être faite en raison de l’utilisation d’une simple “déconvolution”. L’utilisation de technique de régularisation de ce problème de déconvolution est une piste à étudier pour élargir cette hypothèse.

Cette analyse peut être utilisée in fine dans l’algorithme de sélection de caractéristiques pour sélectionner les mesures les moins chères, qui seront le moins sensible au bruit de mesure. Cette donnée peut être prise en compte dans l’état actuel de CDC-FOCUS par l’attribution d’un coût plus élevé des mesures qui nécessitent une précision élevée de mesure.

Concernant la construction des modèles de classification, nous avons fait le choix de ne pas explorer les modèles de réseaux de neurones. Ce choix est fondé sur la nature “boite noire” des réseaux de neurones et notre volonté de conserver la connaissance “physique” des circuits. Nous pouvons exploiter les notions de distance et de conflits utilisés par CDC-FOCUS pour construire un modèle de classification. La théorie des graphes permet de manipuler les bases de données que nous utilisons et de définir des relations particulières entre les échantillons pour les lier entre eux. De telles relations pourraient être l’appartenance à la même classe. Il serait alors possible de représenter la frontière entre les circuits défectueux et les circuits fonctionnels à l’aide de plusieurs graphes construits à partir de la base de données d’échantillons et des caractéristiques conservées par CDC-FOCUS.

Nombre d’échantillons en

simulation Monte-Carlo

Tout d’abord, N échantillons sont générés. Par la suite, Gi, i∈ {[1, · · · , N}

est définie de sorte à ce que Gi = 1 si les performances du ième circuit

correspondent aux spécifications, et Gi = 0 dans le cas contraire. Notant Y le

rendement, il vient : ng = N X i=1 Gi (A.1)

ng suit une distribution binomiale de paramètres N et Y . Dans ce cas, l’es-

pérance et la variance de l’observateur de Monte-Carlo ˆY sont exprimées par : EhˆYi = N Y N = Y (A.2) V arhˆYi = N(1 − Y ) Y N2 = (1 − Y ) Y N (A.3)

Ensuite, par le théorème de de Moivre-Laplace, la variable aléatoire ˆY converge vers la loi normale centrée réduite :

Z = png− NY N Y (1 − Y ) = qˆY − Y Y(1−Y ) N (A.4) Il est admis de considérer heuristiquement que Z suit la loi normale centrée réduite lorsque la condition NY (1 − Y )  1 est vérifiée.

Ensuite, en notant  l’erreur admissible, la probabilité que la différence entre le rendement observé et le rendement réel soit supérieure à  est exprimée par :

148 ρ = Ph| ˆY − Y | ≤ i= P   ˆY − Y q (1−Y )Y N ≤ q  (1−Y )Y N   = P  Z q(1−Y )Y N   (A.5)

Par développement des intervalles de confiance de Z qui suit la loi normale centrée, il vient : ρ= 2φ N p (1 − Y ) Y ! − 1 (A.6)

Il s’en suit [Brockman and Director, 1989] : N = (1 − Y ) Y 2  φ−1 1 + ρ 2 2 (A.7) avec :

N le nombre d’échantillons minimal nécessaire pour assurer la pré- cision requise sur le calcul du rendement

Y la vraie valeur du rendement ou, à défaut, une évaluation de la valeur minimale du vrai rendement

 l’erreur requise sur le rendement

ρ la confiance dans l’erreur sur le rendement

Analyse en Composante

Principale

Ce chapitre propose la démonstration du résultat utilisé dans la méthode d’Analyse en Composante Principale. La matrice de projection Q est construite à partir de la décomposition spectrale de la matrice de covariance des données d’origine.

Les notations utilisées sont celles de la section II.C.1.a : avec : C la matrice de dimension [P × N] contenant les observations des

circuits

C l’espace d’observation dans lequel est décrit C

L l’espace de projection, de dimension inférieure à celle de C L la matrice projetée de C dans L

N le nombre de circuits

P la dimension des observations

L’objectif est alors d’expliciter la matrice de projection Q telle que :

L = QTC (B.1)

Pour ce faire, l’expression de la variance du nuage centré sur une direction u est : σu = 1 N N X i=1  uT (c i− ¯c) 2 = uTC Cu (B.2) CC= 1 N N X i=1 (ci− ¯c) (ci− ¯c)T = 1 NCC T − ¯c¯cT 149

avec :

u le vecteur unitaire définissant la direction sur laquelle est projetée le nuage

σu la variance du nuage projeté sur la direction u

¯c le vecteur de taille P contenant les valeurs moyennes des P observations sur l’ensemble des N circuits

CC la matrice de covariance de C

Dès lors, la variance maximale s’obtient à partir de l’équation (B.2) par un multiplicateur de Lagrange sous la contrainte de u unitaire :

u? = arg max u  uTC Cu + λ  1 − uTu (B.3) ⇔ CCu? = λu? (B.4)

équation (B.4) introduit les vecteurs propres et valeurs propres de CC. En

utilisant l’équation (B.4) dans (B.2), il vient :

σu= λ (B.5)

Les couples (λ, u?) solutions de l’équation (B.4) sont donc les valeurs propres

et vecteurs propres de CC. De plus, (B.5) montre que la variance maximale est

obtenue pour la valeur propre la plus grande, et la direction est donnée par le vecteur propre associé. Ainsi, rechercher la direction de variance la plus grande revient à réaliser la décomposition spectrale de la matrice de covariance de C. De la même façon, la kieme direction de variance maximale est le kieme vecteur

propre correspondant à la kieme plus grande valeur propre. Ainsi, il est possible

d’observer le nuage de points dans un espace défini par les k premiers vecteurs propres correspondant aux k valeurs propres les plus grandes. Il est alors possible d’expliciter la projection (II.8) page 44 :

QT = [u

1· · · uk] (B.6)

Le nombre k de vecteurs à conserver est alors à définir. Des critères sont proposées en section II.C.1.a.

Régression Inverse par Tranche

Dans cette annexe, un rappel sur la Régression Inverse par Tranche est proposé. L’objectif est de justifier l’expression de la base de l’espace EDR 1,· · · , βK] dans l’expression :

y= f (β1ci, β2ci,· · · , βKci, ) (C.1)

La suite du développement consiste à montrer que les K plus grandes valeurs propres non nulles de la matrice de covariance (II.15) page 47 sont associées aux Kvecteurs propres qui sont les vecteurs de l’espace EDR βn, n∈ {1, · · · , K} [Li,

2012]. Pour ce faire, il est nécessaire d’introduire l’hypothèse suivante. Hypothèse 2. Soit b ∈ RP, alors l’espérance E [bc

i1ci,· · · , βKci] est li-

néaire en β1ci,. . . ,βKci : ∃αk∈ R, k ∈ {1, · · · , K} tels que

E[bci1ci,· · · , βKci] = K

X

k=1

αkβkci (C.2)

L’hypothèse 2 est une contrainte sur la distribution des ci. Elle est complexe

à vérifier et donc souvent remplacée par la contrainte plus forte de distribution elliptique symétrique des ci (comme par exemple la loi normale). En pratique, il

est souvent simplement requis que la distribution des cine soit pas ouvertement

non elliptique symétrique.

Lorsque l’hypothèse 2 est vérifiée, il vient : ∀b orthogonal au sous-espace formé par βkΣcici, k∈ {1, .., K},

bE [ci|y] = E [E [bci1ci,· · · , βKci, y] |y]

= E [E [bci1ci,· · · , bci] |y] (C.3)

Dès lors, bE [ci|y] = 0 ⇔ E[bci1ci,· · · , βKci] = 0 ⇔ Eh(E [bci1ci,· · · , βKci])2 i = 0 (C.4) ⇔ E E[bci1ci,· · · , βKci] ci0b0= 0 (C.5) ⇔ E " K X k=1 αkβkΣcicici ! ci0b0 # = 0 (C.6) ⇔ K X k=1 αkβkΣcicib0 = 0 (C.7)

Or, (C.7) est vrai car b est orthogonal au sous-espace formé par les βkΣcici∀k ∈

{1, · · · , K} donc ∀k ∈ {1, · · · , K} , βkΣcicib0 = 0. Par ailleurs (C.6) est valable

par l’hypothèse 2.

Ainsi, par l’hypothèse 2, la courbe de régression inverse E [ci|y] est suppor-

tée par le sous-espace généré par les βkΣcici [Li, 2012].

Cette dernière assertion permet d’obtenir les vecteurs EDR, et reste valable pour toute transformation monotone T telle que II.12 puisse s’exprimer par l’équation (C.8).

T(y) = T ◦ f (β1x, β2x, · · · , βKx, ) (C.8)

La courbe de régression inverse est alors exprimée par :

T(y) = E [x|T (y)] (C.9)

L’introduction de la transformation monotone T autorise la simplification du calcul de la matrice de covariance II.15 page 47. En effet, la transformation à l’origine de la méthode SIR est la transformation par tranches où T est une discrétisation des valeurs de y. Lorsque T est une discrétisation de y en H tranches s1,· · · , sH, alors la matrice de covariance Σcici est exprimée par :

Σcici= H X h=1 phmhm0h (C.10) avec :

Σcici matrice de covariance de E [y|x]

H nombre de tranches définies par la transformation T ph proportion des valeurs de y appartenant à la tranche sh

Les vecteurs de l’espace EDR sont alors les K vecteurs propres associés aux K plus grandes valeurs propres de Σcici.

Application du “Kernel Trick” à

l’Analyse en Composante

Principale

Dans la section II.C.1.a, il a été montré que la réduction possible de la dimension d’un nuage de points selon sa dispersion correspond à la décom- position en valeur propre de la matrice de covariance CC de ce nuage (B.4).

Or, l’expression de CC nécessite le calcul des produits vectoriels de chaque

élément du nuage de points C.

Lors de la projection du nuage dans l’espace de redescription en utilisant φ, CC devient : CC= 1 N N X i=1  φ(ci) − φ (c) φ(ci) − φ (c)T (D.1)

La décomposition en valeurs propres dans l’espace de redescription est équiva- lente à résoudre [Scholkopf et al., 1996] :

λ N X i=1 ai(φ (ck) · φ (ci)) (D.2) = 1 N N X i=1 ai  φ(xk) · N X j=1 φ cj   φ cj  · φ (ci) (D.3) ⇔ Nλa = Ka (D.4) avec : 155

156

N nombre de circuits λ valeurs propres de CC

K matrice du kernel telle que Ki,j = φ (ci) φ cj,∀ (i, j) ∈

{1, · · · , N}2

a matrice de coefficients telle que uk = PN

i=1aiφ(ci) , ∀i ∈

{1, · · · , N} , ∀k ∈ {1, · · · , K}

Le calcul de a est réalisé par une condition de normalisation λk a.,k· a.,k= 1.

De cette façon, le nuage de points d’origine C est projeté dans un espace de redescription de dimension plus élevée, et la PCA est utilisée dans cet espace par la diagonalisation de K (et la résolution de la condition ci-dessus). L’utilisation d’un noyau permet de ne plus calculer les projections pour chaque point du nuage de points C, seul le noyau est utilisé. L’exemple classique suivant permet de mieux saisir le fonctionnement.

Soit la fonction de projection dans l’espace de redescription φ telle que : φ: R2 −→ R3

(x1, x2) 7−→ 

x21, x22,√2x1x2

 (D.5)

En définissant le noyau par :

k(x, y) =xyT2 (D.6)

= (x1y1)2+ (x2y2)2+ 2x1y1x2y2

= φ (x) φ (y)T (D.7)

Le noyau défini par l’équation (D.6) permet de ne pas calculer la projection (D.5) mais donne directement le produit scalaire des projections (D.7).

Exemple d’utilisation

d’algorithmes de sélection de

caractéristiques

E.A

Exemple d’utilisation de RELIEF

Dans cet exemple, un nuage de points est construit de manière aléatoire (distribution normale) contenant 1000 échantillons de cinq caractéristiques. La classification binaire est construite en utilisant seulement les caractéristiques 1 et 3 par la fonction coût 10∗c1,i+10∗c3,i <15. L’objectif de cet exemple est de détecter les 1ère et 3ème caractéristiques comme étant les plus pertinentes par

application de RELIEF. En effet, d’après les définitions de la section II.C.2.a, les caractéristiques 1 et 3 sont des caractéristiques à pertinence forte, et toutes les autres caractéristiques ne sont pas pertinentes.

L’algorithme est exécuté avec M = 300 et les résultats sont présentés sur la figure E.1. La limite τ est calculée en utilisant

τ = min (W ) + (max (W ) − min (W)) ∗ tune (E.1) avec :

W vecteur des poids calculé par RELIEF

tune paramètre permettant de calculer τ comme une proportion entre les valeurs extrêmes des poids W . Ici tune = 0.4

τ limite de pertinence des caractéristiques. Ici, τ = 26.87

158 SÉLECTION DE CARACTÉRISTIQUES La figure E.2 montre la convergence des poids au fur et à mesure de l’exécu- tion de l’algorithme et des évaluations de W . Dans ce cas simple d’utilisation, l’algorithme identifie efficacement les contributions des caractéristiques 1 et 3 et les sépare clairement des autres caractéristiques. La figure E.2 montre que les poids sont clairement séparables à partir d’environs 30 itérations.

0.3 0.4 0.5 0.6 0.7 3 1 2 5 4 Caractéristiques Score de pertinence Poids

Figure E.1 – Résultats de RELIEF sur l’exemple d’application

0 10 20 30 40 50 60 70 80 90 100 0 0.2 0.4 0.6 0.8 Progression Poids Normalisés

Divergence des poids 1

2 3 4 5

Figure E.2 – Divergence des poids de chaque caractéristique par RELIEF