Christian O’Reilly
15 décembre 2008 MTH 6301
École Polytechnique de Montréal
} Introduction
} Contexte d’application
} Première proposition
◦ Plans factoriels fractionnaires
} Deuxième proposition
} Deuxième proposition
◦ Plans pour mélanges
} Résultats
} Conclusion
} On dispose de :
◦ Un ensemble de M classes :
(p. ex. l’ensemble des images de chat, de chien, …)
◦ Un ensemble de N formes appartenant chacune à l’une des classe ci :
(p. ex. image de Fido, de Grisou, de Noirot, …)Ρ ={pj ∈ci | j =1,2,...,N} } ,..., 2 , 1
|
{c i M
C = i =
(p. ex. image de Fido, de Grisou, de Noirot, …)
◦ Un ensemble de N caractéristiques permettant de décrire les formes pj :
(p. ex. nombre de pattes, couleur, …)
} On cherche :
◦ Le sous-ensemble de caractéristiques qui permet le mieux d’associer chaque forme pj à la bonne classe ci.
} ,..., 2 , 1
|
{f k O
F = k =
F F* ⊆
Q.I.
O
O : humains X : singes O
Taille X
O X
X classes
formes Caractéristiques
} Quelques approches rapportées dans la littérature :
◦ Recherche exhaustive
– !!! Problème combinatoire !!!
◦ Utilisation des meilleures caractéristiques individuelles – !!! omission des effets d’interaction !!!
◦ Recherche séquentielle (avant et arrière)
◦ Recherche séquentielle (avant et arrière)
◦ Ajouter l, enlever r
– !!! l et r sont à déterminer !!!
◦ Recherche séquentielle flottante (avant et arrière)
◦ Recherche « Branch and bound »
Anil K. Jain et al. Statistical Pattern Recognition: A Review, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no.1, january 2000.
OBJECTIF :
Explorer l’utilisation de la DOE pour l’analyse des interactions entre les caractéristiques de façon à obtenir leur sous-ensemble
façon à obtenir leur sous-ensemble permettant le mieux de représenter les
formes de façon à ce que les classes soient facilement séparables.
} On a :
◦ N=687 signatures Si provenant de 124 signataires Pj
◦ M=2 classes : –
(association de deux signatures provenant d’un même signataire)
} ,
,
| ) ,
1 {(S S S P S P l k
C = i j i ∈ k j ∈ l = signataire)
–
(association de deux signatures provenant de deux signataires différents)
◦ O=26 caractéristiques
} ,
,
| ) ,
2 {(S S S P S P l k
C = i j i ∈ k j ∈ l ≠
} Représentons une signature comme un vecteur de caractéristiques :
} Définissons le coût relatif à l’association des
[
O]
i f f f
S = 1 2 ...
} Définissons le coût relatif à l’association des signatures Si et Sj comme étant :
avec W une matrice diagonale de poids wi et Σ la matrice de covariance des caractéristiques.
[
( i j)] [
T 1 ( i j)]
ij W S S W S S
C = − Σ− − *
•Ceci est la « Feature weighted Mahalanobis distance ». Voir : M. Wolfel, H.K.
Ekenel, Feature Weighted Mahalanobis Distance: Improved Robustness for Gaussian Classifiers, 13th European Signal Processing Conference (EUSIPCO
•2005), Antalya, Turkey, September 2005.
} On va utiliser la statistique U (test de
Wilcoxon-Mann-Whitney*) pour déterminer la séparabilité des classes c1 et c2 en fonction de W.
◦ U = 1.0 : Classes parfaitement séparables
◦ U = 1.0 : Classes parfaitement séparables
◦ U = 0.5 : Classes parfaitement confondues
* Cette statistique a été choisie car elle est équivalente à l’aire sous la courbe ROC.
} Facteurs : Les poids wi
} Variable de sortie : La statistique U
} Nombre de facteurs = 26
} On veut
◦ Tamiser les facteurs
◦ Tamiser les facteurs
◦ Tenir compte des interactions
} Choix :
◦ Plan factoriel fractionnaire à 26 facteurs
◦ Résolution V (maximisant la cohérence)
◦ 1024 essais (les essais sont peu coûteux)
} Problèmes avec ce plan:
◦ Demande beaucoup d’essais
◦ Difficile d’évaluer les interactions d’ordre supérieure à 2
◦ Ne correspond pas à la nature du problème : – Permet l’évaluation de l’essai w = 0 ∀i
– Permet l’évaluation de l’essai – U(W) est singulier en ce point
– La surface devient très irrégulière près de ce point – Permet l’évaluation d’essais aux points W et αW où
alpha est un scalaire quelconque – U(W) = U(αW) pour tout α
◦ Résultats douteux en pratique
i wi = 0 ∀
} L’augmentation de l’importance de la iième caractéristique (c.-à-d. augmentation de wi) diminue l’importance relative des autres.
è Ce problème correspond à un mélange è Ce problème correspond à un mélange
où les caractéristiques fi sont les ingrédients et les poids wi sont les proportions.
} Première phase :
◦ Exploration des facteurs principaux et des effets d’interaction doubles et triples
◦ Plan simplexe-lattice – À 3 facteurs
– Avec des points intérieurs et le point centre – Avec des points intérieurs et le point centre – Pour polynôme d’ordre 3
– Sans répétition (réponse déterministe) – Contenant 13 essais
} 15 triplets de caractéristiques ont été testés
} Les caractéristiques f19, f23, f24, f29 et f33 ont été conservées pour la deuxième phase
Synergie agoniste Synergie antagoniste Synergie agoniste Synergie antagoniste
Indépendance Synergie agoniste à deux facteurs
} Deuxième phase
◦ Recherche d’un point d’opération optimal dans l’espace (f19, f23, f24, f29, f33)
◦ Plan simplexe-lattice – À 5 facteurs
– Avec des points intérieurs et le point centre – Pour polynôme d’ordre 3
– Sans répétition
– Contenant 40 essais
} Solution retenue:
◦ (w19, w23, w24, w29, w33) = (0.48, 0.26, 0.18, 0.08, 0.0)
Sujets 10 à 39 40 à 69 70 à 99
DOE Mélange
(4 caractéristiques) 0.98396
(±0.00440) 0.98413
(±0.00462) 0.99481 (±0.00256) Recherche
exhaustive Pratiquement irréalisable Nombre de combinaisons
possibles : 26 26 67108863
1
=
∑
=
i i
Sans sélection
(26 caractéristiques) 0.81438
(±0.01301) 0.85200
(±0.01269) 0.89806 (±0.01053) Meilleures caract.
Individuelles À venir!
Statistique WMW (± erreur standard)
} L’utilisation de la DOE pour mélanges est intéressante pour l’analyse des effets
d’interaction doubles et triples lors de la sélection de caractéristiques.
} L’inclusion de ces analyses dans une
procédure automatisée semble prometteuse.