Méthode STATIS

(1)

N. Niang Keita niang@cnam.fr

Tableaux multiples Données Evolutives 1 Et

Méthode STATIS

SOMMAIRE

Introduction

La méthode STATIS

La méthode STATIS DUALE

Application au contrôle des procédés à temps variable Exemple: 1er tour scrutins élections présidentielles

(2)

Introduction

• Cadre général: méthodes d’analyse simultanée de plusieurs tableaux de données

• Diverses situations:

– p^t variables mesurées sur n^t individus à différentes dates: données évolutives – p^t variables mesurées sur n^t individus à

différentes occasions (non temporel) – Plusieurs tableaux de contingence ou de

proximités

Introduction

• Plusieurs méthodes:

– STATIS, STATIS DUALE – AFM

– DACP

– + AUTRES ANGLO SAXONS

(3)

Méthodes STATIS

• Structuration de Tableaux A Trois Indices de la Statistique (Escoufier et L’Hermier des plantes (1976) + C.Lavit)

• permet l’exploration simultanée de plusieurs tableaux de données quantitatives:

• n individus et p^t var différentes

Î

STATIS

– Privilégie la position des individus

• p var et n^t individus différents

Î

STATIS DUALE

– Privilégie les relations entre variables

L’approche de la m éthode:

• Etude classique d’un tableau: l’analyse factorielle associe au tableau un ensemble de représentation graphiques (cercle de corrélations, plans factoriels)

• Plusieurs tableaux: études séparéesÎ trop de représentations indépendantes, pas pertinent; d’où:

• Recherche d’unensemble unique de représentation, un résumé global, un compromis des tableaux

(4)

Méthode STATIS

• Idée essentielle de la méthode:

• recherche d’une réponse à la question: les distances entre individus sont elles stables d’un tableaux à un autre ?

• Nécessité de trouver une structure commune aux études appelée intrastructure

4 étapes:

• Interstructure: étude globale des différences entre tableaux

• Compromis: résumer les tableaux en un seul représentatif selon certains critères

• Intrastructure: étude fine des différences entre tableaux

• Trajectoires : évolution des individus ou variables suivant les tableaux

(5)

Notations

• On dispose de N tableauxXt à ptvariables quantitatives décrivant les mêmes nindividus

11 21 1

12 22 2

1 2

1 X 2

Pt

Pt t

n n Ptn

X X X

n

⎡ ⎤

⎢ ⎥

= ⎢ ⎥

⎢ ⎥

⎣ … ⎦

Rappels ACP

• ACP classique : triplet (X ,

M , D)

– facteurs principaux : MVu = λu = (1) – composantes principales : c = Xu

MX’DXu= λu

XMX’DXu= λXu X* (1)

WDc= λc

W =matrice des produits scalaires entre individus Composantes principalesWDc = λc

(6)

Etude de l’interstructure : analyse globale

• ACP particulière: 3 phases

• Définir un objet représentatif

• Définir une métrique pour distances entre objets

• Trouver une image des objets représentatifs

Interstructure : objet représentatif W

^t

• Individu de l’ACP = objet représentatif d’un tableau X

^t

• W

^t

= X

^t

M

^t

X’

^t

caractérise (X

^t

, M

^t

, D)

W^t contient les produits scalaires entre individus = tous les liens inter individus

(7)

Interstructure objet représentatif W

^t

• On représente chaque étude (X_t,, M_t, D )t=1, .…, N par W_t

• Même nombre d’individus

par

• On associe un poids à chaque W_t

11 21 1

12 22 2

1 2

1 X 2

P

P t

n n Pn

X X X

n

⎡ ⎤

⎢ ⎥

= ⎢ ⎥

⎢ ⎥

⎣ … ⎦

t = t t ′t

W X M X

1 0

0 _N

π

⎡ ⎤

⎢ ⎥

Δ = ⎢ ⎥

⎢ ⎥

⎣ ⎦

πt

D= Matrice de poids des individus

Interstructure : métrique pour distances entre objets

• Metrique de l’ACP:

définir une distance entre objets

Produit scalaire de Hilbert Schmidt:

Si les objets W^t ont des normes très différentes:

( )

' ' '

tt = t t HS =Tr t t

S W W DW DW

( ) ( )² ( )²

' ' / [ ] [ ' ]

t t HS =Tr t t Tr t Tr t

W W DW DW DW DW

(8)

Interstructure métrique pour distances entre objets

On reconnaît le coefficient RV(cf cours de Gonzalez): On définit la matrice S qui contient les coefficients RV On associe à chaque tableau un poids:

Comme en ACP on peut donc construire une image représentative des objets

Rque: S a tous ses termes positifs, on aura un facteur taille

1 0

0 _N

π

⎡ ⎤

⎢ ⎥

Δ = ⎢ ⎥

⎢ ⎥

⎣ ⎦

Interstructure image représentative des objets

• Rappel : STATIS = ACP particulière :

– Individu = W_t = objet représentatif d’un tableau – Tableau de données = S = Matrice des coefficients

RV (produits scalaires entre objets W_t) et poids – Composante principale = vecteur propre de SΔ

(9)

Interstructure image représentative des objets

• ACP de SΔ

Les vecteurs propres de SΔ associés aux deux plus grandes valeurs propres permettent la représentation des objets W₁,…, W_Nsur le 1er plan factoriel :

– Les coordonnées des W_tsur l’axe i sont contenues dans c_t,i:

,

t i = λi i

c u

i^èmevaleurpropre de SΔ

i^èmevecteur propre de SΔ

STATIS - Résumé Interstructure

•

(10)

Exemple 1:

1er tour présidentielle

(11)

Compromis-Intrastructure

Interstructure = analyse globale

mise en évidence de ressemblances ou différences globales entre tableaux sans les expliquer.

Objectif de la suite = analyse plus fine pour expliquer Deux étapes:

* recherche d’un point de repère= compromis

* étude de l’intrastructure

(12)

Recherche d’un compromis Compromis = bon resumé, de même Co nature que les objets

solution: W

^co

moyenne pondérée desW

_t

Les coefficients étant tels que W

^co

soit le plus corrélé avec les W

_t

Recherche d’un compromis

1

W_CO ^N _tW_t

t

α

=

∑

( ) 1 1

1 u^t

t t

α π

= λ

1^èrevaleur propre de SΔ

t^ièmeélément du 1^er vecteur propre de SΔ

= ′

W X MX

Matrice de données initiales

Matrice Co Compromis W

_CO

(13)

Recherche d’un compromis

Représentation

Représentation et et Interprétation Interprétation

4 cas4 cas: : ** WWtt ont des ont des normes voisines normes voisines et des et des grandsgrands RVRV:: existence

existence d’une d’une structure commune structure commune bien bien décrite

décrite par le compromispar le compromis

**un Wun Wttdifférentdifférentdes autresdes autres: : il intervient peu il intervient peu dansdansla construction du compromisla construction du compromis,, robusterobuste

**WWttnormesnormestrop différentestrop différentes: : il faut normeril faut normer

**WWtttrès différents, RV très différents, RV faiblesfaibles: pas de : pas de structure commune

structure commune

Intrastructure image représentative des points compromis

• ACP de W_COD

• Les vecteurs propres de W_COD associés aux deux plus grandes valeurs propres fournissent une image euclidienne des points compromis

– Les coordonnées compromis sur l’axe i sont contenues dans le vecteur c_CO,i:

,

1

CO i i i co i

i

δ δ

= =

c v W Dv

i^èmevaleur propre de W_COD i^èmevecteur propre de W_COD

(14)

STATIS - Intrastructure

Intrastructure : corrélation variables- compromis

• Chaque composante principale du compromis est un vecteur à n dimension, n étant le nombre d’individus des tableaux initiaux.

• Calcul de leurs corrélations avec les variables initiales des tableaux X^t

• Représentation des cercles de corrélation

• Interprétation des axes pour expliquer les

(15)

(16)

STATIS - Trajectoires des individus

• Méthode: technique des points supplémentaires:

Représentation sur l’image euclidienne compromis des N nuages des individus

• Remarque : c_CO_,_iest le “centre de gravité” des pointsc_{CO t}_,_i

,

1

CO t i t i

δ

i

c = W Dv

STATIS - Trajectoires des individus

• Objectif :

– Mise en évidence des écarts entre les W_tet avec le compromis au niveau individuel

– Détection des individus responsables des écarts entre tableaux

• Définition :

– On place les différentes positions d’un individu tel qu’il est décrit par chaque étude. Ces différentes positions définissent sa trajectoire

(17)

Interprétation des trajectoires

• Deux classes de trajectoires des individus :

– Peu étendue autour de sa position compromis = individus dont l’évolution suit l’évolution moyenne, écart par rapport à la moyenne régulier d’un tableau à l’autre

– Trajectoire de grande amplitude = changement de structure suivant les tableaux, différence avec l’évolution moyenne

Rque: si les axes du compromis sont bien corrélés avec les variables on pourra expliquer les axes par les variables et on interprètera de façon détaillée les trajectoires des individus

(18)

STATIS DUALE

• Même démarche que STATIS en prenant comme matrice représentant un tableau, V_tla matrice de covariance des variables à la place des W_t .

• On privilégie les variables au lieu des individus.

– Interstructure: étude globale des variables – Compromis: moyenne pondérée des V_t – Intrastructure: compromis des variables – Trajectoiresde variables

Méthode STATIS

Tableaux multiples Données Evolutives 1 Et

Méthode STATIS

SOMMAIRE

Introduction

Introduction

Méthodes STATIS

• permet l’exploration simultanée de plusieurs tableaux de données quantitatives:

Î

Î

L’approche de la m éthode:

Méthode STATIS

4 étapes:

Notations

Rappels ACP

M , D)

Etude de l’interstructure : analyse globale

Interstructure : objet représentatif W

• Individu de l’ACP = objet représentatif d’un tableau X

• W

= X

M

X’

caractérise (X

, M

, D)

Interstructure objet représentatif W

Interstructure : métrique pour distances entre objets

• Metrique de l’ACP:

définir une distance entre objets

( )

Interstructure métrique pour distances entre objets

Interstructure image représentative des objets

Interstructure image représentative des objets

STATIS - Résumé Interstructure

Compromis-Intrastructure

Recherche d’un compromis Compromis = bon resumé, de même Co nature que les objets

solution: W

moyenne pondérée desW

Les coefficients étant tels que W

soit le plus corrélé avec les W

Recherche d’un compromis

∑

Matrice Co Compromis W

Recherche d’un compromis

Représentation

Représentation et et Interprétation Interprétation

Intrastructure image représentative des points compromis

δ δ

STATIS - Intrastructure

Intrastructure : corrélation variables- compromis

STATIS - Trajectoires des individus

δ

STATIS - Trajectoires des individus

Interprétation des trajectoires

STATIS DUALE

STATIS DUALE

Exemple d’application:

Contrôle de procédés par lots à temps

variable