• Aucun résultat trouvé

Quelques applications des opérateurs d'Escoufier au traitement des variables qualitatives

N/A
N/A
Protected

Academic year: 2022

Partager "Quelques applications des opérateurs d'Escoufier au traitement des variables qualitatives"

Copied!
10
0
0

Texte intégral

(1)

Statistique et analyse des données

G

ILBERT

S

APORTA

Quelques applications des opérateurs d’Escoufier au traitement des variables qualitatives

Statistique et analyse des données, tome 1, no1 (1976), p. 38-46

<http://www.numdam.org/item?id=SAD_1976__1_1_38_0>

© Association pour la statistique et ses utilisations, 1976, tous droits réservés.

L’accès aux archives de la revue « Statistique et analyse des données » implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/conditions). Toute utilisation commer- ciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impres- sion de ce fichier doit contenir la présente mention de copyright.

(2)

Analyse Factorielle SAD 1, 1976

Q U E L Q U E S A P P L I C A T I O N S D E S O P E R A T E U R S D ' E S C O U F I E R A U T R A I T E M E N T D E S V A R I A B L E S

Q U A L I T A T I V E S .

Gilbert SAPORTA *

Les opérateurs introduits par Y. ESOOUFIER permettent de représenter par un ê t r e mathématique unique un ensemble de v a r i a b l e s . Enwunissant l'espace des opéra- teurs <i' un produit s c a l a i r e e t d'une norme, on peut alors mesurer des dépendances globales entre groupes de variables. Ces opérateurs peuvent donc ê t r e u t i l i s é s pour décrire des proximités entre variables q u a l i t a t i v e s car toute variable

q u a l i t a t i v e e s t équivalent à l'ensemble des variables i n d i c a t r i c e s de ses modalités.

I - ŒNERALITES SUR LES OPERATEURS D'ESCOUFIER

S o i t X- un tableau de données à n lignes e t m^ colonnes contenant l e s valeurs de m, variables sur n individus. Si ]Rmî, espace des individus, e s t muni de l a métrique M. e t Rn, espace des v a r i a b l e s , de l a métrique h a b i t u e l l e du poids D , l'opérateur d'ESCOUFIER 0i associé au tableau Xi e s t :

°i

= X

i

M

i

x t

i V

Cet opérateur n ' e s t autre que le WD du schéma de dualité suivant associé à l'analyse en composantes principales de X- dans l a métrique M. :

mn iir x >i mn*

M il î v i Vf l w

* TR1^* Xi l ] Rn

* Maître assistant à L'Université de PARIS V (IUT)

(3)

0. a pour vecteurs propres les composantes principales de x^ associées aux valeurs propres A-. ^e Mi V= •

L'ensenble des opérateurs associés à des tableaux de données X. à n lignes e t aux métriques M. e s t un sous-ensemble du sous-espace vectoriel des matrices Dp-symétrique. Ce sous-espace peut ê t r e muni du produit s c a l a i r e :

< 0i ; 0 , > = Trace (U 0-) et de la norme :

1 0i B 2 = Trace (0?) = 2 >-k

A cette norme correspond la notion d'équivalence suivante entre deux tableaux de données X. e t X- pour les métriques M. e t M -.

1 3 i J

x

i

^ x

j

< é = ^ Ho

±

- o^H

2

= 0

c ' e s t - à - d i r e que X- e t X, ont mêmes systèmes de conposantes principales associées aux mêmes valeurs propres.

par

On définit alors l'angle 0 . . entre opérateurs ou entre tableaux de données

Ces 0 . , = Trace ( 0 ^ )

Yrrace 0? Trace 0?

-1 -1 Nous supposerons pour la suite que Mj = (Xf^ D X.) = V,

autrement d i t que les opérateurs étudiés sont les projecteurs Dp-orthogonaux A- sur les espaces W, engendrés par les colonnes des tableaux X..

Dans ces conditions Trace A.A. est la somme des valeurs propres de l'analyse canonique de X- e t X- e t

Trace A? = Trace Ai = dim Wi

En p a r t i c u l i e r s i les variables sont centrées, la trace de A.A. e s t égale à la somme des carrés des coefficients de corrélation canoniques e t s i

dim W. = m. V- on trouve :

(4)

cos e

13

.2A

mimj

Deux tableaux de données sont équivalents s i leurs colonnes respectives engendrent le mime espace vectoriel ce qui entraîne que r^ = 1 V^ e t nu = m..

On a donc

Cos 0i. = 1 < > Wi = W.

Cos 0i, = 0 < > w ^ w .

On notera que cos 0. . e s t toujours p o s i t i f e t que s i m. = m- = 1 i l est égal au carré du coefficient de corrélation l i n é a i r e entre les deux variables.

II - UNE raiHODE DE DESCRIPTION DES RELATIONS DEUX A DEUX ENTRE p VARIABLES QUALITATIVES.

Associons à une variable qualitative à m- modalités le tableau logique X^

(dit tableau disjcnctif) de présence ou d'absence des diverses modalités pour les n individus.

'0 1 0 o1 0 0 0 1

xi -

1 0 0 Oy

L'espace W. engendré par les colonnes de X. e s t l'ensentole des variables numériques moins fines que l a variable q u a l i t a t i v e qui r é a l i s e n t donc ses dif-

férents codages.

Pour éviter des solutions parasites nous considérerons en f a i t le sous- espace W. de W. correspondant aux codages centrés, en d'autres termes Wio e s t l a p a r t i e de W. Dp-orthogonale au vecteur ± d e ^ dont toutes les conposantes sent égales à 1.

40

(5)

A- désignera le projecteur Dp-orthogonal sur N- e t on a donc : Trace AT = Trace A. = dim W. = m- - 1

1 1 1 0 1

Si X^ e t X. sont deux tableaux associés à deux variables q u a l i t a t i v e s , on s a i t qiie l'analyse spectrale de A-A, (oa de A-A.) n ' e s t autre que l'analyse des correspondances du tableau de contingence associé dans laquelle la solution t r i v i a l e J_ a été éliminée.

La somme des valeurs propres, autres que l a valeur t r i v i a l e 1, e s t alors égale au 0 de contingence : 2

Trace A.A. = 02. ~ X £ C P j j - P i . - P . j )

î j v I J 1 j •*—

P i . P.j

e t le cosinus d'angle entre opérateurs n ' e s t autre que le coefficient de dépendance de TSCHUPRDW.

.

T

i j ° - T — ^ z = r

Ce coefficient possède la propriété de n ' ê t r e égal à zéro que s i fes variables sont statistiquement indépendantes e t de prendre l a valeur 1 uniquement dans le cas de la dépendance t o t a l e : à une modalité d'une variable ne correspond qu'une modalité de l ' a u t r e e t réciproquement.

Etant donné p variables q u a l i t a t i v e s , construisons la matrice symétrique T des coefficients de TSCHUPROW des variables prises deux à deux ; i l e s t alors très simple de représenter géométriquement les proximités entre les variables en effectuant une analyse en composantes principales sur le opérateurs normes.

En effet, le coefficient de TSCHUPROW qui e s t un cosinus d'angle possède les propriétés d'un coefficient de corrélation e t l ' e x t r a c t i o n des vecteurs propres e t des valeurs propres de T, qui est alors l'analogue d'une matrice de c o r r é l a t i o n , permet de dégager des facteurs, orthogonaux deux à deux au sein des opérateurs, qui résument le mieux les p variables q u a l i t a t i v e s .

Les proximités entre variables peuvent alors ê t r e représentées selon l a figure usuelle du cercle des corrélations : le point représentatif de la ie variable a pour coordonnée sur l'axe n° k ,1a ie m e composante du ki e m e vecteur

(6)

i\ "ki

ou V^ e s t t e l que S* \f^ = 1

0

i=1

Ainsi s u r le premier plan on a l a f i g u r e s u i v a n t e

axe 2

Si deux v a r i a b l e s sont r e p r é s e n t é e s p a r des p o i n t s proches de l a circonférence e t f a i s a n t avec l ' o r i g i n e undngle de T£ 9 Ce l a veut d i r e q u ' e l l e s sont indépendantes,

On remarquera que l'ensemble des p o i n t s - v a r i a b l e s se trouve dans l e demi-plan d ' a b s c i s s e p o s i t i v e car T a tous ses éléments p o s i t i f s .

I l e s t p o s s i b l e de p r o j e t e r en élément supplémentaire une v a r i a b l e q u a l i t a t i v e ne f i g u r a n t pas parmi les p v a r i a b l e s i n i t i a l e s . I l s u f f i t pour c e l a de c o n n a î t r e

le vecteur t de ses p c o e f f i c i e n t s de TSCHUPROW avec l e s v a r i a b l e s de d é p a r t . La nouvelle v a r i a b l e s e r a représentée dans le système des p axes f a c t o r i e l s p a r un p o i n t dont les coordonnées sont les composantes du v e c t e u r :

Vvx "' i

où U e s t l a matrice dent les colonnes s o n t l e s v e c t e u r s propres normes à 1 de T e t D . / p l a matrice diagonale

propres rangées dans le même ordre

de T e t D^r-. l a matrice diagonale des i n v e r s e s des r a c i n e s c a r r é e s des v a l e u r s

Ceci permet , en p a r t i c u l i e r , de f a i r e f i g u r e r dans l e c e r c l e des c o r r é l a t i o n s les d i v e r s e s modalités d*une v a r i a b l e : chaque m o d a l i t é , qui e s t une v a r i a b l e

q u a l i t a t i v e dichotomique, é t a n t a l o r s p r o j e t é e en élément supplémentaire. On trouve aisément que le p o i n t r e p r é s e n t a t i f d'une v a r i a b l e e s t entouré p a r l e s p o i n t s r e p r é s e n t a t i f s de ses modalités.

SAD 1- 1976 42

(7)

L ' u t i l i s a t i o n des opérateurs permet a u s s i de t r a i t e r l e cas d'un mélange de v a r i a b l e s q u a l i t a t i v e s e t q u a n t i t a t i v e s .

A i n s i , en o b t i e n t sans d i f f i c u l t é que l e cosinus d ' a n g l e e n t r e l ' o p é r a t e u r associé à une v a r i a b l e à mi modalités e t c e l u i a s s o c i é à une v a r i a b l e numérique centrée vont :

n2 2

Cos 0 = *- où Y) e s t l e r a p p o r t de c o r r é l a t i o n

De même le cosinus d ' a n g l e e n t r e l ' o p é r a t e u r a s s o c i é à une v a r i a b l e q u a l i t a t i v e à m^ modalités e t l ' o p é r a t e u r associé à un groupe de q v a r i a b l e s numériques c e n t r é e s e s t :

Cos 0 =

T

Y"2

^ p *k Trace (V~1B)

VqO^ - 1) V ^ i " D

où V e s t l a matrice de variance-covariance t o t a l e du q v a r i a b l e e t B l a m a t r i c e de variance i n t e r c l a s s e (ou matrice d ' i n e r t i e des m. c e n t r e s de g r a v i t é s ) ; l e s A, sont a l o r s l e s valeurs propres de l ' a n a l y s e d i s c r i m i n a n t e a s s o c i é e .

Les cosinus d ' a n g l e e n t r e opérateurs d é f i n i s s e n t donc des i n d i c e s de proximité comparables pour des v a r i a b l e s q u a l i t a t i v e s comme q u a n t i t a t i v e s . Quelques p r é c a u t i o n s sont cependant n é c e s s a i r e s pour e f f e c t u e r ces comparaisons car i l ne nous semble pas recommandé d ' u t i l i s e r des v a r i a b l e s q u a l i t a t i v e s dont l e s nombres de modalités s e r a i e n t t r o p d i f f é r e n t s . En e f f e t deuxpÇ de contingence de même v a l e u r numérique n ' o n t pas l a même s i g n i f i c a t i o n s i l e s degrés de l i b e r t é sont d i f f é r e n t s ; l e f a i t de d i v i s e r p a r l a r a c i n e du nombre de degrés de l i b e r t é dans le c o e f f i c i e n t de TSCHUPRCW atténue c e t inconvénient mais ne l ' é l i m i n e pas t o t a l e m e n t . Si les nombres de modalités sont t r o p d i f f é r e n t s i l peut ê t r e c o n s e i l l é de compléter l a donnée d'un c o e f f i c i e n t de TSCHUPROW T. . p a r l a p r o b a b i l i t é

qu'une v a r i a b l e d e % à ( ¾ - 1)0¾ - 1) degrés de l i b e r t é s o i t i n f é r i e u r e a u X de contingence trouvé. Cette p r o b a b i l i t é e s t une e x c e l l e n t e mesure de l a dépendance e n t r e v a r i a b l e s q u a l i t a t i v e s mais n ' a évidemment pas l e s p r o p r i é t é s d'un cosinus d ' a n g l e .

(8)

I I I - SELECTION PROGRESSIVE DE VARIABLES EXPLICATIVES DANS UNE ANALYSE DISCRIMI- NANTE SUR VARIABLES QUALITATIVES *.

La prévision d'une variable q u a l i t a t i v e par p autres a souvent été t r a i t é e par la technique de segmentation. On peut ainsi l'aborder sous l'angle de l'analyse discriminante race au codage, ce qui aboutit alors à affecter une modalité de la variable à expliquer à un individu selon la valeur d'une fonction numérique additive des diverses modalités des variables explicatives.

Le problème peut se formaliser ainsi : chercherun codage simultané de toutes les variables maximisant le coefficient de corrélation multiple entre la variable à expliquer codée et les p variables explicatives codées. La solution est alors donnée par l'analyse canonique, moyennant quelques contr ntes sur les codages afin d ' é v i t e r des matrices singulières.

Si le choix d'un nonbre limité de prédicteurs afin de r é a l i s e r une discrimina- tion pas à pas e s t classique pour des variables numériques, i l n'en e s t pas de même pour des variables qualitatives en raison de la d i f f i c u l t é de définir une mesure de dépendance entre deux variables q u a l i t a t i v e s canditionnellement à une ou plusieurs autres. La seule méthode de discrimination pas à pas que nous connais-

sions étant celle de M. MASSON mais e l l e ne d é f i n i t pas une- t e l l e mesure de dépendance p a r t i e l l e . I l e s t certes possible de définir des X conditionnels

ou des quantités d'informations conditionnelles mais le volume des calculs devient vite p r o h i b i t i f car i l faut manier des tables de contingence à plusieurs dimensions.

La méthode que nous proposons s ' i n s p i r e de la régression progressive e t consiste à définir un indice de liaison p a r t i e l l e entre variables qualitatives analogue e t la corrélation p a r t i e l l e grâce aux propriétés du coefficient de TSCHUPROW.

Le c o e f f i c i e n t de TSCHUPROW é t a n t pour l e s v a r i a b l e s q u a l i t a t i v e s l ' a n a l o g u e d'un coefficient de corrélation, nous définissons formellement le coefficient de TSCHUPROW p a r t i e l au moyen de la formule classique donnant le coefficient de corrélation p a r t i e l l e .

Avec t r o i s variables on trouve ainsi :

T ΠT13 " T12 ' T32

*13.2

Vn-^

2

Hi-T

z32

)

* cette application a été développée dans le cadre du contrat DGRST n° 75-7-0230

(9)

Dans l'espace des opérateurs, le coefficient T-- 2 e s t l e cosinus de l a projection de l'angle 9 - . sur un plan orthogonal à l'opération n°2.

On voit sans difficulté que ce coefficient j o u i t de propriétés intéressantes : Si les variables 2 et 3 sont très l i é e s , l'angle 0 e s t alors voisin de j e t Tn 9 e s t proche de zéro : la prise en compte de l a variable 3, une fois connue

la variable 2, n'apporte pas d'information u t i l e sur la variable 1.

d'autre p a r t , à T,- e t T ^ fixés le coefficient e s t maximal s i T2~ = 0 c ' e s t - à - d i r e s i les variables 2 e t 3 sont indépendantes.

On définit alors de proche en proche les coefficients de TSCHIFROW p a r t i e l s d'ordres supérieurs :

T - T T

T - 14.2 M3.2 '43.2 _ r

M4.23 " "y / C 1 - T 2 6 t C 3 > 2) ( l - T ^2)

L'algorithme de sélection progressive des variables explicatives e s t alors immédiat :

- au premier pas on cherche, pour expliquer la variable 1, l a variable i qui maximise T-..

- au deuxième pas on introduit l a variable j qui maximise T1 - - - au troisième pas on introduit la variable k qui maximise T.^ ^.

Oh peut songer à définir un coefficient de TSCHUPRCW multiple T^ 2 3 par la formule usuelle

(10)

mais ce c o e f f i c i e n t ne senble pas posséder de p r o p r i é t é s aisément i n t e r p r é t a b l e s 2 2 2 sauf dans l e cas où les v a r i a b l e s e x p l i c a t i v e s s o n t indépendantes (T- 2- S2+T^-) e t ont même nombre de modalités : on montre a l o r s que T? 2- e s t à un c o e f f i c i e n t près l a somme des v a l e u r s propres de l ' a n a l y s e d i s c r i m i n a n t e g l o b a l e de 1 c o n t r e 2 e t 3.

Références :

Y. ESCOUFIER : "Echantillonnage dans une population de v a r i a b l e s a l é a t o i r e s r é e l l e s "

Thèse de Doctorat es Sciences M o n t p e l l i e r (1970).

M. MASSON : "Processus linéaire et analyse de données non l i n é a i r e s "

Thèse de Doctorat es Sciences U h i v e r s i t é de PARIS VI (1974)

J . PAGES : "A propos des opérateurs d'Y. ESCOUFIER"

Séminaires de l'IRIA en c l a s s i f i c a t i o n automatique (1974)

G. SAPORTA : "Liaison e n t r e p l u s i e u r s ensembles de v a r i a b l e s e t codage de données q u a l i t a t i v e s "

Thèse de 3e cycle U h i v e r s i t é de PARIS VI (1975)

46

Références

Documents relatifs

De nombreuses méthodes de décompression existent. Le chapitre 2 en a présentées quelques-unes, notamment l’optimisation convexe qui est à l’origine de l’engouement au- tour

L’accès aux archives de la revue « Annales scientifiques de l’Université de Clermont- Ferrand 2 » implique l’accord avec les conditions générales d’utilisation (

Coder une variable quantitative d'une part, pose des problèmes de codage, choix de la partition, etc.. ; d'autre part entraîne une perte d'information. Mais surtout, on a bien mis

Décrire ainsi les positions relatives de W 0 et W généralise au cas qualitatif ce que l'on fait en analyse de la variance (*) quand on pose un modèle sans interaction. §

Naive Bayes with density estimation.. Example:

5 Déterminer, en détaillant la méthode, à partir du 1 er janvier de quelle année le client pourrait avoir son capital initial multiplié par 10.. Stéphane PASQUET

L’estimation par échantillon test s’obtient en estimant les probabilités Q*s|r par les proportions observées Nets|r/Netr d’observations dans l’échantillon test

On peut ainsi l'aborder sous l'angle de l'analyse discriminante race au codage, ce qui aboutit alors à affecter une modalité de la variable à expliquer à un individu selon la