• Aucun résultat trouvé

Quelques applications des opérateurs d'Escoufier au traitement des variables qualitatives

N/A
N/A
Protected

Academic year: 2021

Partager "Quelques applications des opérateurs d'Escoufier au traitement des variables qualitatives"

Copied!
11
0
0

Texte intégral

(1)

HAL Id: hal-02507775

https://hal.archives-ouvertes.fr/hal-02507775

Submitted on 16 Mar 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Quelques applications des opérateurs d’Escoufier au

traitement des variables qualitatives

Gilbert Saporta

To cite this version:

Gilbert Saporta. Quelques applications des opérateurs d’Escoufier au traitement des variables quali-tatives. Statistique et analyse des données, Association pour la statistique et ses utilisations, 1976, 1 (1), pp.38-46. �hal-02507775�

(2)

Statistique et analyse des données

G

ILBERT

S

APORTA

Quelques applications des opérateurs d’Escoufier au traitement des variables qualitatives

Statistique et analyse des données, tome 1, no1 (1976), p. 38-46

<http://www.numdam.org/item?id=SAD_1976__1_1_38_0>

© Association pour la statistique et ses utilisations, 1976, tous droits réservés.

L’accès aux archives de la revue « Statistique et analyse des données » implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/conditions). Toute utilisation commer-ciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impres-sion de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

(3)

Analyse Factorielle SAD 1, 1976 Q U E L Q U E S A P P L I C A T I O N S D E S O P E R A T E U R S D ' E S C O U F I E R A U T R A I T E M E N T D E S V A R I A B L E S Q U A L I T A T I V E S . Gilbert SAPORTA *

Les opérateurs introduits par Y. ESOOUFIER permettent de représenter par un ê t r e mathématique unique un ensemble de v a r i a b l e s . Enwunissant l'espace des opéra-teurs <i' un produit s c a l a i r e e t d'une norme, on peut alors mesurer des dépendances globales entre groupes de variables. Ces opérateurs peuvent donc ê t r e u t i l i s é s pour décrire des proximités entre variables q u a l i t a t i v e s car toute variable

q u a l i t a t i v e e s t équivalent à l'ensemble des variables i n d i c a t r i c e s de ses modalités.

I - ŒNERALITES SUR LES OPERATEURS D'ESCOUFIER

S o i t X- un tableau de données à n lignes e t m^ colonnes contenant l e s valeurs de m, variables sur n individus. Si ]Rmî, espace des individus, e s t muni

de l a métrique M. e t Rn, espace des v a r i a b l e s , de l a métrique h a b i t u e l l e du poids

D , l'opérateur d'ESCOUFIER 0i associé au tableau Xi e s t :

°i

= X

i

M

i

x t

i

V

Cet opérateur n ' e s t autre que le WD du schéma de dualité suivant associé à l'analyse en composantes principales de X- dans l a métrique M. :

m

n i

i

r x >

i m

n

*

M

il î

v

i Vf l

w

* TR1^* Xi l ] Rn

* Maître assistant à L'Université de PARIS V (IUT)

(4)

0. a pour vecteurs propres les composantes principales de x^ associées aux valeurs propres A-. ^e Mi V= •

L'ensenble des opérateurs associés à des tableaux de données X. à n lignes e t aux métriques M. e s t un sous-ensemble du sous-espace vectoriel des matrices Dp-symétrique. Ce sous-espace peut ê t r e muni du produit s c a l a i r e :

< 0i ; 0 , > = Trace (U 0-) et de la norme :

1 0i B 2 = Trace (0?) = 2 >-k

A cette norme correspond la notion d'équivalence suivante entre deux tableaux de données X. e t X- pour les métriques M. e t M -.

1 3 i J

x

i

^ x

j

< é = ^ Ho

±

- o^H

2

= 0

c ' e s t - à - d i r e que X- e t X, ont mêmes systèmes de conposantes principales associées aux mêmes valeurs propres.

par

On définit alors l'angle 0 . . entre opérateurs ou entre tableaux de données

Ces 0 . , = Trace ( 0 ^ )

Yrrace 0? Trace 0?

-1 -1 Nous supposerons pour la suite que Mj = (Xf^ D X.) = V,

autrement d i t que les opérateurs étudiés sont les projecteurs Dp-orthogonaux A-sur les espaces W, engendrés par les colonnes des tableaux X..

Dans ces conditions Trace A.A. est la somme des valeurs propres de l'analyse canonique de X- e t X- e t

Trace A? = Trace Ai = dim Wi

En p a r t i c u l i e r s i les variables sont centrées, la trace de A.A. e s t égale à la somme des carrés des coefficients de corrélation canoniques e t s i

dim W. = m. V- on trouve :

(5)

cos e

13

.2A

mimj

Deux tableaux de données sont équivalents s i leurs colonnes respectives engendrent le mime espace vectoriel ce qui entraîne que r^ = 1 V^ e t nu = m..

On a donc

Cos 0i. = 1 < > Wi = W.

Cos 0i, = 0 < > w ^ w .

On notera que cos 0. . e s t toujours p o s i t i f e t que s i m. = m- = 1 i l est égal au carré du coefficient de corrélation l i n é a i r e entre les deux variables.

II - UNE raiHODE DE DESCRIPTION DES RELATIONS DEUX A DEUX ENTRE p VARIABLES QUALITATIVES.

Associons à une variable qualitative à m- modalités le tableau logique X^ (dit tableau disjcnctif) de présence ou d'absence des diverses modalités pour les n individus.

'0 1 0 o1

0 0 0 1

xi

-1 0 0 Oy

L'espace W. engendré par les colonnes de X. e s t l'ensentole des variables numériques moins fines que l a variable q u a l i t a t i v e qui r é a l i s e n t donc ses

dif-férents codages.

Pour éviter des solutions parasites nous considérerons en f a i t le sous-espace W. de W. correspondant aux codages centrés, en d'autres termes Wio e s t l a p a r t i e de W. Dp-orthogonale au vecteur ± d e ^ dont toutes les conposantes sent égales à 1.

SAD 1- 1976

(6)

A- désignera le projecteur Dp-orthogonal sur N- e t on a donc : Trace AT = Trace A. = dim W. = m- - 1

1 1 1 0 1

Si X^ e t X. sont deux tableaux associés à deux variables q u a l i t a t i v e s , on s a i t qiie l'analyse spectrale de A-A, (oa de A-A.) n ' e s t autre que l'analyse des correspondances du tableau de contingence associé dans laquelle la solution t r i v i a l e J_ a été éliminée.

La somme des valeurs propres, autres que l a valeur t r i v i a l e 1, e s t alors 2

égale au 0 de contingence :

Trace A.A. = 02. ~ X £ C P j j - P i . - P . j )

î j v I J 1 j •*—

P i . P.j

e t le cosinus d'angle entre opérateurs n ' e s t autre que le coefficient de dépendance de TSCHUPRDW.

.

T

i j ° - T — ^ z = r

Ce coefficient possède la propriété de n ' ê t r e égal à zéro que s i fes variables sont statistiquement indépendantes e t de prendre l a valeur 1 uniquement dans le cas de la dépendance t o t a l e : à une modalité d'une variable ne correspond qu'une modalité de l ' a u t r e e t réciproquement.

Etant donné p variables q u a l i t a t i v e s , construisons la matrice symétrique T des coefficients de TSCHUPROW des variables prises deux à deux ; i l e s t alors très simple de représenter géométriquement les proximités entre les variables en effectuant une analyse en composantes principales sur le opérateurs normes. En effet, le coefficient de TSCHUPROW qui e s t un cosinus d'angle possède les propriétés d'un coefficient de corrélation e t l ' e x t r a c t i o n des vecteurs propres e t des valeurs propres de T, qui est alors l'analogue d'une matrice de c o r r é l a t i o n , permet de dégager des facteurs, orthogonaux deux à deux au sein des opérateurs, qui résument le mieux les p variables q u a l i t a t i v e s .

Les proximités entre variables peuvent alors ê t r e représentées selon l a figure usuelle du cercle des corrélations : le point représentatif de la ie variable a pour coordonnée sur l'axe n° k ,1a ie m e composante du ki e m e vecteur propre 11 de T multipliée par la racine carrée de la valeur propre correspondante :

(7)

i\

"ki

ou V^ e s t t e l que S* \f^ = 1

0

i=1

Ainsi s u r le premier plan on a l a f i g u r e s u i v a n t e

axe 2

Si deux v a r i a b l e s sont r e p r é s e n t é e s p a r des p o i n t s proches de l a circonférence e t f a i s a n t avec l ' o r i g i n e undngle de T£ 9 Ce l a veut d i r e q u ' e l l e s sont indépendantes,

On remarquera que l'ensemble des p o i n t s - v a r i a b l e s se trouve dans l e demi-plan d ' a b s c i s s e p o s i t i v e car T a tous ses éléments p o s i t i f s .

I l e s t p o s s i b l e de p r o j e t e r en élément supplémentaire une v a r i a b l e q u a l i t a t i v e ne f i g u r a n t pas parmi les p v a r i a b l e s i n i t i a l e s . I l s u f f i t pour c e l a de c o n n a î t r e

le vecteur t de ses p c o e f f i c i e n t s de TSCHUPROW avec l e s v a r i a b l e s de d é p a r t . La nouvelle v a r i a b l e s e r a représentée dans le système des p axes f a c t o r i e l s p a r un p o i n t dont les coordonnées sont les composantes du v e c t e u r :

Vvx "' i

où U e s t l a matrice dent les colonnes s o n t l e s v e c t e u r s propres normes à 1 de T e t D . / p l a matrice diagonale

propres rangées dans le même ordre

de T e t D^r-. l a matrice diagonale des i n v e r s e s des r a c i n e s c a r r é e s des v a l e u r s

Ceci permet , en p a r t i c u l i e r , de f a i r e f i g u r e r dans l e c e r c l e des c o r r é l a t i o n s les d i v e r s e s modalités d*une v a r i a b l e : chaque m o d a l i t é , qui e s t une v a r i a b l e

q u a l i t a t i v e dichotomique, é t a n t a l o r s p r o j e t é e en élément supplémentaire. On trouve aisément que le p o i n t r e p r é s e n t a t i f d'une v a r i a b l e e s t entouré p a r l e s p o i n t s r e p r é s e n t a t i f s de ses modalités.

(8)

L ' u t i l i s a t i o n des opérateurs permet a u s s i de t r a i t e r l e cas d'un mélange de v a r i a b l e s q u a l i t a t i v e s e t q u a n t i t a t i v e s .

A i n s i , en o b t i e n t sans d i f f i c u l t é que l e cosinus d ' a n g l e e n t r e l ' o p é r a t e u r associé à une v a r i a b l e à mi modalités e t c e l u i a s s o c i é à une v a r i a b l e numérique

centrée vont :

n2 2

Cos 0 = *- où Y) e s t l e r a p p o r t de c o r r é l a t i o n

De même le cosinus d ' a n g l e e n t r e l ' o p é r a t e u r a s s o c i é à une v a r i a b l e q u a l i t a t i v e à m^ modalités e t l ' o p é r a t e u r associé à un groupe de q v a r i a b l e s numériques c e n t r é e s e s t :

Cos 0 =

T

Y"2

^ p *k Trace (V~1B)

VqO^

- 1)

V ^ i

" D

où V e s t l a matrice de variance-covariance t o t a l e du q v a r i a b l e e t B l a m a t r i c e de variance i n t e r c l a s s e (ou matrice d ' i n e r t i e des m. c e n t r e s de g r a v i t é s ) ; l e s A, sont a l o r s l e s valeurs propres de l ' a n a l y s e d i s c r i m i n a n t e a s s o c i é e .

Les cosinus d ' a n g l e e n t r e opérateurs d é f i n i s s e n t donc des i n d i c e s de proximité comparables pour des v a r i a b l e s q u a l i t a t i v e s comme q u a n t i t a t i v e s . Quelques p r é c a u t i o n s sont cependant n é c e s s a i r e s pour e f f e c t u e r ces comparaisons car i l ne nous semble pas recommandé d ' u t i l i s e r des v a r i a b l e s q u a l i t a t i v e s dont l e s nombres de modalités s e r a i e n t t r o p d i f f é r e n t s . En e f f e t deuxpÇ de contingence de même v a l e u r numérique n ' o n t pas l a même s i g n i f i c a t i o n s i l e s degrés de l i b e r t é sont d i f f é r e n t s ; l e f a i t de d i v i s e r p a r l a r a c i n e du nombre de degrés de l i b e r t é dans le c o e f f i c i e n t de TSCHUPRCW atténue c e t inconvénient mais ne l ' é l i m i n e pas t o t a l e m e n t . Si les nombres de modalités sont t r o p d i f f é r e n t s i l peut ê t r e c o n s e i l l é de compléter l a donnée d'un c o e f f i c i e n t de TSCHUPROW T. . p a r l a p r o b a b i l i t é

qu'une v a r i a b l e d e % à ( ¾ - 1)0¾ - 1) degrés de l i b e r t é s o i t i n f é r i e u r e a u X de contingence trouvé. Cette p r o b a b i l i t é e s t une e x c e l l e n t e mesure de l a dépendance e n t r e v a r i a b l e s q u a l i t a t i v e s mais n ' a évidemment pas l e s p r o p r i é t é s d'un cosinus d ' a n g l e .

(9)

I I I - SELECTION PROGRESSIVE DE VARIABLES EXPLICATIVES DANS UNE ANALYSE DISCRIMI-NANTE SUR VARIABLES QUALITATIVES *.

La prévision d'une variable q u a l i t a t i v e par p autres a souvent été t r a i t é e par la technique de segmentation. On peut ainsi l'aborder sous l'angle de l'analyse discriminante race au codage, ce qui aboutit alors à affecter une modalité de la variable à expliquer à un individu selon la valeur d'une fonction numérique additive des diverses modalités des variables explicatives.

Le problème peut se formaliser ainsi : chercherun codage simultané de toutes les variables maximisant le coefficient de corrélation multiple entre la variable à expliquer codée et les p variables explicatives codées. La solution est alors donnée par l'analyse canonique, moyennant quelques contr ntes sur les codages afin d ' é v i t e r des matrices singulières.

Si le choix d'un nonbre limité de prédicteurs afin de r é a l i s e r une discrimina-tion pas à pas e s t classique pour des variables numériques, i l n'en e s t pas de même pour des variables qualitatives en raison de la d i f f i c u l t é de définir une mesure de dépendance entre deux variables q u a l i t a t i v e s canditionnellement à une ou plusieurs autres. La seule méthode de discrimination pas à pas que nous

connais-sions étant celle de M. MASSON mais e l l e ne d é f i n i t pas une- t e l l e mesure de dépendance p a r t i e l l e . I l e s t certes possible de définir des X conditionnels

ou des quantités d'informations conditionnelles mais le volume des calculs devient vite p r o h i b i t i f car i l faut manier des tables de contingence à plusieurs dimensions.

La méthode que nous proposons s ' i n s p i r e de la régression progressive e t consiste à définir un indice de liaison p a r t i e l l e entre variables qualitatives analogue e t la corrélation p a r t i e l l e grâce aux propriétés du coefficient de TSCHUPROW.

Le c o e f f i c i e n t de TSCHUPROW é t a n t pour l e s v a r i a b l e s q u a l i t a t i v e s l ' a n a l o g u e d'un coefficient de corrélation, nous définissons formellement le coefficient de TSCHUPROW p a r t i e l au moyen de la formule classique donnant le coefficient de corrélation p a r t i e l l e .

Avec t r o i s variables on trouve ainsi :

T Œ T13 " T12 ' T32

*13.2

Vn-^2Hi-Tz32 )

* cette application a été développée dans le cadre du contrat DGRST n° 75-7-0230

(10)

Dans l'espace des opérateurs, le coefficient T-- 2 e s t l e cosinus de l a projection de l'angle 9 - . sur un plan orthogonal à l'opération n°2.

On voit sans difficulté que ce coefficient j o u i t de propriétés intéressantes : Si les variables 2 et 3 sont très l i é e s , l'angle 0 e s t alors voisin de j e t Tn 9 e s t proche de zéro : la prise en compte de l a variable 3, une fois connue

la variable 2, n'apporte pas d'information u t i l e sur la variable 1.

d'autre p a r t , à T,- e t T ^ fixés le coefficient e s t maximal s i T2~ = 0 c ' e s t - à - d i r e s i les variables 2 e t 3 sont indépendantes.

On définit alors de proche en proche les coefficients de TSCHIFROW p a r t i e l s d'ordres supérieurs :

T - T T

T - 14.2 M3.2 '43.2 _ r

M4.23 " "y / C 1 - T 2 6 t C 3 > 2) ( l - T ^2)

L'algorithme de sélection progressive des variables explicatives e s t alors immédiat :

- au premier pas on cherche, pour expliquer la variable 1, l a variable i qui maximise T-..

- au deuxième pas on introduit l a variable j qui maximise T1 -- au troisième pas on introduit la variable k qui maximise T.^ ^.

Oh peut songer à définir un coefficient de TSCHUPRCW multiple T^ 2 3 par la formule usuelle

C1

" A.lJ

= (1

"

T

12>

C1

"

T

13.2^

etC

(11)

mais ce c o e f f i c i e n t ne senble pas posséder de p r o p r i é t é s aisément i n t e r p r é t a b l e s 2 2 2 sauf dans l e cas où les v a r i a b l e s e x p l i c a t i v e s s o n t indépendantes (T- 2- STÎ2+T^-)

e t ont même nombre de modalités : on montre a l o r s que T? 2- e s t à un c o e f f i c i e n t

près l a somme des v a l e u r s propres de l ' a n a l y s e d i s c r i m i n a n t e g l o b a l e de 1 c o n t r e 2 e t 3.

Références :

Y. ESCOUFIER : "Echantillonnage dans une population de v a r i a b l e s a l é a t o i r e s r é e l l e s " Thèse de Doctorat es Sciences M o n t p e l l i e r (1970).

M. MASSON : "Processus linéaire et analyse de données non l i n é a i r e s "

Thèse de Doctorat es Sciences U h i v e r s i t é de PARIS VI (1974)

J . PAGES : "A propos des opérateurs d'Y. ESCOUFIER"

Séminaires de l'IRIA en c l a s s i f i c a t i o n automatique (1974)

G. SAPORTA : "Liaison e n t r e p l u s i e u r s ensembles de v a r i a b l e s e t codage de données q u a l i t a t i v e s "

Thèse de 3e cycle U h i v e r s i t é de PARIS VI (1975)

Références

Documents relatifs

5 Déterminer, en détaillant la méthode, à partir du 1 er janvier de quelle année le client pourrait avoir son capital initial multiplié par 10.. Stéphane PASQUET

Naive Bayes with density estimation.. Example:

De nombreuses méthodes de décompression existent. Le chapitre 2 en a présentées quelques-unes, notamment l’optimisation convexe qui est à l’origine de l’engouement au- tour

L’accès aux archives de la revue « Annales scientifiques de l’Université de Clermont- Ferrand 2 » implique l’accord avec les conditions générales d’utilisation (

Coder une variable quantitative d'une part, pose des problèmes de codage, choix de la partition, etc.. ; d'autre part entraîne une perte d'information. Mais surtout, on a bien mis

Décrire ainsi les positions relatives de W 0 et W généralise au cas qualitatif ce que l'on fait en analyse de la variance (*) quand on pose un modèle sans interaction. §

L’estimation par échantillon test s’obtient en estimant les probabilités Q*s|r par les proportions observées Nets|r/Netr d’observations dans l’échantillon test

Le premier croise ces individus avec des variables quantitatives et le deuxième les croise avec des variables qualitatives.. Les variables qualitatives induisent