R EVUE DE STATISTIQUE APPLIQUÉE
P. C AZES
Régression par boule et par l’analyse des correspondances
Revue de statistique appliquée, tome 24, n
o4 (1976), p. 5-22
<http://www.numdam.org/item?id=RSA_1976__24_4_5_0>
© Société française de statistique, 1976, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
RÉGRESSION PAR BOULE ET PAR L’ANALYSE DES CORRESPONDANCES
P. CAZES
Laboratoire de Statistique, Université Pierre et Marie Curie (Paris VI)
1 - INTRODUCTION
En
présence
de variableshétérogènes (quantitatives, semi-quantitatives, qualitatives)
il estpossible
pourprendre
encompte
l’informationapportée
par toutes ces
variables,
soit de coder les variablesqualitatives, codage qui dépend
du butpoursuivi,
soit de rendrequalitatives
toutes les variables pardécoupage
en classes des variablesqui
ne sont pasdéjà qualitatives.
Dansce dernier cas, on
peut
si l’on veut décrire ces variables fairel’analyse fac-
torielle du tableau
disjonctif complet
ainsi construit ou du tableau de contin- gence associé(tableau
deBURT).
Pour mettre en évidence les liaisons d’une des variables y avec les autres
variables,
onpeut
fairel’analyse
descorrespondances
du tableau obtenu encroisant les modalités de y avec celles des variables
explicatives,
tar leau quenous
appellerons
tableau derégression.
Pour
prévoir
les valeurs de y, onpeut
dansl’espace
despremiers
facteursde
l’analyse précédente,
où l’on aprojeté chaque observacion,
soit faire unerégression usuelle,
soit faire unerégression
par boule.C’est dans une
optique
derégression
que nous nousplaçons
ici. Nousdéfinissons en II les notations
utilisées,
tandisqu’en
III nous donnonsquelques propriétés
des facteurs du tableau de BURT et du tableau derégression.
Nousmontrons en
particulier
que les facteurs sur les individusrajoutés
ensupplé-
mentaire au tableau de
régression
sontcentrés,
et que dans le cas où les va-riables
explicatives
sontindépendantes
2 à2,
ils sont non corrélés.Après
avoir
rappelé
en IV lesprincipes
de larégression
parboule,
unexemple d’ap- plication
estprésenté
en V. Cetexemple
concerne unproblème géologique
où il
s’agissait d’expliquer
la teneur en matièreorganique (ou kérogène)
d’un certain nombre de roches de l’Oxfordien du bassin de Paris en fonc- tion d’un certain nombre de
caractéristiques quantitatives
comme la teneuren
calcaire,
ou lagranulométrie,
ouqualitatives
comme la couleur de la roche parexemple.
Dans ce
paragraphe,
nous comparons les résultats fournis par différentesrégressions
parboule,
en fonction del’espace
où s’effectue cetterégression.
Manuscrit remis le 5-4-76, révisé en septembre 1976.
Mots-clés :
Analyse
factorielle descorrespondances, corrélation, facteur, liaisons, régression.
II - LES NOTATIONS
Soient y = x., X,’ X2, ... , , x,, l’ensemble des
variables,
y étant à ex-pliquer
en fonction de x 1, X2’ ... , 1 xr.Nous supposerons y, xl, ... , x
qualitatives,
cequi
revient à supposer que les variablesquantitatives
ont été renduesqualitatives
par undécoupage préalable
enclasses,
et nousdésignerons
parJq
l’ensemble des modalités de laqième
variable(0 q r)
On posera :
ensemble des variables
ensemble des variables
explicatives
ensemble des modalités de toutes les varia- bles
ensemble des modalités des variables
expli-
catives
ensemble des n individus
(ou observations)
pour
lesquels
on a mesuré y, x 1, ... , Xr.Il.1 - Les tableaux
(cf. figure 1)
a) kIJ :
tableau initial desdonnées, qui
est un tableaudisjonctif complet :
V i
El, V j E Jq
C J :kjj (i, j)
= 1 si i apris
lamodalité j
deJq,
0 sinon.b) k jJ :
tableau de BURT associé àk IJ ,
obtenu en croisant l’ensemble des modalités de toutes les variables avec lui-même :désigne
le nombre d’individus(ou d’observations) possédant
les modalitésj
etj’
deJq
etJ q ,.
Si q =q’, kjj (j, j’)
= o saufsi j = j’ auquel
caskJ J (L j) désigne
le nombre d’individuspossédant
lamodalité j de Jq .
A ce tableau on
peut adjoindre
ensupplémentaire
le tableaukjj
c) k Jo Je :
sous tableau dek J J
croisantJo
ensemble des modalités de la variable àexpliquer
avec Je ensemble de toutes les modalités des variablesexplicatives.
C’est le tableau derégression
ou encore dedépendance (ou
deliaison)
de y avec x 1, X2’...,xr.A ce tableau on
peut adjoindre
ensupplémentaire
le tableaukI Je (sous
tableau de
kjj)
C’est en effectuant
l’analyse
factorielle descorrespondances
de ce tableauk Jo Je
qu’on
étudiera la liaison de y avec x 1, X2, ... , 1 xr, la mise ensupplémen-
taire du tableau
kI Je permettant
de faire sur les facteurs associés aux n individussupplémentaires une régression
usuelle ou unerégression
par boule.d) k J4 J q,
sous tableau de k J J croisantJq
avec J q La somme des éléments de ce tableauvalant
n, nous poseronségalement :
Figure 1
Il. 2 -
Caractéristiques
associées aux tableauxprécédents.
Il 2.1. Lois
marginales
Nous
désignerons
parp, q
1P J ’
les loismarginales
associées àP J J ’ :
q q q q
désigne
laproportion
des individus ayantpris
lamodalité j
deJq .
*Les lois
marginales associés
aux différents tableaux introduits en II..1(ta-
bleaux ramenés à avoir la somme de leurséléments égale
à 1 par division parune
constante)
se calculent aisément en fonction desPlq
On obtient ainsi pourkl 1
o e les loisp Jo
0 surJo
1est 1 r (pJ 1 ,
1 ... ,Pl )
r surJe,
tandis que pourk JJ et
k IJ
la loi sur J estr+ 1 (p 1 ... , pJr r la loi inarginale
PI sur 1 de k IJ
étant la loi uniforme.
Il 2. 2. Lois conditionnelles
Nous
désignerons
parp iq
etp q’
les tableaux des lois conditionnelles associées àpJ q J 9 ,.
On a :Notons que si q =
q’, pj j
est le tableaudiagonal
des{PJ q C Jq }
tandis que
p; q q
est la matrice unité d’ordre cardJq .
Les lois conditionnelles associées aux
tableaux kJ J
,kj j
se calculentalors aisément
d’après
11.2.1 en fonction despJJqq,
III - ETUDE DES FACTEURS
II1.1 -
Propriétés
etéquations
des facteursRappelons quelques
résultatsclassiques (cf. (1), (4), (6), (7)),
relatifsaux facteurs issus de
l’analyse
descorrespondances
des tableauxk,j , k JJ
,klole.
a) k I J
etk J J
ont mêmes facteurs de variance 1 surJ,
cequi permet
de déduire les résultats del’analyse
descorrespondances
deklJ
àpartir
deceux de
kJ J .
*b)
Tous les facteurs du tableausymétrique kii
sont directs(i.
e. ontmême valeur sur J que J soit considéré comme
premier
ensemble ou comme secondensemble).
c)
Tout facteur sur J(resp. Je )
dek J J (resp. kJ J )
non trivial(i.e.
non constant, et relatif à une valeur propre non
nulle)
est centré(pour pj )
sur chacun des sous ensembles
Jq
de J(resp. Je ).
d) Equation
des facteurs : ’Soient :
un facteur de
kJ J
associé à la valeur propreÀ,
un
couple
de facteurs associés dek Joje correspondant
à la valeur propre}l.Ces facteurs vérifient les
équations :
où une
équation
condensée telle que 2a parexemple signifie
que :De
(2),
l’on déduit :formule
qui
nous servira en 111.2.e)
Dans le cas où les variablesexplicatives
sont deux à deuxindépendantes,
on
peut
montrer àpartir
deséquations précédentes (cf.
annexe1)
que l’ana-lyse
du tableauk J J
se ramène du moins en cequi
concerne les facteurs nontriviaux à
l’analyse
du tableauk,,,,,-
On montre de la même
façon (cf.
annexe2)
que si les variablesexpli-
catives sont divisées en deux groupes
Q
1 etQ2,
et si y estindépendante
desvariables du groupe
Q 2, l’analyse
du tableauk Jo Je
estéquivalente
à celledu tableau
kr ri
i oùdésigne
l’ensemble des modalités des variables deQ1.
111.2 - Etude du cas
particulier
où il existe un facteur commun’PJ 0
à toutesles
correspondances pj j
q
(q
EQe )
Si
(~Jo, ’P Jq)
est uncouple
de facteurs de variance 1 dePJ o J q associé
àla valeur propre
Àq,
on a :d’où l’on déduit que
~J0
vérifie(3)
avec :03C8Jo = ’PJ 0
est donc facteur dekJoJe
relatif à la valeur propreDe
(2),
et de la relation :l’on déduit que le facteur
4j Je = {VI Jq 1 q E Qe }
associé à03C8Jo
est tel que :Application
au cas del’analyse
discriminante où il y a deux groupes.Dans ce cas la variable à
expliquer
y estqualitative
etcomporte
deuxmodalités jo et jo.
Toutes lescorrespondances pJoJq (q
EQg),
ainsi quekJoJe possèdent
alors le même(et seul)
facteur non trivial~Jo qui
est lefacteur de moyenne nulle
(pour pj.).
Posant :
on a :
Le facteur associé
03C8Je
pourkj j
est alors tel que :M étant donné par la formule
(4),
oùXq (q E Qe ) désigne
la valeur proprenon triviale de la
correspondance PJ J .
III.3 - Etude des facteurs sur 1 obtenus en
adjoignant
ensupplémentaire
kiie à kJo1e.
Soit
(03C8Jo, 03C8Je)
uncouple
de facteurs non triviaux de variance 1 dekJoJe
et G(i)
la valeur de ce facteur pour l’individusupplémentaire i ;
on a :Donnant même
poids
pi i =1/n
àchaque
individui,
etcompte
tenu de de que :et de ce que les facteurs non
triviaux 03C8Je
dekJoJe sont
centrés surchaque Jq (q
~Qe),
on a :G est donc centré. Cette
propriété
est intéressantelorsqu’on
effectue desrégressions
sur ces facteurs.Nous allons maintenant calculer la covariance entre les facteurs sur
I,
Ga
etG(3’ Ga (resp. G03B2)
étant associé au facteurale (resp. 03C8Je03B2)
dekJ 0 Je.
On a
Cette
expression peut
se mettred’après (0)
et(5)
sous la forme suivante :Compte
tenu de ce que :o sinon.
On voit sur cette
expression
assezcompliquée
que les facteursG,,,,
etGI3
(a =1= j3)
sont engénéral
corrélés.Par contre, si les variables
explicatives
sont deux à deuxindépendantes
compte
tenu de ce que les facteurs03C8Je03B1
et03C8Je03B2
sont centrés surchaque
Jq (q E Qe)’ le
dernier terme de(6)
estnul,
et l’on a :ce
qui signifie
que les facteurs sur 1 sont non corrélés et de variance1/r.
IV - REGRESSION PAR BOULE
On
possède
un n échantillon des variables y, x x2, ... , Xr. Pourprédire
la valeur de y en un
point
M del’espace supposé métrique
des variables ex-plicatives
x , x2, ..., Xr, on effectue unerégression
par boule(cf. (5))
en re- cherchant lespoints
de l’échantillon en nombre s, avec sfixé,
lesplus proches
de M. La moyenne des valeurs de y en ces s
points
voisins fournit l’estimation cherchée.Cette
procédure
estsimple.
Deplus,
alors que larégression
usuelle four- nit uneprécision
uniforme(le
même écarttype)
pour touteprévision
de y,la
régression
par boule donne uneprécision qui dépend
dupoint
M où l’onse
place
pourprédire
y ; cetteprécision
est mesurée par l’écarttype
des va-leurs de y associées aux s
points
voisins de M. Larégression
par boule est donc unetechnique
fiablepuisqu’elle permet
de contrôler laqualité
dechaque prévision.
Pour se rendre
compte
de laqualité globale
de larégression
parboule,
on
peut
calculer sur l’échantillon le coefficient de corrélation entre y et savaleur
prédite y*,
coefficientqui
estl’analogue
du coefficient de corrélationmultiple
dans larégression
usuelle.N.B. - Pour reconstituer y en un
point
M del’échantillon,
on recherche less
points
voisins de Mparmi
lespoints
de l’échantillon différents de M.V - UN EXEMPLE D’APPLICATION
V.1. - Les données et les
analyses
factorielles effectuéesLes données
analysées
ici ont été fournies par Y.REYRE, géologue
au Muséum. Ces données sont décrites en détail dans la référence
(3)
oùfigure également l’interprétation géologique
des résultats que nous expo-sons ici. Elles concernent un ensemble 1 de 277 roches caractérisées par 11 variables :
-
cinq
variableslithologiques correspondant
à la sédimentation "engrand" :
lalongitude LN,
la latitudeLA,
letype
de formationgéologique FM,
ladisposition
structurale en couchesST, l’épaisseur
de la strate ES.-
cinq
variablespétrologiques correspondant
à la sédimentation ponc- tuelle : la couleurCL,
la texture en surfacepolie SS,
le diamètre dugrain
maximum
MX,
le diamètre dugrain
leplus fréquent FR,
lepourcentage
de carbonate de calcium(ou calcaire)
CC.- le
kérogène (ou
matièreorganique) KE,
variable que l’on désire ex-pliquer
en fonction desprécédentes.
Toutes les variables
quantitatives
ont étédécoupées
en classes. On ob- tient ainsi 70 variableslogiques,
8 caractérisant lekérogène
et notéesKE 1, KE2, ...
KE8 et 62 caractérisant les variablesexplicatives (on
a éliminé les modalités SS4 et SS7correspondant
à des effectifsnuls).
Les
découpages adoptés
ainsi que lessigles
que nous avons choisis pources 70 variables sont résumés sur le tableau
n° 1.
Nous
désignerons
par 1 l’ensemble des 277 roches et par J l’ensemble des modalités de toutes les variables :J =
Jo U Je Je Jt
UJp
UJe
avec
Jo
: ensemble des modalités dukérogène (Card Jo = 8)
Jt :
ensemble des modalités des variableslithologiques (Card Jet 32) Jp :
ensemble des modalités des variablespétrologiques (sans
lecalcaire)
(Card Jp == 24)
Je :
ensemble des modalités du calcaire(Card Je = 6)
Les
analyses
decorrespondance
suivantes ont été effectuées :1) Analyse
du tableaudisjonctif complet
277 x 70 :kjj
2) Analyse
du tableau derégression
8 x 62 :kJo Je
croisant les modalités du
kérogène
avec l’ensemble des modalités de toutes les variablesexplicatives.
Tableau 1
Désignation
des variables et modalités. Effectifs3) Analyse
du sous tableau 8 x 56 :kJoJt ~ Jp
où l’on ne tientplus
comp-te du calcaire
4) Analyse
du sous tableau 8 x 32 :kJoJt
pour voir l’influence des varia- bleslithologiques
seules sur lekérogène.
5) Analyse
du sous tableau 8 x 30 :kJ J V
Jc pour voir l’influence des variablespétrologiques
6) Analyse
du sous tableau 8 x 24 :kjojp
pour voir l’influence des varia- blespétrologiques
sans le calcaireDans toutes les
analyses
effectuées sur un sous tableau dekJoJe,
le soustableau restant, non rentré dans
l’analyse
a étéplacé
ensupplémentaire.
On a été amené à mettre le calcaire en
supplémentaire (cf. analyses 3)
et6))
car étant très lié au
kérogène (le
coefficient de corrélation entre KE et CC vaut -0,747)
il avait uneimportance prépondérante
dans lesanalyses 2)
et
5).
Toutes ces
analyses ayant
donné des résultats trèssemblables,
une seulesera
présentée,
à savoir laseconde,
celle du tableaukJoJe, qui
résume finalement toutes les autres.V.2. - Résultats de
l’analyse
descorrespondances
du tableaukJ o J e
Le
plan
1-2 résume 67%
del’inertie,
lepremier
facteur rendantcompte
à lui tout seul de 51 1%
de cetteinertie,
tandis que lesquatre premiers
facteurscorrespondent
à 89%
de cette inertie(cf.
tableau2)
Tableau
n° 2
Résultats de
l’analyse
du tableaukJo Je
Dans le
plan
1-2(cf. figure 2)
les modalités dukérogène
décrivent unecourbe
parabolique correspondant
à l’effet GUTTMAN usuel. Sur l’axe1,
ces modalités se suivent dans l’ordre à
part
unelégère
interversion entre les deuxpremières
modalités KEI 1 et KE2. Les modalitésKE8, KE7, KE6,
cor-respondant
à unpoids
élevé enkérogène
sont situées du côténégatif
de cetaxe 1 tandis que celles
correspondant
à unpoids
faible sont situées du côtépositif
de l’axe. Lepremier
facteur est donc liénégativement
aukérogène.
Toutes les variables
explicatives
nonqualitatives (à part
lalongitude)
se
projettent
sensiblement en bon ordre sur l’axe1,
dans le même sens que lekérogène
pour lalatitude,
en sens inverse pour les autresvariables,
CC -FR - MX --
ES,
avec uneexception
notable : les stratesdécamétriques (ES 5)
qui
sont du même côté sur cet axe 1 que les stratesmillimétriques (ES 1 ).
Analyse
Factorielle dekJoJe (plan
1-2)Figure
2La teneur en
kérogène
est donc d’autantplus
forte que lagranulomé-
trie est
fine, qu’il
y a peu de calcaire(ou
cequi
estéquivalent beaucoup d’argile)
etqu’il
se trouve dans une roche relevée à une latitude élevée.En ce
qui
concerne les variablesqualitatives,
une teneur élevée en ké-rogène
semble liée :- à une couleur
grise (CL 3)
oubrique (CL 5)
- aux formations de
type
2(FM 2), 12,
14 ou 15(FM 8)
- à une
disposition
structuraleplane (ST 1)
ou enchevêtrée(ST 6)
- à une texture laminaire
plane (SS 1)
De même une teneur moyenne ou faible en
kérogène
semble liée :- à une couleur blanche
(CL 2)
et à undegré
moindrebeige (CL 1)
- aux formations de
type
8 ou 10(FM 5),
11 ou 13(FM 7)
- à une
disposition
structurale ondulée(ST 5)
- à une structure confuse
(SS 9)
Notons que le calcaire contribue
respectivement
pour 25%,
29%,
38%,
et 51 % à la formation des
quatre premiers
axes factoriels. C’est la raison pourlaquelle,
on a refait cetteanalyse
en mettant cettevariable, qui
estla variable
explicative
laplus importante,
ensupplémentaire,
les résultats obtenus étantproches
comme on l’adéjà
dit de ceux obtenusici,
nous neles
présenterons
pas.V.3. - Prévision de la teneur en
kérogène
Les
caractéristiques
des variablesquantitatives
initiales(moyenne,
écart-type,
matrice decorrélation)
sont résumées sur les tableaux 3 et 4*Tableau
n°
3Caractéristiques
des variablesquantitatives
(*) Nous avons adopté une échelle logarithmique pour la variable ES, en donnant res- pectivement les valeurs 1, 2, 3, 4, 5 selon que l’on a une épaisseur de strate millimétrique, centimétrique, décimétrique, métrique ou décamétrique.
Tableau
n°
4Matrice de corrélation des variables
quantitatives
On voit que la variable à
expliquer,
lekérogène,
est trèsdispersée (son écart-type
estplus
de deux foisplus grand
que samoyenne)
et trèsliée,
com-me on l’a
déjà
vu au calcaire(r (KE, CC) = - 0,747).
On retrouve
également
d’unepart
la liaisonpositive
dukérogène
avecla
latitude, (r (KE, LA)
=0,251),
d’autrepart
les liaisonsnégatives
du kéro-gène
avec les diamètres dugrain
maximumMX,
et dugrain
leplus fréquent
FR
(r (KE, MX) = - 0,219 ;
r(KE, FR) = - 0,206) qui
sont très corrélés entre eux(r (MX, FR)
=0,916).
Néanmoins,
les liaisons linéaires dukérogène
avec les variables autres que le calcaire sontfaibles,
la valeur absolue du coefficient de corrélation de KEavec une variable autre que CC étant inférieure ou
égale
à0,251.
L’analyse
descorrespondances, grâce
audécoupage
en classes(qui
cor-respond
à uneprocédure
nonlinéaire)
apermis
de mieuxapprécier
les liaisonsentre le
kérogène
et ces variablesquantitatives,
tout en y incluant les variablesqualitatives
ousemi-quantitatives.
Nous avons effectué les
régression
suivantes :1) Régression
usuelle sur les variablesexplicatives quantitatives,
avec etsans calcaire
2) Régression
usuelle sur les facteurs issus des différentesanalyses
fac-torielles effectuées
3) Régression
par boule*a)
dansl’espace
desquatre premiers
facteurs issus des différentes ana-lyses
factorielles(*) Dans chacun des espaces considérés, nous avons adopté la métrique usuelle
pour rechercher les voisins d’un point donné, et nous avons retenu 20 voisins pour esti-
mer la teneur en kérogène.
b)
dansl’espace RJe
ouRJt~Jp
associé au tableaudisjonctif complet
lJe U Jp qui
sont dessous
tableaux dek
c)
dansl’espace
des variablesexplicatives quantitatives (avant
dé-coupage en
classes),
avec et sanscalcaire, chaque
variable étantramenée à avoir une variance
égale
à 1.Les résultats obtenus sont schématisés sur les tableaux
n°
5 et 6. On voit sur le tableau 5 que larégression
par boule sur les facteurs donne des résultatséquivalents
ou meilleurs que larégression
usuelle sur les mêmesfacteurs,
en cequi
concerne la corrélation entre y la variable àexpliquer (i.e.
lekérogène)
ety*
sa valeurapprochée.
Il est par ailleurs intéressant de noter que dans la
régression
parboule,
la corrélation entre y et sa valeur
approchée y*
est de0,59 (resp. 0,47)
dans
l’espace
initial à 62(resp. 56)
dimensionsRJe (resp. RJt~Jp)
alors que cet-te corrélation est de
0,71 (resp. 0,57)
dansl’espace
desquatre premiers
fac-teurs de
l’analyse
dekJ o Je (resp. kJoJp~Jt)et 0,68 (resp. 0,54)
dansl’espace
des deux
premiers
facteurs.Pour voir l’influence du nombre de
voisins,
nous avons fait varier cenombre entre 5
et 50,
en nousplaçant
dansl’espace
desquatre premiers
facteurs de
kJ J .
La corrélation entre y ety*
a varié entre0,67
et0,71 (cf.
tableau7).
En ce
qui
concerne lecalcaire,
son influence est très nette dans la ré-gression usuelle,
où le fait derajouter
les variablesquantitatives LN, LA, ES, FR, MX,
augmente defaçon negligeable
laqualité
del’ajustement,
le coef-ficient de corrélation
multiple
dukérogène
en fonction de ces six variables étant de0,752,
àpeine supérieur
à la valeur absolue de la corrélation entre calcaire etkérogène qui
est de0,747.
On
peut
noter que les corrélations obtenues dans les différentesrégres-
sions par boule où
figure
le calcaire(soit directement,
soit indirectement par les facteurs d’uneanalyse
factorielle où il se trouve en variable debase)
sont in- férieures à la corrélation(en
valeurabsolue)
entrekérogène
et calcaire. Cecisemble dû d’une
part
àl’importance
ducalcaire,
et d’autrepart
au fait quel’objet
même de larégression
usuelle est la maximisation(parmi
les combi- naisons linéaires des variablesexplicatives)
de la corrélation entre la variable àexpliquer
y et sa valeurapprochée y*.
L’intérêt de la
régression
par boule parrapport
à larégression
usuelleréside,
comme on l’adéjà
mentionné dans le faitqu’elle
fournit unepré-
cision différente pour
chaque
estimation de y. D’unpoint
de vuepratique,
cette
propriété
est fortintéressante,
surtoutquand
la variable àexpliquer
est très
dispersée,
cequi
est le cas ici dukérogène.
Si l’on retire l’influence du
calcaire,
larégression
usuelle surLA, LN, ES,
FR et MX nepermet d’expliquer
lekérogène qu’avec
un coefficient de corrélationmultiple égal
à0,346,
tandisqu’avec
larégression
parboule,
on n’obtient
qu’une
corrélation de0,315(1);
par contre, si l’on seplace
dans(1) Cette corrélation égale à 0,315 pour 20 voisins, vaut 0,337 avec 10 voisins, 0,364
avec 30 voisins et 0,358 avec 40 voisins.
Tableau
n°5
Corrélation entre le
kérogène
et sa valeurapprochée
dans larégression
par boule
(20 voisins)
et larégression usuelle,
effectuées dansl’espace
des
quatre premiers
facteurs desanalyses
factorielles 1 à 6(cf. V.l)
/
* Corrélation égale à 0,68 avec deux facteurs et à 0,58 avec un facteur.
** Corrélation égale à 0,54 avec deux facteurs.
Tableau
n° 6
Corrélation entre le
kérogène
et sa valeurapprochée
dans larégression
par boule(20 voisins)
et larégression usuelle,
effectuées sur les variablesquantitatives
initiales et sur les variableslogiques
associées àJe
etJt
UJp (cf.
V.1 et tableaun° 1 )
Tableau
n°7
Influence du nombre de voisins sur la corrélation R entre y et sa valeur
approchée y*
dans larégression
par boule faite dansl’espace
desquatre
premiers
facteurs dekJoJe
l’espace
desquatre premiers
facteurs dekj j , p (où
l’influence du calcairea été
enlevée)
larégression
par boule(resp. usuelle)
fournit une corrélation de0,57 (resp. 0,575),
on voit ainsi l’intérêt de seplacer
dans cet espace.On
peut
par ailleurs noter que l’influence des variablespétrologiques
autres que le calcaire semble être un peu
plus importante
que l’influence des variableslithologiques,
les corrélations fournies par larégression
par boule(resp. usuelle)
dansl’espace
desquatre premiers
facteurs dek J J
etkj j
étant
respectivement
de0,557
et0,46 (resp. 0,535
et0,482).
N.B. - Pour se rendre
compte
de lasignificativité
des corrélations calculées dans les différentesrégressions
par bouleeffectuées,
nous avons tiré au ha- sard les voisins. Avec 10voisins,
on a obtenu une corrélation de -0,054,
et avec20 voisins une corrélation de
0,037,
cequi
montre que les résultats que l’ona obtenus par ce
type
derégression
sont trèssignificatifs.
V.4 - Conclusion
L’analyse
descorrespondances
du tableau croisék J J
des modalités des variablesexplicatives
avec celles de la variable àexpliquer
y, ici le ké-rogène,
apermis
de bien voir les liaisons entre cette variable et les différentes variablesexplicatives.
La
régression
par boulepermet
d’estimer la valeur de y, connaissant les variablesexplicatives,
ainsi que laprécision
de cette estimation. Il serrblequ’il
y ait intérêt à faire cetterégression (en
mêmetemps
que larégression usuelle)
sur les facteurs issus du tableaudisjonctif complet k IJ e
associé auxvariables
explicatives,
mis ensupplémentaire
sur le tableau croisékJ J .
ANNEXE
N°1
Supposons
les variablesexplicatives
2 à 2indépendantes ;
on a alors :Cette relation est
équivalente,
sibJq désigne
la fonction constante etégale
à 1 surJq,
à :Pour tout facteur non trivial
~J
dekjj,
i.e. centré surchaque Jq (q
EQ),
on a :
Les
équations
des facteurs non triviaux dekJJ
s’écrivent alors(cf. équation
(1) du IILl) d) ) :
Posant
On
peut
calculer a et b defaçon
à ce quesoit un
couple
de facteurs normés dekJoJe,
associé à la valeur propre y(i. e.
vérifie les
équations (2)
du III1) d))
Il vient tout calcul
fait,
siei
est de variance 1 :A tout facteur non trivial de variance 1
’PJ
dekJJ
relatif à une valeur propreX différente de
1 /(r
+1)2 correspond
donc. avec les formules(A2)
et(A3)
un
couple
de facteurs normés non triviaux(~Jo, ~Je)
dekJo J e’
associé à la va- leur propre 03BC.Réciproquement
à toutcouple
de facteurs normés non triviaux(~Jo, ~Je)
dekj j
e associé à la valeur propre ycorrespond
deux facteurs normés non triviaux dekJJ
que nous désignerons par~J~,
Epouvant prendre
les valeurs 1 ou - 1 .
~J~
se déduit de(~Jo, ~Je)
àpartir
des formules(A2)
où : -03BB~ désignant
la valeur propre associée à~J~.
Remarque : VlJo
et4iJe
étant de varianceunité,
les contributions de~Jo~
ete
à la variancede ~J~ qui
vaut1,
sontégales
à1/2.
ANNEXE
N°2
Supposons
les variablesexplicatives
divisées en deux groupesQ
1 etQ2 ,
y étant
indépendante
des variables du groupeQ2.
On a donc :Les
équations (2) (cf. III.1) d))
des facteurs non triviaux dekJo Je se
sim-plifient
alors et s’écrivent :Si l’on pose J 1 =
U { J q q
EQ1},
on voit quel’ analyse
du tableaukJ o J e
est
équivalente
àl’analyse
du sous tableaukJo J
1 croisant les modalités de yavec les modalités des variables
explicatives
nonindépendantes
de y.De
façon précise,
si ri 1désigne
le cardinal deQ
1(r
1supposé
nonnul)
et si J2
désigne
la réunion desJq
pour q EQ2 ,
aucouple
de facteurs normésnon triviaux
(~Jo, 1/IJ e
=(~J1, 0J2))
relatif à la valeur propre M,correspond
le
couple
de facteurs normés non triviaux(~Jo, (r1 /r)1/2 ~J1)
dekJoJ1
rela-tif à la valeur propre
(r/r1)03BC
etréciproquement.
Dans le cas où ri 1 =
0,
i. e. dans le cas où y estindépendante
de toutes lesvariables
explicatives,
alorskJo Je
n’admet que des facteurs triviaux. Dansce dernier cas
l’analyse
du tableau deBURT kjj
estéquivalente
à celle dusous tableau
kJeJe.
BIBLIOGRAPHIE
(1)
BENZECRI J.P. - Surl’analyse
des tableaux binaires associés à une cor-respondance multiple ([ Bin. Mult.]) : publication
du Laboratoire de Statis-tique (1972).
(2)
BRENOTJ.,
CAZESP.,
LACOURLY N. -Pratique
de larégression : qualité
etprotection.
Cahiers duB. U.R.O., N° 23, (1975).
(3)
CAZESP.,
REYRE Y. - La fossilisation dukérogène
en milieuargilo-
carbonaté. Etude
statistique
de ses liaisons avec lespropriétés lithologiques
et
petrologiques
dans l’Oxfordien du Bassin de Paris(Partie Orientale) -
Bulletin duB.R.G.M., 2ème série,
sectionIV, n° 2,
pp. 85-102(1976).
(4)
CAZES P. - Etude dequelques propriétés
extrémales des facteurs issus d’un sous tableau d’un tableau de BURT([Extr. - Fac.]), publication
du Laboratoire de
Statistique, (Novembre 1975).
(5)
LEBEAUX M.O. 2014Programmes
derégression
et de classification utili- sant la notion devoisinage.
Thèse de3ème cycle,
Paris(1974).
(6)
LECLERC A. - Etude de certainstypes
de tableaux parl’analyse
descorrespondances.
Thèse de3ème cycle,
Paris(1973)
(7)
LECLERC A. -L’analyse
descorrespondances
surjuxtaposition
de ta-bleaux de