R EVUE DE STATISTIQUE APPLIQUÉE
P. D. A LEVIZOS
A. M ORINEAU
Analyse factorielle conditionnelle : une application sur des données concernant le masticage de vitraux
Revue de statistique appliquée, tome 41, n
o2 (1993), p. 5-22
<http://www.numdam.org/item?id=RSA_1993__41_2_5_0>
© Société française de statistique, 1993, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE FACTORIELLE CONDITIONNELLE :
UNE APPLICATION SUR DES DONNÉES
CONCERNANT LE MASTICAGE DE VITRAUX
P.D.
Alevizos(1),
A.Morineau(2)
(1 ) Université de Patras,
Département
deMathématiques,
Patras, Grèce (2) Centre International deStatistique
etd’Informatique Appliquées,
Saint-Mandé, FranceRÉSUMÉ
On
dispose
d’un tableaunumérique
relatif à uneexpérimentation
sur lemasticage
desvitraux. Les données sont constituées, pour chacun des 56 vitraux, de 30
couples
de valeursreprésentant
à 30 instants successifs lapression
du vent exercée sur le vitrail et la flèche résultant, c’est-à-dire la déformation du panneau sous l’effet de lapression.
On obtient donc pourchaque
vitrail unetrajectoire
dessinée avec 30points.
On adéjà
étudié ladispersion
des localisations des
trajectoires
dans leplan «flèche-pression»
(P. Alevizos, A. Morineau, 1992). Dans leprésent
article on décrit ladispersion
des courbes autour de leurpoint
moyen.On compare les formes des
trajectoires
des courbesindépendamment
de leur localisation ou, en d’autres termes, on effectuel’analyse
des formes conditionnée par la localisation.L’article conclut sur la
possibilité
desynthétiser
les 60paramètres
décrivant uneépreuve
par seulement deux
paramètres.
Mots-clés :
Analyse
en composantesprincipales. Analyse factorielle
conditionnelle. Com-paraison d’analyses factorielles.
ABSTRACT
A numerical table concems 56 stained
glass
windows in which different adhesive materials have been used for theirjoints.They
haveundergone
an artificialageing
test undervariable conditions. The collected data for each window make up 30
couples
of successive values, whichgive
the wind pressure and the deformation caused under the effect of the pressure. For each window we draw a curve with 30points.
In apreceding
paper we studied theglobal
location ofpoints
in theplane "deformation-pressure"
(P. Alevizos, A. Morineau, 1992). In the présent paper we describe thedispersion
of the curves around their averagepoint.
We compareshape
of curves withouttaking
into account their location(analysis
ofshape
of curves conditional to location).Paper
ends with aproposal
tosynthetize
the wholeexperiment
on any window withonly
twospecial
parameters.Key-words: Principal
componentsanalysis.
Conditionalprincipal analysis. Comparison of
principal analyses.
1. Introduction
On
dispose
d’un tableaunumérique
concernant 56 vitrauxmastiqués
aumoyen de différents matériaux et soumis à des
épreuves
de vieillissement sousdes conditions variées. Les données recueillies au cours d’un essai constituent 30
couples
de valeurs successives : d’unepart
lapression
du vent exercée surle vitrail et d’autre
part
laflèche,
c’est-à-dire ledéplacement
sous l’effet de lapression.
On obtient donc pourchaque
vitrail unetrajectoire
dessinée avec 30points,
résultat dequatre
mois d’observations(correspondant
à environ 300 années de vieillissementnaturel).
Dans un
premier papier
on a étudié la localisation des courbes dans leplan
« flèche-pression » (P.Alevizos, A.Morineau, 1992).
On étudie ici ladispersion
descourbes autour de leur
point
moyen et on compare les « déformations » de chacun des vitraux au cours dutemps.
Ces déformations sont
consignées
dans lestrajectoires
tracées avec 30points
chacunes. Pour
étudier
les formesindépendamment
de la« localisation »,
les courbespeuvent
être aupréalable
ramenées à leur centre degravité
propre. Onprocède
alors à
l’analyse
des formes destrajectoires
conditionnée par la localisation. Ons’interrogera
ensuite surl’indépendance
entre la forme et la localisation. On utilisera des méthodes de simulation afin de valider les conclusions.2.
Typologie
des formes detrajectoires
2.1 Première étude des
formes
detrajectoires
La caractérisation des formes des courbes est un exercice difficile. Il faut tenir
compte
de lalongueur
de lacourbe,
de saplus
ou moins fortelinéarité,
de l’orientation entre lespoints successifs,
etc. Pour avoir un aperçu de la nature descourbes,
on consultera lafigure
1 où 4 des 56 courbes sontreprésentées.
Pour effectuer l’étude des formes des
courbes,
nouschoisissons, après
avoirramené
chaque
courbe à son centre degravité,
lesparamètres
suivants :- La moyenne des 5
premières
et des 5 dernières observations des variables flèche etpression (après centrage).
On aura ainsi uneindication
«robuste» de lalongueur
des courbes et de leur orientationgénérale.
-
L’écart-type
des 30 mesures de flèche et celui des 30 mesures depression :
un
écart-type petit indique
que le facteurcorrespondant
varie peu au cours del’épreuve (une
«courbe idéale»correspondrait
aux deuxécarts-types
trèspetits).
- Le coefficient de corrélation linéaire entre les mesures de flèche et de
pression :
on verra que ce coefficientpeut
être un indicateur de la linéarité de latrajectoire
et de sa direction.Le choix des moyennes des 5 observations
extrêmes,
assezintuitif,
est en faitsuggéré
par un résultat de la secondeanalyse
décrite ci-dessous. Les libellés desparamètres
retenus pour caractériser les formes sont :F*S
l’écart-type
deflèche,
P*S
l’écart-type
depression,
CORR le coefficient de corrélation entre flèche et
pression,
FD5C la moyenne centrée des 5
premières
flèchesFF5C la moyenne centrée des 5 dernières flèches PD5C la moyenne centrée des 5
premières pressions
PF5C la moyenne centrée des 5 dernières
pressions
A1*3 A2’1
Rhodorçyt - Easai Type 1 Sourabutyl - Esaai Type 1
81-1 D1.1
Mastic Traditionnel - Eaaai Type 2 Mastic Traditionnel - Euel Type 3
FIGURE 1
Dans le tableau 1 on donne les
caractéristiques statistiques
de ces 7variables,
ainsi que la matrice des corrélations.
TABLEAU 1
Pour étudier les différentes formes de
trajectoires
on effectuel’analyse
encomposantes principales
des 7paramètres
choisis pour caractériser les courbes. Le tableau 2 donnel’histogramme
desvaleurs-propres
de cetteanalyse
ainsi que les coordonnées des variables sur les 5premiers
axes.Les
figures
2 et 3 montrent la localisation des 7 variables actives ’del’analyse
en
composantes principales
dans lesplans principaux (1,2)
et(1,3)
del’analyse.
On y a
placé
les variables illustrativessuivantes, qui
sontdavantage
des indicateurs de localisation des courbes :F*M la moyenne des
flèches,
FD5 la moyenne des 5
premières
valeurs desflèches,
FF5 la moyenne des 5 dernières valeurs desflèches,
P*M la moyenne despressions,
PD5 la moyenne des 5
premières
valeurs despressions,
PF5 la moyenne des 5 dernières valeurs des
pressions.
TABLEAU 2
Pour
compléter l’analyse,
on effectue une classification des 56points
engroupes de
trajectoires semblables,
en travaillant dansl’espace
despremiers
axes factoriels. On construit un arbre
hiérarchique
en utilisant les 6 coordonnées factorielles del’analyse précédente
pour calculer les distances entrepoints.
L’arbreest
coupé
pour donner unepartition
en 10 classesreprésentées
dans lepremier plan
factoriel de
l’analyse.
Cettepartition
estreprésentée
sur lafigure
4.En se
reportant
aucatalogue
des 56 courbes(P. Alevizos, 1990),
on a pu constater que lepremier
axe oppose lestrajectoires
très courtes àgauche (courbes
en
«pelotes d’épingles»)
auxtrajectoires longues
à droite. Le deuxième axe opposeen bas les
trajectoires correspondant
à degrandes
flèches à cellescorrespondant
àde
grandes pressions
en haut.On notera sur la
figure
2 laposition
dupoint
«corrélation» à droite dupremier
axe,rappelant
que la corrélationaugmente
engénéral
avec lalongueur
destrajectoires. Cependant
lafigure
3 montre que c’est sur l’axe 3 que cette variablea la
position
la mieuxmarquée.
Le
catalogue
des 56 courbes(non publié
ici pour des raisons devolume) permet
aussi de vérifier que les classes obtenues par la classificationautomatique
contiennent effectivement des courbes aux formes très semblables. Ceci nous assure
empiriquement
que le choix des 7paramètres
utilisés pour décrire les formes était convenable.FIGURE 2
Analyse
des 7paramètres
deforme : plan
(1,2) les variables «encadrées» sont les 7 activesFIGURE 3
Analyse
des 7paramètres
deforme : plan (1,3)
les variables «encadrées» sont les 7 actives
FIGURE 4
Position des courbes dans le
plan
(1,2) On aidentifié
les 10 classes avec leurs numéros2.1.1 Simulations et tests
Grâce aux
doublons, répliques
etreprises,
on a pu s’assurer que la localisation des courbes dans leplan «flèche-pression»
n’était pas le fait du hasard(P. Alevizos,
A.Morineau, 1992). Rappelons
les définitions utilisées ici. Il y a doublon si 2 panneauxidentiques
sont soumis à la mêmeépreuve.
Il y aréplique
sil’épreuve
est
identique
mais pas réalisée en mêmetemps.
Il y areprise quand
c’est le même panneauqui
subit deuxépreuves
successives. Ainsi les doublons devraient donner des formes detrajectoires
trèssemblables ;
lestrajectoires
desrépliques pourraient
différer
davantage,
ainsi que celles desreprises.
Peut-on dire maintenant que les formes des
trajectoires
sont, comme leslocalisations,
liéesglobalement
aux facteurs del’expérience ?
On va faire une étude
analogue
à cellequi
a été réalisée sur la localisation dans leplan « flèche-pression ».
Pour effectuer cetteétude,
on utilise les résultats del’analyse
encomposantes principales
réalisée sur les 7paramètres
de forme.La
proximité
entre lespoints (dans l’espace factoriel)
est fonction de la similitude de forme destrajectoires.
On calcule les(56
x55)/2
= 1540 distances entrecouples
depoints
dansl’espace
à 7 dimensions où se trouve le nuage et on effectue des simulationsanalogues
à celles faites pour l’étude des localisations :1000
puis
4000tirages
dans chacun des cas suivants :8
couples
pour l’étude des doublons(il
y a 8doublons),
12
couples
pour l’étude desrépliques (il
y a 12répliques),
4
couples
pour l’étude desreprises (il
y a 4reprises).
Les résultats sont
consignés
dans le tableau 3.TABLEAU 3
Tests sur les doublons,
répliques
etreprises
Il
apparaît
ici queprès
de 10 % des moyennes de 8couples pris
au hasardsont aussi extrêmes que la moyenne observée sur les 8 doublons. Ainsi les formes
des
trajectoires
de doublons ne sont pas « réellement » ressemblantes : elles se ressemblent àpeine plus
que destrajectoires
tirées au hasard.Par contre les
trajectoires
desrépliques,
assezcurieusement,
sont très sem- blablespuisque
seulement dans 3 cas sur 4000 on obtient une moyenne des 12 dis- tancesplus
faible que la moyenne des distances entre les 12répliques
observées.Les formes des
trajectoires
dereprises paraissent également
« assez similaires »(2
%seulement des simulations donnent des résultats
plus
extrêmes quel’observation).
On arrive donc à un résultat assez
surprenant. L’analyse
factorielle et laclassification,
donnant des résultats vérifiables sur les courbeselles-mêmes,
nousassurent que la distance entre
points
dansl’analyse
encomposantes principales
estune bonne mesure de la similitude des
trajectoires.
Les simulationsentreprises
àpartir
de ces distances montrentcependant
que, contrairement à cequ’on pouvait attendre,
lestrajectoires
associées aux doublons ne sont pas très semblables et(curieusement)
celles associées auxrépliques
sont assezanalogues.
Le résultat estmoins tranché dans le cas des
reprises.
Aucuneexplication
satisfaisante n’a été trouvée.2.2 Deuxième étude des
formes
detrajectoires
L’objet
de cetteanalyse
est d’effectuer une étude des formes destrajectoires
àpartir
destrajectoires proprement
dites(et
non àpartir
deparamètres
deforme),
ens’arrangeant
pour que lescomparaisons
ne tiennent pas compte des localisations destrajectoires
dans leplan « flèche-pression
». Les résultats seront ensuite confrontésaux résultats de
l’analyse précédente.
Chaque trajectoire
est définie par 30couples
de valeursflèche-pression,
numérotés de 1 à 30. Le tableau des données est constitué de 56
lignes représentant
les 56
trajectoires
et de 2 fois 30 colonnes définissant la forme de latrajectoire.
Afin d’éliminer l’effet de
localisation,
on amènechaque trajectoire
à avoir pourorigine
son propre centre degravité.
Onremplace
donc les 30 valeurs de flèche d’unetrajectoire
par les valeurs centrées sur leur propre moyenne. On fait de même pour les 30 valeurs depression.
Le tableau ainsi obtenu est soumis à une
analyse
encomposantes principales
effectuée sur la matrice des corrélations. Les variables actives de
l’analyse
sontles 60
paramètres quantitatifs.
On utilisera aussi comme variables illustratives lesparamètres
del’analyse précédente.
Le tableau 4 donne
l’ histogramme
des valeurs propres et montrel’importance
du
premier plan
factoriel. Les 10premiers
axes factoriels contiennentplus
de 96 %de l’inertie totale des nuages.
Les
figures
5 et 6 concernent les variables actives del’analyse.
Elles situent d’unepart
les 30 mesures depression,
d’autrepart
les 30 mesures de flèche. Lespoints
sont numérotés et reliés dans l’ordrechronologique
des mesures.On constate la forte corrélation entre les
premières
et entre les dernièresmesures, aussi bien pour la
pression
que pour la flèche. Les deux groupes extrêmes sont reliés par un chemin«chronologique»
assezrégulier (bien
que letemps, naturellement,
ne soit paspris
encompte explicitement
dansl’analyse).
L’observation de deux
figures
nous montre que, dans les deux cas, letemps
s’écouleTABLEAU 4
dans la direction du
premier
axe. Le second axesépare
lapression (première bissectrice)
de la flèche(deuxième bissectrice).
Dans le
premier plan
factoriel de cetteanalyse,
onreprésente
aussi(figure 7)
laprojection
en variablessupplémentaires
desparamètres
de forme utilisés dansl’analyse précédente.
Cettefigure
est très semblable à laconfiguration
des mêmesvariables dans le
premier plan
factoriel de lapremière analyse (voir
lafigure 2).
Dans ces
conditions,
tous lesgraphiques
dans lepremier plan
factorielréalisés dans l’une ou l’autre
analyse
seront très semblables. On en conclut que les 7paramètres
choisis pour caractériser les formes fournissent essentiellement la même information que les 30couples flèche-pression.
On notera
également
que le choix desparamètres
«moyennes des 5 valeurs extrêmes» commecaractéristiques
de forme estjustifié
ici par la forte corréla- tion entre ces valeurs extrêmes. Enprenant
ces moyennes, on a stabilisé(ou
«robustifié»)
l’estimation des extrémités destrajectoires.
La classification
qui
suit cetteanalyse,
effectuée sur les 10premiers facteurs,
fournit une
partition
en 9 classesqui
ressemblebeaucoup
au classement des courbes obtenuaprès l’analyse
des 7paramètres
de forme. Le tableau 5 montre lacorrespondance
entre les classes des deux classifications. On remarquera que laplupart
des classes se retrouventintégralement
dans les deuxpartitions.
Lasimilitude des résultats ne concerne donc pas seulement les deux
premiers
axesfactoriels mais l’ensemble de la
configuration.
FIGURE 5
Deuxième
analyse des formes :
les 30
pressions
activesFIGURE 6
Deuxième
analyse
desformes :
les
30 flèches
activesFIGURE 7
Deuxième
analyse des formes :
les 13 variables illustratives les 7 variables «encadrées» sont les actives de lapremière analyse
TABLEAU 5
Croisement des
partitions
issues des 2analyses
sur lesformes
en
ligne :
les10 classes de lapremière analyse
en colonne : les 9 classes de la seconde
analyse
2.3 Troisième étude desformes
destrajectoires
On
peut simplifier
encore ladescription
destrajectoires
en utilisant deuxparamètres
seulement : lalongueur
de latrajectoire
et sa direction dans leplan
«
flèche-pression ».
e la
longueur
de latrajectoire
est mesurée par la distance entre les« points
moyens extrêmes ». Cespoints
ont pour coordonnées dans leplan « flèche-pression »
lesmoyennes centrées des 5 valeurs
extrêmes,
e la direction de la
trajectoire
est mesurée parl’angle
de la droitejoignant
les«points
moyens extrêmes » avec l’axe horizontal(qui
est ici laflèche).
On
jugera
cesparamètres
suffisants et satisfaisants s’ilspermettent
de retrou-ver la
typologie
des courbes établie par lesanalyses précédentes.
Ces deux
paramètres peuvent
êtres considérés comme les coordonnées po- laires d’unpoint
dans unplan,
laposition
de cepoint représentant
alors la forme de latrajectoire.
Dans ceplan,
lespoints proches représentent
des courbesqui
seressemblent
(comme
dans unplan
factorield’analyse).
Ramené à des coordonnées
cartésiennes,
ceplan
est donné par lafigure
8. Lerésultat est
remarquablement proche
desplans
factoriels issus des deuxanalyses
précédentes.
On s’enaperçoit
aisément enfigurant
parexemple
les 10 classes de latypologie
réalisée avec les 7paramètres
de forme. Leplan
obtenue iciapparaît
FIGURE 8
Plan
« longueur-angle » :
onreprésente
les 10 classes obtenuesaprès
lapremière
étude sur les 7 paramètres desformes
analogue (à
une rotationprès
de 45degrés)
aupremier plan
factoriel de lapremière analyse (voir figure 4).
On en concluera que les deux
paramètres
choisis pour décrire la forme des courbes fournissent essentiellement la même information que les 7paramètres
deformes
(semblable
donc aux 60 variables initialesaprès centrage).
A ce
stade,
on peut résumer lesanalyses
de lafaçon
suivante. Pourchaque vitrail,
le résultat del’épreuve
estsynthétisable
par 4 valeurs :- 2 valeurs caractérisent la «localisation» : moyenne sur les 30 mesures de la
pression
et de laflèche,
- 2 valeurs caractérisent la « forme » : la
longueur
et la direction de latrajectoire
mesurées comme on l’a
indiqué.
Remarque
On a décrit deux
analyses :
avec 7paramètres
pour lapremière
et 60 pa- ramètres pour la deuxième. On a réaliséégalement l’analyse globale
forme etlocalisation sur les 4
paramètres
ci-dessus(qui
n’est pas décrite en détailici).
On aconstaté que ces trois
analyses
donnent des résultats trèsproches.
Pour confirmerles résultats obtenus
ci-dessus,
on arécupéré
les coordonnées des individus(les
56
courbes)
sur les axesprincipaux
issus des troisanalyses.
Le tableau 6 donne la matrice des corrélations entre les troispremiers
facteurs desanalyses (désignés
par«iFI»,
«iF2» et«iF3» avec 2 =1, 2, 3).
TABLEAU 6
On observe que le
premier plan
factoriel de lapremière analyse
est trèssemblable à celui de la
deuxième,
etcorrespond
à une rotationprès
de 45degrés
aupremier plan
de la troisièmeanalyse (la
troisièmeanalyse
n’est pas conditionnelle par rapport à lalocalisation).
3. Conclusion
La motivation
principale
de cette étude était ladescription
des formesd’objets
assez
complexes :
destrajectoires planes quelconques
décrites par 30points.
On amis en concurrence une
analyse
réalisée sur 7paramètres
choisis pour caractérisera
priori
les formes et une secondeanalyse
sur les données brutes. Pour quel’analyse
sur les données brutes ne décrive que lesformes, indépendamment
de lalocalisation de la
trajectoire
dans leplan,
on a réalisé uneanalyse
«conditionnelle à la localisation » en centrantchaque trajectoire
sur sonpoint
moyen.La
comparaison
des résultats est réalisée par l’intermédiaire des coordonnées despoints
sur les axes factoriels des deuxanalyses.
Lesanalyses
sont« identiques »
dans le sous-espace des
premiers
facteurs si les coefficients de corrélation sur lesaxes de même rang sont
proches
de 1(en
valeurabsolue)
et si les coefficients sontproches
de 0 sur les axes de rangs différents.On a pu contrôler de cette
façon
que les 7paramètres caractéristiques
de laforme contenaient bien toute l’information utile pour décrire les
trajectoires.
Dansle souci d’une économie encore
plus grande
deparamètres,
on a pu déterminer que 2 variables étaient suffisantes poursynthétiser globalement
la forme destrajectoires (longueur
etdirection).
Cette étude
empirique peut
être considérée comme unexemple simple
d’utilisation des
techniques exploratoires
multidimentionnelles pour aborder leproblème
du choix«optimal»
d’un nombre minimum deparamètres
décrivantcorrectement un
phénomène
assezcomplexe.
Bibliographie
ALEVIZOS P.
(1990). Analyse
Factorielle Conditionnelle etAnalyse
de la Struc-ture, Thèse de Doctorat de l’Université Paris
VI,
Juin1990,
Paris.ALEVIZOS
P.,
MORINEAUA., (1992).
Tests et Valeurs-Tests.Application
àl’Etude des Mastics
Utilisés
dans la Fabrication desVitraux,
Revue deStatistique Appliquée,
Vol.40,
n°4,
pp. 27-43.BETTEMBOURG
J.M.,
BURCKJ.J.,
DRIVIEREJ.,
HENRY J.P.(1984). Influence
des Mastics sur le
Comportement
des Panneaux de Vitraux, 10èmecongrès
international de
l’IIC, Paris, Septembre
1984.LEBART
L.,
MORINEAUA.,
TABARD N.(1977). Techniques
de laDescription Statistique,
Méthodes etLogiciels
pourl’Analyse
des GrandsTableaux,
Dunod.
LEBART