R EVUE DE STATISTIQUE APPLIQUÉE
A. B ACCINI J. R. M ATHIEU A. M. M ONDOT
Comparaison, sur un exemple, d’analyses des correspondances multiples et de modélisations
Revue de statistique appliquée, tome 35, n
o3 (1987), p. 21-34
<http://www.numdam.org/item?id=RSA_1987__35_3_21_0>
© Société française de statistique, 1987, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
21
COMPARAISON, SUR UN EXEMPLE,
D’ANALYSES DES CORRESPONDANCES MULTIPLES
ET DE MODÉLISATIONS
A.
BACCINI,
J.R. MATHIEU et A.M. MONDOT Laboratoire de Statistique et Probabilités, U.A.-C.N.R.S. 745, Université Paul Sabatier 118, route de Narbonne, 31062 Toulouse CedexStatistique Appliquée,
1987,RÉSUMÉ
Dans cet article, on montre comment des
Analyses
Factorielles des CorrespondancesMultiples
(A.F.C.M.) et certaines modélisations peuvent être utiliséesconjointement
surdes données volumineuses. Dans une
phase exploratoire,
diverses A.F.C.M. permettent desimplifier
sensiblement les données et de définir dessous-populations
«homogènes
». Surces dernières, une modélisation permet de
quantifier
les liaisons entre variables et deprocéder,
dans certains cas, à de nouvellessimplifications.
Uneméthodologie
du traite-ment de données volumineuses (pouvant inclure d’autres méthodes telles que la segmen-
tation)
est ainsi esquissée, dans laquelle un contrôle mutuel des différentestechniques
peut être réalisé.Mots clés :
Analyse
desCorrespondances,
Modélisations,Comparaison
de méthodes, Donnéesvolumineuses.
SUMMARY
In this article, we illustrate how
Multiple Correspondence Analyses
(M.C.A.) andmodelling
methods can bejointly
used on a large data set. In an exploratory stage, several M.C.A. allow to reduce the data (thusobtaining
a smaller set of variables and of levels)and to define
homogeneous sub-populations
of interest. Then, eachsubpopulation being
treated
separately, modelling
methods enable to express the links between the different variables and lead, in some cases, to further reductions. Thisprovides
some clues to seta
general methodology
for the statistical treatment oflarge
data sets, of which the mutual control of the different technics (M.C.A. andmodelling)
is aninteresting
feature.1. Introduction
Le Secrétariat Général de l’Université Paul Sabatier
(U.P.S.)
de Toulousea
constitué, depuis 1971,
unebanque
de données relative aux étudiants del’Université,
àlaquelle
nous avons pu avoir accès. Lapopulation
étudiée dansun
premier
temps était l’ensemble des étudiants de l’U.P.S. :- inscrits dans l’une des trois U.E.R.
(Unités d’Enseignement
et deRecherche) scientifiques :
M.I.G.(Mathématiques, Informatique
etGestion),
P.C.A.(Physique,
Chimie etAutomatique),
Sciences Naturelles;- ayant
pris
leurpremière inscription
à l’U.P.S. entre 1971 et 1979;- ayant achevé ou arrêté leurs études au
plus
tard en 1981(c’est-à-dire
inscritsà l’U.P.S. ni en
1981-1982,
ni en1982-1983).
22 A. BACCINI, JR. MATHIEU, A.M. MONDOT
Après
unpremier
tri du fichier(suppression
des données manquantes ouaberrantes),
nous avons considéré 9 232 étudiants.Les variables trop
particulières (renseignements
sur des unités devaleur,...) n’ayant
pas étéprises
en compte, nousdisposions
audépart
de 13variables,
toutescatégorielles,
comportant un total de 77 modalités :- sexe
(2);
- nationalité
(6) : française, européenne
nonfrançaise, asiatique,
africaine nonmaghrébine, maghrébine,
autre;- C.S.P.
(catégorie socio-professionnelle
des parents,10) : agriculteurs exploi-
tants, ouvriers
agricoles,
patrons de l’industrie et du commerce,professions
libérales et cadres
supérieurs,
cadres moyens,employés, ouvriers, personnels
de
service,
autrescatégories,
sansprofession;
- série de bac
(baccalauréat) (6) :
sériesA,
sériesB,
G et H(une
seulemodalité),
séries C et E
(même chose),
sériesD,
sériesF, équivalence
dubac;
- mention au bac
(5) :
trèsbien, bien,
assezbien, passable,
sansobjet (cette
dernière modalité concerne non seulement les étudiants ayant uneéquivalence
du
bac,
mais aussi ceuxqui
ayant le bac n’en ont pasprécisé
lamention);
-
âge
d’obtention du bac(12) :
16 ans, 17 ans, 18 ans, 19 ans, 20 ans, 21 ans,22 ans, 23 ans, 24 ans, 25 ans, 26 ans et
plus,
sansobjet;
- lieu d’obtention du bac ou de
l’équivalence (4) : Haute-Garonne, départe-
ments
périphériques,
reste de lamétropole, étranger;
- U.E.R. de rattachement
(3) : M.I.G., P.C.A.,
SciencesNaturelles;
- niveau atteint en
quittant
l’U.P.S.(7) :
aucundiplôme, première
année dupremier cycle, premier cycle, licence, maîtrise,
D.E.A.(Diplôme
d’EtudesApprofondies), doctorat;
- durée d’obtention du
premier cycle (5) :
1 an(équivalence
de lapremière année),
2 ans, 3 ans, 4 ans etplus,
sansobjet;
- durée d’obtention de la licence
(5) :
1 an, 2 ans, 3 ans, 4 ans etplus,
sansobjet;
- durée d’obtention de la maîtrise
(4) :
1 an, 2 ans, 3 ans etplus,
sansobjet;
- durée totale des études à l’U.P.S.
(8) :
1 an, 2 ans, 3 ans, 4 ans, 5 ans, 6 ans,7 ans, 8 ans et
plus.
Compte-tenu
del’importance
de cefichier,
et dans la mesure où ils’agissait d’étudier,
defaçon
trèsgénérale,
les facteurs de la réussite et del’échec,
la part desanalyses exploratoires
a été trèsimportante
dans ce travail.2.
Analyses exploratoires préliminaires
L’objectif était,
au moyen d’unesimplification
des données(suppression
devariables peu
influentes,
regroupement de modalités voisines d’une mêmevariable, ...), d’essayer d’y
trouver une certaine structure. Enparticulier,
le niveauatteint et les variables de durée
(durée totale,
durée dupremier cycle, ...)
pouvant, defaçon naturelle, jouer
le rôle de variables àexpliquer,
nous souhaitions savoir dansquelle
mesure il étaitpossible
de lesexpliquer
au moyen des autres.Nous avons dans cette
phase
utilisé desAnalyses
Factorielles des Corres-pondances Multiples (A.F.C.M.),
cettetechnique
nousparaissant
laplus
appro-priée
à ce type de situation. Sauf indicationscontraires,
les A.F.C.M. réaliséesont consisté à faire
l’Analyse
desCorrespondances
usuelle sur le tableau de Burtassocié aux variables considérées. Le
logiciel
utilisé est lelogiciel
E.P.A.D.(Enseignement
etPratique
del’Analyse
desDonnées),
sur le Centre Interuniversi- taire de Calcul de Toulouse. Celogiciel,
d’utilisation assezcommode, comporte
les programmes
classiques d’analyse
des données(analyse
en composantesprincipales, analyse
descorrespondances, analyse discriminante,
classificationhiérarchique)
ainsiqu’un
programme de tri et de recodification de données et unprogramme de
préparation
àl’analyse
descorrespondances multiples
construisant tableau de Burt ou tableaudisjonctif complet.
2.1.
Analyses
des donnéescomplètes
Les
premières analyses
nous ontpermis
de réduire à 55 le nombre total desmodalités des 13 variables. Les trois
premiers
axes de l’A.F.C.M. des données ainsi réduitesreprésentent respectivement
27%,
13 % et 6 % de l’inertie totale(les
valeurs propres étant
0,103 0,053
et0,022).
Lepremier
axe est très lié au niveauatteint et aux variables de
durée;
le deuxième axe est essentiellementexpliqué
par la
position
très à part des étudiants de nationalitéétrangère
et des modalitésqui
leur sont liées(équivalence
dubac, ...); enfin,
l’axe3, d’interprétation plus délicate,
oppose, d’uncôté,
les mentions très bien oubien,
les séries C ouE,
les U.E.R. M.I.G. et P.C.A. et, d’un autrecôté,
lesfilles,
les bacsD,
la mentionpassable
et l’U.E.R. de Sciences Naturelles. Le faitimportant
à noter estl’orthogonalité
des variables pouvantjouer
le rôle de variables àexpliquer (niveau
atteint et variables de
durée),
liées à l’axe1,
avec l’ensemble des 8 autres variables.Un modèle de type
explicatif
pour l’ensemble des données ne semble donc paspouvoir
êtreenvisagé.
2.2. Autres
analyses
Compte-tenu
de laposition
trèsparticulière
des étudiants de nationalitéétrangère
et du fait que, leplus
souvent titulaires d’uneéquivalence
du bacca-lauréat,
ils ontfréquemment
le mêmeprofil
deréponse
aux 4 variables relatives à cediplôme,
nous avons été amenés à faire deuxanalyses
distinctes :2022 A.F.C.M. des étudiants de nationalité
française
et titulaires du bacca- lauréat(l’effectif
est de8142) :
les deuxpremiers
axes résumentrespectivement
28 % et 7 % de l’inertie totale
(valeurs
propres :0,102
et0,027);
l’axe 1représente,
comme dans
l’analyse précédente,
le niveau atteint et les variables dedurée,
tandis que l’axe 2 a sensiblement la mêmesignification
que l’axe 3 del’analyse précédente.
Si l’onsupprime
les variables dedurée,
lepremier plan, représentant
35 % de l’inertie
totale,
est difficile àinterpréter,
tandis que le troisième axe(9 %) représente
le niveauatteint,
cette variable étantorthogonale
à toutes les autres;2022 A.F.C.M. des étudiants de nationalité
étrangère :
les résultats de cesanalyses,
trèsconfus,
n’ont paspermis
dedégager
unequelconque
structure surcette
sous-population
de 1025 étudiants. Pour cetteraison,
nous n’avons paspoursuivi
l’étude sur les étudiantsétrangers.
Pour les étudiants de nationalité
française
et titulaires dubaccalauréat,
ilnous a paru
souhaitable,
à cestade,
de faire desanalyses
distinctes selon le niveau atteint. Nous avons pour cela réalisé quatre sériesd’analyses :
24 A. BACCINI, J.R. MATHIEU, A.M. MONDOT
2022 pour les étudiants
n’ayant
obtenu aucundiplôme,
ou seulement lapremière
année dupremier cycle :
les résultats de cesanalyses, également
trèsconfus,
n’ontpermis
aucuneinterprétation,
sans doute à cause dumélange
desétudiants en situation d’échec et de ceux des classes
préparatoires,
inscrits àl’Université et ne passant pas les examens de
premier cycle
car reçus à un concours;2022 pour les étudiants ayant obtenu
uniquement
lepremier cycle;
cette séried’analyses
et la suivante sontprésentées
en détails dans lesparagraphes
3 et 4;2022 pour les étudiants ayant obtenu
uniquement
le deuxièmecycle;
2022 pour les étudiants ayant obtenu un
diplôme
de troisièmecycle :
peu nombreux(310),
dans des situations souvent trèsdifférentes,
ces étudiantsforment une
population
trèshétérogène;
lesanalyses
les concernant n’ont pu êtreinterprétées
clairement et n’ont pas étépoursuivies.
3.
Analyses
des étudiants de nationalitéfrançaise,
titulaires dubaccalauréat,
et
ayant
obtenu le DEUGLe DEUG
(Diplôme d’Enseignement
UniversitaireGénéral)
est lediplôme
sanctionnant la fin du
premier cycle.
Dans unpremier
temps, lesanalyses
ontété faites sur la
sous-population
issue de celle décriteplus
haut; dans un second temps, elles ont été recommencées enrajoutant
les étudiants ayant achevé leurcursus en 1982 ou en 1983
(nous
avons réutilisé labanque
de donnéesaprès
miseà
jour).
Ces deux ensemblesd’analyses
ayant donné sensiblement les mêmesrésultats,
nousprésentons
lesdernières, plus complètes.
3.1.
Analyses exploratoires
Nous avons tout d’abord considéré les étudiants ayant eu le DEUG et aucun
autre
diplôme
à l’U.P.S. Ils sont813,
et 9 variables à 35 modalités ont été considérées audépart (les
variablesinopérantes
sur cettesous-population
sont lanationalité,
le niveauatteint,
la durée d’obtention de la licence et la durée d’obtention de lamaîtrise).
Les A.F.C.M. effectuées successivement nous ontconduits à ne retenir finalement que 4 variables à 14 modalités :
- série de bac
(3) :
sériesA, B, F,
G et H(codées
BFGH dans lesgraphiques),
séries C et E
(bCbE),
séries D(bac D);
- mention au bac
(4) :
très bien ou bien(TBBI),
assez bien(ABIE), passable (PASS),
inconnue(me??;
cesétudiants,
titulaires dubac,
n’ont pas déclaré demention;
laplupart
d’entre eux ont vraisemblablement obtenu la mentionpassable);
-
âge
d’obtention du bac(4) :
avant 18 ans(a 18),
18 ans(a
=18),
19 ans(a
=19), après
19 ans(a
>19);
- durée d’obtention du
premier cycle (3) :
2 ans(lcy2),
3 ans(lcy3),
4 ans ouplus (lcy4);
on notera que les étudiants ayant obtenu lepremier cycle
en unan, peu nombreux et en situation
particulière,
ont été retirés de cette séried’analyses.
25
FIGURE 1
Analyse
desCorrespondances Multiples
des étudiants de nationalité française titulaires du baccalauréat et ayant obtenu le DEUG : 4 variables (série de bac, mention, âge d’obtentiondu bac, durée d’obtention du premier
cycle)
à 14 modalités; 813 étudiants.La
figure
1 donne leplan principal
fourni par l’A.F.C.M. de ces données.Le
premier
axe(associé
à une valeur propreégale
à0,15
et résumant 23 % de l’inertietotale)
est facilementinterprétable :
ilreprésente
un effet taille lié àchaque
variable et ordonne la durée dupremier cycle (de
2 ans à 4ans), l’âge
au bac
(des plus jeunes
auxplus âgés),
la mention au bac(de
la meilleure à la moinsbonne)
et la série de bac(des plus scientifiques
aux moinsscientifiques).
Le deuxième axe
(valeur
propre :0,08;
inertie : 12%)
semble opposer les extrêmesen haut
(mentions
très bien ou bien et bac à moins de 18 ans ainsi que bacA, B, F,
G ou H et bac àplus
de 19ans)
aux moyens en bas(mention
assezbien,
bac à 18 ans et
premier cycle
en 3ans).
Le troisième axe(valeur
propre0,07;
inertie : 11
%)
est,lui, ininterprétable.
On trouve ainsi dans lepremier plan principal
ce que l’onappelle
l’effet Guttman(voir BENZECRI, 1973,
ouVOLLE, 1985), correspondant
bien à la structure ordonnée dechaque
variable. Lareprésentation graphique
des individus àpartir
du tableaudisjonctif complet
montre que la
plupart
d’entre eux se situent autour de la «parabole »
définie par les modalités des variables(nous
nereprésentons
pas cegraphique
car il est tropconfus);
enparticulier,
on ne trouve aucun étudiant dans la zone située vers le26 A. BACCINI, J.R. MATHIEU, A.M. MONDOT
« sommet » de l’axe
2,
cequi
aurait pu dénoter chez certains un comportementen
opposition
avec l’ensemble. Au vu de larégularité
de cesrésultats,
on peut donc s’attendre àexpliquer
correctement la durée d’obtention dupremier cycle
au moyen des trois autres variables.
Afin de confirmer les résultats obtenus par
l’A.F.C.M.,
nous avons souhaité utiliser un modèlelog-linéaire
sur ces données. Lapremière
constatation est que cela n’est pas directementpossible,
compte-tenu du faible effectif des sériesA, B, F,
G et H(16 étudiants)
et dugrand
nombre de cellules vides que cela entraîne.Nous avons donc décidé de ne pas considérer ces étudiants et de traiter
uniquement
les 797 étudiants restants. Une A.F.C.M. sur ces nouvelles données conduit aux mêmes conclusions que laprécédente.
Dans la modélisation
log-linéaire (effectuée
sous lelogiciel GLIM)
nousavons recherché un modèle convenable -den prenant comme critère de choix la déviance de ce
modèle, qui
est lastatistique
du test du rapport devraisemblance,
c’est-à-dire deux fois la différence entre lelogarithme
du maximum de vrai-semblance dans le modèle saturé
(où
il y a autant deparamètres
que d’obser-vations)
et lelogarithme
du maximum de vraisemblance dans le modèle -d. On sait que si le modèle JI! est vérifié par lesobservations,
cettestatistique
estasymptotiquement
distribuée suivant une loi du khi-deux centrée dont la moyenne est sondegré
deliberté;
parsuite,
si la déviance d’un modèle est de l’ordre dudegré
deliberté,
on considère que ce modèle estacceptable.
En
l’occurrence,
le modèlelog-linéaire
oùfigurent
les quatre variables et leurs interactions d’ordre 1(les
seulesprises
en compte parl’A.F.C.M.)
a unedéviance de 66 pour un
degré
de liberté de 57.L’analyse
des résidus standardisés confirmel’adéquation
de ce modèle aux données : seuls 2 résidus sur 96 ont desvaleurs absolues
dépassant
2(2,04
et2,86).
Deplus,
aucune des quatre variablesne semble devoir être
omise,
cequi
confirme que les A.F.C.M. ont bien mis enévidence les variables structurant les données considérées.
Par
ailleurs,
afin desimplifier
encore lesdonnées,
nous avons souhaité regrouper les modalités de la variable mention au bac en seulement deux niveaux : « avec mention »(ment :
regroupement de TBBI et deABIE)
et « sans mention »(ssme :
regroupement de PASS et deme??);
ces regroupementssemblent,
apriori, naturels,
ne sont pas contradictoires avec les coordonnées sur l’axe 1 de l’A.F.C.M. et permettent d’obtenir un modèlelog-linéaire
avecinteractions d’ordre 1 très
acceptable :
déviance de 24 pour 23degrés
deliberté,
les deuxplus importants
résidus standardisés valant1,28
et1,80,
tous les autres étant inférieurs à1,2.
Nous avons donc décidé de faire ces regroupements et lafigure
2 donne lepremier plan principal
de l’A.F.C.M. de ces donnéessimplifiées.
Son
interprétation
demeureanalogue
auxprécédentes.
Enfin,
les modélisationsqui
suivent(voir paragraphe 3.2)
ayant pourobjectif d’expliquer
la variable durée du DEUG en fonction des trois autres, nousavons achevé les
analyses exploratoires
en faisant uneAnalyse
desCorrespon-
dances
simple
sur le tableau croisant la durée du DEUG avec ces trois variables(ce
tableau est extrait du tableau de Burt traité dans l’A.F.C.M.précédente).
Lesrésultats dans le
plan principal
en sontprésentés
dans lafigure
2bis et ne fontque confirmer les liaisons entre variables apparues dans les
analyses précédentes.
27
FIGURE 2
Analyse
desCorrespondances Multiples
des étudiants de nationalitéfrançaise
titulaires du baccalauréat et ayant obtenu le DEUG : 4 variables (série de bac, mention, âge d’obtentiondu bac, durée d’obtention du premier
cycle)
à Il modalités; 797 étudiants.FIGURE 2bis
Analyse
desCorrespondances simple
de la mêmepopulation
(797 étudiants) croisant la durée d’obtention du premiercycle
(3 modalités) avec la série du bac, la mention etl’âge
d’obtentiondu bac (8 modalités en tout).
On notera que la contraction de l’échelle de l’axe 2 fait
disparaître
dans ce casl’effet Guttman.
3.2. Modélisations
Nous avons
souhaité,
dans cettepartie, expliquer
la durée d’obtention du DEUG par les conditions d’obtention du baccalauréat.28 A. BACCINI, J.R. MATHIEU, A.M. MONDOT
Dans la
catégorie
des étudiants ayant obtenu le DEUGaprès
avoir obtenu le bac àl’âge
a(a
=1, 2,
3,4),
dans la série s(s
=1, 2)
et avec la mention m(m
=1, 2),
on notePasm (resp. Pa Pas
lesprobabilités
d’obtention du DEUG en 2 ans(resp.
3 ans, 4ans),
et on se proposed’expliquer Pasm
etpâsm
selon des modèleslogistiques,
c’est-à-dired’expliquer
suivant des modèles
simples (autant
quepossible additifs).
Remarque :
Le modèlelogistique
est en fait celuiqui
est apparu leplus approprié après
p divers essais sous GLIM. Parailleurs,
le choix deasm Pasm plutôt
quePasm 3 1 - Pasm
tient au fait que 1 -
pâsm
vautpLn
+pâsm,
somme desprobabilités
de deuxévénements
(obtention
du DEUG en 2 ans et obtention en 4ans) qu’il
est difficiled’opposer
ensemble à l’obtention en 3 ans.3.2.a.
Explication
deLog
Avec le modèle sans interactions, où les effets des facteurs s’additionnent les
uns aux autres pour reconstituer
Log Pasm 2
on obtient uneexplication plutôt 1 - Pasm
satisfaisante des données
(déviance
de 14 pour 10d.d.l.).
Dans ce modèle -/{( de référence », on peut
éprouver
unehypothèse
Ho avecle test du rapport de
vraisemblance
dont lastatistique
T est deux fois la différencedes
logarithmes
des maxima de la vraisemblance d’une part dans le modèle-ë,
d’autre part sous Ho ; si Ho estvraie,
cettestatistique
estasymptotiquement
distribuée comme une loi du khi-deux dont le
degré
de liberté est le nombre de contraintesimposées
par Ho.En
l’occurrence, éprouvons
chacune deshypothèses exprimant
l’absenced’effet d’un facteur :
pour le facteur a : Ta ==
14,77
pour 3degrés
deliberté;
pour le facteur s : Ts =
19,78
pour 1degré
deliberté;
pour le facteur m : Tm =
24,04
pour 1degré
de liberté.On est donc amené à conclure à l’effet
significatif
dechaque
facteur.D’après
les estimations des
paramètres
mesurant les effets de ces 3facteurs, Pasm 2
1 - Pasma une valeur de3,50 (correspondant
à 7 succès en 2 ans pour 2 succès en 3 ou 4ans)
pour les étudiants ayant obtenu le bac C ouE,
à moins de 18 ans et avecmention;
pour les autrescatégories,
la valeur dePasm 2
se déduit de la valeurprécédente
en la1 -
Pasm
multipliant
par un « coefficient d’abattement » ayant pour valeur :0,70
pour les bac à 18 ans;0,48
pour les bac à 19 ans;0,34
pour les bac àplus
de 19 ans;0,47
pour les bac D;0,43
pour les bac « sans mention ».Ainsi,
pour les étudiants se trouvant dans la situation la moins favorable(bac
D à
plus
de 19 ans et sansmention),
la valeur dePasm 2
1 -Pasm
est3,5
x0,34
x0,47
x
0,43 = 0,24,
soit un succès en 2 ans pour 4 succès en 3 ou 4 ans.3.2.b.
Explication de Log p3asm 4.
pasmDans le modèle
additif,
on a une bonneexplication
des données(déviance
de7 pour 10
d.d.1.),
lesstatistiques
T ayant ici pour valeurs : Ta =0,35
pour 3degrés
deliberté;
Ts =
8,86
pour 1degré
deliberté;
Tm =
4,41
pour 1degré
de liberté.On est donc amené à considérer que
l’âge
n’aplus d’influence,
mais que les facteurs s et m conservent leur effet.D’après
les estimations desparamètres,
le rapportthéorique
du nombre de reçus en 3 ans au nombre de reçus en 4 anss’obtient pour
chaque
niveau des facteurs s et m comme leproduit
d’un taux debase de
5,19 (pour
les bac C ou E avecmention)
par les coefficients d’abattement suivants :0,51
pour les bac D;0,53
pour les bac « sans mention ».3.2.c.
Remarque
Pour contrôler la cohérence des deux modélisations
ci-dessus,
on a recherchéune modélisation de
Pasm 4
1 - un modèle convenable est celui oùLog Pasm 4
Pasm 1 -
Pasm
est
expliqué
par les deux facteurs série de bac etmention,
dont les effetss’interprè-
tent facilement
(modèle
sansinteractions).
De ces différentesmodélisations,
on déduit des estimationsp2, p3
etp4
des vecteursp2, p3
etp4
de R16. On examine ensuite si le vecteurp2
+p3
+p4
est voisin du vecteur 1. Enl’occurrence,
ce vecteur atoutes ses composantes
comprises
entre0,95
et1,06,
cequi
nous semble assezcohérent.
3.3.
Analyses complémentaires
3.3.a.
Segmentation
Nous avons,
toujours
sur les mêmesdonnées,
réalisé unesegmentation (voir
BACCINI et
LAMBERT, 1986,
pour la méthode et leprogramme)
avec la duréed’obtention du DEUG comme variable à
expliquer
etl’âge
aubac,
la série et la mention comme variablesexplicatives.
La variableapparaissant
comme laplus
liéeà la durée est la série de bac
(khi-deux
de35,7
pour 2degrés
deliberté,
trèssignificatif),
suivie de lamention;
conditionnellement aux deux variablesprécé-
30 A. BACCINI, J.R. MATHIEU, A.M. MONDOT
dentes, l’âge
au bacapparaît
comme peuexplicative.
Tout en confirmant les résultatsprécédents,
cette méthode permet d’obtenir une hiérarchie des 3 variablesexplicatives (prises séparément)
dans leur liaison avec la durée d’obtention du DEUG.3.3.b. Etude des mêmes variables sur la
sous-population
des étudiantsayant
obtenu la maîtriseLes études
précédentes
ayant été réalisées sur les seuls étudiants ayant obtenuuniquement
le DEUG àl’U.P.S.,
nous avons, à titre decomparaison, analysé
lesrésultats au DEUG des étudiants titulaires de la Maîtrise
(diplôme
de fin du secondcycle).
Les A.F.C.M. mettent en évidence les mêmes variables queprécédemment
et,
après simplifications analogues,
on obtient des résultats tout à fait voisins.En ce
qui
concerne la modélisation deLog Pasm
on obtient une très1 - Pasm
bonne
explication
des observations avec un modèle sans interactions(déviance
de2 pour 10
d.d.l.).
Les trois facteurs ont uneffet,
mais l’on peut regrouper les troispremières catégories
del’âge
d’obtention du bac(inférieur
à 18 ans, 18 ans et 19ans). )
On obtient alors les valeurs suivantes pour pLog 1 - Pasm 2
Pasm le taux de baseest
3,42
pour lesplus jeunes qui
ont obtenu un bac C ou E avecmention;
lescoefficients
d’abattement,
avec un effetmultiplicatif,
sont alors :0,51
pour les bac àplus
de 19 ans;0,36
pour les bac D;0,60
pour les bac « sans mention ».Comme pour les données
précédentes,
une modélisation convenable deLog p3asm p4asm est
obtenue avec un modèle additif comportant les deux seuls facteursséries de bac et mention
(déviance
de 14 pour 13d.d.l.).
La valeur de base dep3asm 4
est
7,48,
avec les coefficients d’abattement suivants : Pasm0,81
pour les bac D;0,55
pour les bac « sans mention ».On remarque que la série de bac intervient peu dans ce cas.
4.
Analyses
desétudiants
denationalité française,
titulaires dubaccalauréat,
et
ayant
obtenu lamaîtrise
Rappelons
que la maîtrise est lediplôme
sanctionnant la fin des études ensecond
cycle.
Là encore, nous avonsprocédé
en deux temps et nous neprésentons
que les résultats relatifs au fichier le
plus complet (1 245
étudiants ayant obtenu la maîtrise mais pas dediplôme
de troisièmecycle
àl’U.P.S.).
Les variablesinitiales étaient a
priori
les mêmes que dansl’analyse précédente (9
variables à35
modalités,
voir3.1),
avec enplus
la durée du secondcycle
à 3 modalités(deux
ans, trois ans, quatre ans et
plus).
31
4.1.
Analyses exploratoires
Les différentes A.F.C.M. réalisées sur ces données nous ont finalement conduits à ne retenir que 5 variables comportant un total de 15 modalités. Il
s’agit
de
l’âge
d’obtention du bac(4 modalités),
de l’U.E.R. de rattachement(3),
de laC.S.P.
(2 :
C.S.P. « favorisées », psup, et C.S.P. « moins favorisées »,pinf),
de ladurée du
premier cycle (3)
et de la durée du deuxièmecycle (3).
Lafigure
3présente
le résultat de l’A.F.C.M. de ces données dans leplan principal (les
valeurs propres valent
0,078
et0,064
et résumentrespectivement
19 % et 15 % del’inertie
totale).
On retrouve la liaison
déjà
observée entrel’âge
au bac et la durée dupremier cycle,
et l’on note, en outre, une durée du deuxièmecycle plus
courte dans lesU.E.R. M.I.G. et Sciences Naturelles pour les étudiants des C.S.P. « favorisées » et, au
contraire,
une duréeplus longue
pour l’U.E.R. P.C.A. et les autres C.S.P.Si l’on cherche à
expliquer
la durée du secondcycle
au moyen des 4 autresvariables,
on constate ici une liaison moins nette que dans le cas des étudiants ayant obtenu seulement le DEUG; eneffet,
la durée du secondcycle apparaît
FIGURE 3
Analyse
desCorrespondances Multiples
des étudiants de nationalitéfrançaise,
titulaires du baccalauréat, et ayant obtenu la maîtrise : 5 variables (âge d’obtention du bac, U.E.R. de rattachement, C.S.P., durée du premier cycle, durée du second cycle) à 15 modalités; 1 245étudiants.
32 A. BACCINI, J.R. MATHIEU, A.M. MONDOT
surtout liée au deuxième axe, alors que durée du
premier cycle
etâge
au bac sontdavantage
liés aupremier
axe.Signalons
que l’on aégalement
réalisé ici uneAnalyse
desCorrespondances simple
croisant la durée d’obtention de la maîtrise avec les quatre autresvariables,
mais que les résultats ne nous ont fourni aucune informationcomplémentaire
surles liaisons entre ces variables.
4.2. Modélisations
Les diverses modélisations réalisées ici ont encore nécessité certains regrou- pements de modalités. Ces regroupements ont été faits de
façon
à ne pasconserver des effectifs trop
petits
et en tenant compte de laposition
des modalités dans leplan principal
de l’A.F.C.M.(regroupement
de modalités suffisammentproches).
On a finalement considéré :- la durée du
premier cycle,
à 2 modalités : 2 ans, 3 ans ouplus;
-
l’U.E.R.,
à 3modalités;
- la
C.S.P.,
à 2modalités;
-
l’âge
d’obtention dubac,
à 3 modalités : moins de 18 ans, 18 ans,plus
de18 ans;
- la durée du second
cycle,
à 2 modalités : 2 ans, 3 ans ouplus.
Un modèle
log-linéaire
sans interactions du second ordre(effets principaux
des facteurs et interactions du
premier ordre)
n’est pas très satisfaisant : la déviance vaut 67 pour 45d.d.l.;
il semble doncqu’il
existe des interactions du secondordre,
enparticulier
entre la durée du secondcycle,
l’U.E.R. etl’âge
aubac,
ces interactions pouvant avoirperturbé
l’A.F.C.M.On a ensuite recherché une modélisation de la
proportion p2 a ,,,
de maîtrisesobtenues en 2 ans relativement au nombre total de succès en
maîtrise;
avec un modèlelogistique
sans interactions et faisant intervenir les facteurs durée dupremier cycle,
U.E.R. etC.S.P.,
on a uneexplication
assez satisfaisante : la déviance vaut 39 pour 31 d.d.l.(l’effet
du facteurâge
est doncnégligeable).
La valeur de base de
1 P.sm 2
est2,34 (pour
l’U.E.R.M.I.G.,
lepremier
cycle
obtenu en 2 ans et les C.S.P. « moinsfavorisées »),
avec les coefficientsmultiplicateurs
suivants :0,67
si la durée dupremier cycle
estsupérieure
à 2 ans;0,56
pour l’U.E.R. P.C.A.;1,99
pour l’U.E.R. SciencesNaturelles;
1,52
pour les C.S.P. « favorisées ».Globalement,
on constate que ce modèleexplicatif (le plus approprié)
estmoins satisfaisant que ceux retenus à l’issue des
analyses présentées
au para-graphe
3. Ceci est àrapprocher
du fait que les résultats de l’A.F.C.M. sont, dupoint
de vue del’explication
de la variable durée d’obtention dudiplôme,
moinsclairs dans le cas de la maîtrise que dans le cas du DEUG.
Pour
terminer, signalons qu’une segmentation
a mis en évidence lapré-
pondérance
du facteur U.E.R. dansl’explication
de la durée de la maîtrise.33
5. Conclusions
Au-delà de
l’exemple lui-même,
il nousparaît important d’essayer
dedégager
lesgrandes lignes
d’uneméthodologie
du traitementstatistique,
telqu’on
peutl’envisager
face à ce type de données.Lorsque
les données sont volumineuses(et
c’est souvent le cas dans lapratique),
l’utilisationpréalable
de méthodesexploratoires
estindispensable,
surtout si lesobjectifs
ne sont pas tout à faitprécisés,
comme c’était le cas ici. Nous avons utilisé desAnalyses
Factorielles desCorrespondances Multiples,
mais il auraitégalement
étépossible
d’utiliser des méthodes de classificationautomatique;
nous avonspréféré
lespremières
car ellesnous
paraissent plus
efficaces pour déterminer les variables lesplus
influentesdans la structuration des données. On notera que les unes comme les autres sont,
sur de gros
fichiers,
coûteuses en temps de calcul.Une fois les données
simplifiées,
au besoin en extrayant des sous-fichierscomme cela a été fait
ici,
diverses méthodes de modélisation peuvent alors êtreenvisagées.
La modélisationlog-linéaire
est assez naturelle si les variables considéréesjouent
des rôlessymétriques;
c’est en ce sens laplus proche
del’A.F.C.M. et elle peut aussi permettre de contrôler les résultats obtenus dans cette dernière. Elle permet
également,
le caséchéant,
de nouvellessimplifications
desdonnées,
comme on l’a vuprécédemment.
Si l’on souhaite ensuiteexpliquer
unevariable au moyen des autres, le modèle linéaire
généralisé
fournit des outilsappropriés
pourquantifier
les liaisons entrevariables,
comme cela a été vu ici danschaque
cas.Signalons
par ailleurs que destechniques
telles que lasegmentation
peuvent aussi fournir des informationscomplémentaires
sur les données étudiées(par exemple
hiérarchie des variablesexplicatives
dansl’explication
d’une variabledéterminée).
Enfin,
on notera, dansl’optique
de lacomparaison
desméthodes,
quelorsque
les résultats de l’A.F.C.M. étaient très clairs(cas
duDEUG),
on a obtenuun modèle très
satisfaisant,
alors que dans le cas de lamaîtrise,
les résultats de l’A.F.C.M. étaient moins nets et aucun modèle vraiment satisfaisant n’a puajuster
les données.
Ainsi,
les deuxapproches (analyses exploratoires
et méthodes demodélisation),
bien que de natures trèsdifférentes, apparaissent
en fait très liées.Remerciements
Nous tenons à remercier Monsieur J.P.