R EVUE DE STATISTIQUE APPLIQUÉE
I. C. L ERMAN
Introduction à une méthode de classification automatique illustrée par la recherche d’une typologie des personnages enfants à travers la littérature enfantine
Revue de statistique appliquée, tome 21, n
o3 (1973), p. 23-49
<http://www.numdam.org/item?id=RSA_1973__21_3_23_0>
© Société française de statistique, 1973, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
INTRODUCTION A UNE MÉTHODE DE CLASSIFICATION (*)
AUTOMATIQUE ILLUSTRÉE PAR LA RECHERCHE
D’UNE TYPOLOGIE DES PERSONNAGES ENFANTS
A TRAVERS LA LITTÉRATURE ENFANTINE
I. C. LERMAN
(**)
1 - INTRODUCTION ET GENERALITES
On se propose dans ce texte
d’exprimer
le schéma de notre méthode de classificationautomatique qui
a pour but d’extraire l’informationpertinente
des résultats d’une
enquête
parquestionnaire
en reconnaissant sur l’ensemble desquestions
une structure en classes etsous-classes ;
cette classification est basée sur les ressemblances entre lescomportements
de lapopulation
étudiéevis à vis de
chaque couple
de variablesdescriptives
défini par uncouple
dequestions.
Une telle classification apermis,
dans lesexpériences
réellesmenées,
de
dégager
clairement les tendancesprincipales
de l’attitude de lapopulation
étudiée et les diverses
composantes
de chacune de ces tendances. Ce succès est dû audéveloppement
d’une notion que nous avons mise en valeur etqui
estcelle de mesure de
proximité
entre structures de mêmetype
au sensalgébrique
du terme. Pour
préciser
cette notion on a utilisé une vieille idée bien établie de lastatistique :
laproximité
entre deux structures a et(3
ne doit retenir que cequi peut-être significatif
parrapport
àl’hypothèse
Nd’ignorance
àpriori
de laposition
relative des deux structures misesen jeu.
Nousallons,
en nousappuÿant
sur un
exemple réel,
illustrer cette idée à tous les niveaux de la recherche d’une classification ou d’une hiérarchie de classifications.L’exemple
que nous allons traiter est du domaine de laPsycho-Sociologie
etse situe dans le cadre d’une recherche menée par Mme Chombard de Lauwe où il
s’agit
de définir les modèles que les adultes créent etproposent
aux enfants dans la littérature dite"pour
enfants". La donnée est un ensemble de 1 500 per- sonnages enfantins issus d’un échantillond’ouvrages
de cette littérature édités entre 1880 et 1960.Chaque
personnage est décrit par un ensemble d’attributsqui
établissenta)
Sonportrait
Ses
aptitudes (savoir, mémoire,
très doué engénéral,
donsparticuliers
danscertains
domaines, ...) ;
les terrains où se manifestent lesaptitudes (art, sport,
(*) Ce travail a été effectué au Centre de Mathématiques Appliquées et de Calcul de la Maison des Sciences de l’Homme et remis le 4/12/72.
(**) Actuellement maître de conférences à l’Université de Rennes 1.
24
commandement,
viepratique, secourisme,
aventure, succèsscolaires,
farces,...) ;
sareligion (chrétien,
croit enDieu,
nonmentionnée, ...)
sapsychologie (patience, colère,
tenueparfaite, coquetterie, impulsif,
paresse,gaité,
fran-chise, ...)
ses relations avec autrui(soumission, égalité
ou commandementenvers l’adulte et envers un autre
enfant, ...) ;
situation danslaquelle
estimpliqué
le personnage(aventure, recherche, sauvetage, ...) ; qualité
du per- sonnage parrapport
à l’action(passif, actif) ; grands
thèmes où ilévolue (drames
del’enfance, aventure, leçon
demorale,
vocation del’enfant, ...) ; apprécia-
tion
globale
dusujet (personnage positif,
d’abordnégatif
se transforme et devientpositif,
personnage foncièrementnégatif)
b)
Son environnementphysique
Ville, château,
véhicule-habitat(exemple : roulotte),
véhicule-action(ex.
automobile, avion),
vit àl’étranger,
nature sauvage,pistes-routes,
...c)
Son milieu socialVille, château,
véhicule-habitat(exemple : roulotte),
véhicule-action(ex.
automobile, avion),
vit àl’étranger,
nature sauvage,pistes-routes, ...
c)
Son milieu socialOuvrier, aristocratie,
personnage "hors classe"(impossible
à situer dans lecontexte social
décrit), ...
d)
Son milieu familialNon
décrit,
absence defamille,
familleincomplète
ou famille deremplace-
ment, milieu adulte(ex. armée,
milieuprofessionnel),
collectivitéenfants,
...e)
Sonentourage
immédiatPère, mère,
substitutpère,
substitutmère, policier (représentant
l"’or-dre"),
traître-bandit(représentant
le"méchant"),
enfantconcurent,
ami en- fant de même sexe ou de sexeopposé, animal,
...Quelques
attributs tels que"positif"
ou"passif
dans l’acte" dont l’ab-sence chez un
sujet
donné a étéjugée,
àpriori,
aussisignificative
que leurpré-
sence, ont été dédoublés donnant lieu à des attributs tels que "non
positif"
et"actif dans l’acte".
La
description qui
a nécessité 110 attributs a poursupport
un tableau T d’incidence des données de dimension 110 x 1 500 croisant l’ensemble A des attributsdescriptifs
et l’ensemble E dessujets
enfants. A l’intersection de laligne représentant
l’attribut a et de la colonnereprésentant
l’individu x on pose 1 ou 0 selon que a estprésent
chez x ou non. La donnée du tableau T estéqui-
valente à celle d’une
application
de A dans l’ensemble P(E)
desparties
de Eoù à
chaque
attribut on associe le sous-ensemble dessujets qui
lepossèdent.
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
Par
rapport
à un mêmeindividu,
deux attributs a et b sont dits avoir uneassociation
positive (resp. négative)
si les deux attributs sont simultanémentprésents (resp. absents)
chez l’individu.Pour définir la
typologie
des personnagesenfants,
deux voies de travailse sont
présentées
audépart.
Lapremière
consiste à définir une classification surl’ensemble des
sujets
cherchant par lasuite,
pour une classedonnée,
l’ensemble des attributs lesplus fréquents
dans cetteclasse,
ce dernier définissant untype.
La deuxième
voie, plus directe,
consiste à établir une classification sur l’ensem- ble desattributs,
une classe forméeexprimant
untype.
C’est cette seconde solu- tionqui
a étéadoptée.
D’ailleurs la notion de classificationsignficative
sur l’en-semble des attributs est duale de celle sur l’ensemble des individus dans le sens
suivant :
Toute classe
Ai
d’une classification "naturelle" sur A se réfère à une classeEi
d’unepartition
sur E telle quea)
tout attribut deAi
estprésent
chez uneproportion
relattivementimportante,
mais nonfixée,
d’éléments deEi . (3) chaque
individu de
Ei posséde
uneproportion
relativementimportante,
mais nonfixée,
d’attributs de
Ai.
Plutôt que d’établir une seule
partition,
il estpréférable
de construire unehiérarchie de classifications
qui
nous rendracompte
de la formation desclasses, qui
définira pour chacune des classes de lapartition qu’on
désireretenir,
lessous-classes
composantes (i.
e. soustypes
dutype
que définit laclasse) ;
enfinqui permettra
de faireapparaître
lestypes
lesplus marqués
dès lespremiers
ni-veaux de l’arbre des classifications et ceux
correspondant
à des classes de faible cohésionqui
se formentplus
tardivement.Figure 1
Une hiérarchie de classifications se
présente
sous la forme d’une arbores-cence
analogue
à celle de lafigure
ci-dessus etqui
serainterprétée
comme lasuite des
partitions
sur a,b,
c,d,
e,f,
g écriteparallèlement ;
dans cettechaîne la
partition
d’un niveau se déduit de celle du niveauprécédent
par réu- nion de deuxclasses ;
ils’agit
d’un arbre binaire.26
Pour que les classes extraites de l’arbre des classifications
répondent
à lapropriété exprimée
intuitivement ci-dessus(conditions a)
et(3))
il est nécessaired’établir la hiérarchie de
partitions
defaçon
àrespecter
au mieux les "ressem- blances" entreattributs ; c’est-à-dire,
de telle sorte que deux attributs se trou- vent réunis à un niveau d’autantplus
élevé que leur similarité estgrande,
cette dernière étant conçue àpartir
des vecteurslignes
du tableau T.2 - INDICE DE PROXIMITE OU DE RESSEMBLANCE ENTRE ATTRIBUTS L’information de
départ
d’une classification sur A nécessite la définition d’un indice deproximité
entre attributsdescriptifs,
associant àchaque couple (a , b)
de A xA,
un nombre réel sensé mesurer la ressemblance entre a et b. Cha- que attribut étantreprésenté
par lapartie
dessujets qui
lepossèdent ;
un cou-ple (a , b)
d’attributs définit la situation suivanteFigure 2
Ea (resp. Eb )
est l’ensemble dessujets possédant
a(resp. b),
s = card(Ea n Eb ) (resp.
t = card(E;
nEcb))
est le nombre d’individus où les deux attri- buts sont simultanémentprésents (resp. absents) ;
ils’agit
du nombre d’asso-ciations
positives (resp. négatives)
entre a et b. u = card(Ea n Ecb) (resp.
v = card(Eâ
nEb ))
est le nombre desujets possèdant
a et non b(resp.
b et nona).
On at = n -
(s
+ u +v)
où n est l’effectif de lapopulation totale,
soit n = card(E).
Les conditions minimales
qu’on
doitimposer
à un indice de similarité est d’être conçu àpartir
desparamètres
s, u et v de telle sorte, que sa valeur croîtlorsque
saugmente (u
et v restantconstants) qu’il
soitsymétrique
en u et vet que sa valeur
augmente lorsque
celle de u diminue(s
et v restantinvariables).
Cette
façon
de faire consiste à considérer commestatistiquement équivalents
tous les éléments de la
population
étudiée. Il est clair que dans le choix de l’in- dice deproximité,
lastatistique
s : nombre de personnagespossédant
simulta-nément les deux
attributs,
doitjouer
un rôleimportant ;
eneffet,
laprésence
commune, de deux
attributs,
chez un mêmeindividu, peut
êtresignificative
deleur ressemblance. Mais la valeur brut de s est certainement un indicateur biaisé
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
de la
similarité ;
il suffit en effet que les deux attributs a et b soientfréquents (resp. rares)
pour trouver une valeur de s relativementgrande (resp. petite)
etceci, indépendamment
de laposition
relative des ensemblesEa
etEb (cf. [ 1 ]).
Conformément à ce
qui
a été annoncé au début de l’introduction nous allonsadopter
comme mesure deproximité
entre les attibuts a et b un indicequi
con-siste à ne retenir dans la
statistique
s que cequi peut
êtresignificatif
par rapport àl’hypothèse
Nd’ignorance
àpriori
de laposition
relative deEa
etEb dans E,
compte tenu des cardinaux de
Ea
et deEb .
Al’hypothèse
N d’absence de liaisonnous allons donner deux formes
NI
etN2
pourNi ,
on associerespectivement
àEa
et àEb
deuxparties
aléatoires X et Y définies telles quechaque
individuindépendamment
ait laprobabilité na /n (resp. nb /n) d’appartenir
àX (resp.
à
Y) ;
pourN2 ,
on fixeEb
et on associe àEa
lapartie X’ :
élément aléa- toire de l’ensemble desparties
de E de cardinal na’ muni d’une mesure deprobabilité
uniformémentrépartie.
Considérons alors les variables aléatoires(Si =
card(X
nY))
etS2 =
card(X’
nEb ). Empressons
nous desouligner
que la distribution deS2
est la même si au lieu de fixerEb
et d’associer àEa
la par-tie aléatoire
X ;
on fixaitEa
et on associait defaçon analogue
unepartie
aléa- toire Y. Les variables aléatoiresSi
etS2
ont même moyennela variance de
Si
1 est sensiblementégale
à sa moyenne ; celle deS2
se met sousla forme
Pour
répondre
au souciexprimé,
onpeut prendre
l’un des deux indices de similaritéF. Nicolau
(étudiant
de 3ecycle)
a vérifié que lapremière statistique
donneplus
depoids
aux associationspositives qu’aux
absences communes, tandis que la deuxième estplus symétrique ;
associationspositives
et associationsnéga-
tives ont la même
importance.
Au lieu de
prendre &1
ou&2,
il estplus précis
de se reférer à une échellede
probabilité
et deprendre
le second membre
désigne
laprobabilité
dansl’hypothèse N 1, respectivement N2,
que la v. a.S, , respectivement S2 ,
ait une valeur strictement inférieure à la valeur observée s = card(Ea
nEb ).
Ici on introduit une notion de vraisemblance dans la notion de ressemblance : Les deux attributs a et b sontjugés
d’autantplus
voisins que la valeur du nombre desujets
lespossédant également
est invrai-semblablement
grande
parrapport
àl’hypothèse
d’absence de liaison àlaquelle
nous avons donné deux formes
NI
etN2.
Le calcul dePl (a , b)
ou deP2 (a, b)
est aisé si on tient
compte
de ce que la distributionthéorique
de(&1 03BC)/03BC
28
dans
l’hypothèse NI
ou de(S2 - g)/,,/à2
dansN2,est approximativement
nor-male,
centrée réduite(DZ (0, 1 )). Cependant,
la variance des données observéespeut
être sigrande, qu’il
est nécessaire deremplacer
leshypothèses N,
1 etN2
parN’1
etN’2
où(S1 - 03BC)/03BC
et(S2 - 03BC)/03C32
suiventrespectivement
les lois nor- malesm(0 , A1 )
etm(0 , À2). A1
etÀ2
ont été déterminés de telle sorte que laplus grande
valeur observéedemi (a , b )/À¡ (i
= 1 ou2)
soit inférieure ouégale
à
2,5 (cf. [ 10]),
cecipermet
undegré
de discrimination suffisant à l’échelle définie par la loi normale en calculant lesproximités
par les formulesIntroduisons ici une information
plus
faible concernant les ressemblances entre éléments de l’ensemble àclassifier,
ici A. Nous avons pu établir(cf. [5], Chap. 2)
que l’Information laplus générale
quepeut
nécessiter la recherche d’uneclassification,
sans pour autantcompromettre
la fécondité desrésultats,
est de
type
suivant : étant donné uncouple quelconque
depaires
d’attributs(f a, b} ,{ c , d}),
savoirlaquelle
des deuxpaires {a , b} ou {
c ,d}
est formée desattributs les
plus proches ;
cetteproximité qui
estcompromise
au niveau ducomportement
de lapopulation
se calcule par l’un des deux indices&1 (a , b) ou &2 (a , b)
ou bien defaçon
tout à faitéquivalente ici,
parPi (a , b)
ouPu (a , b).
Cette information est unrangement
despaires
d’attributs par ressem-blance
décroissante ;
cepréordre
total sur l’ensemble despaires
de A se nomme"préordonnance"
sur A. Comme engénéral
pour cerangement,
lespaires,
dont lescomposantes
sontégalement proches,
sont très rares ; onpeut quasiment
considérer que cepréordre
total est un ordre total.Si nous avons tenu à donner deux formes à
l’hypothèse
N et à associer à chacune d’entre elles un indice deproximité,
c’estqu’on
se propose de compa-rer les résultats obtenus pour chacun de ces deux indices
qui
sont finalement assezvoisins.
3 - CARACTERE NEUTRE D’UN ATTRIBUT ET CLASSIFICABILITE Nous avons
déjà souligné
dans l’introduction que notre classification per- met dedégager
les tendancesprincipales
ducomportement
et les diverses com-posantes
de chacune d’elles. Mais cettedécomposition
en tendancespeut
êtreplus
ou moinsprononcée.
Pour recouvrir cettepréoccupation
nous avons carac-térisé et mesuré
l’aptitude
d’un ensembleA,
à êtreorganisé
en une hiérarchie de classifications senséerespecter
defaçon
satisfaisante lesystème
desinégalités
entre les ressemblances par
paires
défini par lapréordonnance (cf. [ 5 ],
Ch.3).
On montre que la donnée d’une chaîne de
partitions,
ordonnée par finesse dé-croissante,
surA,
estéquivalente
à la donnée d’unepréordonnance
"ultramé-trique"
surA ; c’est-à-dire,
d’unpréordre
total sur l’ensemble B despaires
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
d’éléments de
A, qui
est caractérisé par lapropriété
suivante : pour toutepartie
{a , b , c}
à trois éléments de A pourlaquelle
on a{a, b}{b , c} {a , c}
pour lepréordre,
lapaire
médiane{b , c}
et lapaire supérieure {a , c}
sont dans unemême classe du
préordre (i. e. {a , c} {b , c}).
Ledegré
de classificabilité est défini par une distributionqui
caractérise la distorsion de la structure de lapré-
ordonnance surA,
définie par un indice deproximité,
parrapport
à une struc-ture
ultra-métrique
de cettedernière,
comme suit : àchaque paire
p deB,
nous associons la
proportion cp(p)
detriplets
dont lapaire
médiane et lapaire supérieure
sont strictementséparées
par p. La classificabilité est la suite décrois- sante des valeurspondérées
de la fonctioncp(p) ;
la valeur a de ’P étantpondérée
par la
proportion
despaires
dont~(p) =
a.Exemple :
soit A = a ,b ,
c ,d ,
e et ;oit CA) lapréordonnance
suivante sur A{a,d}={a,c}{a,e}{c,e}{b,d}={c,d}{b,c}{d,e}{a,b}{b,e},
la classificabilité
peut
êtrereprésentée
par la courbe en escalier dont unpalier
Figure 3
représente
lespaires qui
interviennent pourséparer
strictement lapaire
médianede la
paire supérieure
d’un même nombre detriplets ;
lalargeur
dupalier repré-
sente la
proportion
de tellespaires
et sa hauteur laproportion
detriplets
dontune
quelconque
de cespaires sépare
strictement lapaire
médiane de lapaire supérieure.
La classificabilité de A est intimement liée à
l’éloignement
relatif de chacun des attributs parrapport
à la suite des autres ;l’analyse
des donnéespréalable
àune classification
automatique (cf. [6])
conduit à mesurer le caractère neutre d’un attribut a, parrapport
à une viséeclassificatoire,
par lapetitesse
de la va-riance des
proximités
àa : {&(a , x)/xGA 2013{a}},
soitoù m = card
(A)
et où &(a)
est la moyenne des &(a , x).
Si dans un tableau de données il y a un
petit
sous ensemble dequelques
attributs neutres
qui perturbent
la nature classifiable del’ensemble,
onpeut
les extraire àpriori.
La valeurde V(a)
est d’autantplus grande
que a intervientplus
intimement dans la formation d’une classe. Nous étudions dans
[7] une représen-
30
tation
géométrique
obtenue par uneanalyse
simultanée de la moyenne et de la variance desproximités
à l’intérieur d’une même classequi permet d’organiser géométriquement
les éléments de cette classe àpartir
de ses éléments extrémaux les moinsliés ;
cettetechnique permet
en outre de déterminer l’élément leplus
central de la classe et une échelle d’attitude
lorsqu’elle
existe.4 - ARBRE DETAILLE PUIS CONDENSE DES CLASSIFICATIONS
La
première étape
de condensation de l’ensemble des attributsdescriptifs
se
présente
sous la forme d’une hiérarchie détaillée de classifications(cf. fig. 1,
§ 1),
surA, qui
s’obtient pas à pas par réunions successives declasses, permet-
tant de passer d’une
partition
à une suivante moins fine. Lapartition
laplus
fine est celle où toute classe contient un seul
attribut,
lapartition
la moins fineest celle où tous les attributs sont réunis dans une même classe.
L’algorithme
de classification va fonctionner à
partir
de la classification laplus
fine en réunis-sant à
chaque
pas les deux classes lesplus "proches".
Pour établirl’algorithme
il est donc nécessaire d’étendre la notion de
proximité
entre deux attributs des-criptifs
à celle entre deux classes d’attributs.Rappelons (cf. § 2)
que l’indice deproximité
entre les deux attributs a et b seprésente
sous la forme d’uneprobabilité ; P(a , b)
=PrN {S s}
où S est lav. a. associée dans
l’hypothèse
N à s : nombre d’individuspossédant
simultané-ment les deux attributs. Cette mesure de
proximité
segénéralise
pour comparer deux classes d’attributs deA ;
si C et D sont deuxparties disjointes
de A de cardinauxrespectifs
1 et m, laproximité
entre C et D sera définie parP(C , D) = {max {P(c , d)/(c , d) E C
xD}}lm
P(C , D)
estégalement
défini parrapport
àl’hypothèse
N d’absence destructure
(cf. [8]) ;
ils’agit
de laprobabilité
dans cettehypothèse
que laplus grande proximité P(c , d)
entre un élément c de C et un élément d deD,
soit inférieure à celle observée.L’algorithme
associé à cetteproximité
a étéappelé
"Algorithme
de la Vraisemblance du Lien"(A.V.L.).
Cequ’il
y a de nouveaupar
rapport
à d’autres méthodes de classificationhiérarchique
c’estqu’ici,
ladistribution de
P(C , D)
estappréhendée
dansl’hypothèse
N d’absence de liai-son ; ce
qui permet
la référence à une échelle claire pourjuger
de lagrandeur
observée d’une mesure de
proximité
entre deux classes et pour comparer sans biais les mesures attachées à deuxcouples
de classes.Une seconde
étape
décisive de la méthode consiste à condenser l’arbre àses niveaux les
plus pertinents
et ce, au moyen d’unestatistique
mesurant la pro- ximité entre l’information dedépart qu’est
lapréordonnance
surA,
w(A)
et laclassification
déjà formée
à un niveau donné. Pourcela,
onregarde
lapartition
sur A comme effectuant un classement des
paires
d’éléments de A en deux groupes : celui R despaires
réunies(à composantes proches
dupoint
de vue dela
partition)
et celui S despaires séparées (à composantes éloignées
dupoint
devue de la
partition) ;
en d’autres termes, lapartition
définit sur l’ensemble BRevue de Statistique Appliquée. 1973 - vol. XXI N° 3
des
paires
d’éléments de A unpréordre
total à deux classes R et S où(p , q) E
R x S ~ p q et non q p.La base de la constitution de la
statistique
des niveaux estoù
gr(03C9) = (p , q)/(p , q) E
B xB,
p q et non q p pour03C9}
est legraphe
dew dans B x B.
J.P. Benzecri a introduit ce cardinal sous la forme du "nombre
d’inégalités
entre les
proximités spécifiés
par lapartition
etcompatibles
avec cj".w étant un ordre total sur
B,
nous démontrons dans[8] que
la distribution de card{gr(w)
n R xS}, lorsque
lapartition
décrit uniformément l’ensemble despartitions
de mêmetype (i.
e. dont les cardinaux des classes sontfixés),
estasymptotiquement
normale de moyenner. s/2
et de variancer. s(t
+1)/12
oùr = card
(R),
s = card(S)
et t = card(B) ;
t = r + s. C’est lastatistique
qui
mesurera ledegré
de cohésion des classes formées à un niveaudonné ;
cette dernière seraappelée statistique "globale"
desniveaux,
elle estglobale
par rap-port
à celle "locale"03B8,
où on retient pour un niveau donnél’accroissement
de( 1 )
entre le niveauprécédent
et ce dernier. Nous retenons comme lesplus signi-
ficatifs les noeuds des niveauxcorrespondants
aux maximum locaux de ce tauxd’accroissement ; l’expérience
a en effet montré que la distribution de la statis-tique
locale lelong
de la suite des niveaux est telle que sa valeuraugmente
lors-qu’une
classe en cours de formation se confirme et décroît sensiblement devant l’arrêt de constitution d’une classeayant quelque
consistance auprofit
de lanaissance de
l’embryon
d’une autre classe. Cette dernièreétape
est trèsimpor-
tante car elle
permet
sur l’arbre détaillé des classifications de définir les distinc- tionssignificatives
entre classes et sous classes d’attributs.La condensation de l’arbre de la
figure
1 aux niveaux 2 et 4 donneNous
présentons
ci-dessous ia condensation de deux arbres obtenus parl’algorithme
de la vraisemblance du lien et associésrespectivement
auxhypo-
thèses
N’1
etN’2 présentées
auparagraphe
2. Ces deux arbres ontété produits
et
interprétés(*)
par Mme M.H. Nicolau dans le cadre d’une thèse de3e cycle qui
(*) Avec l’aide précieuse de CI. Bellan collaborateur de Mme Chombard de Lauwe.porte
surl’analyse
de lastatistique
deproximité P(C , D)
entre deux classes de variables que nous avions introduite(cf. ci-dessus). L’algorithme
de MmeNicolau
permet
defaçon
trèsgénérale
de passer d’un indice deproximité
entreparties disjointes
de A à lareprésentation polonaise
de l’arbre détaillé des classi- fications.Après l’interprétation
de l’arbre détaillépuis
condensé associé àN’1
oùon utilise l’indice de
proximité P’1 (a , b)
entre attributs(cf. § 2) ;
on compa-rera par
rapport
à ce dernier l’arbre condensé associé àN’2
où on utiliseP2 (a , b).
5 - ETUDE ET COMPARAISON DES DEUX ARBRES DEFINISSANT LA TYPOLOGIE DES PERSONNAGES ENFANTS DE LA LITTERATURE
"ENFANTINE"
a)
Arbre associé à l’A.V.L. établi parrapport
àN’1
L’arbre est binaire et
comporte
donc 109 niveaux(il
yLes niveaux retenus pour le condenser et
qui correspondent
à des maximum locaux du taux d’accroissement 0 de lastatistique globale 2
des niveaux sontceux d’indice
8, 12, 41, 55, 71, 86, 90, 93, 99, 102, 104, 106,
107qui
donnele maximum absolu de la
statistique globale
et le niveau 108.A
partir
du41 ème
niveauquelques types
intéressants commencent à se dé- gager ;c’est
ainsiqu’on
voitappraître
un groupe constitué par les attributs :orgueil
etégoïsme,
nonpositif
etnégatif
évoluant verspositif,
paresse et sansvolonté ;
définissant untype
de personnage dont le caractère est"plein
de dé-fauts et faible" mais non foncièrement mauvais
puisqu’il
évolue vers le bon. Au55ème
niveau une autre forme denégativisme
seprécise, composée
d’abord dunoyau :
négatif, hypocrisie
etjalousie auquel s’adjoint
des manifestations exté- rieuresdésagréables : colère, querelleur ;
ils’agit
de1"’aspect
leplus abject
dunégativisme".
Ces deux classes se réuniront au71 ème niveau,
donnant lieu à untype négatif plus général.
Parallèlementplusieurs
noyaux se forment. A ce mê-me niveau 71
l"’agressif’ apparaît
avec révolté ettrop indépendant
associés àimpulsif
et émotif. Au86 ème
niveau ondégage
un groupe de "défauts mineurs" :gourmandise
et mensonge curieusement associés à un garçon laid. Le "bour-geois-aristocrate" composé
des attributs : aristocratiegrande bourgeoisie,
domes-tiques, château ;
le "falot" :passif
dansl’acte,
non actif dansl’acte,
manque de courage, soumis àl’enfant ;
le"comique" :
personnagecomique, caricatural, figé
dans letemps, farces, drôle ;
l’"autoritaire" :autorité, commandement,
commande à
l’enfant, égalité
avecl’adulte,
commande àl’adulte ;
l"’aventu- rier" :aventure, aventure-mission,
milieu detraître-bandit, recherche ;
le"célèbre" :
passé éloigné, vocation, art, perspectives d’avenir,
veutquelque chose, planifie
sonavenir,
trèsdoué ;
le "brillant" :savoir, mémoire, sobre,
succèsscolaires,
collectivitéenfants ;
le "sensible" : sensible àl’environnement,
aime la nature,
présence
d’unanimal,
soin àanimal ;
le "bon chrétien" : chré-tient, foi, croit,
modestiepatience,
tenueparfaite,
soumis àl’adulte ; le
"ma- lheureux" :tristesse, isolé, fragile,
affection à gagner,leçon morale,
drameenfance,
absence famille(difficultés),
familleincomplète
ou deremplacement.
34
D’autre
part
sont apparuesplusieurs agrégats
moinsprononcés
formés pour laplupart
d’attributs relativement neutres(cf. § 3) ;
deplus,
il fautsignaler
quequelques
unes des réunions dont ont résulté les classes ci-dessusmentionnées, correspondent
à des niveaux où lastatistique globale 1 présente
une diminu-tion ;
cequi exprime
que, considéréeglobalement,
lapartition
de ce niveau est moins en accord avec l’ordonnance initiale que cellequi
laprécède.
Dans ce cas,nous
préférons
ne pas insister sur lasignification
de tels groupements dont unexemple
est l’association de mensonge etgourmandise
à garçon laid. Entre les niveaux 86 et 99 lespetits agrégats
vont se réunir entre eux et donner naissance àquelques types plus généreux.
Le
99 ème
niveau est celui leplus important
avant le niveau leplus signi-
ficatif
(le 107 eme) ;
d’unepart
parce que l’accroissement 6 de lastatistique S
àce niveau est
grande (par rapport
aux valeurs de 0 sur l’ensemble de tous les ni-veaux) ;
d’autrepart,
parce que les réunions aux niveaux suivants(100
et101)
entraînent des décroissances très nettes de cettestatistique.
Onprendra
donccomme classifications les
plus pertinentes
celles fournies par le 107 ème et par le99 ème
niveau. A ce derniers’impose
d’abord une grosse classe résultant del’agré- gation
dutype "agressif"
et des "défauts mineurs" au"négatif"
pour formerun
type "négatif"
assezgénéral ;
lestypes "falot", "comique"
et "aventurier"se sont enrichis de
quelques attributs ;
le"sportif"
et l"’autoritaire"apparais-
sent maintenant
associés ;
le commandement sembleprésent
dans lesport,
ouplus généralement
dans l’action. "célèbre" et "brillant" se réunissent pour don-ner lieu au
type
de1"’enfant-modèle" ;
parailleurs,
le "bon chrétien" se ratta- che au"sensible",
le "malheureux" au"fragile".
Deux dernierstypes
se for- ment ; l’unqu’on appelera
le "héros scout" défini par :secourisme, sauvetage, justicier,
courage,contrôlé, initiative, volontaire,
tenace ;l’autre, représentant
1"’amiloyal,
le bon camarade"composé
defranchise, honnête, générosité, posi- tif, gaité,
ami de sexedifférent,
substitutmère,
stubstitutpère.
Ces deux classes ont, enfait,
une cohésion interne trèsfaible ;
les attributsqui
les constituent étant assez neutres.Enfin au
107 me
niveauapparait
une classification en troisgrandes
classes.La
première
regroupe le"négatif"
et le "falot" etreprésente
donc un type"négatif"
trèsgénéral.
La deuxièmeenglobe
le"comique",
le"sportif-autori- taire",
l’"aventurier" et le "hérosscout",
définissant le personnagetype
de la littérature d’évasion. La troisième classe rassemble l"’enfantmodèle",
le "bonchrétien",
le "malheureux" et l’"amiloyal"
définissant untype
"normatifgénéral.
Les derniers niveauxqui
voients’agréger
ces classes deux à deux don- nent lieu à des chutes trèsgrandes
de lastatistique globale 2.
b)
Arbre associé à l’A.V.L. établi parrapport
àN2
Nous allons examiner la condensation de cet arbre à ses niveaux les
plus significatifs
d’indices23, 32, 49, 60, 78, 82, 91, 96, 98, 100, 103,
105 et 107.Le niveau le
plus significatif
est le105ème ;
le103 ème
donne le dernier maximum localpertinent
de lastatistique globale 1
avant son maximum absolu. Au103eme
niveau sedégage
letype "négatif" composé
des soustypes
suivants :Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
36
"caractère
plein
de défauts et faible" trouvé dans l’arbreprécédent ;
le "mau-vais" ; 1"’agressif" qui
sembleplus
heureusement secompléter
avec l’attributcolère
qui
était associé au "mauvais" dans l’arbreprécédent ;
etenfin,
un soustype
difficile à définirqui
semblereprésenter
un encadrement del’enfant,
fami- lial et citadinmarqué
par l’insouciance et lalégereté (vie
defamille,
vieprati-
que,
ville, déguisement, coquetterie, gourmandise, ...).
A ce103ème
niveau le"comique"
et 1"’aventurier" sontdéjà
réunis. Le"comique"
a donné l’habitat-véhicule et milieu adulte au
"sportif-autoritaire"
etpris policier, religion
nonmentionnée à l"’aventurier". Il
s’agit
là d’attributsqui,
selon lepsychologue apparaissent
dans la littérature associés àn’importe lequel
de ces troistypes.
L"’aventurier" se compose comme
précédemment
de deux groupes ; lepremier
caractérisant
l’atmosphére
danslaquelle
il vit :aventure, aventure-mission, traître-bandit, recherche ;
et lesecond,
son milieuphysique : véhicule-action,
vit à
l’étranger,
nature sauvage,pistes-routes.
Le "malheureux" est ici untype plus global qui
contient le "falot" et un groupe de faible cohésion : sexe mascu-lin, laid, animal,
soin animal. L’association du "falot" au "malheureux" s’ex-pliquerait
par la soumission dans lemalheur ;
l’ensemblereprésente
un person- nagemalheureux,
soumis et laidqui
cherche unecompensation
enprenant
soin d’un animal. Sexe masculin et laidqui
faisaientpartie
du"négatif"
dans l’ar-bre
précédent
ont sauté vers le"malheureux" ;
cequi correspond
au fait que dans la Littératureenfantine,
la laideur d’unpetit
garçon vientgénéralement
associée au mauvais caractère ou au mauvais
sort, parfois
aussi au"comique"
(le "clown" ;
résultat d’un arbre nonsignalé ici).
De même l’attribut : personnage secondairequi
dans lepremier
arbre se réunissait au "falot" et maintenant au"fragile" représente,
selon lepsychologue,
un personnage "faire valoir" souvent associé à un personnageprincipal
faible. Le "bonexemple
chrétien" a éclaté endeux
parties :
l’ensemble desqualités {modestie, patience,
sensible à l’environ-nement} s’agrège
au "brillant" et au "doué" pour former letype
de 1"’enfant modèle" etl’embryon {croit, chrétien, foi}
se réunit au "célèbre" et au "bour-geois
aristocrate" donnant lieu à untype qui
semblereprésenter
le personnage des"biographies
d’enfants célébres".Enfin,
on rencontre réunis le "héros scout"et 1"’ami
loyal,
bon camarade" rendantcompte
d’une autre sorte d’enfant mo-dèle ;
si lapremière
forme est axée sur lesqualités
del’esprit,
la seconde l’estplutôt
sur lesqualités
de coeur. Au niveau leplus significatif,
le1 OSème,
nousavons une
partition
encinq
classes : le"malheureux",
le"comique-aventurier",
le
"négatif",
le "modèle" et un groupe résultant de la réunion du "célébre-bourgeois-chrétien"
avec le"sportif-autoritaire"
dont la constitutionpréalable
avait été
accompagnée
d’un minimum local de lastatistique globale.
Si nous nous intéressons maintenant aux suites des valeurs de S associées à chacun des
arbres ;
on constate que lesgroupements responsables
des dissem- blances lesplus remarquables
entre les deux arbrescorrespondent
engénéral
àdes minimums locaux de 2. Cela se
produit
parexemple lorsque
-
f sexe masculin, laid}
se réunit dans lepremier
arbreà {mensonge,
gour-mandise}
et dans le secondà { animal,
soinanimal}
- dans le
premier arbre,
"falôt" s’associe au"bourgeois-aristocrate"
etlorsque
l’ensemble se réunit à{ville, coquetterie,
viepratique, ...} ;
dans leRevue de Statistique Appliquée. 1973 - vol. XXI N° 3
second
arbre, lorsque
"falot" s’associe au"petit
garçonlaid ...", puis
au"fragile".
Dans le
premier
arbre la réunion de l’"amiloyal -
bon camarade" au"malheureux" est
également accompagnée
d’un minimum deZ,
ainsi que celle du "malheureux" au"comique
et aventurier" dans le second arbre.Il
s’agit
là de réunionsqui
vont un peu à l’encontre de l’information sur les ressemblances définie par lapréordonnance
et où les attributs neutresjouent
un rôleimportant.
D’autresregroupements
où 03A3 n’a pas de minimums locaux maisqui
varient aussi d’un arbre àl’autre,
sont d’autrepart
dûs à laprésence
de tels attributs "neutres"
(cf. § 3) ;
les classes donnent alors lieu à des inter-prétations également
valables mais faiblementapparentes.
On se rendcompte
que l’identification des attributs neutres dans l’ensemble A est d’une aide
pré-
cieuse pour
l’interprétation
des résultats. Uneexpérience
où on n’a retenu que les 75 attributs lesplus
discriminants a faitapparaître
par l’A.V.L. lescinq types "négatif", "comique", "aventurier",
"malheureux" et"modèle" ;
les-quels apparaissent
defaçon
très nette. Il est intéressant de noter que ce sontces
cinq types
que nous avions découvert au niveau leplus significatif
d’unarbre de classifications issu de
l’algorithme "lexicographique" (cf. [5] Chap. 3)
sur un ensemble de 67 attributs
parmi
les 75 considérés ici.L’algorithme
"lexicographique" qui
aprécédé
l’A.V.L. consiste à saturer la suite des sectionscommençantes
de lapréordonnance,
définissant une suite de relationsd’équiva-
lence de moins en moins
fines ;
l’arbre des classifications s’obtient en associant àchaque
relationd’équivalence
lapartition
sur Aqu’elle
définit. On montre que cetalgorithme
revient à réunir àchaque
pas les deux classes de variables lesplus proche
au sens de laplus grande proximité
observée entre deux élémentsappartenant respectivement
aux deux classes. La classification laplus significa-
tive
qui
avait étéobtenue,
avec commeindice &1 (a , b),
est la suivante :Le
"négatif"
Non
positif, égoïsme, orgueil,
paresse, sansvolonté, hypocrisie, jalousie, querelleur, colère, trop indépendant, révolté, impulsif,
mensonge,coquetterie,
manque de courage,
passif
dans l’acte.Le
"comique"
Personnage comique, caricatural, figé
dans letemps, drôle,
horsclasse,
famille non
décrite,
farces.L"’aventurier"
Aventure, aventure-mission, aventurier, traître-bandit, recherche, policier,
nature sauvage,
pistes-routes, véhicule-action,
vit àl’étranger.
Le "malheureux"
Isolé, tristesse,
absence famille(difficultés),
drameenfance, fragile,
affec-tion à gagner, famille
incomplète,
substitutpère,
substitut mère.Le "modèle"
Passé