J EAN -M ARC B ERNARD
S ÉBASTIEN P OITRENAUD
L’analyse implicative bayésienne multivariée d’un questionnaire binaire : quasi-implications et treillis de Galois simplifié
Mathématiques et sciences humaines, tome 147 (1999), p. 25-46
<http://www.numdam.org/item?id=MSH_1999__147__25_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1999, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
L’ ANALYSE IMPLICATIVE
BAYÉSIENNE MULTIVARIÉE
D’UN
QUESTIONNAIRE
BINAIRE :QUASI-IMPLICATIONS
ET TREILLIS DE GALOIS
SIMPLIFIÉ
*Jean-Marc
BERNARD1
et SébastienPOITRENAUD1
RÉSUMÉ 2014
Nous proposons une nouvelle méthode pour simplifier le treillis de Galois associé à un questionnaire binaire(n
individus classés selon q questionsbinaires),
méthode basée sur l’affaiblissement des implications portées par le treillis en quasi-implications. Au niveau descriptif, laméthode proposée fait intervenir un nouvel indice pour la mesure des quasi-implications
(l’"indice
implicatifmultivarié")
qui satisfait certaines conditions d’invariance par équivalence logique. Auniveau inductif, l’incertitude sur les fréquences vraies des profils est exprimée par un "modèle Dirichlet imprécis". Ce modèle répond aux difficultés des modèles bayésiens usuels fondés sur une
distribution de Dirichlet unique, notamment pour le cas où n est petit devant 2q. Un aspect important
de la méthode est que les résumés descriptif et inductif qu’elle fournit constituent des treillis de
Galois, versions simplifiées du treillis initial.
MOTS
CLÉS 2014
Données binaires, Méthodes booléennes, Indice implicatif multivarié, Inférence bayésienne, Probabilités imprécises, Modèle Dirichlet imprécis.SUMMARY 2014 Multivariate Bayesian implicative analysis for a binary questionnaire : quasi- implications and simplified Galois lattice
We propose a new method for simplifying the Galois lattice associated to a binary questionnaire
(n
units classified according to q binary
questions).
The method consists in weakening the implicationsborne by the lattice into quasi-implications. At the
descriptive
level, the method involves a new measure for quasi-implications(the
"multivariate implicativeindex")
which satisfies some require-ments of invariance by logical equivalence. At the inductive level, uncertainty about the patterns’
true frequencies is expressed by an imprecise-Dirichlet model. This model is shown to have several
advantages over the usual non-informative Bayesian approach based on a single Dirichlet prior, es- pecially for the case where n is small in comparison to 2q. An important feature of the method is that it provides two implicative summaries,
descriptive
and inductive, which both constitutesimplified
versions of the initial Galois lattice.
KEY WORDS 2014 Binary data, Boolean methods, Multivariate implicative index, Bayesaan inference, Imprecise probabilities, Imprecise Dirichlet model.
* Une version
préliminaire
de cet article a été présentée aucongrès
de la Société Francophone deClassification en
Septembre
1998 à Montpellier, France. Nous remercions deux referees anonymes de ce congrès pour leurs remarques et suggestions qui nous ont aidé à en améliorer le contenu.’Laboratoire
Cognition
et Activités Finalisées, CNRS ESA 7021, Université Paris 8, 2 rue de la Liberté, 93526 Saint-Denis Cedex, France, e-mail : berjûuniv-paris8.fr, poitrenaud@univ-paris8.fr.1. INTRODUCTION
Notre
objectif
dans cet article est de proposer une nouvelle méthode pourl’analyse
d’un
questionnaire binaire,
c’est-à-dire de données sous la forme de n "individus"ayant répondu
à un ensemble de q"questions" binaires,
dont les modalités correspon- dent à laprésence
ou absencede q
traits. Parmi les méthodesexistantes, beaucoup adoptent
une visionsymétrique,
et souventglobale,
duproblème
de l’association en-tre les
questions.
Notre but est au contraire depouvoir parvenir, lorsque
les donnéesl’autorisent,
à des conclusionsdissymétriques
telles que "laréponse a
à laquestion
A
implique,
engénéral,
laréponse
b à laquestion
.8"(on
dira "aquasi-implique b" ).
L’articleprésent
est ainsi dans laligne
des travaux sur les échelles de Guttman(Guttman, 1944 ; Loevinger, 1948) et, plus généralement,
des méthodesqui
met-tent en avant les structures booléennes ou ordinales sur les modalités des
questions,
comme
l’analyse
booléenne dequestionnaires (Degenne, 1972 Flament, 1966
et1976)
et la théorie des treillis de Galois
(Barbut, Monjardet, 1970 Duquenne, 1987 ;
Gan-ter, 1995 ; Wille, 1982).
Nombre de travaux dans ce domaine ont visé au
développement
d’uneanalyse qualitative
de donnéesexhaustives, uniquement
fondée sur laprésence
ou absence desprofils
deréponses possibles.
Cetteapproche
conduit à caractériser la structure des associations entre modalités par un ensemble de relationsimplica,tives (Duquenne,
1987 ; Guigues
&Duquenne, 1986).
Maislorsque
le nombre dequestions q
estgrand,
la structure
implicative peut
devenir fortcomplexe.
Il devient alorsimportant
detenter d’en fournir un résumé
simplifié qui puisse s’exprimer
en termes dequasi- implications
au lieud’implications
strictes. Deplus, lorsque
les individus constituentun échantillon d’une
population plus vaste,
leproblème
de l’inférence vients’ajouter
au
précédent :
Le résumé trouvé au niveaudescriptif peut-il
êtreétendu, généralisé,
à la
population
entière ? Ce besoin desimplifier (niveau descriptif)
et degénéraliser (niveau inductif)
nécessite laprise
encompte d’aspects quantitatifs.
L’introduction d’éléments
quantitatifs
a étéenvisagée
defaçon descriptive
enfiltrant le
protocole
selon le critère defréquence/rareté
desprofils (e.g. Flament, 1976 ; Duquenne, 1996) mais,
comme lesoulignent
Hildebrand et al.(1977)
etBernard Charron
(1996a),
ce critère nepeut,
àlui-seul,
servir de base pourune définition satisfaisante des
quasi-implications :
ilpeut
conduire à conclure quea
quasi-implique
b alors que lesquestions A
et B sont en faitstatistiquement indépendantes.
Uneapproche alternative, proposée
parLuxenburger (1991),
faitappel
à la notiond’ "implications partielles"
définies sur la base defréquences conditionnelles, mais,
elle nonplus,
nerépond
pas à lacritique précédente;
deplus,
lesquasi-implications auxquelles
elle conduit ne vérifient ni latransitivité,
nil’invariance par
équivalence logique.
z
Hildebrand et al.
(1977)
ont étudié en détail le cas desquestionnaires
bivariés(q = 2),
pourlesquels
ilsproposent
l’indicedescriptif
"Del" comme mesure del’adéquation
des données observées à un modèlelogique d’intérêt ;
pour le cas dequestions binaires,
cet indice se réduit à l’indice deLoevinger (1948).
Pour lesinférences relatives à l’indice Del ces auteurs ont recours à une
approche fréquentiste qui
faitappel
à desarguments asymptotiques
etqui,
de cefait,
se heurte à de sérieuses difficultés pour lespetits
échantillons ainsi que pour les données extrêmes.L’approche bayésienne qu’ont proposé
Bernard & Charron(1996a, 1996b)
pour le cas de donnéesbivariées, l’analyse implicative bayésienne, permet
de lever ces difficulté.Hildebrand et al.
(1977,
ch.7) proposent
unegénéralisation
de leur méthode aucas de données multivariées
qui
se révèle insatisfaisante : d’unepart,
elle neremplit
pas certaines conditions minimales d’invariance par
équivalence logique,
d’autrepart,
elle souffre des mêmes limitations au niveau inférentiel que celles rencontrées pour les données bivariées.
Pour
répondre
à cesdifficultés,
nous proposons ici une extension del’analyse implicative bayésienne
de Bernard & Charron(1996a)
au cas de données binaires multivariées. Au niveaudescriptif,
notre méthode conduit à un résumédescriptif
duprotocole
en terme dequasi-implications
dont la définition fait intervenir un nouvel indiced,
l’indiceimplicatif multivarié, qui généralise
l’indice Del. La"quasi-logique"
qui
en découle constitue unegénéralisation
de lalogique
usuelle tout en en conservantcertaines
propriétés
essentielles.Au niveau
inductif,
nous recourons à uneapproche bayésienne non-informative,
fondée sur le
concept
deprobabilités imprécises,
pour l’évaluation dudegré
degénéralisabilité
d’un tel résumé. Le modèle Dirichletimprécis ( "imprecise
Dirichletmodel" en
anglais)
que nous utilisons se revèleplus
satisfaisant que les modèlesbayésiens
non-informatifs usuelsqui reposent
sur une distribution initialeunique.
Cet
avantage
est manifestelorsque
q estgrand
etqu’ainsi
nombre des 2qprofils possibles
sont non observés par construction. On trouvera uneprésentation complète
des modèles à
probabilités imprécises
dansWalley (1991)
et du modèle Dirichletimprécis
enparticulier
dansWalley (1996),
pour l’inférenceparamétrique,
et dansWalley k
Bernard(1998)
pour l’inférenceprédictive.
Un
aspect important
de la méthode que nous proposons est que chacun des deuxrésumés, descriptif
etinductif, qu’elle
fournitpeut
êtrereprésenté
par un treillis de Galoisqui
constitue une versionsimplifiée
du treillis de Galois observé.Cet article est
organisé
comme suit. Dans la section2,
nous introduisons les notations relatives à unquestionnaire
binaire. Les sections 3 et 4présentent
letreillis de Galois et les
implications
associés à unquestionnaire
binaire.L’aspect descriptif
de notre méthode est introduit à la section 5 avec la définition desquasi- implications.
La section 6 aborde le niveau inductif avec laprésentation
et lesdifficultés des méthodes
bayésiennes
non-informativesusuelles,
difficultésauxquelles répond
le modèle Dirichletimprécis présenté
à la section 7.Enfin,
nousprésentons
une
application
de notre méthode sur unexemple
réel à la section 8 avant de conclure(section 9).
2.
QUESTIONNAIRE
BINAIREMULTIVARIÉ
2.1. PROTOCOLE
OBSERVÉ
Soit i =
{il’... , in}
un ensemble de nindividus,
que, selon lecontexte,
on pourra aussiappeler
des "unités" ou des"objets". Chaque
individupeut
ou nonprésenter
certains traits
parmi
l’ensemble F =ta, b, c, ... 1
de cardinal q. Un tel ensemble dedonnées,
que nousappellons protocole (ou protocole observé), s’exprime
d’abordcomme une relation
binaire, ~Z,
sur I xF,
définie pariR. f
ssi l’individu ipossède
le traitf,
avec1 e I, f e F. (1)
A
chaque
trait a, on associe laquestion
binaires A =ta, aI
dont les modalitésreprésentent respectivement
laprésence (a)
ou l’absence(a’)
du trait. Leprotocole
peut
ainsiégalement
être décrit comme unquestionnaire
binaire relativement à n individusrépondant
chacun aux qquestions binaires, A, B, C,
etc..Si on
adopte
la vision d’une relationbinaire,
les individus et les traitsjouent
unrôle
symétrique.
Dans un contextestatistique,
enrevanche,
l’ensemble I constituetypiquement
un échantillon d’unepopulation plus
vaste dont iln’importe
pas de dis-tinguer
les éléments.Parallèlement,
laquestion
d’intérêtportera
alors essentiellement dans ce cas sur l’étude des associations entre traitsqui,
eux, doivent êtredistingués.
Avec cette vision
dissymétrique,
leprotocole peut
être décrit comme unprotocole pondéré composé
deprofils
p EP,
avec P = A x Bxe..., pondéré
chacun par l’effectif n~ des individusprésentant
leprofil p.2
Le nombre deprofils possibles
est7~
= ~ IPI -
2q .(Dans
tout le début de cetarticle,
nous considéronsqu’aucun profil
n’est a
priori impossible;
le cas de contraintes structurelles connues apriori
seraenvisagé
à la section7.3.)
2.2. PROFILS PARTIELS ET PROJECTIONS D’UN PROTOCOLE
L’ensemble des
profils
de base est défini en référence à l’ensemble des qquestions initiales, Q
={A, B, C, ... 1.
Mais leprotocole
de basepeut
êtreprojeté
sur un sous-ensemble non trivial
quelconque Q’ de Q ; chaque profil
de base est alorsprojeté
enun
profil partiel,
dont lepoids
associé s’obtient évidel11111111eIlt par SOlI1IllatioIl despoids
initiauxpertinents.
3. TREILLIS DE GALOIS
ASSOCIÉ À
UNQUESTIONNAIRE
BINAIREA la relation binaire R. sur I x
F,
on associe un treillis de Galois(Barbut, Monjardet,
1970). Rappelons
brièvement les éléments clefs de cette construction.Pour
chaque partie
JC I, et, dualement,
pourchaque partie
GC F,
on définitet
L’ensemble
Ji, appelé
l’intension(ou compréhension)
deJ,
est l’ensemble des traitspartagés
par tous les éléments deJ,
etGI, appelé
l’extension deG,
est l’ensembledes individus
possédant
tous les attributs de G.Les deux
applications
J HJI
et G HGI
satisfont -avec , avec
et constituent ainsi une
correspondance
de Galois entre l’ensemble desparties
de Iet celui des
parties
de F.Un
pavé
maximale(ou rectangle maxirrtal)
de la relation Il est uncouple (J Ç I,
GC F)
satisfaisant lapropriété
defermeture,
c’est-à-dire tel queet
2Comme Degenne
(1972)
ou Flament(1976),
on pourrait aussi dire "patron de réponse" à la placede "profil".
Dans le
langage
de la "FormalConcept Analysis"
de Wille(1982)
et Ganter(1995),
un tel
couple (J, G)
estappelé
unconcept (d’extension
J et d’intensionG)
dans lecontexte de la relation Il C I x F. L’ensemble de tous les
concepts
estpartiellement
et dualement ordonné par l’inclusion entre
parties
de I et l’inclusion entreparties
deF. Cet ordre
partiel
induit une structure de treillis sur l’ensemble desconcepts,
d’oùl’appelation
"treillis de Galois".Nous renvoyons le lecteur à
Duquenne (1987),
Guénoche & Van Mechelen(1991),
et Wille
(1982),
pour uneprésentation
détaillée du treillis de Galois et de sespropriétés,
à Bordat(1986)
et Guénoche(1990)
pour saconstruction,
et enfin auxlogiciels
GLAD deDuquenne (1992a),
PROCOPE de Poitrenaud(1995, 1998)
ainsiqu’à
Wille(1989)
pour sonimplémentation informatique.
Un accentparticulier
aété mis sur le
développement
dereprésentations graphiques
du treillis de Galois(cumulé~décumulé, pondéré/non pondéré) permettant
d’en faciliterl’interprétation (voir
e.g.Duquenne, 1992b). Lorsque, notamment,
on introduit ladissymétrie
entreindividus et
traits,
unereprésentation typique
est celle danslaquelle chaque concept
(G, J)
estreprésenté
par son intension G et par le cardinal de son extension1 J’.
Considérons
l’exemple
d’unquestionnaire comprenant
q = 3questions binaires, A,
B etC, représenté
sous la forme d’unprotocole pondéré (p, np)PEP (voir
Tableau1).
On y aégalement figuré
le treillis de Galois décumulé(tout
noeud hérite des traits situés au-dessus de lui et des individus situésen-dessous)
etpondéré (pour
lesindividus).
Tableau 1:
Exemple
1. Protocolepondéré comprenant
q = 3questions. binaires, A,
Band
C,
etportant
sur n =100 individus(données fictives),
avec le treillis de Galois décumulé etpondéré
associé.Un
aspect important
des méthodes basées sur le treillis de Galois estqu’elles
fournissent une
description
exhaustive des associations entre traits à tous les niveauxpossibles
decomplexité :
binaire(faisant
intervenir deuxquestions),
ternaire(faisant
intervenir trois
questions),
etc.. Encontrepartie,
et même pour un nombre modéré dequestions,
le treillis de Galoispeut
se révéler fortcomplexe.
Deplus,
comme lesoulignent
aussi Guénoche & Van Mechelen(1991),
le treillispeut
être extrèmement sensible à des modifications mineures de l’ensemble des individus. Ces deux faits motivent la recherche desimplifications
du treillis de Galois. Ils’agit
d’en obtenirun résumé
simplifié qui parvienne
àcapturer
l’essentiel des associations entre traits tout enprésentant
un caractère suffisammentstable,
Í. e.généralisable.
En cequi
nousconcerne, la
simplification
se fondera surl’équivalence
entre structured,u
treillis et listed’implications
etportera
sur l’affaiblissement de cesimplications ;
la recherche degénéralisabilité, quant
àelle,
sera abordéeplus
loin par ledéveloppement
d’uneméthode d’inférence
bayésienne appropriée.
4. IMPLICATIONS
ASSOCIÉES
AU TREILLIS DE GALOISSi on s’attache seulement aux
dépendances
strictes entre modalités desquestions,
il suffit de ne retenir du
protocole
que le caractèreprésent (np
>0)
ou absent(np = 0)
dechaque profil
p. A ce niveauqualitatif,
leprotocole peut
être caractérisé par une listed’implications
entre modalités(Flament, 1976) qui peut s’exprimer
sous une forme minimale
(Guigues, Duquenne, 1986).
Comme lesouligne Duquenne (1987),
cette visionimplicative
est en dualité avec le treillis de Galois :plus
letreillis est
complexe
et moins la structureimplicative
estriche,
moins il l’est etplus
cette structure est riche. Avant d’aborder cetaspect,
il est nécessaire depréciser
certaines notations et identités relatives auxexpressions logiques qui
nouspermettront
d’énoncer cesimplications.
4.1. EXPRESSIONS LOGIQUES
Du
point
de vuelogique,
les traitsa, b, c, ...
sont assimilés à despropositions
élémentaires
qui peuvent
être vraies ou fausses. La concaténation(e.g.
dansab) désigne
le "etlogique",
lesymbole "prime" (e.g.
dansa’)
lanégation,
lesymbole
4~ ==>"
l’implication logique.
Nous auronségalement
recours auxsymboles
"A" et"V" pour le "et" et le "ou"
logiques respectivement,
ainsiqu’au symbole "0"
pourdésigner
uneproposition toujours
fausse.En notant r, s et t trois
propositions quelconques,
on vérifiera aisément les trois identitéslogiques,
où le
symbole
"-"indique l’équivalence logique
de deuxpropositions.
4.2. IMPLICATIONS
PORTÉES
PAR UN PROTOCOLEImplications
élémentaires. L’absence d’unprofil
de base p e P dans leprotocole s’exprime simplement
par l’énoncép’ (p
estfaux), soit,
en utilisant l’identité(2),
parNous
appelons implication
élémentaire une telleimplication,
lequalificatif
"élémentaire"
indiquant qu’elle
concerne un seulprofil
de base.Dans
l’exemple du
Tableau1,
leprofil
ab’c estabsent,
soit(ab’c)’
ou encore ab’c F0.
Par l’identité(3),
cette absencepeut
encores’exprimer
par ab’ Fc’,
ac F bou bien b’c F a’. De ces diverses écritures
équivalentes, l’expression
ac F b("la conjonction
de a et cimplique b" )
est laplus simple
pourl’interprétation.
Cependant
nous utiliserons la forme ab’c F0,
etplus généralement
r F0,
de
façon privilégiée;
cette formecanonique présente
en effetl’avantage
d’identifier directement lesprofils
de base oupartiels
absentsqui jouent
un rôle central dans la méthode que nous proposons.Structure
implicative
duprotocole.
L’absence simultanée deplusieurs profils
debase,
p1, p2, p3, ~ ~ ~, dans le
protocole
observés’exprime
par laconjonction
ou encore, en utilisant
(2),
par laconjonction d’implications
élémentairesAinsi,
la visionqualitative
duprotocole, qui
n’en retient que l’absence ou laprésence
des
profils
debase,
se traduit par uneconjonction d’implications
élémentaires.Dans
l’exemple
du Tableau1,
les deuxprofils
abc’ et ab’c sont absents. La structureimplicative
duprotocole s’exprime
ainsi par"(abc’
F0)
I1(ab’c
F0)",
ou bien defaçon équivalente,
en utilisant(3),
parImplication
binaires. L’utilisation récursive de(4) permet
le cas échéant(mais
pasdans notre
premier exemple)
de condenser cette listed’implications
élémentaires en une listeplus compacte d’implications,
dont chacuneexprime
l’absence simultanée deplusieurs profils
de base. La forme laplus compacte
est celle desimplications binaires,
c’est-à-dire desimplications
dontl’expression
ne faitplus
intervenir que deuxquestions,
comme parexemple
ab’===> 0
ou a Fb, qui présentent
un intérêtparticulier
pourl’interprétation
desdonnées.3
Les
implications
élémentaires et binaires constituent deux extrèmesparmi
l’ensemble des
implications possibles.
Lesimplications
élémentaires sont minimales dans la mesure où elles identifient unprofil
de base absentunique,
mais leur écriture fait intervenir l’ensembledes q questions.
A l’autreextrème,
lesimplications
binairessont minimales dans le sens où leur écriture ne nécessite que deux
questions, mais,
encontrepartie,
chacune identifie2 (q-2) profils
de base absents. Bienentendu,
les deuxnotions coïncident
lorsque
q = 2.5. ANALYSE DESCRIPTIVE :
QUASI-IMPLICATIONS
Considérons un second
exemple simple
avec à nouveau q = 3questions (voir
Tableau
2).
Danscelui-ci,
tous les 2qprofils possibles
sont observés et ainsi rienne
peut
être conclu en termesd’implications
strictes(le
treillis associé estbooléen).
Cependant,
si lespoids
desprofils ab’c,
ab’c’ et a’bc valaient tous 0(au
lieu de1,
3 et 2
respectivement),
la structureimplicative
duprotocole pourrait s’exprimer
par
"(ab’c
F0)
I1(ab’c’
F0) A (a’bc
F0)",
ou, defaçon plus compacte
par"(a
Fb)
/1(bc
Fa)",
en utilisant(3)
et(4).
Notreobjectif
estprécisément
d’étudier dans
quelle
mesure cette dernière structureimplicative
-suggérée
parune intuition
simple, peut-être
un peutrop
-peut
être considérée comme uneapproximation acceptable
de ceprotocole.
Tableau 2:
Exemple
2. Protocolepondéré portant
sur q = 3questions binaires, A,
Bet
C,
et n = 148 individus(données fictives),
et treillis de Galois associé.3 Nous supposons ici qu’aucun trait n’est soit toujours présent, soit toujours absent, et donc que des réductions ultimes telles que a===>0 ou a’ ===> 0 ne peuvent se produire.
Pour
répondre
à cetobjectif,
nous définissons d’abord ici la notion dequasi- implication ( q-implicatior~
enbref)
sur une basepurement descriptive
dans le sensprécis
de Rouanet et al.(1990,
pp.2-4),
c’est-à-dire en considérantuniquement
lesfréquences
relatives,f
=(!P)PEP
avecfp = np/n
desprofils
et non l’effectif total n duprotocole.
5.1. DEUX QUESTIONS BINAIRES
(q
=2)
Bernard & Charron
(1996a)
ont fondél’analyse implicative
d’un tableau de contin- gence 2 x 2(q
=2)
sur l’indice"Del",
introduit dans ce contexte par Hildebrand et al.(1977)
et défini pour toutprofil
p =i j,
i eta, a’I et j
E{&, b’l,
paroù f 2
etfj
sont lesfréquences marginales
de iet j respectivement.
Cet indiceapparaît également
dans la littérature sous le nom d"’indiced’homogénéité
deLoevinger"
(Loevinger, 1948).~
L’indice
di~~~
mesure l’écart du tableau 2 > 2 observé àl’indépendance
localeentre i
et j (qui
se traduit parfi3.
=fifj)
dans la direction du modèlelogique 1 j
===}0,
d’où notre notation. Cet indice varie dans
l’intervalle ] -
oo,1] ;
enparticulier,
il vautU en cas
d’indépendance
locale entre iet j
et 1lorsque i j
F0. Ainsi,
c’estlorsqu’il
est
positif
que cet indicepeut
êtreinterprété
comme undegré
deq-implication.
Pourune valeur-seuil donnée
dquasi
>0,
uneq-implication
dedegré dquasi a
été définie par Les critères de choix dedquasi
sont discutés dans Bernard & Charron(1996a).
Parla
suite,
nous utilisonsfréquemment
la valeur-seuilquasi
= 0.50qui correspond
aucas d’un
profil
deux fois moinsreprésenté qu’en
casd’indépendance
locale. Cettevaleur-seuil
particulière
n’est utiliséequ’à
titre indicatif et on aura souventintérêt,
dans l’étude des
quasi-implications,
à utiliser unegrille
de valeurs-seuils telle que, parexemple, [0; 0.20; 0.40; 0.60; 0.80; 1].
Considérons,
parexemple,
leprotocole projeté
surQ’ _ { A, B }
duprotocole
debase du Tableau 2. Pour
chaque profil
pparmi ab, ab’,
a’b eta’b’,
l’indicedp===r-0
prend
comme valeurs-0.28, 0.81,
0.35 et -1.01respectivement.
Pour la valeur-seuildquasi
= 0.50 parexemple,
on trouve une seuleq-implication élémentaire,
ab’ 2013~0,
z, e. a 2013~ b.
Soulignons qu’avec
cettedéfinition,
il n’estpossible
de conclure à unequasi- implication
quelorsque
les données s’écartent del’indépendance,
et que l’écartqui
est
pris
encompte
est un écart dans une directiondonnée,
cequi
autorise des conclusionsdissymétriques :
les énoncés a 2013~ b et b 2013)’ ~ ne sont pas traités defaçon équivalente,
du fait que les modèleslogiques
stricts associés identifient ab’et a’b
respectivement
comme "case d’erreur"associée,
pourreprendre
le terme deHildebrand et al.
(1977). Enfin,
dans cetteconstruction,
deux énoncéslogiques qui
identifient les mêmes cases d’erreur sont traités de manière
identique ;
ceci assurel’invariance des
q-implications
paréquivalence logique.,
Nous renvoyons le lecteur à Bernard & Charron(1996a)
pour d’autrespropriétés
de l’indice"Del",
et notammentses liens avec le coefficient de
contingence jJ2.
4Dans Bernard & Charron
(1996a),
c’est l’indice de Loevinger, avec sa notation usuelle H, qui estmis en avant. Nous
privilégions
ici une présentation plus proche des travaux de Hildebrand et al.(1977)
ainsi qu’une notation(5)
plus conforme à celle de l’indice "Del" proposé par ces auteurs etdéjà utilisée dans Bernard & Charron
(1996b).
5.2.
GÉNÉRALISATION À
PLUSIEURS QUESTIONS BINAIRES(q
>2)
5.2.1. Premières
suggestions
et leursdi ffi cultés
Il y a
plusieurs façons d’envisager a priori
lagénéralisation
de la notion de q-implication
àplus
de deuxquestions.
Unepremière
direction est de se centrer surles
implications binaires,
c’est-à-dire de ne considérer duprotocole
que lespaires
de
questions,
comme cela est fait dans Bernard & Charron(1996a).
Unpremier
inconvénient de cette
approche
est que, pardéfinition,
elle "oublie" lespossibles dépendances
ternaires et d’ordresupérieur.
Plusproblématique
encore, ellepeut
conduire à un résumé non-transitif du
protocole.
Considérons à nouveau notrepremier exemple,
leprotocole
donné au Tableau1,
et les troisprotocoles projetés qu’on peut
en dériver(voir
Tableau3).
Apartir
deceux-ci,
on obtientrespectivement
et
Pour
dq~aS2
=0.50,
on est ainsi conduit aux conclusions que a ----7b,
b - c, maisnon que a - c. On a même en fait une
répulsion
entre les modalités a et c.Tableau 3:
Exerrzple
1. Protocolesprojetés sur ( A, B) , ( B, (j et 1 A, CI.
Une autre direction consiste à se centrer sur les
implications élémentaires, mais,
même dans ce cadre
plus restreint, plusieurs possibilités
degénéralisation peuvent
encore être
envisagées.
Deux voiespossibles, explorées
par Hildebrand et al.(1977,
ch.
7),
ont en commun de chercher à se ramener au cas desimplications binaires,
maisaussi,
comme ces auteurs lenotent,
de conduire à une non-invariance paréquivalence logique.
Revenons à notre secondexemple,
leprotocole
donné au Tableau2,
etconsidérons,
parexemple,
leproblème
de la définition d’une mesure dudegré
dela
quasi-implication
élémentaire ab’c -0.
Une
première
idée est dedécomposer
cet énoncé en faisant intervenir la modalitécomposée
ab’ d’unepart
et la modalité c d’autrepart.
Avec ceregroupement
dissymétrique,
on est ramené au cas q = 2et,
par(5),
on obtientd(ab’)c===}0
= 0.14.Une difficulté de cette
approche
estqu’elle dépend
du choix deregroupement
effectué : la
décomposition
en ac et b’ conduit àd(ac)b’==?0
=0.85,
et ladécomposition
en b’c et a donne
d(b’c)a===}0
=0.89,
etceci, malgré
que lesexpressions logiques qui
interviennent dans ces trois écritures soient
logiquement équivalentes.
Une idée alternative est celle du conditionnement : dire que "ab’c F
0~
estlogiquement équivalent
à dire que "ab’ F0
conditionnellement àc",
ce quenous écrivons "ab’ F
0Be".
On est à nouveau ramené au cas q =2,
et par(5),
on obtient
dabl==?01c
= 0.90.Malheureusement,
les deux autres conditionnementséquivalents
conduisent ici aussi à des conclusions incohérentes :6~==~0~
=0.41,
etdb’c==?0Ia
= 0.21.5.2.2. Indice
implicatif
multivarié,Les tentatives
précédentes
de définir desq-implications
sur la base desimplications
binaires et de l’indice défini en
(5)
mènent à desincohérences,
d’où notreproposition
de
généraliser l’approche
de Bernard & Charron(1996a), rappelée
à la section5.1,
aux
implications
élémentaires pour qquelconque.
Pourcela,
nous introduisons un nouvelindice, appelé
indiceimplicatif
multivarié et notédp===?0.
Cet indicegénéralise
l’indice défini en
(5)
en faisant intervenir l’ensembledes q questions
duprotocole
debase. Pour tout
profil
p =ij k ...,
avec 1 E{c~}, ~
E~b, b’~, 1~
Ef c, cl, etc.,
cet indice est défini pari
où
fi, fj, fk,
etc.désignent
lesfréquences marginales
des modalitési, j, k,
etc..L’indice
implicatif
multivariédp..., 0
constitue une mesure locale de l’écart duprotocole
parrapport
àl’indépendance complète,
définie par :Vp
=ijk..., fp ==
fifjfk ... (Kendall
&Stuart, 1973,
p.600).
Cette mesure est locale parce l’écartmesuré est celui dans la direction
spécifique
du modèlelogique
p F0.
L’indicedp~~
vaut 0 en casd’indépendance
locale(fp = !i!j!k...),
il estpositif lorsque
le
profil
p estsous-représenté (fp f 2 f f ...),
et vaut 1 dans le cas d’une sous-représentation maximale,
i. e. où leprofil
p est absent( f p = 0).
Parexemple,
unevaleur de 0.50 pour
signifie
que leprofil
p estsous-représenté
de50% (z.e.
deuxfois moins
représenté)
parrapport
à la situationd’indépendance complète
entreA, B, C,
etc..Dans les définitions
(5)
et(7)
des indicesimplicatifs
bivarié etmultivarié,
deuxaspects
sont essentiels :(i)
le fait deprendre
la densité de la mesure(fp)pcp
parrapport
à une mesure de référence i. e. un indice dutype (ii)
le faitde choisir comme mesure de référence celle
qui exprime l’indépendance complète,
i. e.f p
=fi fj f k
... C’est(i) qui
assure que la combinaison d’énoncés relatifs àplusieurs profils
se fait par moyennage - on le verraplus
loin -, et c’est(ii) qui exprime
la
question d’intérêt,
i. e. celled’opposer dépendance
orientée àindépendance.
Parcontre,
la formeparticulière
des indices(5)
et(7), qui
faitprécéder
la densité par"1-" ,
1 est secondaire et a comme motivation celle de la cohérence avec les indices usuels deliaison,
pourlesquels
la valeur 0indique
une absence de liaison et la valeur1 une liaison maximale.
5.2.3.
Quasi-implications
Pour une valeur-seuil donnée
dquasi
>0,
nous étendons la notiond’implication
élémentaire
"p
~0"
à celle dequasi-implication
élémentaire"p
2013~0"
parce
qu’on
lira "leprofil
pquasi-implique 0"
et que nousexprimerons
aussi par "leprofil
p estquasi-absent (ou q-absent)".
Nous auronsparfois
recours aux écritures"p ~ 0~
ou"p 2013> 0" qui indiquent explicitement
le niveau deprojection auquel
les
q-implications
élémentaires sontdéfinies,
la valeur-seuildquasi
restanttoujours implicite.
Les
q-implications
non élémentaires sont définies en utilisant récursivement la mêmerègle
decomposition (4)
que dans lalogique stricte,
enpartant
des q-implications
élémentaires.Formellement,
la notiongénérale
deq-implication r 2013~
sest définie par,
ssz alors