N. R AHMANIA
Distances vectorielles entre mots
Mathématiques et sciences humaines, tome 97 (1987), p. 67-78
<http://www.numdam.org/item?id=MSH_1987__97__67_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1987, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
*
DISTANCES VECTORIELLES ENTRE MOTS
**
N. Rahmania
I. Introduction.
Dans le traitement des données
statistiques,
le choix d’une distanceentre individus ou entre variables est conditionné par la nature des observa- tions ; ce choix
peut
se faire àpartir
d’uncatalogue
de distances bien con-nu de l’utilisateur
(cf.
parexemple [2]) ; cependant
ilpeut
arriverqu’-
aucune de ces distances ne
s’applique
directement aux donnéesrecueillies ;
c’est parexemple
le cas desenquêtes
sur le devenirprofessionnel,
la mobi-lité
sociale,
lestrajectoires scolaires,
les itinérairesbiographiques,
certaines
préférences
et d’une manièregénérale
les données formalisables par des"mots",
c’est-à-dire des suites de lettres d unalphabet.
On est doncamené à définir des distances entre mots. Une
approche classique (cf.
notamment
[2])
utilise lespropriétés
structurelles de l’ensemble des motsconsidérés ;
parexemple,
si cet ensemblepeut
être structuré commegraphe
on pourra utiliser une distance du
"plus
court chemin". Une autreapproche
consiste à définir une distance vectorielle
classique.
C’est cette dernièreque nous utilisons ici.
Dans le 2ème
paragraphe
de ce texte, nous définissons les mots, leurcodage
vectoriel basé sur la notion de vecteur rang ainsi que la
métrique
LY asso-
ciée ;
nousprésentons
ensuite un autrecodage
vectoriel permettant unegéné-
ralisation de cette
métrique.
~ Je tiens à remercier vivement Bernard
Monjardet
dont lessuggestions
ontpermis
la mise en forme de cet article.’’"’’ U.E.R. de Mathématiaues Pures et
Appliquées,
Université de Lille I.(Manuscrit
reçu enjanvier 1986).
Dans le 3ème
paragraphe,
nous considérons les motsparticuliers
que sont les arrangements ; nous mettronsprincipalement
l’accent sur la relation entretrois distances
possibles
sur l’ensemble de ces mots. Unexemple d’applica-
tion illustrera cette
partie.
L’annexe
sera consacrée à lareprésentation polyédrique
des arrange- ments.II.Distances entre mots.
1 )
etSoit A un
alphabet
de nlettres ;
un mot est une suite finiep = 1 2
de 2- lettres ; l’entier , >
1 est lalongueur
du mot H."
a
l
On note
At
. l’ensemble des mots delongueur f,
et M =t a
1A ,
l’ensemble des mots delongueur e
q ; c’est sur cet ensemble M que l’on va définir desmétriques.
Par
définition,
on dira que le rang de la lettreui
dans le motest i et on écrira :
r(u1) -
1 i.Soit p E M et x E
A ;
ondésigne
park(x),
ou k s’iln’y
a pasd’ambiguïté,
le nombre d’occurences de x dans le mot ~;plus précisément
on pose pour
autrement dit :
rl(x),...,r.(x),...,rk(x)
1 j K est la suite des rangs des koccurences de x dans le mot p.
On définit alors le
vecteur ? (x) = (r 1 ,r 2 ,...,r ) q
deIRq
en posantCe
vecteur t u (x),
ousimplement r(x),
est donc formé par la suite des rangs des k occurences.de x dans le mot u, suivie deq-k
termes nuls.Fixons-nous maintenant un ordre
xl,...,xt,...xn
sur les éléments deA ;
au mot ~, on associera la suite des n vecteursOn définit ainsi une
application
notéeS,
de M dansSoient p deux mots et, pour les deux vecteurs des rangs de
x dans p
Une manière de définir des distances entre p et
p’
consiste à calcu- ler d’abord unedistance,
notée6 t
, entrer(xt)
" etr’(xt),
pourchaque
xt ;
ensuite une fonction de6
tPrenons pour
6 xi-
la distance associée à la normeL ,
il y > 1 :x
Yétant les
jièmes
coordonnées de-
Pour discriminer entre p et
p’,
onpeut prendre
la distance associée à la normeL fl *
1 :2 )
a)
une autre méthode consisterait à considérer etS(p’)
commedes vecteurs de
Rqn,
ou matrices. nxq, et à utiliser une distance danson obtient
qui
estidentique
à la distance euclidienne sur lesrt.
J
c)
D’une manièregénérale,
si y =,
on obtient la distance associée à la norme L«Y
dans
Rqn ;
; on retrouve ainsi la méthodeévoquée
dans la1ère remarque.
d)
Pardéfinition,
cesmétriques
ne tiennent pascompte
desproprié-
tés structurelles des mots et de leur
signification
concrète. Ce sont detelles
propriétés
ousignifications qui permettent
depréciser
enquel
senson considère que deux mots diffèrent
plus
ou moins.Il peut alors se faireque deux mots différant
"peu",
en un certain sens, aient une valeur élevée de la distance définie ci-dessus. Ceci motive lagénéralisation
suivante.3 j
Au lieu d’attribuer au
couple (p,x),
x EA,
le vecteur r(x),
on peut_ ~
considérer un vecteur 1%
(x)
défini abstraitement : àchaque
mot p, on~ associe
l’application :
Notons A l’ensemble des lettres distinctes du mot p
et
l’élé-qn ..
ment de IR défini par :
avec
Pour tout
couple (p,p’)
deM2,
2 on pose pourdésigne
la normeL Y
de l’élémentPROPOSITION 1.
Sidu
EM, l’application a
est telle que :alors
d
YP est une distance.(La
preuve estévidente).
Remarques
- Le choix du vecteur
a u (x)
nepeut
sejustifier
que dans des pro- blèmesspécifiques ;
ainsi dans lesproblèmes d’ordonnancement, chaque
lettre, appelée tâche,
peut être soumise à de diverses contraintes : con-traintes de localisation
temporelle,
contraintes de cumul liées auximpératifs technologiques,
contraintesdisjonctives
enrapport
avec lesdisponibilités
des moyens...
chaque
lettrepeut
alors êtrerepérée
par sadurée,
la quan- tité de moyensrequis
pour sa réalisation, son coût...- Parmi les mots que le
praticien peut
rencontrer, onpeut distinguer
essentiellement :
-~ les mots où les lettres en nombre n
n’apparaissent qu’une
et uneseule
fois ;
c’est le cas, parexemple,
desquestionnaires
où on demande declasser n "choix".
-~ les mots
qui comportent
p lettresdistinctes,
p n, choisies dans une liste de nlettres ;
c’est parexemple
le cas despréférences partielles ; l’exemple d’application
ci-dessous en fournit une bonne illus- tration.-~ les mots où les lettres
peuvent apparaître zéro,
une ouplusieurs fois ;
c’est le cas destrajectoires professionnelles :
un même individupeut
successivement occuper despositions professionnelles
différentes et récurrentes(stage
deformation, emploi, arrêt-maladie,
nouvelemploi, chômage, etc...)
- On
peut
aussisignaler
que lepraticien peut
collecter dans certainesenquêtes (cf [4])
des données dont unepartie
seulement est modélisable par des mots ; c’est le cas desquestionnaires qui
combinent à la fois desvariables nominales telles que : lieu de
naissance, origine sociale,
natio-nalité... et des
trajectoires professionnelles
parexemple ;
la mesure dela
proximité
entre deux individus c~ et w’peut
s’écrire :où
p
etp’
sontrespectivement
les mots associés à w et w’%~
da B
est la distance définie ci-dessus%r 6 est un indice de dissimilarité
portant
sur les variables nominales% a et b sont des coefficients de
pondération
.III. Cas des arrangements
La distance définie ci-dessus
permet
d’évaluer laproximité
entreles
arrangements
de nobjets pris
p à p.Désignons
parMp
l’ensemble des motscomposés
de p lettres distinc-n
tes choisies dans
l’alphabet
A ={x1,x2,...,xn}.
Un
élément p
deHP
est alors un arrangement p à p des n lettresn
de A.
A toute lettre de
xi
deA,
onpeut
associer le réel :On
peut
ainsi identifierMp
n à un sous ensembleM n
n deIRn
comme suit :à p
on faitcorrespondre p
de0153n
défini par : -.où
Par
ailleurs,
onpeut
aussi considérer lecodage qui
consiste à associer à x. le réel :1 .
p
peut
alors être identifié à défini par :où
L’apparition
de la lettre K dans ce derniercodage
est une référenceà Kendall. On
peut
en effet considérerqu’un arrangement
de p lettres estéquivalent
à unpréordre
total : les p lettres retenues étant totalementordonnées,
les autres étant exaequo et inférieures auxprécédentes.
Ledernier
codage
est alors une transformation affine ducodage
despréordres
totaux utilisés notamment par Kendall
(cf [7]);
siki
est lecodage
deKendall,
on at.
=n+ 1- k..
Par contre les
codages (K)
ne se déduisent pas engénéral
l’un de l’autre par transformation affine. On a effet :
L’utilisation des distances associées aux normes
L (paragraphe 2)
peut donc conduire à des résultats
différents,
sauf si p = n ou p =n-1,
i.e. dans le cas des
permutations.
Dans ce dernier cas, si onprend =
2ou 1 on retrouve des distances
classiques
entre ordres totaux, la 1ère étant souventappelée
distance deSpearman (cf.
parexemple [2]
et[9]).
Dans lecas
général (p n-1),
nousprenons 5 =
1 et nous étudions la relation des deux distances entrearrangements
obtenues par l’utilisation des deuxcodages précédents.
PROPOSITION 2. Si
A~
etAu,
1désignent respectivement
l’ensembledes lettres
de p
et de~’,
on aest la distance de la différence
symétrique
entrePreuve : Il suffit de remarquer que :
COROLLAIRE.
Exemple
Dans
l’enquête portant
sur les chômeurs deRoubaix-Tourcoing (cf.[1])
il
s’agissait
pourchaque
individu de caractériser son existencequotidienne,
celle de son groupe
d’âge
et du grouped’âge opposé ;
pourcela,
on luiproposait
dechoisir,
dans l’ordre et pourchaque
groupe 4 sommets ou étatsparmi
26possibles (bal, cinéma, stade, café, formation, école, A.N.P.E., jardin public, super-marché, commissariat,
maison desparents, hôpital,...) ; chaque
individu est alors identifié à un mot p à 4 "lettres".A
chaque
lettre x, on attribue le réel :La distance définie ci-dessus
(9=2)
apermis
d’évaluer laproximité
entreles individus et de
produire
unetypologie
cohérente(en appliquant
uneméthode de classification
automatique).
Parexemple,
pour les mots des"jeunes",
on obtient des groupes assezhomogènes.
Lesquatre premiers
groupespartagent
tous une mêmepréoccupation,
celle del’emploi ;
le sommet ANPEest le
plus
souvent en tête et les différences entre les groupespeuvent s’interpréter
comme desadaptations
secondaires à cepoint
dedépart
com-mun ; celles-ci
s’organisent
soit autour de lafamille,
soit autour de laformation,
soit enfin autour du café. A l’inverse des groupesprécédents,
les groupes 5 et 6 choisissent d’abord la maison familiale et se distin- guent ensuite essentiellement pair la
place
accordée à la recherche del’emploi
ou à laformation ;
les groupes 7 et 8 rassemblent les motsqui
partent de l’école ou du centre deformation;si
le groupe 7 passe parl’ANPE,
il évitecomplètement
la maison desparents,
le groupe 8 exclut tou-jours
l’ANPE pour les lieux de détente et de rencontre. Le groupe9, enfin,
est caractérisé par l’évitement
complet
despoints
dedépart
de tous lesgroupes
précédents :
leplus grand
nombre de mots tourne autour duquatuor : bal, café, ciné,
stade : c’est. le groupequi privilégie
cequi peut apparai-
tre comme les côtés
agréables
de lajeunesse.
ANNEXE
annangementz
-+p
nf
Rappelons
que nous notonsMp
l’ensemble des vecteurs deD
codant lesarrangements
de p lettresparmi
n au moyen ducodage e.
Il est bienn
connu que
Mn
est l’ensemble des sommets d’unpolyèdre
convexe, lepermuto- èdre,
contenu dans unesphère
deIK
, de centre G =(2013r2013,...,’20132013)
et deÔ 1 n3-n lll]Ù8] 2 2
rayon
2 3 (cf. [5],[6],[8]
ou[10]).
Ce résultat segénéralise
sansdifficulté pour p n :
HP
n est l’ensemble des sommets d’un ....polyèdre
con-vexe contenu dans une
sphère
deIR n-l
de centre_ / . ~ B
"
, 1 ,
et de rayon . En outre
si p
etp’
sont_ -310.. -310..
deux éléments distincts de
M’,
n on pose :d2(’) = d(ù,ù’)
2 2 leur dis-tance ; on a alors la : PROPOSITION 3.
a) d2(u,u’) ?
/2 etd 2
=VÎ2
si et seulement si on se trouvedans l’un ou l’autre des cas :
- p et
pi
ne différent que par latransposition
de 2 élémentssuccessifs ;
on dira alorsqu’ils
sontadjacents
du 1er genre.- p et
pi
ne différent que par le dernierélément ;
on diraqu’ils
sont
adjacents
du 2ème genreb)
Toutarrangement p
admet exactement(n-1) arrangements adjacents
dont
(p-1)
du 1er genre et(n-p)
du 2ème genre ; le nombre total depaires
... .
d’arrangements adjacents
est T du lergenre et du 2ème genre.
Exemples.
- n =
3, p
- 1 :M1 3
est formé despoints (1,0,0),(0,1,0)
et(0,0,1) correspondant respectivement
à1, 2,
3 ;figure
1Fig.
1- n =
3,
p = 2.M2
est formé desoints (1,2,0). (2,1,0) (1,0,2), (2,0,1), (0,1,2)
et(0,2,1) correspondant respectivement
à21, 12, 31, 13,
32 et23 ;
c’est unhexagone régulier ; figure
2.
Fig. 2
, p = -r
-
n - 4
P= 2.MZ
est formé de 12 sommets et peut êtrereprésenté
dansl’hy- perplan d’équation :
on obtient unpolyèdre semi-régulier
à12 sommets, 18 arêtes et 8
faces ; quatre
des 8 faces sont deshexagones réguliers
et les 4 autres destriangles équilatéraux ; figure
3Fig.
3-
n=4,
. p= 3.M3
a 24 sommets dansR4
eteut
êtrereprésenté
dansl’hy-
A F P
perplan d’équation l’enveloppe
convexe est unpolyèdre
à36 arêtes et 14
faces ;
8 des 14 faces sont deshexagones réguliers
et les6 autres des
carrés ; figure
4.Fig.
4Reman ue.
L’ensemble des
(n-p)! permutations correspondant
à unarrangement
p à p définissent les sommets d’une face dupermutoèdre usuel ;
cet arrangement peut donc êtrereprésenté
par cette face en vertu des résultats deKreweras
(cf. [8])sur
labijection
entre les faces dupermutoèdre
et lespréordres
totaux ;Mp peut
donc êtrereprésenté
par les faces dupermutoè-
n
dre usuel.
BIBLIOGRAPIfIIE°
[1] ABECEDAIRE, (BECHAIRE C.,CUKROWICZ H.,
DUBUSA.,
DUPREZJ.M.,
RAHMANIAN.)
Calculs sioux
pour réponses rusées : l’analyse
deréponses non verbales ;
choix
d’itinéraires,
calcul de distances ettypologie ; application
au cas des chômeurs de
Roubaix-Tourcoing,
Cahiers lillois d’économieet de
sociologie, Vol.6, 3-17,
1985.[2]
CAILLEZF.,
PAGESJ.P.,
Introduction à
l’analyse
desdonnées , SMASH, (1976).
[3]
COHENG.,
DEZAM.,
Distances invariantes et
L-cliques
sur certainsdemi-groupes
finis.Math. Sci.
Hum.,
67(1979),
49-69.[4]
GADREYN.,
RAHMANIAN.,
Insertion
professionnelle et trajectoires de jeunes,
Cahiers lilloisd’économie et de
sociologie,
Vol.8, 77-88,
1986.[5]
GAIHAP.,
GUPTAS.K.,
Adjacent
vertices on apermutohedron,
SIAM Jal.Appl.
Math. Vol32, n°2,
1977.[6]
GUILBAUDG.Th.,
ROSENSTIEHLP.,
"Analyse algébrique
d’unscrutin",
Math. Sci.Hum.,
4(1963),
9-33[7]
KENDALLM.G.,
Rank correlation
methods, Griffin, Londres,
1948.[8]
KREWERAS G.Représentation polyédrique
despréordres complets finis,
in Ordrestotaux
finis, 71-100, Gauthier-Villars, Paris,
1971.[9]
MONJARDETB.,
Concordance et consensus d’ordres totaux, les coefficients K et
W,
Revue de