R EVUE DE STATISTIQUE APPLIQUÉE
L UU -M AU -T HANH S ULLY L EDERMANN
Étude d’empreintes digitales. Mesure d’association par l’analyse canonique
Revue de statistique appliquée, tome 11, n
o4 (1963), p. 77-84
<
http://www.numdam.org/item?id=RSA_1963__11_4_77_0>
© Société française de statistique, 1963, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
77
ETUDE D’EMPREINTES DIGITALES
MESURE D’ASSOCIATION PAR L’ANALYSE CANONIQUE
LUU-MAU-THANH
etSully LEDERMANN (1)
Institut
National d’Etudes Démographiques
L’objet
de laprésente
étude est limité à la mesure dudegré
deressemblance entre les
doigts homologues
des deux mains : pouce avec pouce, index avecindex,
etc.La ressemblance des
doigts s’exprime
ici à l’aide de celle des em-preintes digitales.
Les dessins de cesempreintes
ont une forme com-plexe.
Enpremière approximation,
ils ont été classés enquatre
caté-gories :
arc(A),
boucle radiale(Br),
boucle cubitale(Bu)
et tourbillon(T).
Les deuxcatégories
de boucles se différentient par leur orientation :vers le pouce
(boucles radiales),
vers l’auriculaire(boucles cubitales).
Les données
numériques
de travail sont des tableaux decontingen-
ce donnant les
fréquences
d’association des diversescatégories (cf.
ta-bleau
1),
parpaire
dedoigts (tableaux
2 à6)
et pour l’ensemble desdoigts appariés (tableau 7).
Tableau 1
Tableau de
contingence
de 2 caractères A et B(1) Les données de base ont été élaborées au Centre de recherches anthropologi-
ques (Directeur : Docteur Gessain). L’étude a été faite par M. Luu-Mau-Thanh, chargé de mission à l’INED et statisticien au Centre de recherches anthropo- logiques, en collaboration avec M.
Sully
Ledermann de l’Institut national d’étu- des démographiques.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
78
Il
n’y
a pasqu’une
solution auproblème
de la mesure de la res-semblance entre
unités, objets
ou individus, associés deux par deux.a)
Si les critères retenus, ici 4formes,
ne constituent pasun ordre
hiérarchique supposant
un continuum uni-dimensionnel latent, la mesure dudegré
de ressemblance entre lesdoigts
nepeut
êtrequ’une
mesure d’association. On
peut
utiliser les coefficients decontingence
dePearson,
deTschuprow
ou deCramer,
basés sur la valeur duX2
du ta- bleau decontingence.
Onpeut
songerégalement
aux coefficients propo- sés par Goodman-Kruskal conçus autour de laprobabilité
deprévoir
cor-rectement une des variables, l’autre étant donnée.
b)
Si les critères seprêtent
à un ordrehiérarchique,
le pro- blèmepeut
se traiter autrement en recourant aux divers coefficients de corrélation de rangs. Allerplus
loin dans cette voie suppose l’existence d’unemétrique,
c’est-à-dire d’un continuum uni-dimensionnellatent,
dont lamétrique
n’est pas saisissable directement.Une solution est
d’imposer
cettemétrique
et on est alors ramenéau calcul de coefficient de corrélation d’une
population
bi-variate. La dif- ficulté est de déciderquelles
valeursprendre
pour cettemétrique, quelle
codification
numérique choisir,
d’autantplus qu’on
cherche une mesuresatisfaisante de similitude et non pas seulement un critère
permettant
detester
l’indépendance.
La
métrique
laplus simple,
en l’absence totaled’information,
estune suite de nombres entiers :
1, 2,
3 ou -1, 0,
+ 1 dans le cas de 3catégories ordonnées,
parexemple.
C’est la suite -1,0,
+ 1qui
avaitété retenue par
Turpin
etSchutzenberger
en1949(1)
dansl’analyse
d’unmatériel
analogue
aunôtre,
mais où les critères de forme retenus n’étaient que : arc, boucle(sans
distinction dedirection)
et tourbillon.Une autre
métrique possible
est liée à unehypothèse
de normalité du continuum latent des critères.Une autre codification
numérique
enfin est constituée par les valeursnumériques
telles que le coefficient de corrélation obtenu soit maximum.C’est ce que nous avons
essayé
ici sur 4 formesd’empreintes digitales.
Un
avantage
de cette dernièreapproche
est de donner l’ordre des cri- tères dans le continuum uni-dimensionnellatent, lorsque
cet ordre lui-même n’est pas
évident,...
si le continuum uni-dimensionnel existe.*
* *
Le
principe
et latechnique
de la codificationcanonique
sont décritspar Kendall et
Stuart(2).
Nous enrappellerons
seulement l’essentiel.Les tableaux 2 à 6 donnent les
fréquences
d’association des 4 for-mes pour les
doigts appariés :
pouce avec pouce, index avecindex,
etc.Pour certaines utilisations
ultérieures,
nous avons cherchéplutôt
une codification
numérique
moyenne desformes,
relative à l’ensemble desdoigts appariés.
Pourl’obtenir,
onpourrait
effectuer 5analyses
ca-noniques
etprendre
la moyenne des valeursnumériques
obtenues. Mais(1) Turpin (R. ) et
Schützenberger
(1949). L’étude desdermatoglyphes.
Sem. Hôp.Paris, 14 août 1949.
(2) Kendall (M. G. ) and Stuart (A.). The advanced Theory of Statistics. London 1961, Charles Griffin &
Company
limited, vol. II, pp. 566-578.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
79
Tableau 2Pouces
gauche
Tableau 3 Index’
gauche
Tableau 4
majeurs
gauche
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
80
Tableau 5 Annulairesgauche
Tableau 6 Auriculaire
gauche
les calculs sont lourds et il a paru
préférable
de n’effectuerqu’une
seuleanalyse canonique portant
sur le tableau 7 dont les cases contiennent lessommes des
fréquences
des casescorrespondantes
dans les tableaux 2 à 6. Ce tableau des sommes serait assez difficile à traiter si on voulait aborder des fluctuationsd’échantillonnage,
parexemple,
mais laquestion
ne se pose pas. Son seul intérêt est de
permettre
d’obtenir une codifi-cation moyenne par une seule
analyse canonique
au lieu d’en obtenir une,probablement
peudifférente,
par 5analyses.
Soit xi X2
x3X4
la codificationnumérique
cherchée pour lesfigures : A, Br,
Bu et T de la maingauche :
y, y2y3
y4 cette codification des mêmesfigures
pour la main droite. En notationsmatricielles,
posons(l’indice "prime" indiquant
une matricetransposée) :
X’ =
(X 1
X2x3 x4) (1)
Y’ =
( yl Y2 Y3 y4) (2)
avec :
E (X) = E (Y) = 0 (3)
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
81
Soit
NG
etNo
les matricesdiagonales
dont les éléments sont lesfréquences marginales
du tableau decontingence (mains gauche
etdroite)
et N ce tableau lui-même
(sans
lesfréquences marginales). (Tableau 7).
Tableau 7
Tableau des
fréquences globales (matrice N)
main
gauche
Le coefficient r de corrélation a pour valeur :
On cherche à maximiser r avec les conditions
supplémentaires
devariance :
La valeur cherchée de r est la racine la
plus grande
dupolynôme
en
r2, développement
du déterminant(tableau 8) :
Tableau 8
Matrice
(N-1
x NX Nq
xN’)
C’est un
polynôme
du 4èmedegré
enr 2 :
r8 - 1, 670
937r6
+0, 802
908r4 - 0, 138
986r2 + 0, 007
015 = 0 dont les 4 racines enr2 sont : 1 ; 0, 354 55 ; 0, 230 515 ; 0, 085
88.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
82
La racine r = 1
correspond
à la solution x, = X 2 = ... =73=74.C’est une solution
exclue, qui
donnerait évidemment unecorrélation égale
à 1.
Nous retenons la corrélation la
plus
élevée r2 =0, 35455
d’oùr =
0, 595
35.Les valeurs de X et Y
correspondantes
sont les solutions dusystème :
Elles sont définies à un facteur de
proportionnalité près.
Les so-lutions
correspondant
aux conditions(5)
et(6)
sont :Telle est la codification
numérique
moyenne donnée par la"canoni- sation"
du tableau 7.1/
La codificationnumérique précédente
est seulement une sériede valeurs entre une infinité
d’autres, auxquelles
on passe par un chan-gement
de variable linéaire. Toutes ces codificationsnumériques
donnentla même corrélation
canonique.
Elles sontéquivalentes.
On
peut rapprocher
ainsi la codificationprésente
de celle utilisée parTurpin
etSchützenberger - 1, 0,
+ 1 pour lesfigures Arcs,
Boucles(sans distinction),
Tourbillons. Les deux codifications sont en relation sensiblement linéaires etpratiquement équivalentes,
sous réserve de la confusion des boucles radiales etcubitales, qui paraît
icijustifiée
à pos- teriori par laproximité
de nos valeurs.2/
Enadoptant
cette codification moyenne, les coefficients de cor- rélation despaires
dedoigts :
pouce - pouce, index -index,
etc. sont ,après
calcul selon lesfréquences figurant
dans les tableaux 2 à 6 :pouces :
0,563
index :0,588 majeurs
:0, 576
annulaires :0, 589
auriculaires :0,555
Les valeurs des coefficients sont très voisines. Aucune
paire
dedoigts homologues
ne se fait remarquer par une similitude ou une dis- semblanceplus particulièrement marquée
que les autres.Il est intéressant de
rapprocher
ces résultats de l’information ap-portée
par laprobabilité
de trouver deuxdoigts homologues identiques ,
abstraction faite de la
figure
àl’origine
de l’identité. Cetteprobabilité
obtient facilement en calculant le
rapport
de la somme des termes de ladiagonale
des tableaux 2 à6,
au total des observations dechaque
tableau.On trouve :
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
83
Les
doigts apparaissent
iciplus
différentiés que ne lesuggèrent
les corrélations. Mais on doit remarquer que laprobabilité
faible0, 55
de similitude desindex,
parexemple,
est essentiellement due à la différen- tiation des boucles entre radialescubitales,
dont l’association est bienplus fréquente
pour les index que pour les autresdoigts (tableau 3).
Dansla
comparaison
desdoigts,
la codificationcanonique
tientcompte
de laproximité
des deux formes de boucles.En sens
contraire,
la corrélationcanonique 0,
55 pour les auri- culairessubit,
parrapport
à laprobabilité 0, 87,
l’influence de la dis- tance relativementgrande
existant dans l’association tourbillon et bouclecubitale, fréquente
pour les auriculaires etqui prend
d’autantplus
d’im-portance
que les autres associations sont peureprésentées (tableau 6).
La
probabilité
de similitude est d’uneinterprétation plus facile ,
mais le coefficient de corrélationcanonique
tientcompte
de diverses as-sociations et, en
plus,
des distancesrespectives
desfigures
au sein d’une certaine structure. L’informationqu’il apporte
est doncplus complète.
3/
Lesdoigts
nonhomologues présentent
des corrélations moins élevées que celles desdoigts homologues (cf.
tableau9).
Nous ne nousétendrons pas sur leurs différences
qui
ferontl’objet
d’une étudeparti-
culière.CONCLUSION
La
transposition
del’analyse canonique
dans la mesure dudegré
d’association entre individus ou
objets
caractérisés par une série de cri- tèresqualitatifs peut apporter
une aide certaine enproposant
une métri- que pour cescritères,
sans considération àpriori
sur leur ordre res-pectif
dans un continuum latent uni-dimensionnel. La"codification
cano-nique"
fournit à la fois l’ordre descritères,
s’il n’est pasévident,
etune idée de leurs distances
respectives.
Mais son
application
suppose l’existence de ce continuum latent.L’analyse canonique
n’enapporte
pas la preuve.Les critères intervenant dans notre étude sont des formes d’em-
pr.eintes digitales :
arc, boucles radiale etcubitale,
tourbillon. Les bou- cles radiale et cubitale ne diffèrent que par leur orientation.La
"codification canonique"
obtenue conduit à considérer comme très voisines les boucles radiale etcubitale,
parrapport
aux distancesqui
les
séparent
des formes arc ettourbillon.
Elles le sont en effet : cesont les mêmes
boucles,
à l’orientationprès.
Mais ce dernier détail soulève leproblème
de fond. Dansquel
continuumuni-dimensionnel,
ces diverses distancesprennent-elles
un sens ? Laréponse
à cettequestion
relève non
plus
de lastatistique mathématique,
mais de lagénétique
etde
l’anthropologie.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
84
N
CD
0 0.
’0
C
,-) -5
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4