R EVUE DE STATISTIQUE APPLIQUÉE
G. M ATHERON
Théorie des droites de correspondance
Revue de statistique appliquée, tome 11, n
o4 (1963), p. 13-23
<
http://www.numdam.org/item?id=RSA_1963__11_4_13_0>
© Société française de statistique, 1963, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
13
THÉORIE DES DROITES DE CORRESPONDANCE
G. MATHERON
Ingénieur
auCorps des Mines, détaché auprès du
B.R.G.M.INTRODUCTION
Dans les
gisements d’Uranium,
il est aisé et peu onéreux de mesu-rer les radioactivités de toutes les berlines de minerai sortant au
jour.
Ces radioactivités x sont en corrélation
positive, généralement
très for- te, avec les teneurs y des berlines. Si les distributions sont normales oulognormales,
la droite derégression
de y en x, ou droite de correspon- dance,permet donc,
avec uneprécision
d’autant meilleure que cette cor- rélation estplus forte,
d’estimer la teneur y inconnue d’une berline don- née àpartir
de sa radioactivité mesurée x.Mais,
en raison duprix
derevient élevé du
quartage,
on nedisposera,
engénéral,
pour étalonner la droite decorrespondance,
que d’un nombre n relativement peu élevé decouples
de valeursexpérimentales (xi Yi)
encorrespondance.
Au con- traire,puisque
les radioactivités de toutes les berlines sontmesurées ,
lapopulation
des x est très bien connue, et lesparamètres
de leur dis- tributionpeuvent
être considérés comme donnés. Leproblème posé
con-siste à trouver la meilleure estimation de la teneur moyenne, et la
pré-
cision de cette estimation, à
partir
des ncouples expérimentaux (x, Yi)
et des
paramètres
de. la loi des x connus àpriori.
Nous nous limitons au cas où les n berlines étalonnées
peuvent
être considérées commeayant
été choisies au hasardparmi
l’ensemble des berlines sortantes, de sorte que lesxi
etles y.
sontindépendants
lesuns des autres, sauf dans le cas i =
j.
Nous allons traiter leproblème
par la méthode du maximum de vraisemblance dans le cas d’une distri- bution
normale, puis
dans le cas d’une distributionlognormale.
I - NOTATIONS DANS LE CAS GAUSSIEN
Soient x et y deux variables normales. Les
paramètres
de leur loi de distribution serontdésignés
par des lettres grecques :Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
14
On
prendra garde
quecr2 désigne
la variance de y lié par x,et ?
le coefficient de
régression
de y en x.L’équation théorique
de la droite decorrespondance (de régression)
s’écrit :Pour estimer les
paramètres Ily et p
de cettedroite,
et la varian-ce liée
a2,
nousdisposons
1/
des valeurs exactes de Ilx et6x 2/
de ncouples expérimentaux (xi’ y.).
Nous
désignerons
parmy,
b ets2
les estimateurs du maximum de vraisemblance deIly’ f3
eta2.
De même, certainesexpressions
forméesà l’aide des valeurs
expérimentales
xi yi serontdésignées
par les lettres latinesévoquant
leparamètre (1)
concerné.Ainsi,
nous poserons :Avec ces
notations,
il est clair que l’on a :Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
15
II - FORMATION DES ESTIMATEURS DU MAXIMUM DE VRAISEMBLAN- CE
(CAS NORMAL)
Le
logarithme
de la densité defréquence
de(x y)
se met sous laforme :
On obtient les estimateurs
my, s2
et b en écrivant que la fonctionest
minimale,
soitEn tenant
compte
des notations(3),
les troiséquations
ci-dessus se met-tent sous la forme :
JI
Portons
l’expression
demy
donnée par lapremière équation
dansles deuxièmes membres des deux dernières. On obtient immédiatement :
Compte
tenu de(4),
la dernièreéquation
donne :D’où les estimateurs cherchés :
On remarque que les estimateurs b et
S2
sontidentiques
à ceux que l’onobtient, classiquement,
dans le cas où lesparamètres
Ilx et0:
ne sontRevue de Statistique Appliquée. 1963 - Vol. XI - N 4
16
pas connus à
priori.
Par contre,my peut
différer substantiellement de lamoyenne ÿ
desy..
Pour un coefficient bpositif,
parexemple, my
estpris
inférieur ày,
comme il estnaturel,
dans le cas où les n échantillonsxi
ont une moyenne xplus grande
que la valeur vraie 4., et inversement.III -
CRITIQUE
DES ESTIMATEURS OBTENUSExaminons la valeur
probable
et la variance des estimateurs(6)
ainsi obtenus. Comme b et s2 ne diffèrent pas des estimateurs que l’on obtient dans le cas
où 4,,
etaux
ne sont pas connus àpriori,
nous béné-ficions des résultats
classiques( 1 )
suivants :1/
b et s2 sontstochastiquement indépendants,
et chacun d’eux estindépendant
de x et dey.
2/
La variabley n -1 a’ (b
a est une variable de Student à 6n - 1
degrés
de liberté.S2
3/
La variablen -
,j 2 est une variableX2
à n - 2degrés
deliberté.
De la
propriété 2,
nous déduisons immédiatement :Ainsi,
b est un estimateur sans biais. De lapropriété 3,
nous déduisons de la même manière :Ainsi l’ estimateur s2 est biaisé. On
peut corriger
ce biais enprenant
un nouvel estimateurs’2,
dont lescaractéristiques
sont les suivantes :Passons maintenant à l’estimateur
my.
De(7),
et de lapropriété 1 ,
résulte immédiatement :
E
(my) =
E(y) -
E(b)
E(x - 03BCx) = 03BCy
y(1) Cf. par exemple, Mlle Ullmo,
"Dépendance
statistique - Liaisonstochastique’
Cours de l’Inst. de
Statistique
de l’Université. Paris.Revue de Statistique Appliquée, 1963 - Vol. XI - N 4
17
C’est un estimateur sans biais. Utilisant la même
propriété 1,
nous calculerons sa variance de la manière suivante :Mais des relations
(1)
on tire immédiatement :D’où finalement les
caractéristiques
de l’estimateurm y :
IV - ESTIMATION DE LA VARIANCE A PRIORI
03C32y
Il est utile de
pouvoir
estimerégalement
la variance àpriori Oy2.
Si,
dans lafonction
définie en(5),
nousremplaçons S2
pars00FF - b2 03C32x,
les
équations
du maximum devraisemblance,
écrites enmy’ s
etb,
conduisent aux mêmes estimateurs b et
my de ? et p.
que ci-dessus(6),
et, pourS2,
on obtientsimplement :
s y 2 = b2 02 x
+S 2 (11)
S2 ayant
la mêmeexpression qu’en (6).
On voit facilement que cet esti- mateur(11)
est biaisé :soit, compte
tenu de(1)
Pour obtenir un estimateur sans
biais,
onremplacera (11)
par une ex-pression
de la formeb2 C2 x
+ Bs2.
Enprenant :
on obtient l’estimateur sans biais
s’2 :
yRevue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
18
Il reste à calculer la variance
D2 (s’2v)
de ce dernier estimateur. Utilisant lapropriété
1 duparagraphe précédent,
nous avons enpremier
lieu :Compte
tenu del’expression (8)
deD2 (s2),
il vient :Reste à calculer la variance
D2 (b2) = E (b4) - E (b2)2 (14)
La valeur de E
(b2)
résulte de(7).
Pour évaluer :E (b 4) = E [ (b _ p ) + p]4
on utilise la
propriété
2 duparagraphe précédent.
Comme la variable de Student à n - 1degrés
de libertés a tous ses momentsimpairs nuls,
etun moment d’ordre 4
égal
l, 3(n - 1 ) 2
z on obtient :
un moment d’ordre 4
égal à -;201320132013:rr201320132013-.,
" on obtient :Reportant
ce résultat dans(14),
nous obtenons :En substituant dans
(13),
il vient ainsi :L’apparition
du facteur(n - 5)
au dénominateur du dernier terme de(15)
résulte de ce que le moment d’ordre 4 de l’estimateur b n’existe que pour n
supérieur
à 5.L’estimateur
s’2
nepeut
donc être utilisé que si n > 5. Si n estassez grand,
ce dernier terme,qui
est enn 2 , apparaît
commenégligeable.
Ona,
asymptotiquement :
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
19
c’est-à-dire :Il est aisé de faire
apparaître
cetteexpression asymptotique,
en mettant(15)
sous la forme définitive suivante :Le tableau de la page suivante résume les
caractéristiques
desquatre
estimateurs sans biais que nous avons ainsi obtenus dans le cas normal.V - NOTATIONS DANS LE CAS LOGNORMAL
Supposons, maintenant,
que x et y soient des variableslognormales .
Les
paramètres
de leur loi de distribution serontdésignés
par des let- tres grecques, selon les notationssuivantes, qui remplacent
les nota-tions
(1) :
:(le symbole log représente
unlogarithme népérien).
Les
paramètres 03B3x
etY
sont les moyennesgéométriques
des variablesx et y. On sait que les valeurs
probables 4,,
et4y
s’en déduisent par les relationslognormales classiques :
La droite de
régression
delog
y enlog
x a pouréquation :
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
20
(D
tI1
tI1 :;j ro b0 ui CC C) zs
"0 tI1
tI1
ro
tI1
rA
Revue de Statistique Appliquée 1963 - Vol. XI - N’ 4
21
Comme la variance liée de
log
y est62,
on en déduitl’équation
de lacourbe de
régression
de y en xsoit,
sous formelogarithmique,
etcompte
tenu de(19)
En échelle
logarithmique, (20) représente
encore unedroite,
maiscette droite ne passe pas par le
point
central(03BCx, 4y ),
sauf dans le casparticulier p =
1.Pour estimer les
paramètres 03BCy et 03B2,
et la variance liée62,
nousdisposons,
commeci-dessus,
des valeurs exactes desparamètres 03B3x
eto!
de x, et de ncouples expérimentaux (xi yi).
Nousdésignerons
parmy, b, S2
les estimateurs du maximum de vraisemblance de4y, P ,
et03C32 ,
et de
plus
nous utiliserons les notations latines suivantes :VI - LES ESTIMATEURS DU MAXIMUM DE VRAISEMBLANCE
(CAS LOGNORMAL)
Le
logarithme
de la densité defréquence
de(x, y) prend,
dans lecas
lognormal,
la forme suivante :Nous sommes donc conduits à rechercher le minimum en
my, b, s2
de la fonctionEn annulant les dérivées en
my ,
b ets 2
, nous obtenonsrespectivement :
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
22
En
portant
la valeur delog my,
donnée par lapremière équation,
dans les deux
dernières,
on trouve,après
dessimplifications
évidentes :Ainsi les estimateurs b et S2 se
forment,
àpartir
des variables norma-les
log
xi etlog yi,
exactement de la même manière que les estimateurscorrespondants (6)
du cas normal. Leséquations (7)
et(8)
setranspo-
sent donc
identiquement,
et l’onpeut,
si l’on veut, former l’estimateursans biais S’2 de la variance
liée,
exactement comme en(9).
De mêmeles estimateurs
s;
etS;2
deséquations (11)
et(12)
setransposent
avectoutes leurs
propriétés,
et enparticulier
la variance(17).
La seule différence avec le cas normal se manifeste dans le cas
de l’estimateur
my.
Il est difficile d’évaluer sa valeurprobable
exacte.Mais,
si n n’est pastrop petit,
les estimateurs s2 etb2
sontapproxima-
tivement normaux, et, de leur
côté, log gx
etlog g
y sont des variablesgaussiennes.
Il en résultequ’en première approximation log
mpeut
être considéré comme une variable normale - etmy
comme une variablelog
normale.Comme,
enréalité, my
n’estqu’asymptotiquement lognormal,
nous devons supposer n assez
grand,
et nous contenter desparties prin- cipales en 1
des valeursprobables
et des variances. Aupremier
ordren
1
en , nous avons : n
Comme
my
estapproximativement lognormal,
la valeurprobable
demy s’obtient,
àl’approximation en 1 n,
à l’aide de la relation(19),
soit :n
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4
23
En
définitive,
l’estimateurmy
est biaisé. Sa valeurprobable
et savariance
logarithmique
sontdonnées,
aupremier
ordreen 1 ,
par :n
VII -
REMARQUE
TERMINALELes résultats
obtenus,
c’est-à-dire le tableau 1 et les formules(24) s’appliquent,
en touterigueur,
au cas où les n berlines retenues pour étalonner la droite decorrespondance
sont choisies au hasardparmi
lesberlines arrivant au
jour.
Enpratique,
ce choix esttoujours
de naturesystématique. Chaque
panneau dugisement
contribue à la droite de cor-respondance
par un nombre de berlines enrapport
avec sontonnage,
larègle étant,
parexemple,
de retenir un nombre fixe de berlines par mètre d’avancement. Et c’est bien ainsiqu’il
convient deprocéder, puisqu’il
est très vraisemblable que
l’équilibre
radioactifprésente
un caractèrerégionalisé,
et non aléatoire. Les résultats obtenus ci-dessus ne sont donc pas strictementapplicables,
maispeuvent
être retenus à titred’ap- proximation : approximation
d’ailleurspessimiste (dans
le sens de la sécu-rité),
car on obtiendrait une moins bonne droite enprenant
n berlines auhasard,
au lieu de les choisir selon un critèresystématique.
Ces
résultats, peuvent, naturellement, s’appliquer
à bien d’autresproblèmes pratiques. Citons,
parexemple,
sansquitter
l’industrie mi-nière,
l’estimation de la teneur des constituants secondaires d’un mine-rai,
commel’argent
ou l’or liés auplomb
ou au cuivre.L’usage
est dene doser pour
argent qu’un
échantillon de minerai deplomb
sur 10(par exemple),
et d’en déduire un coefficient deproportionnalité Ag/Pb.
Ils’agit
en fait d’une véritable droite decorrespondance,
et les échantillonsanalysés
pourargent jouent
le même rôle que les n berlines retenues pour étalonner la droite.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 4