R EVUE DE STATISTIQUE APPLIQUÉE
J. P. G IVRY
Estimation de la loi de probabilité de durée
Revue de statistique appliquée, tome 13, n
o2 (1965), p. 5-28
<
http://www.numdam.org/item?id=RSA_1965__13_2_5_0>
© Société française de statistique, 1965, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ESTIMATION DE LA LOI DE PROBABILITÉ DE DURÉE
J. P. GIVRY Ingénieur Civil des
MinesDocteur-ingénieur
Chef du Laboratoire de Recherches des Fabrications de la Compagnie Pechiney
TABLE DES MATIERES
Pages
1 - Introduction... 6 2 - Estimation de la
probabilité
de durée... 6 3 - Utilisation dugraphique
deHenry...
94 - Délimitation du domaine de confiance de la moyenne et de l’écar-
type...
125 - Utilisation d’une information a
priori
surl’écart-type...
186 - C onc lusion... 28
6
1 - INTRODUCTION
Dans un article
précédent(* ),
en étudiant lagestion
d’un parc à renou- vellementaléatoire,
nous avons mis en évidence l’intérêtqu’il
y avait à estimer la durée d’untype
nouveaud’équipements
leplut
tôtpossible après
sa mise en service. Cet intérêt était surtout
économique,
car la connaissance de la loi deprobabilité
des durées estindispensable
pour asseoir lespré-
visions de renouvellement et la
politique d’approvisionnement.
D’un
point
de vueplus technique,
cette estimation estégalement
im-portante,
car onpratique
rarementpendant
des dizaines d’années un renou-vellement à
l’identique,
soit que les idées évoluant onapporte
des modifica-tions volontaires à la
conception
deséquipements,
soit que les fournisseurs n’assurantplus
la fabrication de telle nuance de matériau leséquipements
renouvelés se trouvent
modifiés,
involontairement cette fois et mêmequel- quefois
à l’insu de l’utilisateur. Dans tous les cas il est bon de connaître l’effet de ces modifications sur la durée. Sur unelongue période
un parcd’équipements
à renouvellement aléatoire seprésente
donc comme une suc- cession delots,
tous leséquipements
mis enplace
entre deux dates appar- tenant à un lotdéterminé,
mais les dates de transition n’étant pas forcé- ment connues.Statistiquement
leproblème
est d’estimer la loi deprobabilité
àpartir
d’un échantillontronqué.
GUPTA en aprésenté
une solutionpurement
numé-rique
dans le cas où tous leséquipements
ont la même ancienneté et où les durées sontgaussiennes.
Notre propos est de trouver une solution au casgénéral
où leséquipements
n’ont pas forcément tous démarré au même mo-ment. Comme ont le verra, la méthode
proposée
est surtoutgraphique et
à
l’avantage
de seprêter
à une remise àjour facile,
au fur et à mesure que letemps apporte
de nouvellesinformations ;
la méthodepermet
aussi de vérifier la normalité de la distribution et de déceler leshérérogénéités .
Comme dans l’article
précédent,
nous ne traiterons que des lots gaus- siens ; pour le statisticien ils ont évidemmentl’avantage
de limiter à deux lesparamètres caractéristiques
de ladistribution,
mais ce n’est pas la seule raisonqui
nous a fait nous y intéresser. Comme nous l’avonsindiqué
dansl’article
cité,
la loi de Gaussreprésente
bien la distribution des durées dans de nombreusesapplications.
2 - ESTIMATION DE LA PROBABILITE DE DUREE
Appelons F(x)
laprobabilité
d’atteindre la durée x.Le
problème général peut s’exprimer
comme suit :A l’instant t où l’on
pratique
l’estimation de la loi deprobabilité
des durées, ondispose
des informations suivantes :---
(*) Revue de statistique appliquée n" XIII- 1
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Les N
équipements
constituant le lot ont été mis enplace
à des ins-tants différents
ti ;
ils ont des anciennetésai =
t -ti ; a,
est une fonctionde t,
ai(t).
Ondistingue
dans N deuxclasses,
celle deséquipements qui
sont
déjà
morts, à des instantsti
et pourlesquels
onpeut
calculer une du-rée
di = te
-ti
et celle deséquipements
enservice
à l’instant t dont onsait seulement que la durée sera
supérieure
à l’ancienneté :d ai (t)
Si on classe les N
équipements
en fonction nonplus
dutemps absolu,
t, comme sur lafigure 1,
J mais en fonction de l’anciennetéa.(t)
on obtientla
figure 2,
où l’on aindiqué
par unsegment
blanc lapériode où l’équipe-
ment était en service et par un
segment
noir lapériode
où il était mort. Leséquipements déjà
morts sontreprésentés
par unsegment
blanc delongueur di ,
suivi d’un
segment
noir delongueur ai(t) - di ;
leséquipements
en servicesont
représentés
par un seulrectangle, blanc,
delongueur ai(t).
En
comptant
lessegments
blancs et noirs en face de l’ancienneté a, " on a une estimation de la loi deprobabilité
des duréesF(x)
pour x = a. En effet lessegments
blancsreprésentent
leséquipements
dont la durée adépassé
xet les
segments
noirs leséquipements
mortsqui
avaient une ancienneté suf- fisante pour atteindre éventuellementl’âge
x. La somme des deux nombresFig. 1
de
segments représente
l’information totaledisponible
sur la durée x. A un moment, t,donné,
cette information diminue lelong
de l’axe des x ; elle s’annule pour x > t ; aucune estimation deF(x)
n’estpossible
pour x > t.Le
rapport blanc/blanc
+ noir est la fraction deséquipements qui
ontatteint la durée x
parmi
ceuxqui
ont une ancienneté au moinségale
à x .Cette fraction tend en
probabilité
versF(x).
Eneffet,
enprobabilité,
cha-cun des
segments
individuels n’est paspartagé
en deuxtronçons,
l’un blanc et l’autrenoir,
mais doit être considéré comme teinté degris
avec une den-sité
égale
àF(x),
donc variable de 1 =blanc,
pour x = 0, à 0 = noir pour xoo. La fractionblanc/blanc
+ noir n’est pas autre chose que la moyenne pon- dérée de n variablesqui
valent 1 tant quel’équipement
est en vie et 0quand
il est mort.
Chaque
variable a uneespérance mathématique égale
àF(x)
etleur moyenne
pondérée
tend donc évidemment elle aussi versF(x).
La
figure
3 montre comment, au fur et à mesure dutemps,
l’esti-mation de
F(x)
s’améliore .Aucune estimation de
F(x)
n’estpossible
tant quet
x.En résumé l’estimation de
F(x)
estdonnée,
à l’instant t, par la frac- tion deséquipements qui
ontdépassé l’âge
xparmi
ceuxqui
ont une ancien- netésupérieure
ouégale
à x.Fig. 2
Fig. 3
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
3 - UTILISATION DES
GRAPHIQUES
DE HENRYSi nous
appliquons
cette méthode d’estimation desprobabilités F(x)
à des duréesgaussiennes -
il est tout naturel depointer
lespoints
obtenussur un
graphique
deHenry.
Bien entendu le tracé seraincomplet
tant que tous leséquipements
du lot ne seront pas morts et ilniy
aura pas d’information pour tout xsupérieur
autemps
tqui sépare
le moment de l’estimation dudémarrage
du
plus
ancien deséquipements
étudiés.L’usage
dugraphique
deHenry
estcependant particulièrement précieux,
D’unepart
les valeurs deF(x),
estimées à différents moments dutemps. s’alignent
enprobabilité
sur unsegment
de droitequi s’allonge progressivement
sur la droite de moyenne m et d’écart-type
s, rendant ainsipossible
une estimationgraphique
de m et s, assezgrossière
certes, mais intéressante par sasimplicité,
et d’ailleurs d’autant meilleure que le nombred’équipements
étudiés estplus grand
et que le pour-centage
des défaillancesdéjà enregistrées
estplus
élevé.D’autre
part
legraphique
deHenry
permet de vérifier commodément la normalité des durées. Si celles-ci ne sont pasgaussiennes
ou si elles ré- sultent, comme cela arrive, dumélange
de deuxpopulations gaussiennes,
lespoints F(x)
nes’alignent plus
sur unedroite,
mais dessinent une courbe dontl’aspect
estcaractéristique (figure 4).
Fig. 4
durées non
gaussiennes mélange
de deuxpopulations gaussiennes
10
Pour les durées sensiblement
gaussiennes,
il est tentant d utiliser le gra-phique
deHenry
pour estimergraphiquement
la moyenne etl’écart-type
d’unepopulation
inconnue.Considérons,
à titred’exemple,
le cas d’un lot de 36équipements, qui
au moment de l’estimation est dans l’état suivant :
1 mort à 18 mois 14
équipements
démarrésil y a
21 mois :2 morts à 20 mois 9 en vie
1 mort à 15 mois 22
équipements
démarrés il y a 18 mois : 2 morts à 17 mois19 en vie
Le calcul des
probabilités F(x)
s’effectue aisément, comme au§2
ci-dessus ;
ilpermet
de tracer lafigure
5qui
conduit à attendre du lot unedurée moyenne de 22 mois avec un
écart-type
de 3 mois.Une telle conclusion serait illusoire, comme nous allons le montrer en
testant une
hypothèse
sensiblement différente.Testons
l’hypothèse
m = 25, s = 6qui graphiquement
s’écarte pas mal des valeursempiriques
deF(x).
Pour cefaire,
il faut calculer l’état danslequel
se trouverait, enprobabilité,
le lot sil’hypothèse (m, s)
était vraie ;puis
il faut comparer les nombresd’équipements,
que l’on rencontre dans les différentes classes, par un test deX 2.
Découpons
donc le lot en 2 groupes,correspondant
aux anciennetés 18 et 21 mois,puis chaque
groupe en classes :TABLEAU 1
Revue de Statistique Appliquée. 1965 - Vol. XIII - N" 2
Fig. 5 - Probabilité de
dépasser l’âge
x : F(x).12
Pour
appliquer
leX2 il
faut que les classes contiennent un nombre théo-rique, n Pi,
au moinségal
à 5, cequi
conduit àpratiquer
desregroupements.
TABLEAU 2
Une telle valeur de
X2,
pour V = 3 - 1 = 2degrés
deliberté,
a 73%
dechances d’être
dépassée. L’hypothèse (m = 25,
s =6),
bienqu’elle
soit vi-suellement peu satisfaisante est
cependant acceptable.
Nous avons ainsi recherché toutes les droites de
Henry qui
sont accep- tables au seuil 5%,
soit par un test deX2
si la condition n pi > 5permet
de faire au moins deuxclasses,
soit par un test binomial par"morts"
et"vivants"
dans le cas contraire.Nous avons ainsi défini les deux familles de droites de
Henry
de la fi- gure 6. Cettefigure
incite à une certaineprudence
dans l’utilisation de la droite deHenry
pour déterminer m et s àpartir
despremières
valeurs ob- servées deF(x).
Des testsplus rigoureux
doivent être mis en oeuvre,qui
donnent de m non pas l’estimation la
plus probable (22
mois dansl’exemple ci-dessus)
mais un véritable intervalle de confiance.4- DELIMITATION DU DOMAINE DE CONFIANCE DE LA MOYENNE ET DE L’ECART TYPE.
En fait s est une inconnue au même titre que m
et,
àpartir
du momentoù
l’hypothèse
de normalité des durées estadmise,
leproblème
est de déter-miner les deux
paramètres
m et squi
sont nécessaires et suffisants pour caractérisercomplètement
la loi deprobabilité
des durées.Le
premier
travail est donc de délimiter le domaine de confiance del’hypothèse
dans leplan (m, s) : ultérieurement,
et ce seral’objet
du pa-ragraphe 5,
on pourra utiliser une information apriori
sur s pour améliorer l’estimation de m.Une méthode
rapide,
presque entièrementgraphique,
est fondée surl’emploi
du test binomial.Reprenons
les valeurs deF(x)
des 36équipements
du tableau 1 et de lafigure
5. Si nousappliquons
le testbinomial*
àchaque tronçon
de la courbeempirique F(x),
nous obtenons sur legraphique
deHenry
deuxlignes
deconfiance à 95
%
depart
et d’autre de la courbeempirique (tableau
3 etfigure 7).
Voir
abaque fig. 11 dans l’article citéRevue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Fig. 6 - Familles de droites de Henry compatibles avec les observations au seuil 5 %.
14
Fig. 7 - Probabilité de
dépasser l’âge
x = F(x).Revue de Statique Appliquée. 1965 - Vol. XIII - N’ 2
TABLEAU 3
En tout
point
d’abscisse x intérieur au domaine de confiance 95%
de lafigure 7
il estpossible
de faire passer une famille de droites deHenry compatibles
avec l’observationempirique F(x).
Intéressons nous aux familles extrêmes, et prenons pourexemple
x =17, 5
mois parexemple.
La famillepassant
par lepoint A(F(x) = 0, 78)
sereprésente
dans leplan (m, s)
par une droite. Il y a en effet une relation linéaire entre le m et le s de toutes les droites deHenry passant
parA, puisque F(x) = G(x-m s)
où G estl’intégrale
de Gauss. Ainsi à tout
point
dugraphique
deHenry correspond
une droitedu
plan (m, s),
de mêmequ’à
toutpoint
duplan (m, s) correspond
une droitesur le
graphique
deHenry.
EcrireG(2013201320132013) =
0,78 revient àposer s m
= -
0,77,
soit encore m = x +0,77
s. De la même manière lepoint B(F(x) = 0, 98) engendre
une famille de droites deHenry représentées
dansle
plan (m, s)
par la droite m = x +2, 05s (fig. 8).
Fig. 8
16
Les deux droites de la
figure
8 définissent unepartie
duplan (m, s)
dans
laquelle
doit se trouver lepoint représentant
la vraiepopulation
incon-nue, pour être
compatible,
au seuil 5%,
avec l’information contenue au ni- veau d’ancienneté x.Au début de l’utilisation du lot, aucune défaillance
n’ayant
encore étéconstatée,
la limite de confiancesupérieure
deF(x)
n’a pas de sens et lapente
de la droite m = x + r s est infinie(figure 9).
Ce n’estqu’à partir
de la
première
défaillance que la limitesupérieure prend
un sens.Fig. 9
Au contraire en fin
d’utilisation, F(x)
est inférieur à 50%
et r estgé- gatif (figure 10).
Fig.
10Si l’on additionne les informations contenues à
chaque
niveau d’ancien- neté x, on définit le domaine de confiance à 95%
dupoint (m, s)
par la par- tie commune à tous les domaines relatifs aux différentes valeurs de x.La
figure
11représente
ainsi le domaine de confiance de m, s, pour le lot de 36équipements pris
commeexemple.
La construction
graphique
des droites m = x + r s est facilitée parl’usage
dugraphique
deHenry.
0 On connaît évidemment lepoint
s = 0, m = x ;Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Fig. 11 - Domaine de confiance à 95 %.
18
il suffit
d’y adjoindre
un deuxièmepoint
que l’on obtient en faisant passer par lepoint F(x) (A
ou B sur lafigure 7)
une droitequelconque
dont onmesure facilement le m et le s. On peut aussi remarquer que les ordon- nées
F(x)
dugraphique
deHenry
sontproportionnelles
à r et lesgraduer
en r.
Pour montrer comment, le
temps passant,
l’informationqui
s’accumuleaméliore l’estimation de m et de s en resserrant le domaine de confiance autour de la vraie
valeur,
nous avonsreprésenté
sur lesfigures
13 et 14 dif-férents tracés du domaine de confiance à 95
%
de(m, s)
pour le lot de 67équipements,
tous mortsaujourd’hui,
de lafigure
12. Tout ce lot avaitété démarré au même moment. Nous nous sommes fictivement
replacés
auxtemps
t =0, 24, 3 6,
... 72 moisaprès
ledémarrage
pourdéfinir,
par la méthodeexposée
dans ceparagraphe,
le domaine de confiance dupoint (m, s).
Le moment où le domaine de confiance se referme
peut
êtreprécisé ;
ce
phénomène
seproduit quand
lapente
de la droite m = x + r s du faisceausupérieur
devientégale
à laplus
forte despentes
des droites du faisceau in- férieur. Ainsi sur legraphique
deHenry
de lafigure 12 ;
pour x = 39mois,
la limite de confiancesupérieure
atteint le niveau94,
5%.
A ce moment la droite du faisceausupérieur
a pourpente
r =1, 6 ;
elle estparallèle
auxpremières
droites du faisceau inférieur(x compris
entre 0 et 24mois).
Apartir
de ce moment le domaine se rétrécitrapidement
et onpeut
donner àm un intervalle de confiance de
plus
enplus
serré, alors que s restelarge-
ment indéterminé
(Cf
sur lafigure
13 legraphique
relatif à t = 48mois).
Le domaine de confiance de
(m, s)
peut être vide, cequi signifie qu’aucune
droite deHenry
n’estcompatible
avec les limites de confiance à 95%
deF(x).
0 Autant dire que les durées ne sont pasgaussiennes,
commesur la
figure
4.5 - UTILISATION D’UNE INFORMATION A PRIORI SUR s
Au début de
l’exploitation
d’un nouveau lot, il seraitparticulièrement précieux
dedisposer
d’une informationsupplémentaire
pour réduire l’indé- termination existant sur m, enparticulier
tant que le domaine de confiance n’est pas fermé.Le cas le
plus simple
est celui où l’on connaît à l’avancel’écart-type.
Dans ce cas on utilise directement le
graphique
deHenry
pour faire passer par les deux limites de confiance à 95%
deF(x)
les deux droites depente
s dont les intersections avec l’ordonnée
F(x) = 0, 5
donnent l’intervalle de confiance à 95%
de m(figure 15).
L’estimation de m est évidemment
beaucoup plus rapide,
comme lemontre la
figure 42,
où nous avonsreprésenté
lesétapes
parlesquelles
onserait
passé
pour estimer m, au fur et à mesure dutemps,
d’unepart
sion n’avait rien su de
l’écart-type -
et ce n’est alorsqu’une présentation
dif-férente des
graphiques
desfigures
13 et 14 - d’autrepart
si on avait su à l’avance que s valait 10 mois. Cette informationsupplémentaire
aurait per- mis dans ce cas d’estimer la limitesupérieure
de m environ 20 moisplus
tôt.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Fig. 12 - 67 équipements ; moyenne 52 mois ;
écart-type
10 mois.20 Fig. 13
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Fig.
14Fig.
1522 Fig. 16
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
S’il n’est pas
possible
de connaître apriori l’écart-type,
il arrive sou-vent que l’étude de lots
d’équipements analogues
aitapporté
une informationsur un certain domaine de variation
possible
de s.Dans le cas des cathodes des cellules
d’électrolyse
pourl’aluminium,
nous avons ainsi recueilli une information sur s en étudiant 45 lots diffé- rents. Cette étude n’a pas fait
apparaître,
contrairement à notre attente, de relation entre la moyenne etl’écart-type,
mais elle apermis
de tracer l’his-togramme
des 45 valeurs s observées(figure 17).
Notons au passage queces
écarts-types
suivent sensiblement une loi de distributionlog-normale (figure 18).
Fig. 17
Nous pouvons donc définir une fonction de
répartition 03C9(s)
telle que03C9(s)
ds soit laprobabilité
que s soitcompris
entre s et s + ds. Nous allons utiliser cette information apriori
pour calculer l’intervalle de confiance de m . A un instant tdonné,
on a constaté K défaillancesparmi
n. Calculonsla vraisemblance de m mi. Si
l’écart-type
était s, laprobabilité
de défail- lance serait p =G(t-m1 s)
où G estl’intégrale
de Gauss.Fig. 19
24
Fig. 18 - Distribution des
écarts-types
de 45 types de cathodes.Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Si
ml
et s étaient vrais, laprobabilité
de constater de 0 à K défail- lances avant letemps
t seraitP(K,
n,p), probabilité
cumulée de la loi bi-nomiale.
Si s était vrai, la vraisemblance que m soit inférieur à ml s’écrirait :
Compte
tenu desprobabilités
apriori 0(s),
on écrit :Le tableau 5 donne un
exemple
de calcul ; lesprobabilités
P y ont été calculées par la loi de Poisson.TABLEAU 4
26
Fig.
20 - Probabilité (mml).
Revue de Statistique Appliquée. 1965 - Vol. XIII - N 2
En faisant le calcul pour différentes valeurs de ml et en
reportant
les vraisemblances obtenues sur ungraphique
comme celui de lafigure 20,
on obtient facilement les limites à 95%
de m.Pour montrer l’intérêt de ce mode de calcul nous l’avons
appliqué
aulot de 67
équipements qui
nous adéjà
servid’exemple
et nous avons tracéla
figure
21 où l’on voit comment l’estimation de m seprécise rapidement
au début de
l’exploitation
du lot, à condition d’utiliser l’information aprio-
ri que contient la loi deprobabilité 03C9(s) :
on obtient ainsi une estimationpresque aussi
rapide
que si l’on connaissait à l’avancel’écart-type.
Par contreil faut abandonner cette
façon
de faire auprofit
de la méthodegraphique
dèsqu’assez
de défaillances ont été constatées pour quel’écart-type
vrai com-mence à se
dégager,
cequi
seproduit
dans notreexemple
à 48mois, quand
40
%
deséquipements
sont morts.Notons que, tant
qu’aucune
défaillance n’a encore étéconstatée,
le cal- cul de la limitesupérieure
de m n’a évidemment pasdavantage
de sens danscette méthode que dans l’autre.
Fig. 21
28
6 - CONCLUSIONLes méthodes d’estimation,
auxquelles
est consacré cet article et que l’onpourrait qualifier
de méthodes d’estimationdynamiques,
ouvrent laporte
sur ce secteur assez
spécial
de lastatistique
où letemps joue
le rôleprin- cipal,
en ne mettant l’information à notreportée qu’au
fur et à mesure dudéroulement d’une histoire. Elles montrent
qu’il
n’est pas nécessaire, commeon
pourrait
le craindre, d’attendre la fin de l’histoire pour en conna3tre l’essentiel. Ainsi la duréeprobable
d’un lotpeut
elle êtrepratiquement
connuealors que 50
%
de ses éléments sont encore en vie.BIBLIOGRAPHIE
A.K. GUPTA - Estimation of the mean and standard deviation of a normal
population
from a censoredsample.
J. P. GIVRY - Gestion d’un parc à renouvellement aléatoire.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N" 2