R EVUE DE STATISTIQUE APPLIQUÉE
B. L AUMON
J. L. M ARTIN
D. B ALLAND
Un algorithme de calcul de la probabilité qu’une
variable de Fisher-Snedecor, à premier degré de liberté impair, excède une valeur donnée
Revue de statistique appliquée, tome 33, n
o4 (1985), p. 29-40
<http://www.numdam.org/item?id=RSA_1985__33_4_29_0>
© Société française de statistique, 1985, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
29
UN ALGORITHME DE CALCUL DE LA PROBABILITÉ
QU’UNE VARIABLE DE FISHER-SNEDECOR, A PREMIER DEGRÉ DE LIBERTÉ IMPAIR, EXCÈDE UNE VALEUR DONNÉE
B. LAUMON
(1),
J.L. MARTIN(1),
D. BALLAND(2)
(1)
INSERM U265, 151, cours Albert Thomas, 69003 Lyc(2)
CHEMDA TA, 17, quai Joseph Gillet, 69004 LycRESUME
Les auteurs proposent un algorithme qui permet de calculer la probabilité qu’une variable de Fisher-Snedecor excède une valeur donnée, lorsque le premier degré de liberté est impair. Il peut être utilisé pour la détermination de valeurs très faibles, sa seule limite étant la puissance
de résolution de l’ordinateur utilisé.
SUMMARY
An algorithm is proposed to compute the probability associated with the upper tail of the F or variance-ratio distribution with odd first degree of freedom. The power of computer is the
only limit and very low expected values may be computed.
INTRODUCTION
Il existe divers
algorithmes permettant
de calculer laprobabilité qu’une
variable de Fisher-Snedecor excède une valeur donnée. Ces
algorithmes
diffèrent essentiellement selon la
parité
dupremier degré
de liberté vi.Lorsque
vi estpair,
ilspermettent
de calculer cetteprobabilité
mêmelorsqu’elle
s’avère être très faible. Par contre,lorsque
vi estimpair,
lesalgorithmes généralement proposés
ne lepermettent
pas.Après
avoirrappelé
les raisons de cettedifférence,
nousprésentons
unalgorithme qui,
pour viimpair,
offre les mêmespossibilités
que ceux existant pour vipair.
I. LE
PROBLÈME
Nous désirons
pouvoir calculer,
dans tous les cas, laprobabilité Q (F,
VI,V2) qu’une
variable deFisher-Snedecor,
à vi et V2degrés
deliberté,
excède une valeur donnée F.
L’expression
à calculer est la suivante :Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 4
Mots-clés : Variable de
Fisher-Snedecor,
Fonction derépartition, Algorithme.
30
avec F > 0 et
B - ,
Lorsque
vi estpair,
cetteexpression peut
se calculer en sommant VIItermes, tous
positifs :
avec
Lorsque
vi estimpair,
il est habituel de considérer laparité
de V2. Si V2 estpair,
lespropriétés
desymétrie
deQ
permettent de se ramener au casprécé-
dent :
Et si les deux
degrés
de liberté sontimpairs,
unchangement
de variabletrigonométrique permet
de proposer une solution :avec, si l’on po:
Ces
développements
sont ceuxproposés
par M. ABRAMOWITZ et A.STEGUN
[1].
Dans les trois cas ainsi définis selon lesparités
de v, et V2, ilsconstituent des solutions exactes
qu’utilisent
certainesbibliothèques
scientifi-ques de programmes, telles IMSL
[2]
ou NAG[7].
De tellesapplications posent
leproblème
des limites de validiténumérique
desalgorithmes correspondants.
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n°
31 Deux
caractéristiques
de l’ordinateur utilisépeuvent
alors intervenir : sapuissance
derésolution,
c’est-à-dire laplus petite
valeurqu’il distingue
de zéro(classiquement
de l’ordre de10-39),
et saprécision
decalcul,
c’est-à-dire le nombre de chiffressignificatifs pris
encompte
pour caractériser un nombrequelconque (classiquement
6 ensimple précision).
L’examen desdéveloppe-
ments de
Q (F,
VI,V2) proposés
montre que les limites de validité diffèrent selon laparité
de vi. Eneffet, lorsque
v, estpair,
on somme un nombre fini de termes touspositifs.
Et sous réserve deprendre
certainesprécautions (notamment
celle de commencer par sommer entre eux les termes les
plus faibles),
on peut calculerprécisément
desprobabilités
trèsfaibles,
voisines de lapuissance
derésolution de la machine utilisée. Par contre,
lorsque
vi estimpair, quelle
que soit laparité
de V2, on est amené à retrancher de 1 unequantité comprise
entre0 et 1
(Q (1/F,
V2,VI)
si V2 estpair, A’03BD2 - B’03BD1 sinon).
Aussi dès que cettequantité
sera voisine de 1 à la
précision
des calculsprès, Q (F,
VI,V2)
sera considéréecomme nulle
[5, 6]. Ainsi,
sur une machineclassique,
onpeut
calculerprécisé-
ment
Q
même pour des valeurs très faibles de l’ordre de10-39 lorsque
vi estpair,
mais seulement pour des valeurssupérieures
à10-’ lorsque
vi estimpair.
L’algorithme
que nous proposons ici remédie à cette difficulté.II. L’ALGORITHME
Le
problème
estd’exprimer,
pour v,impair, Q (F, VI, V 2)
sous la forme d’une somme de termes touspositifs.
Soit
où 03B4 est un entier
quelconque.
Q apparaît
comme un casparticulier
deQ’ (pour
03B4 =03BD1).
Une
intégration
parpartie permet
d’établir une relation de récurrence surQ’,
en fonction de 03B4 :et
plus généralement
où n est un entier
quelconque
non nul.Revue de Statistiques Appliquées, 1985, vol. XXXIII, n°4
32
Vt étant
supposé impair
etsupérieur
à 1(le
casparticulier
Vi = ! 1sera
évoqué ultérieurement),
on choisit : 8 == vi et n =VI - 1
etor
pos
On obtient
so
av
Le
problème
est ainsi ramené au calcul deQt.
Lechangement
de variabledéfini par
permet
d’obtenuavec
On remarque :
so
Dans le cas
général
V2 >1,
les formulesclassiques
de récurrence sur de tellesintégrales,
que citent notamment M. ABRAMOWITZ et A. STEGUN[1], permettent
d’en proposer undéveloppement.
On sait en effet :avec n entier non
nul,
t réelou
plus généralement :
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 4
33 En
prenant
t = arcsinVX et
n = V2 -1,
on obtient :avec
où N est un entier
quelconque
non nul.Or
RN,
est uneexpression positive
dont onpeut exprimer
unmajorant qui,
si F n’est pasnul,
décroît et tend vers zérolorsque
Naugmente,
et ce enmajorant
u par sa bornesupérieure
arcsinX :
d’où
Au cours du
développement précédent,
deux restrictions ont été faites : l’unesupposant
F nonnul,
l’autre visupérieur
à 1.Lorsque
F estnul, Q (0,
Vi,V2)
vaut 1 par définition et tout cequi précède
est bien sûrsuperflu.
Lorsque
vi vaut1, Q (F, 1, V2)
s’identifie àQ’1
et lapremière partie
dudéveloppement
est inutile. On obtient finalement :avc
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 4
34
a,
Ainsi,
à un termeRN, près (dont
onpeut
calculer unmajorant qui
tendvers zéro
lorsque
Naugmente),
onpeut décomposer Q (F, vi, V2),
pour v,impair,
en deux termesAVI
et BN :Av,
est la somme de(v, - 1)/2
termes,BN
la somme de(N
+1)
termes. Ces termes sont touspositifs,
etcompte
tenu de la valeur de xcomprise
entre 0 et1,
ces termes sont de valeursdécroissantes,
tant pour
Av,
que pourBN. Aussi,
à condition de choisir une valeur de N suffisammentgrande
pour queRN+1 soit
inférieur à une valeur equelconque
choisie à
l’avance,
et à condition de calculerAv,
et BN encommençant
parsommer leurs termes les
plus faibles,
il estpossible,
pour v,impair,
de calculerQ (F,
VI,V2)
defaçon précise, quel
que soit son ordre degrandeur. Et,
comme cela est le cas pour v,pair,
la seule limite est lapuissance
de résolution de la machine surlaquelle
estimplanté l’algorithme.
Enfin,
selon laparité
de V2, les fonctions r non encoreexplicitées présentent
desdéveloppements
différentsqui
conduisent à tenircompte
decette
parité.
On obtient finalement :avec v,
impair
Revue de Statistiques Appliquées, 1985, vol XXXIII, n°4
35
c
III. COMMENTAIRES
L’algorithme proposé
estvalable,
pour v,impair, quelles
que soient les valeursrespectives
de VI, V2, F. Enpratique,
ilpeut présenter
l’inconvénient de nécessiter le calcul d’un trèsgrand
nombre de termes pour certaines valeurs de v,, V2, F. Le tableau 1 illustre les variations de N sur unexemple,
pour
lequel
on choisit E = 2.9410-39 (puissance
de résolution de la machineutilisée).
Pour v, et V2fixés,
N est très élevé pour des valeurs faibles deF,
mais décroît trèsrapidement.
Demême,
N s’avère très élevé pour des valeurs élevées de V2 ou faibles de VI.Une considération
pratique permet cependant
de réduire sensiblement le nombre de termes à calculer. Eneffet, compte
tenu du nombre limité de chiffressignificatifs
du résultatfinal,
il est totalement inutile de calculer des termesqui
n’en modifient pasl’expression. Aussi,
si l’on souhaite que le résultat final soit connu avec n chiffressignificatifs,
il suffit de calculerAVI
avant BN afin de
pouvoir
choisir N tel que lemajorant
deRN+I,
définici-dessus,
soit inférieur à E’ :Les valeurs de N ainsi
obtenues,
sur le mêmeexemple
queprécédemment, figurent
dans le tableau 1. Enpratique,
et afin deprévoir
tous les caspossibles (notamment
ceux oùAVI
estnul),
on retient pour déterminer N lemajorant
de E(fixé
apriori
parl’utilisateur)
et de E’(fonction
deAVI
et dunombre de chiffres
significatifs
souhaités dansl’expression
du résultatfinal).
On
peut
remarquer que chercher à minimiser N a un double intérêt carla valeur de N est obtenue par un
algorithme
d’ordreN,
et surtoutl’algo-
rithme
général
est d’ordreN2.
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 4
36
TABLEAU 1
Variations de N en fonction de F, 03BD1, 03BD2
Notons enfin que N
pourrait
être encore minimisé à condition de rechercher E’ defaçon
itérative :Cette dernière solution n’est
cependant
pas retenue car le calcul deBN
s’effectue encommençant
par sommer les termes deplus grand indice,
contraintequi
nécessiterait de calculer(N+1-j)
foisBj
et doncqui augmenterait
lestemps
de calcul alors que la recherche d’un Nplus
faibleavait pour seul but de les réduire. De
plus,
cette ultimeoptimisation
n’auraitd’intérêt que dans les cas où l’utilisation de
l’algorithme
lui-même ne sejustifie
pas.En
effet,
nous pouvonsrappeler
quel’algorithme proposé,
bien que valablequels
que soient v,(impair),
V2 etF,
a pour but de calculerprécisément Q (F,
V,,V2) lorsque
lesalgorithmes classiques
sontinopérants,
c’est-à-dire
lorsque
les valeurs attendues deQ (F,
vi,V2)
sont faibles etplus précisément,
si l’on considère le contexte del’analyse
de lavariance, lorsque
v, est
faible,
V2 élevé et F élevé. Le tableau II en donne unexemple
et montreque, dans ce contexte, N reste modéré.
Enfin,
il est certain quel’emploi
d’un telalgorithme
nes’impose
pas lors des testsstatistiques
habituels où seule la« signification
à 5 % » estimportante.
Par contre, ilpeut
être utile dans certaines méthodesd’analyse
multivariées
proches
de lasegmentation
oùQ (F,
VI,V2),
résultat d’unecomparaison multiple
de moyennes paranalyse
devariance, peut
être utilisécomme critère de choix des variables
[3, 4].
Revue de Statistiques Appliquées, 1985, vol XXXIII, n° 4
37 TABLEAU 2
BIBLIOGRAPHIE
[1]
M.ABRAMOWITZ,
I.A. STEGUN. - Handbookof mathematical func-
tions, Dover Publications
Inc., New-York,
1972.[2]
IMSL Inc. - Mathematical and statisticallibrary package,
edition8, Houston,
1980.[3]
B. LAUMON. - Une méthode de reconnaissance de formes pour l’estimation d’une variable continue :application
à ladocimologie.
ThèseDocteur-Ingénieur, Lyon I, 1979,
n° 373.[4]
B.LAUMON,
D.TOUNISSOUX,
D.BALLAND,
M. TERRENOIRE.- Estimation
automatique
d’une variable continue à l’aide de variableshétérogènes.
Journéesd’Informatique médicale, Toulouse,
mai 1980.[5]
M. LENTNER. - On the exact calculation of cumulative Fprobabilities.
Comm. Statist. Simula.
Computa., 1976,
B5(4),
149-154.[6]
A.J. MILLER. - Cancellation errors incalculating
Fprobabilities.
Comm. Statist. Simula.
Computa., 1978,
B7(31),
297-301.[7]
NUMERICAL ALGORITHMS GROUP Ltd. - NAGfortran library manual,
Mark8, Oxford,
1980.Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 4
38 Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 4
39
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n°4
40 Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 4