R EVUE DE STATISTIQUE APPLIQUÉE
F. D AUMAS
Méthodes de normalisation des données
Revue de statistique appliquée, tome 30, n
o4 (1982), p. 23-38
<http://www.numdam.org/item?id=RSA_1982__30_4_23_0>
© Société française de statistique, 1982, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
23
METHODES DE NORMALISATION DES DONNEES
F. DAUMAS
Centre National Universitaire Sud de Calcul
Le but de cet article est de réaliser un survol
synthétique
desprincipales techniques
de normalisation des donnéesprésentes
dans la littératurestatistique.
Celles-ci sont
présentées
hors du cadre des modèles linéaires où elles sont souvent utilisées. Un intérêtparticulier
estporté
aux transformations de BOX et COX.INTERET DE LA NORMALISATION
Les
statistiques paramétriques classiques
étant essentiellement basées sur la loinormale,
assumer la normalité pour une variable c’est accéder à unlarge
éventaild’outils
statistiques.
Malheureusement lesphénomènes
naturels ne sont pas engénéral
normalement distribués. Aussi le statisticien pourra avoir trois tentations :- La
première
tentation consiste à supposera-priori
que lapopulation
est nor-male. Souvent des distributions observées tendent vers une loi normale
lorsque
lenombre n des observations tend vers
l’infmi,
il est alors suffisant pour n assezgrand
d’assumer la normalité. Pour des valeursplus
faibles de n cetteapproximation peut
se révélergrossière
et soulève alors leproblème
de la robustesse des résultats obtenus. Dansquelle
mesure ces résultats sont-ils encore correctslorsque l’hypo-
thèse de normalité n’est pas vérifiée ?
- La seconde tentation consiste à abandonner
l’objectif
de la normalité des données et de chercher desstatistiques
valables pour l’ensemble des distri- butions continues(distribution free)
ou de s’accomoder despropriétés
intrin-sèques
de la loi mise en évidence.- La troisième tentation est celle
qui
seradéveloppée
dans lasuite,
elleconsiste à essayer de se ramener au moyen de transformations des données à des distributions normales. En fait la
qualité
essentielle de la loi normale étant sasymétrie sphérique,
le seul fait desymétriser
les donnéesprésente
un réelprogrés.
Revue de statistique Appliquée, 1982, vol. XXX, n° 4
TECHNIQUES
DE NORMALISATION DES DONNEESSolution
théorique
Lorsqu’on
choisit de normaliser les données encore faut-il savoirquelle
trans-formation
employer.
Si la distributionthéorique
F de la variable observée X estconnue
(ce qui
est souvent difficile dans le contexteexpérimental)
la transforma- tionZ.F,
où Z est l’inverse de la fonction derépartition
de la loi normale centréeréduite, permet
de normaliser les données.Ainsi,
siX,
définie sur la demi droite réellepositive,
suit une loilog-normale
de moyenne m est d’écart
type
s, Y =log (X)
suit une loi normale.La transformation Z.F conserve évidemment le rang des observations mais
son
application pratique
se heurte à la difficulté de connaître F defaçon précise
à
partir
del’expérimentation.
Substituer à la solution exacte des transformationsqui permettent d’approcher
au mieux la normalité semble alors une démarche naturelle. Mêmelorsque
F est connu il est souvent utile de trouver de telles trans-formations.
Techniques particulières
de normalisation de certaines lois On donne ici deuxexemples
de cestechniques.
Loi Gamma
23) :
Soit X une variablequi
suit une loi Gamma deparamètres
a etb,
en
particulier :
si a =1,
X suit une loiexponentielle
deparamètre 1 /b ;
si a =n/2
et b =
2,
X suit une loi du khi-2 à ndegrés
de libertés.La transformation racine carrée
qui
stabilise lavariance, permet
d’obtenirpour a assez
grand,
une distributionapproximativement
normale de moyenneb(a - 1/4)
et de varianceb/4. Cependant
WILSON et HILFERTY[33]
ont mon-tré en étudiant les coefficients
d’asymétrie
bl etd’aplatissement y2
= b2 - 3 que la transformation racinecubique
donne uneapproche plus précise
de la normalité.Mais cette transformation ne stabilise pas la variance.
La moyenne est alors :
(1 - 1/9a) . (ab)1/3
et la variance :(b2/a)1/3. (1/9).
Loi inverse de Gauss
(32) :
Soit X une variablepositive qui
suit une loi inversede Gauss de moyenne 03BC > 0 et de
paramètre
de concentration a > 0. Enparticu-
lier Y =
X/03BC
suit une distribution de Wald deparamètre 0
=a/03BC.
Whitmore etYalovsky (32)
montrent que la transformation W =03B8. log (Y)
+1/(2 03B8)
approche
très vite la normalité. W est un peuplus
concentré autour du mode que la loi normale.Normalisation par des méthodes indirectes
Certaines transformations
qui
n’ont pas pour butprincipal
de normaliserles données ont souvent pour effet secondaire de rendre les données
plus
conformesau modèle normal. C’est souvent le cas
lorsqu’on
désire construire une relation linéaire entre unprédictant
Y et un groupe deprédicteurs X1 , X2 ,
... ,Xp.
Leshypothèses requises
pour la validité du modèle ne sont pastoujours
vérifiées. On est alors courramment amené à essayer de trouver unchangement
d’échelle pourmesurer Y
(c.a.d.
une transformation non linéaire deY) qui permette :
- Soit de normaliser la distribution des erreurs ;
- Soit de stabiliser leur
variance ;
- Soit de rendre les effets additifs en éliminant les interactions.
Dans la
pratique
on remarque que la recherche d’un de cesobjectifs
augmenteles chances de réaliser les autres, sans que ce soit la
règle.
Transformation
visant à stabiliser la variance : Pour construire de telles transforma- tions il suffit d’obtenir unerelation, théorique
ouempirique,
entre la variance et lamoyenne. Cette
’épendance
entre variance et moyennes’accompagne
souventd’une
dissymétrie
excessive des donnéesqui
tend donc àdisparaître
avec la transfor-mation
qui
stabilise la variance. Le tableau(1)
donné en annexe 1 est tiré d’unepublication
de BARTLETT[6],
il résume pour un certain nombre de relations entre la moyenne et la variance d’unestatistique
t les transformations stabilisatricescorrespondantes.
Transformations
visant à éliminer les interactions : Ces transformations leplus
sou-vent
suggérées
parl’analyse
des résidus consistentpratiquement
à minimiser la valeur durapport
de la somme des carrés des différences inter groupes sur la sommedes carrés des
résidus,
pour une classe de transformations. Relativement peu de travaux ont été réalisés dans ce domaine.Il est en outre
possible, lorsqu’une fréquence
estprise
comme variable dansune
analyse,
d’utiliser lesprobits
pour obtenir l’additivité des effets[6].
Cettetransformation est alors évidemment
normalisatrice,
mais elle ne stabilise pas la variance.Aide au choix de transformations no
Certaines
techniques
souvent à basegraphique permettent
d’orienter la recherche de transformationssusceptibles
de normaliser lesdonnées,
en mettanten évidence sur celles-ci les écarts à la normalité
(le plus
souvent les écarts à lasymétrie).
Si le tracéd’histogramme
est latechnique
laplus
connue d’autre toutaussi
simples peuvent
être utilisées avecprofit (voir
GNANADESIKAN[16]).
Analyse
des résidus : Dans le cadre des modèles linéaires le tracégraphique
despoints ayant
pour abscisses les valeursajustées
et pour ordonnées les résidus corres-pondants
donne une idéegrossière :
- de
l’homoscédasticité,
en observant ladispersion
des résidus pour différents sous ensembles de valeursajustées ;
- de la non normalité en observant la
dissymétrie
de ladispersion
desrésidus ;
- de la non additivité des effets en mettant en évidence l’existence d’une
régression
non linéaire des résidus par
rapport
aux valeursajustées.
Dans tous les cas ces observations
peuvent suggérer
une transformation ap-propriée
de la variable observée. Voir sur cesujet
les travaux d’ANSCOMBE et TUKEY[4].
Q - Q
Plots(16) :
Si X et Y sont deux variables de distributionsrespectives
F et
G,
leprincipe
desQ - Q plots
est deporter
dans un schéma lespoints
dontles coordonnées sont les
images
de pe[0,1]
par les fonctions inverses de F etG,
dans le but de comparer F et G.
- si les deux lois coïncident les
points s’alignent
suivant lapremière
bissectrice.- si les deux lois diffèrent par leur localisation
l’alignement
despoints
se faitsuivant une droite de
pente
1qui
coupe l’axe horizontal en unpoint
différentde
l’origine.
- si les deux lois diffèrent par leur échelle
l’alignement
despoints
se fait suivantune droite de
pente
différente de 1.Ainsi si on
prend
pour F la distributionthéorique
de la loi normale centrée réduite et si G est la distributionempirique
de la variable Y centréeréduite,
lesQ - Q plots permettront
d’observer l’écart àl’hypothèse
F =G, représentée
surle schéma par la
première
bissectrice. Cette observation pourra alorsinspirer
unchangement
de coordonnéespermettant
de serapprocher
del’hypothèse.
Unecourbure
parabolique suscitera,
parexemple,
une transformation racine carrée, Probits : Soit f lafréquence
aveclaquelle
la variable X apris
la valeur x, on cons- truit la valeur y = 5 +Z(f)*.
Si X suit une loinormale,
le nuage despoints (x , y)
doitthéoriquement s’aligner
lelong
d’une droite. Celle-ci a pourpente
l’inverse de l’écarttype
et passe par lepoint qui
a pour abscisse la moyenne et pour ordonnée la valeur 5. Toute courbureparticulière
du nuage depoints
traduit alors de même que dans leparagraphe précédent
un écart à la normalité de X etpeut
aider au choix d’unchangement
de coordonnées.Ces
techniques
décrites ici pour aider dans le choix d’unetransformation, peuvent
évidemmentservir,
une fois la transformationfaite,
à constater laqualité
de l’effet normalisateur.
Transformations
polynomiales
Le
principe
est de chercher les coefficients d’unpolynôme
P tel que la fonc- tionpolynôme
associéepermette
de normaliser les données. La résolution de ceproblème, qui
fait intervenir ledéveloppement
d’EDGEWORTH d’unedensité,
est due à CORNISH et FISCHER
(voir
STUART et KENDALL[22]). Cependant
la fonction P n’étant pas
toujours croissante,
ces transformations ne conservent pas engénéral
le rang des observations. Ceci enlève énormément d’intérêt à cestransformations.
Transformations de Johnson
Le
problème
de l’identification de la loi d’unevariable,
a conduit de nom-breux auteurs à essayer de construire un
système permettant
de décrire en termesmathématiques
toute la gamme des distributionspossibles (voir
sur cesujet
lestravaux de
PEARSON, EDGEWORTH,
GRAM.CHARLIER[21]
et[22]).
En par- ticulier JOHNSON a cherché à identifier la distribution d’une variable au moyen de la transformation à luiappliquer
pour obtenir une distribution normale.Elargis-
sant
l’optique
duparagraphe précédent, puisqu’on
ne se limiteplus
aux seulestransformations
polynomiales,
on nepeut
obtenirqu’une
meilleureapproche
dela normalité.
JOHNSON considère les transformations du
type
suivant :* Z est défini comme vu plus haut.
- a,
b,
c et d sont desparamètres réels ;
-- g est une fonction monotone ne
dépendant
d’aucunparamètre
variable.Sans
perte
degénéralité
gpeut
êtresupposée
croissante et b et dpositifs.
JOHNSON établit alors une classification des
principales
lois en trois sys- tèmes associés chacun à une transformation gparticulière
et donc à une famillede transformations t.
- Si
g(z)
=log (z)
lesystème
associé est noté S1(lois log-normales).
- Si
g(z)
=log(z/(1 - z)) le système
associé est noté Sb.- Si
g (z )
=Argsh (z)
lesystème
associé est noté Su.L’estimation des
paramètres
a,b,
c, d des transformations de JOHNSON s’effectuegénéralement
à l’aide del’expression
des moments de la variableZ =
(X - c)/d.
JOHNSON et KOTZ[21]
donnent pour chacun dessystèmes l’expression
des moments non centrés d’ordre r deZ,
ainsi que des indications pour le calcul desparamètres (voir
aussi pour les lois Su l’article de WINTERBON[34]).
Pour lesystème
Sbl’expression
des moments nepouvant
se mettre sous forme utilisable il est conseillé d’utiliser lesquantiles
pour estimer lesparamètres.
Ces transformations conservent le rang des observations. Utiliser les trans-
formations de JOHNSON pour normaliser des données suppose que l’on con- naisse le
système auquel appartient
la distribution observée. JOHNSON et KOTZ[21]
donnent un moyen pour déterminergraphiquement,
àpartir
des valeurs calculées des coefficientsd’asymétrie
etd’aplatissement,
letype
de loi suivie par les données.Transformations de Haldane
Le
paragraphe précédent
montre que le calcul des coefficientsd’asymétrie
et
d’aplatissement permet d’envisager
l’utilisation d’une transformation de JOHNSON. Dans le même ordre d’idée cequi
suit montrequ’il
estpossible
lors-qu’on
connaît les cumulants de déterminer une transformation normalisatrice. Si la variable observée X a tous ses cumulants Kr de l’ordre de n(n
étant la taille de -l’échantillon)
alors HALDANE[17]
démontrequ’on
obtient :- un coefficient
d’asymétrie
de l’ordre de :n- 3/2
si on considère la transformation :avec :
- en
plus
un coefficientd’aplatissement
de l’ordre de :n-2
si on considère :avec :
et
On trouve en
particulier (22)
pour la loi du khi2 : k =1/3 (en
accord avecWILSON et
HILFERTY)
et h = ---5/3.
Transformations
puissances
Définition
1 : Onappelle
transformationspuissances
la famille des transformations deparamètres
a,b,
c, d réels définies pour tout xsupérieur
à - c par :Une sous famille
particulière
est obtenue enprenant
c = k2 et b =1 /d
=- a =
1/k1
pour kl différent de 0. Si kdésigne
alors le vecteur(kl, k2)
on notepour kl différent de zéro et x
supérieur
à - k2 :On montre facilement que pour x fixé
supérieur
à - k2 lalimite, lorsque
kl tend vers
zéro,
de la fonctionprécédente
estégale
àlog (x
+k2).
Ceci conduitdonc à considérer les transformations suivantes :
Définition
2 : Onappelle
transformations de BOX et COX(9)
la famille des trans-formations de
paramètre
k =(kl, k2) appartenant
à R x R définies pour xsupé-
rieur à - k2 par :
Dans la littérature gk
(x)
est souvent noté :x(k)
Lorsque
X est une variable réelle strictementpositive,
il est suffisant de consi-dérer la famille des transformations à un seul
paramètre
réel :k,
définies enprenant
k2 = 0 et kl - k dansl’expression précédente.
Propriétés
des transformations de BOX et COXi) L’application
g :(kl , k2 , x) ~
gk(x)
est :continue et dérivable en kl.
ii) L’application gk :
x ~ gk(x)
est :dérivable sur
]- k2 ,
+ oo[ de
dérivée(x
+k2)k 1 -
Conséquences
- Si kl est très
proche
d’une valeur donnée h(par exemple
0 ou1/2)
il serapossible
d’utiliser la transformation deparamètre (h, k2)
en lieu etplace
de latransformation de
paramètre (k1, k2)
avec la certitude que pour tout x fixé les deuxquantités
obtenues par ces deux transformations seront trèsproches.
- La transformation de
paramètre
k est strictement croissante sur]- k2 + 00 [
à valeurs dans l’intervalle]A , B[ .
Avec :Elle conserve donc le rang des observations.
- La transformation de
paramètre
k admet une fonctionréciproque
stricte-ment croissante sur
]A , B[
à valeur dans] -- k2 ,
+ 00[ .
- La transformation de
paramètre
k est convexe(respectivement concave) lorsque
kl > 1(respectivement
kl1).
Ainsi : pour kl inférieur à 1(respective-
ment
supérieur)
la moyenne M de Y est inférieure(resp. supérieure)
à la trans-formée de la moyenne de
X,
et donc la médiane de X est inférieure(resp. supé- rieure)
à la moyenne. La connaissance despositions
relatives de la médiane et de la moyenne des données initialespermet
de situer la valeur duparamètre
kl parrapport
à 1.- Il est
possible ([19] et [22])
d’obtenir une relation entre les moments noncentrés d’ordre r de X + k2 et les moments centrés de
Y,
enprenant l’espérance mathématique
dudéveloppement
en sérieentière,
auvoisinage
de y = 03BC, de : Si Y estsupposée
normalement distribuéel’expression
de ses momentscentrés est connue en fonction de o. Alors
lorsque
kl = 0 on retrouve la relationconnue pour la loi
log-normale.
Estimation du
paramètre
de normalisation k : Si leparamètre
de normalisa- tionexiste,
son estimation s’effectue souvent, enpratique,
par la méthode du maxi-mum de vraisemblance. Celle-ci
n’exige
aucune connaissancepréalable
des données.Il existe dans la littérature d’autres
possibilités
d’estimer k(voir
enparticulier
BOXet COX
[9]).
Soit
XI, X2,....,
Xn un n-échantillon de variableparente
X etY1 , Y2, .... ,
Yn les observationssupposées
normalement’distribuées,
demoyenne Il et d’écart
type
a, obtenuesaprès
une transformationpuissance
de para- mètre k. Lelogarithme
de la fonction de vraisemblance a alors pourexpression :
BOX et COX
proposent
alors de maximiser cetteexpression
parrapport à 03BC
et a. Cela revient à
remplacer 03BC
et le carré de 03C3 par les estimateurs du maximum de vraisemblance de la moyenne et de la variance des données transformées. On obtient alors à une constante additiveprés :
Proposition :
L’estimateur du maximum de vraisemblancek
de k est la valeurqui
maximisel’expression
deLm(k).
L’approximation
dek
s’effectue souvent, dans lapratique,
envisualisant,
aumoyen du
graphe
de la fonctionLm,
la valeurcorrespondant
aumaximum,
ainsi que larégion
de confianceapproximative
associée à un seuil 1 - a. Cette dernièrecorrespond
aux valeurs de kqui
vérifient :où le second membre
désigne
lequantile correspondant
à a d’un khi2 à un seuldegré
de liberté. Ceci résulte despropriétés asymptotiques
durapport
de vrai- semblance.Des méthodes
numériques permettent
une déterminationplus rigoureuse
de
k,
ellesexigent
la connaissance des dérivées de Lm.Proposition :
où :
avec
Y, u vk
sont les vecteurs colonnesqui
ontrespectivement
pourcomposantes Yi, ui(k), vi(k).
1 est la matrice colonne n x 1 dont tous les éléments sontégaux
àl.
Validité de la normalisation : La détermination d’un
k
nesignifie
pasobligatoire-
ment que les données initiales
puissent
être normalisées au moyen de la transfor- mationcorrespondante.
Il est donclogique
et nécessaire derépondre
à laquestion :
les données transformées par la transformation
puissance
deparamètre égal à fc peuvent-elles
être raisonnablement considérées comme normalement distribuées?.Il semble souhaitable que le test choisi prenne
plus
encompte
les différences auniveau des
points
fortementprobables
que celles constatées pour lespoints
de faibleprobabilité.
De ce
point
de vue, ilpeut
être intéressant d’utiliser le test basé sur la distance de HELLINGER entre deux lois(voir (27)) :
Le
principe
de ce test est de discrétiser en considérant q classes d’observa- tions. Si la variable observée X a ; Fn pour distributionempirique
sur l’échantillon de taille n considéré et F pour distributionthéorique,
et si G est une distributionthéorique
que l’on désireajuster,
leproblème
consiste à testerl’hypothèse
H : F = G. K. MATUSITA
[27] a
montré que pour tout réelpositif
fixé 11 et pour tout e donné on a :-d2(G,Fn)(q - 1 )/(ne)
avec uneprobabilité supérieure
ouégale
à 1 - esi
d(F, G)
11. On admet alors H vérifiée.-d2(G,Fn) (q - 1 )/(ne)
avec uneprobabilité supérieure
ouégale
à 1 - esi
d(F, G) >
Ty. On admet alors que H n’est pas vérifié.Dans le cas
présent
G est la distribution normale de moyenne Il et d’écarttype
a. Si laréponse
à laquestion posée plus
haut est affirmative la valeur trouvée duparamètre
k définira une transformation normalisatrice desdonnées,
dansle cas contraire aucune transformation de BOX et COX n’a le
pouvoir
de norma-liser convenablement les données.
Transformations
de BOX et COX à un seulparamètre : Lorsque,
comme c’estsouvent le cas en
pratique,
k2 est connu, à la translation initiale des donnéesprés, qui
à x associe x +k2,
l’étude de la transformation de BOX et COX associée seramène à celle d’une transformation du même
type
à un seulparamètre
réel k. Enprenant
k 1 = k et k2 = 0 dans lesexpressions précédentes
on obtient alors les relationsappropriées.
Les considérations
qui
suivent se situent dans le cadre des transformations de BOX et COX à un seulparamètre.
Précision et robustesse de l’estimateur de k : Même dans le cas favorable où il existe un
paramètre
normalisateurk,
les valeursprises
par les données transforméesappartiennent
à un intervalle]A, B[ qui,
sauflorsque
latransformation
estloga- rithmique,
est unepartie
seulement de la droite réelle. La variable transformé Yne
peut
donc suivre au mieuxqu’une
loi normaletronquée [30].
En fait DRAPER et COX
[11]
ont montré que la variance de l’estimateur du maximum devraisemblance, k
dek, s’exprime
comme leproduit
de deux termesdont le second
représente
lapart
due à la non normalité des données transformées(il
estégal
à 1 si celles-ci sont effectivementnormales).
où
11
= b 1 ety2
= b2 - 3représentent
les coefficientsd’asymétrie
etd’apla-
tissement et 0 =
ka/(l
+k03BC).
Il est à
souligner,
d’unepart
que les intervalles de confiance obtenus par lerapport
du maximum de vraisemblance ne sont valablesqu’asymptotiquement,
d’autre
part
quel’estimateur k
est sensible auxpoints
aberrants.Ces remarques ont
poussé
ANDREWS[1] à
proposer l’utilisation d’un test deFISHER,
moins sensible auxpoints aberrants,
pour testerl’hypothèse
k =ko
Cette méthode est
critiquée
par ATKINSON[5] qui
montreexpérimentalement
que pour une distribution normale le test durapport
de vraisemblance estplus puis-
sant. CAROLL
[10]
considère que les transformationspuissances
conduisent à des distributionsqui
sont normales dans leurpartie centrale,
maisqui possèdent
des extrêmes
plutôt exponentielles.
Ainsi si :il
obtient,
en utilisant la méthode du maximum de vraisemblance avec la famille des distributionsproportionnelles
àexp (- p(x)),
une méthodeplus
robuste que la méthode du maximum de vraisemblance de BOX et COX etplus puissante,
maismoins
robuste,
que celleproposée
par ANDREWS.Propriété particulière
de l’estimateur du maximum de vraisemblance : Dans le cadre des modèles linéaires BOX et COX ont montré que la solution obtenue pour k par la méthode du maximum de vraisemblanceapparait
comme une sorte decompromis
entre les différentespuissances suggérées (voir
ANSCOMBE[4])
dansl’analyse
des résidus par :-
l’hétérogénéité
de lavariance ;
- la non
additivité ;
- la non normalité.
Transformations
exponentielles [26]
Définition
1 : Onappelle
transformationsexponentielles
la famille des transfor- mations à troisparamètres
a,b,
c réels définis pour tout x réel par :Ces transformations constituent un cas
particulier
des transformations de Johnson.Propriété : [12]
La famille des transformationspuissances génère
comme cas limitela famille des transformations
exponentielles.
En effet pour x
supérieur
à - t onpeut
écrire si t > 0Dans la
pratique
t est leparamètre
de translation des données initialesqui permet
de les rendrepositives,
c’est donc un réelpositif.
Enposant
c =u/t,
b =
s.exp(u. log(t))
et a = r et enremarquant
que pour x fixésupérieur
à - t,la limite
lorsque
t tend vers l’infini deexp(t. log(l
+x/t»
estégale
àexp(x),
ilvient pour t ’très
grand’ :
Conséquences : Lorsque
la variable initialeprend
des valeursnégatives
trésgrandes
les transformations
exponentielles apparaissent
comme cas limite des transfor- mationspuissances (k2
tendvers - 00 ).
Une sous famille
particulière
est obtenue enprenant :
c = k et b = -- a=1/c
si k n’est pas nul. On note alors pour k non nul :
Pour tout x fixé
l’expression précédente
tend vers xlorsque
k tend verszéro aussi est-il naturel de considérer les transformations suivantes.
Définition
2 : Onappelle
transformationsexponentielles
à un seulparamètre
kréel la famille des transformations définies sur la droite réelle par :
Des
propriétés analogues
à celles mises en évidence pour les transformations de BOX et COX à un seulparamètre,
existent pour les transformations exponen- tielles et entraînent desconséquences
du mêmetype.
Enparticulier :
L’application qui
aucouple (x, k)
associe le transformé de x par la trans- formationexponentielle
deparamètre
k est continue et dérivable en k. Cequi
assure pour tout x fixé une certaine stabilité par
rapport
à k.La transformation
exponentielle
deparamètre
k est dérivable sur la droiteréelle de dérivée :
exp(kx),
elle est convexe(respectivement concave)
si k estpositif (respectivement négatif).
Sa fonction inverse est lelogarithme
de l’inverse de la transformationpuissance
deparamètre
k.L’estimation de k par la méthode du maximum de vraisemblance conduit à
l’expression
suivante du mêmetype
que celle fournie par BOX et COX.Généralisation à la normalisation de variables vectorielles
[16]
Il est
possible
degénéraliser
l’utilisation de transformationsparamé- triques
detype
Box et Cox ouexponentiel
au cas de variables vectorielles X =(X1 , X2 , .... Xp).
On recherche alors le vecteur k =(k1 , k2, ... , kp)
tel que les données obtenuesaprès
transformation par Tk =(Tkl , Tk2 ,
... ,Tkp) puis-
sent être considérées comme suivant une loi
gaussienne.
Des méthodes d’estimation de k par le maximum de vraisemblance découlentsimplement
de lagénéralisation
de celles utilisées pour le cas unidimensionnel. Elles font intervenir l’estimateur de la matrice de variances-covariances des
marginales
transformées.En fait comme
l’indique
GNANADESIKAN[16]
il est souventpréférable d’essayer
de normaliser lesmarginales. Théoriquement
cetteopération
ne norma-lise pas forcément la loi
conjointe,
maisl’expérience
montre que dans de nom- breux cas il en est ainsi.Retour aux données initiales
après
une transformation normalisatriceRendre les résultats d’une
analyse interprétables
nécessite souvent de lesexprimer
dans les mêmes unités que les données initiales. Dans les cas oùl’expres-
sion des
quantiles
suffit àl’interprétation,
le fait que pour une transformation croissante T on ait :permet
d’obtenir aisément l’estimation desquantiles
de la variable initiale en fonc- tion de ceux de la variable transformée.Cependant l’interprétation
des résultats nécessite engénéral
les valeurs de la moyenne et de la variance de la variable initiale. La variable transformée étantsupposée
normalement distribuée les estimateurs :sont des estimateurs efficaces de
E (Y)
etV (Y).
Commel’espérance
de X est aussil’espérance
del’image
de Y par la transformation inverse deT,
un estimateur ef-ficace de E
(X)
sera forcément fonction de ces deux estimateurs. Il est ainsilogique
de penser en
premier
lieu àprendre
comme estimateur de E(X) : Cependant
engénéral :
E
(T-
1(Y»
est différent deT (E (Y))
Ainsi
prendre
pour estimateur(respectivement
intervalle de confianceI03B1)
deE (X), l’image
inverse de l’estimateur(respectivement
de l’intervalle de confianceJ a)
deE (Y), présente
commedanger
que rien negarantit qu’il
existe une valeurappartenant
à Ja dontl’image
par la transformation inverse soitégale
àl’espé-
rance de X.
Pour
pallier
cet inconvénient PATTERSON[291
propose alors de trouver une fonction h telle quel’image
deE(Y)
+h(Y)
par la transformation inverseT-1
soit à peu
près égale
àE (X). L’expression
de h estsimple
à trouver dans le casde la transformation
logarithmique : h (Y)
=V (Y)/2
mais PATTERSON ne donnepas de méthode
générale
pour déterminer h.LAND
[24]
donne un brefaperçu
des différentestechniques
existant dans la littératurestatistique qui permettent
d’obtenir une estimation de l’intervalle de confiance de la moyenne deX,
HOYLE[19] développe
enplus
une méthode d’esti- mation de la variance. Ces résultats s’obtiennent en utilisant ledéveloppement
ensérie
entière,
auvoisinage de Il
=E (Y),
del’image
de Y par l’inverse de T.Exemple
d’utilisationPour illustrer l’efficacité des
procédés
de normalisationexposés,
la méthodede BOX et COX a été
appliquée
aux relevés de durées 4 et 6 heures de la concen- tration enanhydride sulfureux,
sur une stationproche
du site deLacq,
pour l’année 1977. Pour chacune de ces durées d’observation on areprésenté,
afin de visualiserl’effet
normalisateur, l’histogramme
des données brutespuis
celui des données transformées :figures
1 à 4 de l’annexe 2.CONCLUSION
Le
présent
article ne constitue pas une liste exhaustive de toutes les tech-niques permettant
de se ramener à un modèle normal. D’autres méthodes existent par ailleurs notamment celles basées sur la recherche decodages
normaux(22),
souvent utilisées pour l’étude des
dépendances
entre variablesqualitatives. Cepen-
dant l’ensemble des
procédés exposés
icireprésente
un éventail desprincipales
démarches utilisées dans le domaine de la normalisation des données. Atteindre la normalité ne
doit,
de toutefaçon,
pas constituer une fin ensoi,
mais un moyen depoursuivre
uneanalyse,
ni devenir une obsession.ANNEXES
Annexe 1
. ’1’tableau- 1-
Remarques :
ANSCOMBE[3]
a montré que :Si t suit une loi de Poisson la
transformation B/t + (3/8) permet
de mieux stabiliser la variance** Si t suit une loi binomiale une meilleure stabilisation est obtenue avec
*** Si t suit une loi binomiale
négative
une meilleure transformation stabi- lisatrice est :Annexe 2
Histogrammes
pour la durée 4 heures Le nombre de données retenues estégal
à 484Figure 1. - Histogramme des données brutes.
Figure 2. - Histogramme des données transformées : la transformation de Box et Cox a pour
paramètre -
0.1.Histogrammes
pour la durée 6 heures Le nombre de données retenues estégal
à 383Figure 3. - Histogramme des données brutes.
Figure 4. - Histogramme des données transformées : la transformation de Box et Cox a pour
paramètre -
0.07.BIBLIOGRAPHIE
[1]ANDREWS. -
A note on the selection of data transformations.(1971)
Biometrika num.
58,
p. 249-254.[2]ANDREWS,
GNANADESIKAN and WARNER. - Transformation of multi- variate data(1971).
Biometrics num.27,
p. 825-840.[3]ANSCOMBE. -
The transformation ofPoisson,
binomial andnegative
bino- mial data.(1948).
Biometrika num.35,
p. 246.[4]ANSCOMBE
& TUKEY. - Examination andanalysis
of residuals(1963).
Technometrics num.
5,
p. 141-160.[5]ATKINSON. - Testing
transformations tonormality (1973).
Journalof
theRoyal
StatisticalSociety,
vol.B-35,
p. 473-479.[6]BARTLETT. -
The use of transformations(1947), Biometrics num. 1,
p. 39-52.
[7]BICKEL
& DOKSUM . - Ananalysis
of transformation revisited(1981).
JASA,
vol.76,
num.374,
p. 296-311.[8]BLOM. -
Transformation of thebinomial, negative-binomial,
Poisson and khi2 distributions.(1954)
Biometrika num. 41.[9]BOX
& COX. - Ananalysis
of transformations(1964).
Journalof
theRoyal
Statistical
Society,
Vol.B-26,
p. 211-252.[10]CAROLL. -
A robust method fortesting
transformation to achieveapproxi-
mate
normality (1980).
Journalof
theRoyal
StatisticalSociety,
vol:B-42,
num.
1,
p. 71-78.[11]COX
& DRAPER. - On distributions and their transformation tonormality (1969).
Journalof
theRoyal
StatisticalSociety,
vol.B-31,
p. 472-476.[12]CRESSIE. -
Theexponential and
power data transformations. TheStatistician,
vol.27,
num.1,
p. 57-60.[13]CURTISS. 2014
On transformations used in theanalysis
of variance(1943).
Annals
of Mathematical Statistics,
num. 14.[14]DRAPER
& HUNTER. 2014 Transformations someexamples
revisited(1969).
Technometrics,
num.11,
p. 23-40.[15]FRIEDMAN. -
The use of ranks to avoid theassumption
ofnormality implicit
in the
analysis
of variance(1937). JASA,
vol. 32.[16]GNANADESIKAN. -
Methodfor
statistical dataanalysis of
multivariate observations(1977). Wiley
& sons.[17]HALDANE -
Theapproximate
normalisation of a classof frequency
distri-bution
(1938). Biometrika,
num. 29.[18]HINKLEY. -
On power transformation tosymmetry. (1975) Biometrika,
vol.62, p.
101-111.[19]HOYLE. -
The estimation of variances afterusing
agaussianating
transforma- tion(1968).Annals of
MathematicalStatistics,
vol:39,
num.4,
p. 1125-1143.[20]JOHNSON. -
Tables to facilitatefitting
Sufrequency
curves(1965).
Biome-trika,
num.52,
p. 547-558.[21]JOHNSON
& KOTZ. - Continuous univariate distribution(1970). Houghton- Mifflin,
vol. II & III.[22]KENDALL
& STUART. - The advancedtheory of
statistics. Griffin-Books London vol.I, II & III.
[23]KIMBER. -
Tests for asingle
outlier in a gammasample
with unknownshape
and scale
parameters (1979). Applied Statistics,
p. 243-250.[24] LAND. 2014
Confidence interval estimation for means after data transformationsto
normality (1974). JASA,
vol :69,
num.347,
p. 795-802.[25]LINDSEY. 2014
The roles of transformations tonormality (1975). Biometrics,
num.
31,
p. 247-249.[26]MANLY. - Exponential
data transformations(1976).
Thestatistician,
vol.25,
num.
1,
p. 37-42.[27]MATUSITA. 2014
Decisionrules,
based on thedistance,
forproblem
of fit twosamples
and estimation(1955). Annals of
the Instituteof Statistical Mathema- tics,
p. 631-640.[28]NEYMAN
& SCOTT. - Corrections for biais introducedby
a transformation of variables(1960).
Annalsof
MathematicalStatistics,
vol.31,
p. 643-655.[29]PATTERSON. -
Difficulties involved in the estimation of a datapopulation
mean
using
transformedsample
data(1966). Technometrics,
vol.8,
num.3,
p. 535-537.
[30]POIRIER. -
The use of the Box and Cox transformation in limiteddependent
variable models
(1978). JASA,
vol.73,
num.362,
p. 284-287.[31]SCHLESSELMAN. -
Power familles: a note on the Box and Cox transfor- mation(1961).
Journalof
theRoyal
StatisticalSociety,
vol. B-33.[32]WHITMORE
& YALOVSKY. - Anormalizing logarithmic
transformation for inversegaussian
random variables(1978). Technometrics,
vol.20,
num.2, p. 207-208.
[33]WILSON
& HILFERTY. - The distributionof
Chi square(1931). Proceedings
of National
Academy
of Sciences-USA num.17,
p. 684-688.[34]WINTERBON. - Determining parameters
of the Johnson Su distributions(1978).
Commun. Stat. Simula.Computa.,
vol.B7,
num.3,
p. 223-226.[35]ZAREMBKA. -
Transformations of variables in econometrics. Frontiers inEconometrics,
Ed. P-Zarembka - New York Academic Press.REMERCIEMENTS
Le travail
exposé
ici a été enpartie
réalisé dans le cadre d’une collaboration du laboratoire destatistique
du Centre de Recherche enInformatique
et Gestionde
Montpellier
et la Société Nationale ElfAquitaine.
Certainsaspects
ont fourni l’idée centrale d’une thèse de troisièmecycle
de l’auteur consacrée à l’élaborationd’un
modèle depollution atmosphérique.
Enconséquence
nous tenons àexprimer
nos sincères remerciements à Messieurs BAPSERES et CAMPS de la SNEA pour avoir rendu