R EVUE DE STATISTIQUE APPLIQUÉE
M ATHIEU V RAC E DWIN D IDAY A LAIN C HÉDIN
Décomposition de mélange de distributions et application à des données climatiques
Revue de statistique appliquée, tome 52, n
o1 (2004), p. 67-96
<http://www.numdam.org/item?id=RSA_2004__52_1_67_0>
© Société française de statistique, 2004, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DÉCOMPOSITION DE MÉLANGE DE DISTRIBUTIONS ET
APPLICATION À DES DONNÉES CLIMATIQUES
Mathieu Vrac*,
**,
EdwinDiday*,
Alain Chédin*** Univ. Paris IX
Dauphine,
Place du Maréchal deLattre-de- Tassigny,
75775 Paris{vrac, diday}@pi.cerenzade.dauphine.fr
** ARA/LMD,
École Polytechnique,
91128 Palaiseau Cedex{vrac, chedin}@lmd.polytechnique.fr
RÉSUMÉ
L’objectif
del’analyse
des donnéessymboliques
est d’étudier des bases de données où les individus ont des variations internes. Cela permet de traiter des bases de taille considérable. Nous proposons dans cet article une méthodequi
étend ladécomposition
demélange
de densités en permettant de classer des données de type distributions deprobabilités
(fonction derépartion),
et en modélisant la loi deprobabilité
associée à ce type de donnéesprobabilistes.
Cette méthode permet de tenir compte desdépendances qui
existent entreles variables utilisées, ainsi que des
dépendances
à l’intérieur même d’une variable, entre différentspoints
des fonctions derépartition
des individus. Cesdépendances
intra et intervariables sont
prises
en compte à l’aide de fonctions multidimensionnellesappelées copules
(ou fonctions dedépendance).
Lescopules
mettent en relation chacune des fonctions derépartition
unidimensionnelles (dites
« marginales »)
avec la fonction derépartition
multidimensionnelle (dite« jointe »).
Nousprésentons
les notions utiles ainsi que la méthode que nousappliquons
par la suite à une
grande
base de donnéesclimatiques.
Mots-clés :
Décomposition
demélanges, Classification
de distributions, Distributions de distributions,Copules
ABSTRACT
The
goal
of theanalysis
ofsymbolic
data is thestudy
of databases where the units have internai variations. It allows the treatment of databases withhuge
size. In this paper, we proposea method to
classify
distribution functions data and model theprobability
law associated to this kind ofprobabilistic
data. This method extends densities mixturedecompositions.
It allowsdependencies existing
between the used variables anddependencies existing
inside a variable (between differentpoints
of the cumulative distribution functions of the units) to be taken into account. Thesedependencies
are modeled with multidimensional functions calledcopulas
(or"dependencies
functions").Copulas
link every unidimensional cumulative distribution (called"margin")
to the multidimensional cumulative distribution. We introduce useful notions as wellas the method and we
apply
it to a climatic database withhuge
size.Keywords :
Mixture model,Classification of
distributions, Distributionsof
distributions,Copulas
1. Introduction
L’analyse
des donnéessymboliques (ADS,
voirBock, Diday, 2000, [2]),
apour but d’étendre
l’analyse
des donnéesclassiques
à des données où les individus sont munis de variations internes. Ainsi enADS, chaque
variablepeut prendre
desvaleurs
multiples, intervalles,
lois deprobabilité,
fonctions derépartition,
muniesparfois
derègles
et de taxonomies. Dans ce cadregénéral
on cherche ici à étendre ladécomposition
demélange
delois,
où les variables sont à valeursnumériques,
à desvariables dont les valeurs sont des fonctions de
répartition.
Le
problème classique
dedécomposition
demélange
consiste à estimer unedensité de
probabilité
àpartir
d’un échantillondonné,
en considérant que la densité cherchée est unmélange
fini de K densités. Nousdisposons
donc d’un échantillon de N individus dans RP dont la loi a pour densitéavec
- f(.,03B1)
est une densité deprobabilités
deparamètre
aappartenant
àRd (d
estle nombre de coordonnées de
a),
- VI == 1, ..., K, 0 pl 1 et 03A3Kl=1 pl = 1,
- et pl est la
probabilité qu’un point
de l’échantillon suive la loi de densitéf(.,03B1l).
Ce
problème
a été étudié par de nombreux auteurs sous deuxapproches
différentes.
L’approche
laplus répandue
consiste à traiter unproblème
d’estimation desparamètres (pl, ai) (« approche estimation ») (Dempster,
Laird etRubin, 1977, [7],
Everitt etHand, 1981, [10]).
Les méthodes lesplus classiques
relèvent destechniques
d’estimation par le maximum de vraisemblance. Les
algorithmes d’optimisation
dela vraisemblance sont, à des variantes
près,
detype
EM(Estimation, Maximisation) (voir Dempster,
Laird etRubin, 1977, [7],
Redner etWalker, 1984, [16], Shlezinger, 1968, [19]).
La secondeapproche (« approche classification »)
considère la recherche d’unepartition
P =(Pl,
...,PK)
telle quechaque
classePl
soit assimilable à unsous-échantillon suivant la
loi f (., al),
le nombre K decomposants
dumélange
estsupposé
connu(Diday,
Ok etSchroeder, 1974, [8],
Scott etSymons, 1971, [18], Symons, 1981, [22]).
Dans cecadre,
lesalgorithmes
utilisés sont detype
nuéesdynamiques.
Dans cetarticle,
nous nous intéressons à unegénéralisation
del’approche
classification : la
décomposition
demélange
de loislorsque
les données se trouvent être des distributions deprobabilités. Après
une brèveprésentation
de notions utiles telles que les distributions de distributions et lescopules,
nousexplicitons
la méthodeproposée
etl’appliquons
à unegrande
base de donnéesclimatiques.
2.
Décomposition
demélange appliquée
aux distributions 2.1. Les entrées et les sortiesSoit W =
(w1,
...,WN)
un ensemble d’individusstatistiques
décrits par p variables. L’ensemble W est un échantillon de N individus d’unepopulation
totaleinconnue Ç2. Pour
chaque variable,
chacun des individus de Ç2 est décrit par une distribution deprobabilité.
Nousdisposons
doncde J’
=(F1,
...,FN)
décrivantW,
avec Fi = (F1i,
...,Fpi). Chaque Fji correspond
à la distribution de l’individu i pour lavariable j. L’ensemble J (appelé
« base dedistributions »)
est un échantillon de Np-uplets
de distributionsprovenant
de03A9F = 03A91F
x ... x03A9pF,
avecnt
l’ensemble des distributionspossibles
décrivant les individus de 03A9 pour lavariable j.
Les données peuvent être résumées par un tableau oùchaque
case(intersection
d’un individu i et d’unevariable j )
contient une distribution deprobabilités (voir Figure 1).
FIGURE 1
Tableau de données distributions
Pour
plus
declarté,
nous supposons par la suite que nous nedisposons
que d’unevariable
(le
tableau ne contientqu’une colonne).
Dans ce cas,Fi
est la distribution de l’individu i pour cette variable.Nous voulons
décomposer
la loi deprobabilités
des données(et
obtenir ainsiune classification en K
classes)
et modéliser lesdépendances qui
existent dans unevariable
(i. e.
unecolonne)
entre deux valeurs de distribution et entre les variables elles-mêmes. Nous obtenons donc :- une
partition
P =( Pl , ... , PK)
del’échantillon,
- les
proportions (pk)k=1,...,K,
lesparamètres
decopules
et de FDD(voir
ci-dessous) permettant
de decrire les classes de lapartition
P.2.2. Distributions de distributions
Pour travailler avec des données distributions de
probabilités,
nous introduisons la notion de « distributions de distributions »développée
par E.Diday (2001, [9])
dansle cas
empirique,
et nous lui donnons un contexteprobabiliste plus général (voir Vrac, 2002, [24]).
Soit Q une
population
d’individus w décrits par p variables continues dont le domaine est inclu dans R. SoientVj
l’ensemble des valeurspossibles
pour la variablej et V = V1 ... Vp.
L’ensembleVj
étant un sous-ensemblede R,
nous notons vj la03C3-algèbre
des boréliens surVj
et v = vi x ... x vp laor-algèbre produit
sur V. Soitl’ensemble
03A9F
=03A91F
x ... x03A9pF
avec03A9jF = {F: F
est une fonction derépartition
unidimensionnelle sur(Vj, cj)}.
Nous définissons la
03C3-algèbre Aj
sur03A9jF (j - 1,..., p)
par la03C3-algèbre engendrée
par les ensembles de la forme
AT IF
E03A9jF/ F(T) x}
pour tout x E[0,1]
etT E
Vj.
Nous notons,Nous définissons 4 la
03C3-algèbre
de sous-ensembles deOp
par la03C3-algèbre produit :
Nous
disposons
alors del’espace
mesurable(03A9F,A).
Dans notreétude,
nousdisposons
d’une variable aléatoireX, qui
à tout w de Q associe lep-uplet
de fonctions derépartition X(w)
=F,, - (F1w,
...,Fwp)
E03A9F :
avec M une
03C3-algèbre
de Ç2 et P une mesure deprobabilité
sur(03A9, M).
SoitJ == (F1,..., FN)
un échantillon de N réalisationsindépendantes
etidentiquement
distribuées de la variable aléatoire à valeurs dans
QF- L’ensemble J décrit
doncW =
(W1, ..., wN),
N individus de Q avecFi - (Fil,
...,FiP). Chaque Fil correspond
à la fonction de
répartition
de l’individu i pour lavariable j. L’ensemble J (appelé
« base de
distributions »)
est un échantillon de Np-uplets
de fonctions derépartition provenant
de0 F .
Pour
plus
declarté,
nous supposons que nous nedisposons
que d’une variable.Dans ce cas,
Fw = Fa
est la fonction de distribution de l’individu w pour cettevariable, V = V1
et03A9F = 03A91F.
Définition 1
(Fonction
de distributions dedistributions).
- Une«fonction
de distributions de distributions »
(FDD)
aupoint
T est lafonction définie
par :avec
Si cette fonction est modélisée de manière
empirique
àpartir de J,
la FDD est :Il est évident que x n’a un sens que s’il
appartient
à[0,1].
Pour x1, GT(x)
= 1et
pour x 0, GT(x) =
0. Parexemple,
dans laFigure 2,
dans le casempirique,
si x =
0.4, GTl (x)
est le pourcentage d’individus dont la distribution associée à la variable Yprend
une valeur inférieure à 0.4 aupoint Tl,
soitGTl (0.4)
=3/5
(3
individus sur5). L’équivalent
en dimension n de cette définition est nécessaire.FIGURE 2
Points de distributions pour 2 valeurs de T
Définition 2
(Fonction
de distributionsjointes
de ndistributions).
2013Une
« fonction
de distributionsjointes
de n distributions »(FDJD)
aupoint
T =(T1,
...,Tn)
est lafonction définie
par :avec
On peut montrer que
GT
est une distribution(voir Vrac, [24])
et queHT
estune fonction de
répartition jointe
de dimension n et demarginales GT1,
...,GTn .
2.3. Modéliser la
dépendance
entre FDD à l’aide descopules
Une
copule (Schweizer
etSklar, 1983, [17])
est une fonction mettant enrelation la fonction de
répartition
multidimensionnelle avec chacune des fonctions derépartitions marginales
d’unn-uplet
de variables aléatoires. Pourplus
declarté,
nous
rappelons
la définition des fonctionscopules (cf. [15])
ainsi que le théorème central de la théorie descopules,
le théorème de Sklar.Définition 3. - Une
copule
n-dimensionnelle(ou n-copule)
C estune fonction
de
[0, 1]n
dans[0,1]
avec lespropriétés :
1. Pour tout u de
[0, 1]n,
C(u) =
0 si au moins une coordonnée de u est0, (4)
et si toutes les coordonnées de u sont 1
sauf Uk
alorsC(u) =
Uk;(5)
2. Pour tout a et b de
[0, 1]n
tels que ab, Vc ([a, b]) 0,
avecet
est la
différence
d’ordre un de C pour la keme composante.Théorème 1
(Sklar, 1959, [21]).
- Soit H une distribution n-dimensionnelle demarginales
unidimensionnellesF1,
...,Fn.
Alors il existe unecopule
C telle que pour tout(Xl,
...,xn)
de Rn :Si
les fonctions
de distributionFi
sontcontinues,
de domaines notésDom (Fi),
C est
unique ;
sinon C estuniquement
déterminé surDom(F1)
x ... xDom(Fn).
Inversement si C est une
copule
etF1,..., Fn
desdistributions,
lafonction
Hdéfinie
par
(6)
est une distributionjointe
demarginales Fl ,
...,Fn.
La modélisation par
copules
desdépendances
est basée sur laproposition
suivante découlant du théorème de Sklar
([21]
et[15]).
Proposition
1([9], [23]).
- Soient H une FDJD etGT1,
...,GTn,
ses FDDmarginales
enTl,
...,Tn.
Alors il existe unecopule
C telle que V(x1,
...,xn) ~ Rn,
De
plus,
C estuniquement
déterminé surDom(GT1)
x ... xDom(GTn).
La
décomposition
demélange peut s’appliquer
du fait que H est une distributionjointe
et nous avonsavec ~k =
1,..., K,
0 Pk 1 et03A3Kk=1
pk =1,
oùHk(..., ak)
est une fonctionde
répartition
deparamètre
akappartenant à Rd (d
est le nombre de coordonnées deak)
et Pk est laprobabilité qu’un point
de l’échantillon suive la loiHk(..., 03B1k).
À partir
de laproposition précédente,
ladécomposition (8)
devient :avec
-
f3k,
leparamètre
de lacopule
de la classek,
-
GkT (., b),
la FDD aupoint Ti
de la classe k et deparamètre b,
-
b7,
leparamètre
de la FDD aupoint Ti
pour la classe k.Posons h =
~n H ~x1...~xn la
densitécorrespondant
à H ethk = ~n Hk ~x1...~xn la
densitécorrespondant
àHk.
Avec un calcul non donnéici,
nous pouvons montrer([24])
que la densitéhk
s’écrit :En travaillant sur les densités et non les
distributions,
àpartir
deséquations (1)
et(10), h(xi, ..., X n)
s’écritDans la
suite,
nousdisposons
de la base de distributionsJ= {F1,..., FN}
décri-vant les individus
{w1, ..., wN}
pour une variable(Le. Fi
est la distribution de cette variable pour l’individui).
Nous calculons pourchaque
individu i la valeur de sa dis- tribution enTl, ..., Tn.
Nous avons donc l’ensemble{(x11, ..., x1n), ..., (xN1, ..., xNn)}
avec xij
==Fi(Tj)
ethk(xj1, ..., xjn)
est notéehk(wj).
3.
L’algorithme
de classificationNous proposons ici une extension aux données distributions de la méthode de
décomposition
demélange
de lois par nuéesdynamiques (Diday, Ok, Schroeder, 1974, [8]). À chaque étape,
nous déterminons lesparamètres
decopules qui
décrivent aumieux les classes de la
partition
courante, au sens d’un critère dequalité
choisi. Pourcela,
nous fixons un modèle decopules,
soitnon-paramétrique
soitparamétrique.
Ilexiste de nombreuses familles de
copules paramétriques (appelées
familles decopules Archimédienne).
Nous n’utiliserons dans cette étudequ’une
famille : lacopule
deFrank
(définie
dans la section 3.1.2 en dimension2).
Parailleurs,
nous avons besoins d’un critèred’adéquation
entre unepartition (Pk)k=1,...,K
et un ensemble decopules (C{3k )k=l,...,K.
Le critère retenu est lalog-vraisemblance
classifiantemais d’autres mesures
d’adéquation peuvent
donner de bons résultats.Après
initia-lisation aléatoire d’une
partition P0 = (PO,..., PO ), l’algorithme
est défini en deuxétapes
successives et itératives :-
Étape
1. Estimation desparamètres
dumélange (melange copules), qui
maximisent le critère choisi
(i.e.
estimation de(pl,
...,pK), (b1i, ..., bKi)i=1,...,n
et
(03B21,
...,03B2K)),
-
Étape
2. Affectation des individus dans les nouvelles classes(Pk)k=l,...,K :
Pk {individus wi/pkhk(xi1,xi2,03B2k) pmhm(xi1,03B2m)~m},
avec k m en cas
d’égalité.
Si nous choisissons une
copule non-paramétrique,
cetalgorithme peut s’appli-
quer de la même manière
(voir
remarque, section3.2).
3.1. Estimation des
proportions
dumélange
et desparamètres
decopules
3.1.1. Les
proportions
dumélange
Les
proportions (pk)k=1,....K du mélange peuvent
s’estimer trèsclassiquement.
Comme dans
l’algorithme
de base des nuéesdynamiques,
nous utilisons l’estimation Pk =card(Pk) card(F). Cependant,
différentes variantes sontenvisageables (Celeux, Govaert,
1993, [3]).
3.1.2 Les
paramètres
decopules
L’estimation des
paramètres (3
decopules
se fait par maximisation delvc(P, (3),
c’est-à-dire de
Même en dimension
2,
ceséquations
sont assezcomplexes.
Parexemple,
lacopule
de Frank(cf. [15])
s’écrit :avec
/3
strictementpositif
et/3 1
et~u,v
E[0,1].
Elle a lespropriétés
suivantes(cf. [11]):
lim C03B2(u, v)
=min(u, v),
limC03B2(u, v) =
uv(correspondant
àl’indépendance)
Cette
copule
Archimédienne([15])
estengendrée
parl’application
Les
paramètres /3
nepeuvent
donc pas être déterminés par une formulationanalytique.
La résolution deséquations
delog-vraisemblance
classifiantepeut
parexemple
se faire par destechniques
d’estimationnumérique.
3.2. Modélisation et estimation des FDD
L’estimation des FDD se résume à l’estimation d’une fonction de distribution de
probabilités.
Lestechniques
de détermination sont donc très nombreuses. Dans cetarticle,
nous nous sommes intéressés à 3 variantes.La
première
variante est aussi laplus simple :
l’estimationempirique.
Cette
technique
a ledésavantage
de ne donner que certaines valeurs pourGT (x).
La deuxième est une modélisation suivant la loi béta. Celle-ci
correspond
à laloi de Dirichlet en dimension 1. La fonction de densité est
avec a > 0 et b > 0 les deux
paramètres
de la loi béta. Saparticularité
essentielle pour notre étude est d’aller de[0,1] dans [0,1].
Dansl’expression GT(x), x
doitimpérativement appartenir
à[0,1].
La FDD est obtenue parintégration
de la densité béta.La dernière est la méthode de Parzen
« tronquée ». À partir
d’un échantillon(X1, ... , X N )
de tailleN,
une estimation de la densitépeut
êtreavec CN tel
que f f
=1,
Ke est le noyau ou Kernel(généralement
une fonction de densité deprobabilités), h
est leparamètre
de forme(ou
delissage) également appelé
«
largeur
de la fenêtre »(window width)
par certains auteurs([20]).
Le noyau Ke choisi est la fonction de densité normale. Cette méthode nécessite tout de même l’estimation duparamètre
h mais celle-ci est réalisée de manièreautomatique
par la formule du hoptimal
au sens du MISE(Mean Integrated Square Error) h = 1.0603C3N-1/5
où 03C3 estl’écart-type
estimé de l’échantillon([20]).
Nous ne reviendrons pas ici sur le rôle de h. La FDD est obtenue parintégration
de.
Remarque. -
Une version totalementnon-parametrique
de la méthode existe([25], [24]).
Elle utilise la notion decopules empiriques
et de FDDempirique.
Cette méthode
peut
donner des résultats satisfaisantslorsqu’on
s’intéresseplus
à la classification
qu’à
unedescription
de lapartition
finale.Cependant
elle al’inconvénient de converger avec une lenteur rédhibitoire. Nous ne
developperons
pas
davantage
cette méthode dans cet article(cf. [24]
et[25]).
4. Classification de distributions multidimensionnelles
Différentes écritures d’une
copule
endimension n >
3existent,
pour une mêmecopule
multidimensionnelle. Elles ont toutes desavantages
et des inconvénients mais lepoint
commun est lacomplexité ([12]).
Pour ne pas accentuer la difficulté deséquations
àrésoudre,
nous proposons deux méthodes pour traiter deux distributions différentes en mêmetemps
et/ouplus
de deuxTi
à la fois.4.1.
Couplage
La
première
est latechnique
parcouplage.
Nousdisposons
d’un échantillon de N individus W =(W1, ..., WN)
décrit par deux variables distributionsyI
etY2.
Déterminons deux
décompositions
demélange
decopules :
l’une sur la variableY1
en
KI
classes(suivant
2 seuils de FDD :Tl
etT12),
l’autre sury2
enK2
classes(suivant
2 seuils de FDD :Tf
etT2 ).
Pour tout w de W et pourchaque
variable(Y’)i=1,2,
nousdisposons
donc de la valeur de la distributionjointe
avec
-
(w1, wi2)
= valeurs de la distribution de la variableYi
pour wrespectivement
en
Tf
etT2’ (i.e. w;
=P(Xij Tij),
oùXj
est la variable aléatoirereprésentant
l’individu W j pour la variable
Y’),
-
131 = paramètre
decopule
de la classe k pour la variableYi,
-
bkT = paramètre
associé à la FDD défini enTf
pour la classe k(dépend
de lamodélisation des
FDD),
-
GT2 (w’, bkT)
valeur de la FDD associée à la variableYi
aupoint Tij appliqué
à la valeur
wij.
Nous
disposons
maintenant d’uncouple
de valeurs de distributions(HY1, HY2 )
pour chacun des N individus de W. Posons que les valeurs
(Hyl (wi))i=1,...,N
et(Hy2 (w2))i=1,...,N
suiventrespectivement
les lois de distributionFI
etF2
que nous pouvons estimer.Supposons
que lecouple (Hyl, HY2)
soit de loijointe
H. Lesconditions du théorème de Sklar sont vérifiées : Il existe une
copule
C telle que~(x1,x2) ~ [0, 1]2,H(X1,X2)
=C(F1(x1),F2(x2)).Nous pouvons par conséquent appliquer
à nouveau unedécomposition
demélange
de lois de lois àpartir
des Ncouples
obtenus. Lesparamètres
decopules
déterminés lors desdecompositions
demélange
decopules
surY1
ety2
fournissent des informations sur lesdépendances présentes
à l’intérieur des variables(entre Tl
etT2
et entreTf
etT2 ).
Lesparamètres
de
copules
obtenues au finalpermettront
de caractériser lesdépendances qui
existentalors entre les distributions des deux variables
yI
etY2.
4.2. Arbre binaire
La seconde
technique
consiste en une méthode d’arbre binaire.À partir
de labase de distributions
complète (le
haut del’arbre),
nous déterminons la meilleurepartition
en deux classes(noeuds-fils), puis
la meilleurepartition
en deux classes des deux noeuds-fils et ainsi de suite(cf. Figure 3). À chaque étape,
pourchaque
noeud etpour
chaque variable,
nous déterminons les(Tl, T2) optimaux.
Le noeud N à couper est celui dont la variable de classification et les(Ti, T2)
associés maximisent le critère dequalité Q
de la division. Nous pouvons utiliserQ(N) = 03A3k LWEPk log h/3k (03C9).
La méthode par arbre binaire
présente
l’intérêt depouvoir
travailler avecdifférentes variables et de
pouvoir
choisir les seuils(Ti, T2) adaptés
àchaque étape
ainsi que les
copules appropriées
àchaque noeud,
commeprésenté
enFigure
3.Elle a neanmoins l’inconvénient d’être assez
longue.
Eneffet,
pourchaque
nouveau(T1,T2),
la méthode doit calculer tous lesF(Ti(03C9))
pour tous les individus W de l’ensemble associé. Deplus
unepartition
en deux classes est calculée pourchaque
noeud-fils. Par
ailleurs,
deux individus classésséparément
à uneétape
ne pourront pas être classés ensemble par la suite.FIGURE 3
Exemple
de la méthode par arbre binaire5.
Application
à une base de donnéesclimatiques
L’étude du climat est un axe
important
de la recherche mondiale.Que
ce soitdu
point
de vue de laprévision
dutemps
à court terme ou de celui de l’évolutiondynamique
du climat àlongue échéance,
lesstatistiques
etl’analyse
de donnéesjouent
un rôle essentiel(Davis
andWalker, 1992, [6],
Kalstein andal., 1993, [13]).
Par
exemple,
dansl’algorithme
d’inversion del’équation
de transfertradiatif, qui permet
entre autred’interpréter
des observations satellitaires en terme de variablesthermodynamiques atmosphériques (Chédin et al, 1985, [4], Achard, 1991, [1], Chevallier, 1998, [5]),
unepartition
de différentstypes
deprofils atmosphériques
est utilisée dans le but de déterminer une solution initiale
proche
de la solutionvers
laquelle l’algorithme
va converger. Lapartition
utilisée doit donc regrouper lesprofils ayant
despropriétés physiques proches
à l’intérieur d’une classe etbien distinctes entre les classes. La méthode
présentée
dans cet articlepermet
enplus
de connaître les lois deprobabilités
des variables et donc lesprobabilités
d’ occurence des
profils atmosphériques.
Nousdisposons
de donnéesatmosphériques provenant
du centreEuropéen
ECMWF(European
Center for Medium range WeatherForecasting)
deReading (U.K.).
Unmaillage
duglobe
terrestre estréalisé, chaque
maille
correspondant
à undegré
de latitude et undegré
delongitude.
Cemaillage
est étendu en altitude sur 50 niveaux
appelés
« coordonnéessigma »,
relatives à lapression
au sol. Pour unelongitude
et une latitudedonnées,
l’ensemble des valeurs enaltitude est
appelé « profil »
vertical. Pourchaque point
dumaillage
del’atmosphère (une longitude,
unelatitude,
unealtitude),
nousdisposons
des valeurs de lapression,
de la
température,
del’humidité,
du vent,... Ces valeurs sont celles desprévisions
(«forecast»)
à six heures d’intervalle et ceci 4 fois parjour (Oh, 6h, 12h, 18h,
temps
universel)
sur unepériode
allant de décembre 1998 à décembre 1999. Nouspossédons
parconséquent
un«quadrillage»
tridimensionnel del’atmosphère
de laterre,
représentant
un an de son étatthermodynamique complet
4 fois parjour.
Noussouhaitons
appliquer
ladécomposition
demélange
decopules
sur les données detempérature
et/ou d’humidité desprofils atmosphériques
du 15 décembre 1998 à Oh.À partir
de cesdonnées,
nous obtenons alors une classification desprofils,
ainsi que l’estimation de la loi deprobabilité (marginales
etjointes)
des variables utilisées.Les données étant fournies sous la forme de valeurs
numériques,
une estimationdes fonctions de distribution de
probabilité
de latempérature
et de l’humidité est tout d’abord réalisée pour chacun desprofils.
L’estimation est faite ensupposant
que les donnéesnumériques
d’unprofil atmosphérique
sont d’une même loi deprobabilité.
Ces données sont «mises àplat»
sur la droite réelle et la distribution deprobabilité
est estimée enappliquant
la méthode des noyaux de Parzen.Chaque
individu
«profil atmosphérique» (situé
àchaque
intersectionlongitude
xlatitude)
est caractérisé par deux
distributions,
l’une detempérature,
l’autre d’ humidité. Deux valeurs detempérature Tl
etT2
et deux valeurs d’humiditéHl
etH2
ont étéfixées par une connaissance a
priori
pour l’estimation des FDD(GTi (x))i=1,2
et(GHi(X»i=1,2-
Les valeurs choisies sontTl - 225K, T2 -
265K(K
=degrés Kelvin)
etHl - 0.00003Kg/Kg, H2
=0.006Kg/Kg (KglKg - Kg
de vapeur d’eau parKg d’air).
Le nombre deprofils
étant élevé(360 longitudes
x 180 latitudes= 64800
profils),
nous ne prenonsqu’une longitude
sur deux et une latitude surdeux,
soient(360/2) longitudes
x(180/2)
latitudes = 16200profils.
5.1. Résultats
Nous classons tout d’abord les
profils
detempérature
en 7 classes àpartir
de lacopule
de Frank et avec une FDD modélisée suivant une loi béta deparamètres
vl et z/2. Nousdisposons
d’un tableau d’une colonne et 16200lignes. À partir
des 16200distributions, l’algorithme
converge en 2 itérations vers la classificationreprésentée
en
Figure
4 oùchaque
carré enpointillés représente
une étendue de 30° delongitude
et 30° de latitude.
Chaque pixel
estgrossi
artificiellement de manière à obtenir un effet visuel continu. Lesparamètres
decopules
et de FDD sont donnés dans le Tableau 1.TABLEAU 1
Paramètres de la
classification
en 7 classes entempérature
7 classes en
temperature
parDMC,
15/12/98 OHFIGURE 4
Classification
en 7 classes par DMC sur latempérature (Tl ==
225K, T2 -
265K)
pour le 15 décembre 1998 à OHLes classes de la
partition
semblent cohérentes etposséder
despropriétés climatiques
distinctes et réalistes. Onpeut
retrouver parexemple
unegrande
classedite
«tropicale» (classe 4),
deux classes«polaires» correspondant
à l’été dansl’hémisphère
sud et l’hiver dansl’hémisphère
nord(classes
1 et7),
deux classe«tempérées» (classes
2 et5).
La classe 3 fait le lien entre les zonestempérées
etles zones
tropicales
tandis que la classe 6 fait le lien entre les zonestempérées
et les zones
polaires.
Deplus,
les classes1,
4 et 5 ont desparamètres
decopules identiques (0.000001)
cequi signifie
que leurcopule
estproche
de lacopule
min.Autrement
dit,
les distributions à l’intérieur de chacune des classes ont tendance à évoluerparallèlement
sans se couper.Par
ailleurs,
unecomparaison
intéressantepeut
être faite avec le tracé de latempérature
moyenne entre 500 et 700 hPa(lhPa
=Imillibar), présentée
enFigure
5.Nous voyons que les classes de transitions entre les classes
tempérées
ettropicales
de laFigure
4correspondent
bien à des zones de transition de latempérature
500-700 hPa de la
Figure
5. Les« langues » (incursions
d’air chaud dans des massesd’air
plus
froid ouinversement)
sont bien identifiées. Ledisque
situé à 60degrés
Nx 60
degrés
E(classe 7)
sur laFigure 4, s’explique parfaitement
par la carte de laFigure
5 etcorrespond
à unedépression.
L’accord avecl’analyse synoptique
de lasituation est très bon
(formes
desincursions, position
desdépressions
creuses,etc.).
Un autre manière de décrire les classes est de
regarder
la fonction de densité deprobabilité
pour la variabletempérature
à différents niveaux depression
del’atmosphère.
Cesdensités,
tracées par la méthode des noyaux deParzen,
donnent des15/12 OH
Temperature
moyenne(700-500 hPa)
FIGURE 5
Température
moyenne entre 500 et 700 hPa pour le 15 décembre 1998 à OHinformations sur la
répartition
destempératures
danschaque
classe et donc sur leurdiscrimination. Nous voyons par
exemple
sur lesFigures
7 et 8(correspondant
auxniveaux 900 hPa- et 500 hPa
respectivement)
que les classes sont bien discriminées(l’association
classes-densités est donnée enFigure 6).
FIGURE 6
Association 7 classes - densités
température
Densités de la var
0.5(T46+T47) -
900hPa,
7 classes enTemp
parcopules
FIGURE 7
Densités de la
température (Kelvin)
par classe à 900 hPaDensités de la var T37 - 500
hPa,
7 classes enTemp
parcopules
FIGURE 8
Densités de la
température (Kelvin)
par classe à 500 hPaNous retrouvons
également
que les classes 1 et 7 sont les deux classes froides de la classification et que la classe 4 est laplus
chaude de toutes. Nous voyonsparfaitement
les différences entre les classes dites de transition(ou
classesplus tempérées). D’après
la classification de laFigure 4,
nous pouvons trier ces classes partempérature
moyennecroissante,
de laplus proche
des classespolaires (1
et7)
àla
plus proche
de la classetropicale (classe 4) :
classe6,
classe2,
classe5,
classe 3.Cet ordre est totalement vérifié par le calcul des densités.
Cependant, plus
nous montons en altitude(i. e. plus
lapression diminue),
moinsles classes se discriminent entre-elles : les densités
empiètent davantage
les unes surles autres. C’est en
particulier
le cas au-dessus de latropopause (niveau
de recroissance de latempérature),
parexemple
à 70 hPa(voir Figure 9).
La classe4, tropicale,
restetrès
distincte,
et, cettefois,
devient laplus froide,
comme attendu.Densités de la var
0.5(T22+T23) -
70hPa,
7 classes enTemp
parcopules
FIGURE 9
Densités de la
température (Kelvin)
par classe à 70 hPaUne classification similaire en
sept
classes a été lancée sur les 16200 distribu- tions de la variable humidité. Lesparamètres
obtenues se trouvent dans le tableau 2et la classification
représentée
sur laFigure
10.Le résultat visuel est moins
organisé
que pour latempérature.
Cet effet étaitprévisible
du fait de laplus grande
variabilité de l’humidité.Cette
partition peut
être décrite par référence à laquantité
totale de vapeur d’eauintégrée
verticalement parprofil
et donné par laFigure
11.7 classes en humidite par
DMC,
15/12/98 OHFIGURE 10
Classification
en 7 classes par DMC sur l’humidité(Hl
= 0.00003kg/kg, H2 =
0.006kg/kg)
pour le 15 décembre 1998 à OHTABLEAU 2
Paramètres de la
classification
en 7 classes en humiditéLes
points
communs entre la carte de laFigure
10 et celle de laFigure
11 sontmultiples.
Les bras d’incursions d’air humide sontprécisément
définis et laplupart
des formes sont retrouvées avec une
précision
étonnante. Onpeut
remarquer que la classetropicale précédente
est scindée en deux classes(3
et4).
La classe 4correspond
aux zones les
plus
humides de lafigure
11. Deplus,
toute la frontière entre la classe 3 et une masse d’air moins humide(classe 2)
est bordée par la classe 5qui correspond
àFIGURE 11
Total Column Water
Vapor (Quantité
totale de vapeur d’eauintégrée,
Kg/m2)
pour le 15 décembre 1998 à 0 Hdes incursions d’air humide dans un milieu
plus
sec. Parailleurs,
la méthode semble avoir identifié deux classes différentes de très faible humidité(classes
1 et7).
On
peut
voir quemalgré
des valeurs d’humidité du mêmeordre,
ces deux classes ont desparamètres
decopules
différents(0.2
et0.018)
traduisant uncomportement
différent de leurs distributions. On voitégalement
une«spirale»
située à(60° N,
60°E) qui correspond parfaitement
à ladépression
centrée sur cette zone(cette particularité
se retrouve sur la classification entempérature
sous la forme d’undisque
rouge : classe
7).
Le tracé des densités de
chaque
classe à différents niveaux depression (altitude)
nous donne
également
des informations sur la manière dont les classes se discriminent.Nous voyons dans la
Figure 13, correspondant
aux densités à 900hPa,
que la classe1,
avec son « aile » de
densité, plus
humidecorrespond
à des situationsplus fréquentes
que la classe
7,
très sèche et associée à des situations detype
« hiverpolaire ».
Deplus,
cettefigure
montre que la discrimination est très nette pour les niveaux bas del’atmosphère.
Pour les niveaux
plus élevés,
l’humidité diminue extrêmementrapidement,
conduisant les densité à se superposer
progressivement,
diminuant ainsi leurpouvoir
discriminant.
Cependant,
nous retrouvonsparfaitement
ce que lacomparaison
avecla
quantité
totale de vapeur d’eau nous laissait penser :- les classes 1 et 7 ont les densités dont le mode
statistique
est leplus
faible(i.e.
ce sont les classes les
plus sèches),
- la classe 4 est la classe la
plus
humide avec une densitéayant
unpic
vers 0.015kg/kg,
- les classes
tempérées
et de transition peuvent s’ordonner de laplus
sèche à laplus
humide : classe3,
classe5,
classe2,
classe 6.FIGURE 12
Association classes - densités humidité
Densites de la var
0.5(H46+H47) -
900hPa,
7 classes en Hum parcopules
FIGURE 13
Densités de l’humidité
spécifique (kglkg)
par classe à 900 hPaLes classifications obtenues par
décomposition
demélange
decopules (DMC)
sur la variable
température, puis
sur la variablehumidité,
sont très bonnes auregard
dela connaissance a
priori
dont nousdisposons
et de la cohérencephysique
des classes.Qu’en
est-il d’une classificationcouplant
les deux variables?À partir
des deux classificationsprécédentes
entempérature
et enhumidité,
nousappliquons
la méthode decouplage
afin d’obtenir unepartition qui
tiennecompte
des deux variablesphysiques.
La modélisation est faite parcopules
de Frank et par lois béta. La classification estprojetée Figure
14 et sesparamètres
sont donnés dans le Tableau 3.7 classes en
temperature
et humidité parcouplage DMC,
15/12/98 OHFIGURE 14
Classification
en 7 classes parcouplage
de DMC sur latempérature
et l’humidité pour le 15 décembre 1998 à OH TABLEAU 3
Paramètres de la