R EVUE DE STATISTIQUE APPLIQUÉE
A NESTIS A NTONIADIS
J ACQUES B ERRUYER
A LAIN F ILHOL
Estimation semi-paramétrique dans les familles doublement poissonniennes et application aux spectres de diffraction
Revue de statistique appliquée, tome 47, n
o3 (1999), p. 57-80
<http://www.numdam.org/item?id=RSA_1999__47_3_57_0>
© Société française de statistique, 1999, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ESTIMATION SEMI-PARAMÉTRIQUE DANS LES
FAMILLES
DOUBLEMENT POISSONNIENNES ET APPLICATION
AUX SPECTRES DE DIFFRACTION
Anestis
Antoniadis*, Jacques Berruyer~,
AlainFilhol~
* Université
Joseph
Fourier, LMC-IMAG, BP 53, 38041 Grenoble cedex 09, Francet
Université Jean Monet, UFR des Sciences, 23, rue du Dr. Paul Michelon, 42100 St-Etienne Cedex, France.t Institut Laue Langevin, BP 156, 38042 Grenoble cedex 9, France
RÉSUMÉ
Cet article fait la
synthèse
et étend lesméthodologies statistiques
utiles àl’analyse
etl’étude des
diagrammes
de diffraction depoudre
encristallographie.
Ce type designal
est laréalisation d’un processus de Poisson dont l’intensité est la somme d’une fonction lisse (bruit
de fond) et d’un ensemble de fonctions
paramétriques (pics
de diffraction) dont il faut estimer lesparamètres.
Ceci est réalisé en modélisant les observations par un modèle derégression poissonnien
non linéaire. En nousinspirant
de la théorie des lois doublementexponentielles, développée
par Efron [ 10], on introduit unparamètre supplémentaire
permettant de contrôler la varianceindépendamment
de la moyenne. Enfin, le bruit de fond étant lisse, il est modélisé de manière nonparamétrique
par une combinaison deB-splines.
Afin deséparer
au mieux lespics
du bruit de fond et de réduire l’influence de l’estimation de ce dernier sur l’estimation desparamètres
despics,
les coefficients de cette combinaison sontpénalisés
de manièreoptimale
par des
techniques
de validation croisée.Mots-clés : Familles doublement
poissonniennes,
Modèlesgénéralisés, Surdispersion,
Sous-dispersion, B-splines,
Validation croisée,Spectres
dediffraction.
ABSTRACT
This paper
synthetically
presents and extends the statistical methods available foranalysing
andstudying powder
diffraction spectra inCrystallography. Signals
of this form canbe considered as a
sample
from a Poisson process theintensity
of which can be modelled as asum of a smooth component (the
background signal)
and a collection ofparametric
functions (the diffractionpeaks)
with unknown parameters. To estimate thebackground
and thepeak
parameters, a nonlinear Poissonregression
is carried out. Whenanalysing
such data, a habitualsource of concern is the presence
of overdispersion.
Doubleexponential
families,developed by
Efron [ 10], allow the introduction of an extra parameter that controls variance
independently
of the mean. The
background signal being
smooth, we propose to estimate it with aB-spline
smoother. To better separate the
peaks
from thebackground
and in order to minimize the effects of thesmoothing procedure
on thepeaks’s
parameter estimates, a différencepenalty
onadjacent B-spline
coefficients isincorporated
into apenalised
version of Fisherscoring algorithm
andthe
penalty
isoptimally regulated by
cross-validation.Keywords :
Double Poissonfamilies,
Generalized models,overdispersion, underdispersion, B-splines,
cross-validation,Diffraction
spectra.1. Introduction et motivation
Cet article fait la
synthèse
et étend lesméthodologies statistiques
utiles àl’analyse
et l’étude desdiagrammes
de diffraction depoudre
encristallographie.
Cetype
dediagrammes, classiquement enregistrés
à l’aide de rayons X ou de neutrons, est très couramment utilisé pour la caractérisation d’échantillons purs oucomposites,
pour l’étude de transition de
phases
ou pour la détermination de la structure decomposés
àpetites
molécules[3].
Un
diagramme
de diffraction depoudre
est un ensemble de npoints mesurés, (ti, Ni),
i =1,...,
n,où ti désigne
unangle
de diffraction(ou angle
deBragg)
etNi
est le résultat d’uncomptage
departicules
élémentaires(photons
ouneutrons)
diffractées à cetangle.
L’ensemble descomptages
observés estsupposé
être laréalisation d’un modèle de
régression poissonnienne
avec, pour variableexplicative, l’angle
de diffraction.L’aspect général
d’undiagramme
de diffraction depoudre
estdécrit par une
ligne
de base de formequelconque
mais assez lisse(bruit
defond) auquel
sontsuperposés
despics
de diffraction d’intensités et de formes variables. Le bruit de fond est engénéral composé
d’une somme designaux
dûs à desphénomènes physiques
autres que la diffraction(rayonnement d’ambiance,
diffusiondiffuse, etc...).
Ce bruit de fond
généralement
assezhomogène peut
néanmoinsprésenter
de faiblesoscillations
(désordre partiel,
fluctuations auvoisinage
d’unetransition,...).
Par contre, lespics
sont trèslocalisés,
etpeuvent
être leplus
souventreprésentés
par des fonctionsparamétriques.
Ilspeuvent
être bienséparés
ou très nombreux avec un fort taux de recouvrement, de formes similaires ou très différentes(mélange
decomposés,
sousréseaux
cristallographiques
de naturesdifférentes, etc...).
Dans la
majorité
des cas l’information utile aucristallographe
estportée
par lespics.
Leurspositions
et intensités sont directement liées à la structureatomique
dumatériau tandis que leur
largeur dépend,
pourl’essentiel,
decaractéristiques
instru-mentales et de
caractéristiques macroscopiques
de l’échantillon(forme, mosaïque,...).
En l’absence
d’hypothèse,
d’unepart,
sur la structure du matériau échantillon res-ponsable
de la diffraction(pics)
et, d’autrepart,
sur l’influence deparamètres
instru-mentaux
(bruit
defond),
on faitappel
à un modèlepurement descriptif
ne nécessitant de connaissance apriori,
ni sur l’échantillondiffracté,
ni sur l’instrument de mesure.Dans ce cas le
signal
estsupposé
être la somme d’une fonction lisse et d’un ensemble de fonctionsparamétriques (pics
dediffraction)
dont il faut estimer lesparamètres
leplus
efficacementpossible.
Pour
l’analyse
inférentielle de données de diffraction il est naturel de considérerun modèle de
régression poissonnien,
étendant dans un cadre non linéaire les modèles linéairesgénéralisés,
introduits par Nelder et Wedderbum[14]
pourl’analyse
dedonnées issues d’une famille
exponentielle.
Pour cetype
demodèles,
linéaires ou non,la variance est une fonction de la moyenne, ce
qui
enpratique
restreint considérable- ment lechamp d’application.
Eneffet,
le processusd’acquisition
et lepré-traitement
des mesures
(chaîne
decomptage,
calibration demultidétecteurs)
dénature l’aléapoissonnien
du flux departicules.
En nousinspirant
de la théorie des lois double- mentexponentielles, développée
par Efron[10],
nous nous proposons d’introduireun
paramètre supplémentaire permettant
de contrôler la varianceindépendamment
de la moyenne. Ce
type
de famillesexponentielles
courbées que nousappellerons familles
doublementpoissonniennes permettra
uneanalyse statistiquement
correctedes données de
diffraction,
tenantcompte
dephénomènes
de sur ousous-dispersion
par
rapport
à la loi de Poisson.Pour tenir
compte
d’un bruit de fondlisse,
mais de formecomplexe,
ce derniersera modélisé par une combinaison de
B-splines.
Afin deséparer
au mieux le bruitde fond des
pics
et de réduire l’influence de son estimation sur celle desparamètres
des
pics,
les coefficients de cette combinaison serontpénalisés
de manièreoptimale.
Nous
rappelons
brièvement dans leparagraphe 2,
les définitions et les résultats des modèles derégression poissonnienne
nonlinéaires,
dérivés de résultatsplus
clas-siques
sur les modèles linéairesgénéralisés.
Dans leparagraphe
3 nousprésentons
lesfamilles doublement
poissonniennes
et nousprécisons
lespropriétés
des estimateurs du maximum de vraisemblance desparamètres
ainsi quel’algorithme
de résolutionnumérique associé, lorsque
le bruit de fond estsupposé
être de formeparamétrique
donnée. Le
paragraphe
4 est consacré à une modélisationsemi-paramétrique
dusignal
à estimer à l’aide d’une
paramétrisation
detype B-spline
du bruit de fond. Les per- formances des estimateurs sont étudiées dans leparagraphe
5 à l’aide de simulations et uneanalyse
de données réelles conclut cet article.2. Modèles de
régression
non linéairepoissonnienne
Dans ce
paragraphe
nousrappelons
brièvement les notionsimportantes
sur lesmodèles
généralisés
non linéairesqui
nous seront utiles par la suite. Pourplus
dedétails le lecteur pourra se
reporter
auchapitre
V de[3]
ou à l’article[4].
Pour ces modèles de
régression,
laréponse Y (t)
est issue d’une loiappartenant
àune structure
exponentielle
dont leparamètre
naturel 0152 est une fonctionparamétrique
du
régresseur
t, notéef ( (), t).
Plusprécisément,
la loi deprobabilité régissant
lesobservations est un élément de la famille
exponentielle
de lois deprobabilité
sur Rdéfinie par
avec M un ouvert d’intérieur non vide de
R,
où cl ==
/(0, t), 0
E RP etGo
est une mesure dominantede 9,
y est lastatistique canonique et 03C8
est la fonction cumulante(voir
parexemple
Bamdorff-Nielsen[5]).
Sous des conditions
classiques
derégularité,
il est souvent commode deparamétrer
une famille
exponentielle
par sa moyenneplutôt
que par sonparamètre
naturel.Ainsi,
par
exemple,
dans le cas des donnéesrégies
par une loipoissonnienne paramétrée
parsa moyenne on a :
avec J-l =
exp(a) = 1/;( a). Lorsque f ((), t)
est une fonction linéaire en(),
on retrouveen
particulier
les modèles linéairesgénéralisés
avec pour fonction delien,
la fonction de liencanonique.
Dans le cascontraire,
le familleexponentielle correspondante
estune famille courbe au sens de Efron
(voir
parexemple [3]).
Plus
généralement,
on notera par la suiteg03B1,n(y)
etgJ-t,n(Y)
les fonctions définies parEstimation du maximum de vraisemblance dans
les familles poissonniennes
Soit
Vi,..., Yn
une suite de variables aléatoiresindépendantes
de loisayant
pour densitésrespectives g~i(03B2),1
où~(03B2)
est une fonction donnée de RP à valeurs dansRn, supposée
satisfaire auxhypothèses
habituelles de la moyenne d’unerégression
non linéaire. Les
composantes
r]i(0) (i
=1,..., n)
du vecteurrl(,C3), qu’on
noteraaussi rii, sont les
paramètres
de la loi de Poisson associée àYi.
La fonction
log
de vraisemblance,C (,C3)
associée à une réalisation y1,...,Yn de la suiteVi,..., Yn
est doncégale
à :La recherche des estimateurs du maximum des vraisemblance passe par le calcul du vecteur des scores
U(03B2) = ’9f-
Un calculsimple
donne :où
Notons
également
que :où [yi ~i -
1 est le vecteur n-dimensionnel decomposantes (yi ~i - 1 ) .
Les estimateurs du maximum de vraisemblance annulent le vecteur des scores.
Le
système
à résoudre étant nonlinéaire,
onapplique,
pour la recherche desestimateurs,
la méthode des scores de Rao[15].
Il faut pour cela calculer la matrice d’information selon Fisher associée à la fonction de vraisemblance. Cette dernière n’est autre que la matrice de variance-covariance du vecteur des scores. Pour cela il faut d’abord calculer l’information associée auparamètre
yy. Il est facile de voir que cette dernière est une matricediagonale
d’ordre n :où
Diag[03BEi] désigne
une matricediagonale avec 03BEi
pour élémentsdiagonaux.
Nous pouvons maintenant définir
l’algorithme
itératif detype
descente pour obtenir des estimations du maximum de vraisemblance desparamètres
inconnus.L’étape
r del’algorithme
des scores sera :où
est la matrice d’information
théorique
associée au modèle.On trouve pour M
l’expression
suivante :3. Familles doublement
poissonniennes
Comme nous l’avons
déjà souligné,
lesprocédures d’acquisition
des données de diffraction dénaturent souvent le caractèrepoissonnien
des observations en altérant ladispersion
des données. Eneffet,
l’utilisation des multidétecteursstatiques (chaque
y2 est mesuré par une cellule différente du
détecteur)
à laplace
d’un détecteurunique
mobile mesurant les yi de manièreséquentielle
introduit unehétérogénéité
des
réponses
des différentes cellules du détecteur. Pour en tenircompte
un coefficientmultiplicatif
ai estappliqué
aux mesuresbrutes yi
altérant le caractèrepoissonnien
desobservations. La théorie des lois doublement
exponentielles
nouspermet
d’introduireun
paramètre supplémentaire
pour contrôler la varianceindépendamment
de lamoyenne. Ce
type
de famillesexponentielles courbées,
que nousappellerons
famillesdoublement
poissonniennes,
nouspermettra
uneanalyse statistiquement
correcte desdonnées de
diffraction,
tenantcompte
dephénomènes
de sur ousous-dispersion
parrapport
à la loi de Poisson.Les familles des lois doublement
exponentielles
furent introduites pour lapremière
fois par Diaconis et Efron[9]
pour l’étude des testsd’indépendance
dux2
dans les tables decontingence.
Elles sontdéfinies,
comme pour le cas des famillesexponentielles classiques,
par la donnée de leur densité parrapport
à une mesure dominanteGo, c’est-à-dire,
par :où
0 (p, ’Y)
est une constante de normalisation et 9 J-L, 1 est la fonction définie au début duparagraphe
2. Onpeut s’apercevoir
que pour ’Yfixé,
et à condition dechanger
demesure
dominante,
la famille des densitésprécédentes, paramétrées
par 03BC, est unefamille de lois
exponentielles
au sensclassique.
En effet on a :avec
et
Par contre
lorsque
l’ontraite 03B3
commeparamètre variable,
cette famille n’estplus
une famille
exponentielle.
Un calcul
simple
montre que la densité parrapport
à la mesureproduit dG’~n03B3
d’un échantillon de taille n issu d’une loi doublement
exponentielle peut
s’écrire sous la forme :où y
désigne
la moyenneempirique
de l’échantillon et0,, (p, 03B3)
est la constantenormalisante.
Remarquons
que pour y = 1 on trouve comme densité0,, (M, 1 )gJ-L,n (y)
et donc
0,,, (p, 1 )
= 1.Une méthode d’estimation de la constante de normalisation
CPn (M, ’Y)
estdéveloppée
dans l’article de Diaconis et Efron[9].
Elle est fondée sur lareprésentation
de
Hoffding
d’une familleexponentielle
et sur desapproximations
detype
tildaclassiques
pourdéveloppement d’Edgeworth
dans le cadre des famillesexponentielles (voir
Barndorff-Nielsen et Cox[6],
p.181).
Le lecteur intéressé pourra sereporter
à Efron[10].
Citonssimplement
le résultat :Dans le cas
particulier
où la familleexponentielle
dedépart
est une loi dePoisson de
paramètre
y, on a :où
Go
est la mesure dénombrement avec une masse1/y!
en y entier.Puisque,
t == ny =
non
suit une loi de Poisson deparamètre
nJ-L, on obtient :avec
On
peut
donc définir la famille de lois doublementexponentielles associée,
quenous
appellerons
famille de lois doublementpoissonniennes.
Pourcela,
comme dansle cas
général
on pose :avec
c(03BC,
03B3,n) = On (P, 03B3)/03B3.
Commel’asymptotique
n = 1 et M ---+ 00équivaut approximativement,
dans le caspoissonnien,
à fixer la valeurde m
et faire tendre nvers
l’infini,
on noteraplus généralement
la constante de normalisatione(J-L,
03B3,n)
par
c(03BC, 03B3).
En utilisantl’approximation
tildadéveloppée
dans le cadregénéral
desfamilles doublement
exponentielles
on trouve que cette constante de normalisatione(J-t, 03B3)
est telle que :quand
J-L tend vers l’infini. Uneapproximation
cappplus précise
de la constantee(J-L, -Y)
dans le cas
poissonnien
est donnée par Efron dans[10] :
La
qualité
de cetteapproximation
est discutée dans Aitkin[2]
et Seeber[ 17] .
Pourapprécier
laqualité
de cetteapproximation
nous avons calculé la valeur dee(J-L, 03B3)
pour diverses valeurs de 03BC et de 03B3. Les résultats sontreportés
dans le tableau ci-dessous.TABLEAU 0
Rapport c(,cc, ’Y) /capp(03BC, ’Y)
des constantes de normalisation et de leur
approximation
pour la
famille
doublementpoissonnienne.
Les résultats
précédents
nouspermettent,
pour des valeursde 03BC
assezgrandes (plus grandes
que2)
et pour n = 1 deremplacer
la densité doublementpoissonnienne
n (Y)
par la «densité»approximative f03BC,03B3(y)
définie par :On utilisera cette densité
approximative
pour les calculs.Paramètre de sur ou
sous-dispersion
Soit Y une variable aléatoire de loi doublement
poissonnienne,
dont nousapprocherons
la densité par la fonctionfi,, 0 (y)
donnée par :Effectuons,
dansl’expression précédente l’approximation
deStirling
On trouve
La formule de
Stirling
dans le cas continudonne comme
approximation
defp"e(Y)
la densitéD’après
Abrahamovitz etStegun [ 1 ],
une variable aléatoire de densitéadmet pour
espérance 03B803BC
et pour variance() J-L.
On en déduit donc lapropriété
suivante :Proposition.
Si X est une variable aléatoire de densité g03BC,03B8 alors la loi de la variable aléatoire Y ==X/03B8
est, pour 03BC tendant versl’infini, approximativement
une loidoublement
poissonnienne
et on aE(Y) =
M etvar(Y) = y/0.
La
proposition précédente permet
doncd’interpréter
leparamètre 03B8
comme unparamètre
de sous ousur-dispersion
parrapport
à une loi de Poisson deparamètre
J-L.La densité
f03BC,03B8(y)
de la loi de Y parrapport
à la mesure dénombrement n’est pas la densité d’une loiexponentielle dispersée
au sens deJorgensen [13].
En effetil est montré par cet auteur
qu’une
famille de loisexponentielles dispersées
nepeut,
lorsqu’elle
estdiscrète,
être dominée par une mesure dominante commune, i. e. dont lesupport
estindépendant
desparamètres.
4. Estimation du maximum de vraisemblance dans les familles doublement Poissonniennes
Soit
Vs,..., Yn
une suite de variables aléatoiresindépendantes
de loisayant
pour densitésrespectives f .({3) , .
où~(03B2)
est une fonction donnée de Rp à valeurs dansRn, supposée
satisfaire auxhypothèses
derégularité
habituelles sur la moyenne dans le cadre d’unerégression
non linéaire([3]).
Lesparamètres À
> 0 et pi sont desparamètres
dedispersion
de nature différente : 03BB est unparamètre
dedispersion général,
alors que les pi sont des constantes dedispersion
connues, introduites lors du processusd’acquisition
des mesures par des transformations d’échelle sur les données.La fonction
log
de vraisemblance(03B2, A)
associée à une réalisation y1,...,yn de la suiteVi,..., Yn
est doncégale,
à une constanteprès
nedépendant
quedes y2
et des pi, à :
La recherche des estimateurs du maximum de vraisemblance passe par le calcul du vecteur des scores
Un calcul
simple
donne :où
Notons
également
queLes estimateurs du maximum de vraisemblance annulent le vecteur des scores.
Le
système
à résoudre étant nonlinéaire,
nous nous proposonsd’appliquer,
pour la recherche desestimateurs,
la méthode des scores de Rao. Il faut pour cela calculer la matrice d’information selon Fisher associée à la fonction de vraisemblance. Cette dernière n’est autre que la matrice de variance-covariance du vecteur des scores. Oncalculera d’abord l’information
partielle
associée auparamètre
17. Il est facile de voir que cette dernière est une matricediagonale
d’ordre n :Nous pouvons maintenant définir
l’algorithme
itératif detype
descente pour obtenir des estimations du maximum de vraisemblance desparamètres
inconnus.L’étape
rde
l’algorithme
des scores sera :où
et
Lr désigne
la fonctionLog
de vraisemblance calculée en(03B2r, 03BBr).
On trouve pour
M l’expression
suivante :Dans le calcul
précédent,
nous avonspris
pour M la matrice d’informationthéorique
associée au modèle. Le fait que la matrice d’information est
diagonale
par blocentraîne que les estimateurs du maximum de vraisemblance des
paramètres 03BB
etsont asymptotiquement indépendants.
Comme dans le cas de la
régression
non linéaire sur des structures exponen-tielles,
deux autres choix sontpossibles
pour M. Lepremier
consiste àprendre
lamatrice d’information
observée,
mais cette dernière n’étant pas une matricediagonale
par bloc cela entraînerait des calculs
trop
lourds pour que cette méthode ait un intérêtpratique.
Le deuxième consiste à linéariser la matrice d’information observée pour obtenir une matrice M’bloc-diagonale
constituée de deuxblocs,
l’un d’ordre n et l’autre d’ordre 1 . Plusprécisément :
Cette dernière est en
général
semi-définiepositive
alors que la matrice d’infor- mationthéorique
esttoujours
définiepositive;
c’est la raisonprincipale
pourlaquelle
nous retenons pour la suite la matrice
M, l’algorithme d’optimisation
associé étant la méthode des scores de Rao[15].
Remarquons
d’abord que le vecteur des npremières composantes
du vecteur des scoresU(03B2, A) correspondant
augradient
de la fonction de vraisemblance relativement à(3
est, au facteurmultiplicatif À près, égal
au vecteur des scoresd’une structure doublement
poissonnienne
pourlaquelle
leparamètre
de sur ou sous-dispersion A
vaut 1. Plusprécisément,
on a :Remarquons
ensuite que le bloc[M]p
d’ordre p de la matrice M estégalement proportionnel,
au facteurmultiplicatif
Après,
à la matrice d’information du modèlesans facteur
À,
i. e. :Comme cette matrice intervient par son inverse dans
l’algorithme
itératif de mise àjour
de l’estimateur de/3,
on voit aisément que l’estimateurde /3
obtenu par la méthode des scores estindépendant
de la valeur de À. L’estimation du maximum de vraisemblance de(3
est doncidentique
à celle que l’on aurait obtenue ensupposant
que le facteur À = 1. Si0 désigne
cetteestimation,
obtenue à la convergence de la méthode dedescente,
la dernièrecomposante
du vecteur des scores conduit à l’estimation :où
est la déviance du modèle doublement
poissonnien
sans facteur de sur ou sous-dispersion.
La matrice M’
présentant
une structure similaire à celle deM, l’algorithme précédent s’adapte facilement,
mais il faudraitgarantir
que M’ reste définiepositive
lors des
itérations,
cequi
estautomatique
pour M.Enfin,
lasimplicité
del’algorithme justifie,
encore unefois,
le choix d’une matrice d’informationthéorique plutôt
qued’une matrice d’information observée.
Résultats
asymptotiques
etadéquation
-Sous les
hypothèses
habituelles derégularité
dans les modèles derégression
non linéaire pour les familles
exponentielles (voir [3]),
les estimateurs du maximum devraisemblance /3 et À
sont fortement consistants etstochastiquement indépendants.
De
plus /3
suitasymptotiquement
une loigaussienne
de moyenne3
et de matrice de variance-covariance l’inverse du blocsupérieur
d’ordre n de la matrice d’informationthéorique. Enfin,
la variable aléatoire :suit
asymptotiquement
une loi dux2
à n - pdegrés
de liberté.Au vu de ce dernier
résultat,
pour estimer par maximum de vraisemblance leparamètre 1/Â,
nousprendrons
l’estimateur1/A.
L’estimateur ainsi obtenu a, du moinsasymptotiquement,
uneespérance égale
à(n-p)/(n)
et onpréférera
utilisercomme estimateur de
1/A
lastatistique :
asymptotiquement
non biaisée et de varianceasymptotique
donnée par :5. Modèle
semi-paramétrique
Dans
l’ajustement
despectres
de diffraction depoudre,
les données sont desréalisations yi
d’une suite de variables aléatoiresindépendantes
doublementpoissonniennes
dont leparamètre
est de la forme :où
2022
B(t)
est une fonction del’angle
dediffraction, supposée
lisse et modélisant lebruit de
fond;
2022 les fonctions
fk
sont des fonctionsparamétriques
modélisant les ppics
dediffraction. Le nombre de
pics
p est engénéral
connu. Pourl’exemple
que nousavons traité et pour les simulations illustrant notre
méthode,
lespics
seront desdensités
gaussiennes, paramétrées
soit par leur moyenne(03BC)
et leurécart-type (03C3),
soit par leur moyenne et leur
largeur
à mi-hauteur(L
=203C32log(2))
comme lefont habituellement les
cristallographes.
Dans
[4]
le bruit de fondB (t)
est modélisé par unpolynôme
dedegré
inférieurou
égal
à 2.Lorsque
cetteapproximation polynomiale
du bruit de fond estraisonnable,
un
ajustement
correct dupolynôme permet
d’obtenir des estimations desparamètres
des
pics pratiquement
non biaisées. Il arrivepourtant qu’une
étudeexploratoire
desdonnées de diffraction montre que les modèles de ce
type
sontinadaptés
car le bruitde
fond,
bien quelisse,
nepeut
être modéliséglobalement
par unpolynôme
de faibledegré.
Il semble donc raisonnable dans ce cas de traiter le bruit de fond de manière nonparamétrique. L’objet
de ceparagraphe
est de proposer une modélisation du bruit de fond par des combinaisons deB-splines.
Lelissage proposé dépend
d’unparamètre
de
lissage
dont la détermination devrait êtreautomatique (fonction
desobservations).
Nous nous proposons d’abord de
rappeler
brièvementquelques propriétés
desB-splines.
Pourplus
de détails le lecteur pourra sereporter
aux articles[19], [7]
ou[8].
D’une manière informelle et
descriptive,
une fonctionB-spline
dedegré donné q
surR est une fonction
polynomiale
par morceauxcomposée
desegments polynomiaux
dedegré
qadjacents
et soumis à certaines contraintes. Parexemple,
la fonctionB-spline
de
degré
1représentée
dans lafigure
1 estcomposée
de deuxsegments
linéaires :un
segment
det1
= 0.25 àt2 = 0.5,
l’autre det2
àt3
= 0.75. Les noeuds de cetteB-spline
sont lespoints tl, t2
ett3.
Agauche
det1
et à droite det3,
cette fonction estidentiquement
nulle.FIGURE 1
Une
fonction B-spline
dedegré
1composée
de deux segments linéaires :un segment de 0.25 à 0.5 et l’autre de 0.5 à 0.75.
Les n0153uds de cette
B-spline
sont0.25,
0.5 et 0.75.Cet
exemple
illustre lespropriétés générales
desB-splines
dedegré q :
e ce sont des fonctions
polynomiales
par morceaux,composées
de(q+ 1) polynômes
de
degré
q ;2022 ces
polynômes
se raccordent en q noeudsintérieurs;
2022 en
chaque
noeudintérieur,
les dérivéesjusqu’à l’ordre q -
1 sontcontinues;
le
support
d’uneB-spline
est restreint à un intervalle délimité par q + 2 noeuds.Une
B-spline
estpositive
sur sonsupport.
2022 Tout
polynôme d’ordre q
s’écrit comme combinaison linéaire finie deB-splines
d’ordre q.
Cette dernière
propriété explique
lespropriétés d’approximation
de fonctionslisses par des bases de
B-spline.
Dans
l’ouvrage [8]
De Boor définit unalgorithme
pour calculer de manière récurrente uneB-spline
dedegré quelconque
àpartir
deB-splines
dedegré
inférieuret ceci pour un
placement
arbitraire des noeuds. Si les noeuds sontéquirépartis
cetalgorithme
sesimplifie
considérablement et nous utiliserons cette version dans la suite.Lorsque
le bruit de fondB(t)
est modélisé par une combinaison linéaire deB-splines,
l’intensité dusignal
de diffraction doublementpoissonnien
s’écritoù m est le nombre de noeuds et
Bj
sont les fonctionsB-splines cubiques
de baseassociées à l’ensemble des noeuds. Avec les notations du
paragraphe 4,
le vecteurn-dimensionnel 11 modélisant
l’espérance
du vecteur des observations s’écritoù
Bnm
est la matrice d’ordre n x m dont l’élément(i, j )
est donné parBj(ti)
etoù
03B3(03B8)
est le vecteur n-dimensionnelreprésentant l’échantillonnage
en lespoints ti
de lapartie
dusignal
associée auxpics. Lorsque
le nombre m de noeuds retenusest relativement
grand,
lesignal ajusté présentera
de fortes variations(faible
biaismais
grande variance).
Afin de réduire cettevariance,
comme il estclassique
enrégression
nonparamétrique,
on introduira unepénalisation
surl’ajustement
du bruitde fond par maximum de vraisemblance. La fonction de
pénalisation
que nous nous proposons d’utiliser estinspirée
des travaux de Eilers[11] et
de Eilers et Marx[12]
sur les
problèmes
derégression
nonparamétrique
des moindres carrés parP-splines.
Le
paramètre 03BB
de sur ousous-dispersion
n’étantqu’un paramètre
fantôme pour l’estimation dusignal,
et afind’alléger
lesnotations,
nous n’aborderons ici que lecas de À = 1. Nous maximiserons donc la fonction
log
de vraisemblancepénalisée
suivante :
où 0394 est
l’opérateur
de différence défini par(0394u)k
= uk-uk-1 et0394203B2j
=(0394039403B2)j.
Cette
pénalisation
sur le carré de la différence d’ordre 2 entre deux coefficients B-spline contigus
est étroitement liée à lapénalisation plus classique
surl’intégrale
ducarré de la dérivée seconde du
signal
enrégression
parsplines
naturelles(voir [18]).
Avec ces notations on obtient :
En notant
D2
lareprésentation
matricielle del’opérateur 03942
et endésignant
paru(03BC(03B2, 9))
le vecteurscore ~£/~03BC
decomposantes (yi/03BCi - 1),
on a finalement :Notons que la matrice
D2
est la matrice d’ordre m - 2 x m, àbande,
donnée par :D’autre
part,
on a :où
X(O)
=OP/00.
Pour les matrices des dérivées
secondes,
enposant
on trouve :
L’algorithme
des scores desparagraphes précédents devient,
avecI(03BC) = E(Jn(03BC))
=Diag(1/03BCi):
où
L’algorithme précédent
détermine lesparamètres
d’affinement pour une valeur fixée duparamètre
delissage
a. Une valeur de aégale
à 0 conduit à ne pas lisser le bruit de fond et par suite à confondre alors lespics
et le bruit de fond. Par contre, unegrande
valeur de 03B1 conduit àl’ajustement
du bruit de fond par unpolynôme
du seconddegré
et réalise l’affinement obtenulorsque
le bruit de fond est introduit de manièreparamétrique.
Le choix duparamètre
delissage
estimportant
et on cherchera unevaleur
optimale
réalisant le meilleurcompromis
pour bien estimer simultanément lespics
et le bruit de fond. Pour déterminer cette valeuroptimale,
on a souvent recoursau critère de validation croisée
(voir [18]).
Ils’agit
d’un critère du choix dudegré
de
régularité
fondé sur lacapacité prédictive
du modèleajusté.
Dans notre cas, en utilisant comme mesure dequalité
deprédiction
ladéviance,
cela revient à minimiser parrapport
à a laquantité :
où
i
est la valeur estimée de Mi pour la valeur courante duparamètre
03B1 etAir
est lei-ème terme
diagonal
de la matrice delissage
associée à la même valeur duparamètre qui
est donnée par :L’algorithme
de validation croisée défini ci-dessus est bienadapté lorsque
l’intensité du processus
poissonnien
observé ne contient pas depic. Lorsque
despics
sontprésents,
des simulations ont montré(voir
parexemple
lafigure 2)
quel’ajustement global
dusignal
est correct mais ne lisse pas suffisamment le bruit de fond entraînant ainsi un biaisimportant
sur l’intensité despics.
FIGURE 2
A
gauche
on observe l’intensité(courbe
en traitplein)
ayant servi à
générer
les donnéesreprésentées
par despoints
ainsi que le bruit de
fond
tracé enpointillé (polynôme
du seconddegré).
A droite l’intensité
globale
estimée par validation croisée(03B1
= 4·10-10)
est raisonnable alors que l’estimation du bruit de
fond,
et par suite, celle des
pics est fortement
biaisée.Le mauvais
comportement
del’algorithme
de validation croisée est dû au fait que ce dernier traite l’intensité M defaçon
entièrement nonparamétrique
réalisantainsi un
ajustement global
correct sans tenircompte
de la structure dusignal (bruit
de fond
auquel
sontsuperposés
despics).
Pour résoudre ceproblème,
supposons momentanément que les fonctionsparamétriques
modélisant lespics
sont connues.Dans ce cas, le bruit de fond s’écrit :
et on
peut
associer aux observations lespseudo-observations zi
== yi -f(03B8, ti)
oùf ( (), ti)
est la contribution despics
ausignal.
La matrice d’information del’algorithme
des scores avec
lissage
s’écrit :L’algorithme
de validation croisée associé àl’algorithme
des scores aveclissage
consisterait à choisir ce minimisant
Nous utiliserons cet
algorithme
enremplaçant
dansl’expression
despseudo-
observations zi le vecteur 03B8 des
paramètres
inconnus par son estimation0 obtenue
à la dernière itération del’algorithme
des scores. Lesexemples
simulés et lesapplications développées
dans leparagraphe
suivant montrent que ce critère est raisonnable. Dans le contexte del’exemple
illustré par lafigure
2 on aboutit à l’affinement de lafigure
3.FIGURE 3
L’intensité estimée
(courbe
enpointillé)
ainsi que l’estimation du bruit de
fond (courbe
enpointillé)
et par suite celle despics
sont obtenues par validation croiséemodifiée (03B1
= 8.10-4).
La courbe en trait
plein représente
le bruit defond
ayant servi à la simulation.6.
Exemples
simulés etapplications
Afin de valider
empiriquement
la méthode d’estimationdéveloppée
au cours desparagraphes précédents
nous avons considéré une forme despectres
que l’on retrouvefréquemment
dans les modélisations desdiagrammes
de diffraction depoudre.
Plusprécisément
les intensités considérées dans l’étudeempirique qui
suit sont :Ces deux fonctions
ayant
servi aux simulations sontreprésentées
sur lafigure
4.
FIGURE 4
Les deux spectres
f 1 (à gauche)
etf2 (à droite)
ayant servi aux simulations.Pour chacune de ces fonctions nous avons simulé 100 fois un processus de
comptage
d’intensité moyenne lespectre
enquestion
discrétisée sur 150points.
Leprocessus de
comptage
à été simulé soit selon une loi dePoisson,
soit selon uneloi doublement
exponentielle
avec unparamètre
dedispersion égal
à 2 ou à 0.5.Pour chacun des
diagrammes
simulés de cettemanière,
lesparamètres
de l’intensité moyenne et leparamètre
dedispersion
ont été estimés par la méthode des scores desparagraphes précédents.
Pourchaque
modèle ceci donne donc une sérieempirique
de 100 valeurs estimées pour
chaque paramètre.
Les calculs ont été réalisés avec le programme ABFfit[4].
Pour ne pas alourdir laprésentation
nous nereportons
ici queFIGURE 5
L’intensité estimée
(courbe
enpointillé)
ainsi que l’estimation du bruit de
fond (courbe
enpointillé)
et par suite celle despics
sont obtenues par validation croiséemodifiée (03B1
= 8·10-4).
La courbe en trait
plein représente
le bruit defond
ayant servi à la simulation.les résultats des
paramètres
estimés pour le secondpic
de la fonctionfl,
ce dernierétant le
plus
délicat à estimer carpartiellement
recouvert par les autrespics.
La
comparaison (cf.
Tableau1)
entre SSAS et SSAA montre que laprise
encompte
duparamètre
dedispersion
dans l’affinement n’affecte pas laqualité
desestimateurs des autres
paramètres.
On observe aussi que la variabilité des estimations d’unparamètre
est du même ordre degrandeur
que l’estimation moyenne de sonécart-type.
Par contre, SAAS montre que ce n’estplus
le caslorsque
le modèlesimulé
comporte
unparamètre
dedispersion
que l’onn’ajuste
pas. Enfin pourSAAA,
l’introduction dansl’ajustement
duparamètre
dedispersion permet
de retrouverun bon accord entre
l’écart-type
estimé desparamètres
et leur variabilité dans les simulations.Pour
quantifier
l’influence duparamètre
dedispersion
et valider la méthode d’estimation de cedernier,
les donnés ont été simulées avec lesdispersions 2,
1 et 0.5. Les résultats sontreportés
dans le tableau 2. On constate les bonnesqualités
dela méthode d’estimation.
Enfin pour illustrer le
comportement
del’algorithme
delissage
du bruit parB-splines
et l’influence éventuelle de celissage
sur lesparamètres
despics
nousavons
procédé
à 100 simulations d’un modèlepossédant
une intensitéégale
àf2.
Le modèle
ajusté
de manièresemi-paramétrique
avec la méthode d’estimation duparagraphe
5 conduit aux résultats du tableau 3. On constate, comme onl’espérait,
que les estimations des
pics
sontpratiquement
sans biais.TABLEAU 1
Résultats des estimations des
paramètres
du secondpic
dela fonction f l.
Signification
des acronymes : SSAS = Simulation Sansdispersion
et
Ajustement
Sans tenir compte d’unedispersion,
SSAA = Simulation Sans
dispersion
etAjustement
Avec une éventuelledispersion,
SAAS = Simulation Avec
dispersion (0.5)
et
Ajustement
Sansdispersion
etenfin
SAAA = Simulation Avecdispersion (0.5)
et
Ajustement
Avec une éventuelledispersion.
Pourchaque paramètre
et pour
chaque
modèle on retrouve la moyenne duparamètre
estimésur les 100 simulations
(avec
entreparenthèses
sonécart-type empirique)
ainsi que la variance estimée du
paramètre (et
sonécart-type)
par la méthode des scores.
TABLEAU 2
Valeurs et variances estimées du
paramètre
dedispersion
sur 100 simulations pour des données similaires à celles du tableau 1.TABLEAU 3
Résultats des simulations pour un modèle
ajusté
de manière