• Aucun résultat trouvé

2.3 Vraisemblance empirique

2.3.1 Définitions et propriétés

Après avoir décrit les tests bien connus de Student et de WMW, nous présentons notre test de Vraisemblance Empirique sur une Moyenne Empirique (VEME) comme une alter- native aux approches paramétriques et non paramétriques. Cette partie de notre travail a été publiée dans [Harlé et al., 2015]. La vraisemblance empirique a été initialement propo- sée par Owen dans [Owen, 1988]. Elle repose sur la fonction de vraisemblance empirique, construite entièrement sur les données, et s’affranchit donc d’une description paramétrique. Les données sont alors modélisées selon une loi multinomiale dont le nombre de paramètres

correspond à la taille de l’échantillon. Cette approche est qualifiée selon les auteurs denon-

paramétrique ou semi-paramétrique, la dimension des paramètres étant asymptotiquement

infinie. L’ouvrage de référence [Owen, 2010] y est consacré : cette modélisation permet de construire efficacement des tests et des intervalles de confiance. Elle s’adapte aux données, même déformées, biaisées ou incomplètes, ce qui en fait une méthode flexible. Il est de plus aisé d’introduire des contraintes spécifiques à un problème ou des informations connues a priori. On la rencontre souvent en économétrie [Kitamura, 2006], et plus récemment dans le domaine du traitement du signal [Harari-Kermadec et Pascal, 2008, Pascal et al., 2010]. La vraisemblance empirique repose sur un modèle qui généralise la notion de fonction de répartition (FdR) empirique. La FdR empirique est un estimateur de la FdR qui, pour un échantillon X = (X1, . . . ,Xn), est défini par

Fn(x) = 1 n n X i=1 1Xi6x, (2.19)

où 1Aest la fonction qui vaut 1 lorsque la condition A est vérifiée et 0 sinon. Cet estimateur équivaut à placer une masse de probabilité n1 en chaque Xi. La vraisemblance empirique est définie comme la probabilité d’obtenir exactement les X1, . . . ,Xn pour une FdR des variables F donnée : L(F ) = n Y i=1 (F (Xi) − F (Xi−)), (2.20)

où F (xi−) = Pr (X < xi) lorsque X est distribuée selon F . Cette vraisemblance est non nulle à condition de placer une masse de probabilité en chaque Xi, ces masses n’étant pas nécessairement équiprobables. En notant, pour 1 ≤ i ≤ n,

pi = F (Xi) − F (Xi−),

la masse de probabilité en Xi, L(F ) se réexprime comme

L(F ) = n

Y

i=1

pi, (2.21)

ce qui correspond à modéliser les variables par une loi multinomiale dont le nombre de paramètres est le nombre de variables X1, . . . ,Xn. Pour 1 ≤ i ≤ n, les masses de probabilité pi en chaque Xi sont supposées strictement positives, afin que la vraisemblance L soit non nulle, mais non nécessairement équiprobables. Cette fonction de vraisemblance L est maximisée lorsque les masses sont équiprobables, c’est-à-dire pour Fn. En effet si F 6= Fn, alors L(F ) < L(Fn) [Owen, 2010, Théorème. 2.1, p. 18].

En s’inspirant du rapport de vraisemblance paramétrique usuel, comme ceux présentés dans le chapitre 1, Owen introduit le rapport de vraisemblance empirique pour des fonctions

F et Fn données : R(F ) = L(F ) L(Fn) = n Y i=1 npi. (2.22)

La normalisation par la vraisemblance L(Fn), obtenue à partir de la loi empirique, permet de calibrer le rapport quand la taille de l’échantillon n devient grande, tandis que la vrai- semblance L(F ) tend vers 0. Une statistique de test pour un paramètre d’intérêt donné, basée sur ce rapport, peut alors être construite.

L’étude de l’échantillon X peut se faire à travers l’estimation des masses de probabilité

pi, associées aux Xi. Les poids recherchés sont ceux qui maximisent le rapport (2.22) sous des contraintes sur la distribution. Selon l’analyse à effectuer sur les données, par exemple l’estimation d’une région de confiance sur un paramètre, des contraintes sont en effet ajoutées lors de la résolution du problème de maximisation. Pour construire notre test d’homogénéité, le paramètre d’intérêt est la moyenne µ. Tester une valeur possible µ de cette moyenne revient à se restreindre aux poids tels que Pn

i=1piXi = µ, ce qui se traduit par une contrainte linéaire sur ces paramètres de poids. Les contraintes linéaires usuelles sur les masses d’une distribution (positivité et sommation à un des pi) sont également ajoutées. Ceci conduit à considérer la fonction de profil de vraisemblance empirique suivante, pour une moyenne µ donnée :

R(µ) = max p ( n Y i=1 npi n X i=1 piXi = µ, pi > 0, n X i=1 pi = 1 ) , (2.23)

où p est le vecteur des poids. Comme cette fonction de profil est définie pour une valeur de la moyenne µ donnée, la solution où les poids sont équiprobables (pi = n1, pour tout 1 ≤ i ≤ n) et qui permet de maximiser le rapport de vraisemblance (2.22) en vérifiant les conditions pi > 0 et Pni=1pi = 1, mais ne respecte pas la contrainte Pni=1piXi = µ si µ n’est pas égale à la moyenne empirique. Owen a également établi le rapport pour d’autres paramètres comme la variance ou la corrélation [Owen, 1990].

Le théorème suivant, démontré dans [Owen, 1988] dans le cas univarié, puis dans [Owen, 2010] pour le cas général, est une version non paramétrique du théorème de Wilks 1.1.1 :

Théorème 2.3.1 (Vraisemblance empirique univariée). Soient X1, . . . , Xn des variables aléatoires indépendantes et de même distribution. Soit µ0 l’espérance de ces variables, et on

suppose que leur variance est finie et non nulle. Alors −2 ln(R(µ0))converge en distribution

quand n → ∞ vers la loi du χ2 à un degré de liberté, notée χ2 (1).

Ce résultat clef permet notamment de définir des intervalles de confiance (asympto- tiques) pour le paramètre d’intérêt µ, comme avec le rapport de vraisemblances paramé- trique, sous la forme

C = {µ|R(µ) ≥ r0}. (2.24)

Il permet aussi de formuler des tests d’hypothèses et de déterminer la loi asymptotique pour notre statistique de test. Une correction de Bartlett [DiCiccio et al., 1991] peut être appliquée sur la fonction −2 ln(R(µ)) pour différents paramètres dont la moyenne. Ainsi l’erreur de recouvrement de la statistique, de l’ordre de O(n−1), est réduite à O(n−2).

La figure 2.2 illustre la façon dont les contours de la fonction de profil s’adaptent aux données. Cet exemple reprend la figure 1 de l’article [Owen, 1990], sur des données prove- nant de [Marx et Larsen, 2006] sur l’étude de 11 canards mâles issus d’un croisement entre

deux espèces. Les observations sont bidimensionnelles : deux indices mesurent la proximité de deux traits de caractères avec ceux typiques des espèces croisées. Les caractéristiques étudiées sont le plumage et le comportement d’un canard. On vérifie bien la nature de la vraisemblance empirique guidée par les données, en observant la déformation des contours en fonction des positions des observations dans le plan des indices de plumage et de com- portement, notamment vers les mesures les plus éloignées.

4

6

8

10

12

14

16

plumage

2

4

6

8

10

12

14

16

comportement

Figure 2.2 – Contour de la fonction de profil de vraisemblance empirique R(µ) pour l’estimation du paramètreµ sur des données de plumage et de comportement de 11 canards mâles. Ces derniers

sont issus d’un croisement entre des canards colverts (indices de plumage 0 et de comportement 0) et des canards pilets (indices de plumage 20 et de comportement 15). Comme il y a deux observations en (14,11), ce point est représenté par un marqueur plus gros que les autres. Les

contours sont obtenus pour les niveaux de confiance 50%, 90%, 95% et 99%, dans l’ordre du contour interne (bleu foncé) au contour externe (marron).