• Aucun résultat trouvé

Modélisation non-paramétrique

= 0.

Remarque 3.11. La droite de régression x7→axˆ + ˆb permet d'estimer le lien ane entre X etY. On l'utilise dans le but d'expliquer Y en fonction deX ou de prévoir des valeurs futures de Y à partir des valeurs de X correspondantes.

3.3 Modélisation non-paramétrique

Pour aller plus loin dans l'analyse bivariée, on peut rechercher la meilleure approximation deY par une fonction deX, sans se limiter aux fonctions anes. Rappelons la dénition suivante.

Dénition 3.12. SoitY une variable aléatoire réelle intégrable, l'espérance conditionnelle deY sachant X, notéeE(Y|X), est une variable aléatoire fonction deX qui vérie

∀g continue bornée,E Y g(X)

=E E(Y|X)g(X) .

On rappelle que que l'espérance conditionnelle existe et est unique presque sûrement. Toute fonctionφ vériantE(Y|X)ps(X), appelée fonction de regression, est par conséquent uniqueµX-presque partout.

Théorème 3.13. SiY est de carré intégrable, alors φ minimise φ7→E Y −φ(X)2 parmi les fonctions φmesurables.

Remarque 3.14. Dans le cas où E(Y2) < ∞, l'espérance conditionnelle E(Y|X) s'interprète comme la projection orthogonale de Y sur le sous-espace vectoriel des variables aléatoires de carré intégrable mesurables par rapport à la tribu engendrée parX.

L'espérance conditionnelle vérie les propriétés suivantes.

• E

Preuve. Montrons que la fonction φ dénie dans le théorème vérie, pour toute fonction g continue bornée,E Y g(X)

par le théorème de Fubini.

Lorsque les variables sont à densités, l'espérance conditionnelle φ(x) = E(Y|X = x) est simplement l'espérance deY sous la densité conditionnelle deY sachantX =x, donnée par la formule de Bayes

fY|X(y, x) = fXY(x, y) fX(x) .

Il existe de nombreuses méthodes pour estimer la fonction de régressionφdans le modèle d'échantillonage.

Une des plus couramment utilisée est la méthode de Nadaraya-Watson, qui est basée sur une estimation à noyaux. SoitK un noyau, on dénit l'estimateur

φ(x) =ˆ 1

oùh > 0est la fenêtre à calibrer. L'idée de l'estimateur de Nadaraya-Watson est d'estimer l'espérance deY sachant X =xpar une moyenne des Yi, pondérée en fonction de la proximité des Xi avecx. En

est un poids qui mesure la proximité entreXi etx, renormalisé pour avoir Pn

i=1Wi(x) = 1.

Comme pour l'estimation à noyaux d'une densité, on peut montrer sous des conditions de régularités de fXY qu'en prenanth = hn tel que limn→∞hn = 0 et limn→∞nhn = +∞, alors φ(x)ˆ converge en probabilité versφ(x). En eet, on sait dans un premier temps que sous ces conditions surhn, le théorème 2.14 entraîne

En utilisant la propriété E Y g(X)

= E φ(X)g(X)

, on obtient également sous des conditions de régularité surfXY ce qui permet de montrer la convergence de l'estimateur de Nadaraya-Watson.

4 Tests

En statistique, choisir un modèle revient à xer des conditions sur la loi des observations. Lorsque l'on souhaite vérier si ces conditions sont raisonnables, on peut utiliser un test statistique. Formellement, un test est une variable aléatoire construite à partir des observations qui prend la valeur1 si on rejette l'hypothèse, ou0 si on ne rejette pas l'hypothèse. La décision de rejeter ou non l'hypothèse est toujours sensible à l'aléa des observations, ce qui nous oblige à xer à l'avance une marge d'erreurαqui correspond à la probabilité de rejeter l'hypothèse alors qu'elle est vraie. Pour tester une hypothèseH0, on construit une variable aléatoire dont la loi est connue si H0 est vraie. Si la valeur observée de cette variable est

"aberrante" par rapport à sa loi sousH0, on décidera de rejeter l'hypothèse.

4.1 Dénitions générales

On observe un échantillon iid X1, ..., Xn de loi µ dont on veut tester une ou plusieurs propriétés (par exemple, tester si µ est une loi normale, µ est centrée etc...). De manière générale, on s'intéresse à tester une hypothèse de la forme H0 : µ ∈ M0 pour M0 un certain sous-ensemble du modèle initial M. L'hypothèseH0 est appelée hypothèse nulle. L'ensemble des possibilités si H0 n'est pas vériée est l'hypothèse alternative, notéeH1. On a doncH1:µ∈ M1=M \ M0.

Dénition 4.1. Un test de niveauαd'une hypothèseH0 est une statistiqueΦα(X1, ..., Xn)qui suit une loi de Bernoulli de paramètre αsous l'hypothèseH0.

Il est indispensable que la variable aléatoire Φα soit une fonction connue des observations, c'est-à-dire que l'on peut observer une réalisation de Φα. C'est précisément la valeur observée de Φα qui va nous permettre de juger de la crédibilité de l'hypothèseH0. En pratique, on dispose d'un continuum de tests Φα, α∈]0,1[pour lequel les événements{Φα= 1}sont croissants.

Dénition 4.2. On appelle p-valuedu test le plus petit niveau α pour lequel on rejette H0 au vu de la réalisation deΦα:

p-value = inf{α >0 : Φα(x1, ..., xn) = 1}.

On rejettera donc l'hypothèse H0 si et seulement si la p-value est supérieure au niveau du test. L'écart entre la p-value etαquantie la marge avec laquelle on accepte H0 dans le cas où elle est plus grande queαet la marge avec laquelle on rejetteH0dans le cas contraire.

Exemple: Test sur une moyenne dans un modèle Gaussien. On veut tester l'hypothèsem=m0 dans le modèle Gaussien où les observationsX1, ..., Xn sont de loiN(m,1). On sait que, siH0est vraie

T=√

n mˆ −m0

∼ N(0,1).

Supposons dans un premier temps quempeut prendre toutes les valeurs réelles, l'hypothèse alternative peut donc s'écrire H1 :m 6=m0. Une valeur raisonnable de T (càd conforme à l'hypothèse H0) sera proche de zéro, le cas contraire conduira à penser quem6=m0. Une procédure naturelle de test consiste donc à rejeterH0si|T|est trop grand. Le seuil est ensuite calculé en fonction du niveau xé, de manière à avoir une probabilité de rejeter à tort égale àα. On construit donc le test bilatéral:

Φα=1{|T|> q1−α

2}=1n ˆ

m−q1−α

2

n ≤m0≤mˆ +q1−α

2

n o.

On rejette plus facilementH0lorsque le niveauαest élevé. En faisant décroîtreα, le seuil à partir duquel on ne rejette plus l'hypothèse nulle nous donne la p-value du test. On obtient facilement ici

p-value = 2 1−F(|T|) ,

oùF est la fonction de répartition d'uneN(0,1). Supposons maintenant quemne peut pas prendre de valeur inférieure à m0. L'hypothèse alternative s'écrit alorsH1:m>m0. Les valeurs deT conformes à l'hypothèse nulle sont les valeurs petites. En particulier une valeur négative deT nous conduira à penser quem=m0 puisquem<m0 n'est pas possible. On décide donc de rejeterH0 siT est grand. Le seuil donnant un niveau deαestq1−α, qui correspond au test unilatéral:

Φα=1{T > q1−α}.

La p-value vaut ici1−F(T).

Dénition 4.3. La puissance du test, notée 1−β(.), est la probabilité de rejeter H0 sous une loi ν vériant l'hypothèse alternative

1−β(ν) =Eν Φα(X1, ..., Xn)

, ν ∈ M1.

La puissance est une fonction de la loiν, dénie sur l'ensembleM1. La quantitéβ(ν)est la probabilité de ne pas rejeterH0si l'échantillonX1, ..., Xn est issu de la loiν. On dira qu'un test est convergent si la puissance tend vers1 quandn→ ∞, pour toutν ∈ M1.

Il y a deux types d'erreurs possibles lors d'un test statistique:

• Rejeter H0 alors qu'elle est vraie constitue l'erreur de première espèce, de probabilité égale au niveau αdu test. Elle est xée à l'avance par le statisticien.

• Ne pas rejeter H0 lorsque l'échantillon est issu d'une loiν ∈ M1 constitue l'erreur de deuxième espèce, de probabilitéβ(ν). Un test sera d'autant meilleur (plus puissant) que l'erreur de deuxième espèce est faible, à un niveauαxé, pour les diérentes valeur de ν ∈ M1. La construction d'un test puissant dépend donc fortement de l'hypothèse alternativeH1.

Documents relatifs