Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

(1)

Tests non paramétriques de spécification pour

densité conditionnelle : application à des modèles de

choix discret

Mémoire

Koami Dzigbodi AMEGBLE

Maîtrise en économique Maître ès arts (M.A.)

Québec, Canada

(2)

(3)

Résumé

Dans ce travail, nous étudions la performance statistique (taille et puissance) en échantillon fini de deux tests non paramétriques de spécification pour densité conditionnelle proposés par Fan et al.

(2006) etLi et Racine(2013). Ces tests permettent de vérifier si les probabilités conditionnelles pos-tulées dans les modèles de choix discret (logit/probit multinomial à effets fixes ou aléatoires, esti-mateur deKlein et Spady(1993), etc) représentent correctement les choix observés. Par rapport aux tests existants, cette approche a l’avantage d’offrir une forme fonctionnelle flexible alternative au mo-dèle paramétrique lorsque ce dernier se révèle mal spécifié. Ce momo-dèle alternatif est directement issu de la procédure de test et il correspond au modèle non contraint obtenu par des produits de noyaux continus et discrets. Les deux tests explorés ont une puissance en échantillon fini supérieure aux tests existants. Cette performance accrue s’obtient en combinant une procédure bootstrap et l’utilisation de paramètres de lissage des fonctions noyaux par validation croisée par les moindres carrés. Dans notre application, nous parallélisons les calculs de taille et de puissance, ainsi que l’estimation des fenêtres de lissage, sur un serveur multi-processeurs (Colosse, de Calcul Québec). Nous utilisons des routines "Open MPI" pré-implémentées dans R. Par rapport aux simulations effectuées dans les articles ori-ginaux, nous postulons des modèles plus proches de ceux habituellement utilisés dans la recherche appliquée (logit et probit à variance unitaire notamment). Les résultats des simulations confirment les bonnes taille et puissance des tests en échantillon fini. Par contre, les gains additionnels de puissance de la statistique lissée proposée parLi et Racine(2013) se révèlent négligeables dans nos simulations. ——————————

Mots clés : Bootstrap, choix discret, densité conditionnelle, Monte Carlo, produit de noyaux, puis-sance, taille.

(4)

(5)

Table des matières

Résumé iii

Table des matières v

Liste des tableaux vii

Avant-propos ix

Introduction 1

1 Revue de littérature 3

1.1 Tests de spécification pour densités conditionnelles sans noyaux continus et discrets 3

1.2 Tests de spécification pour les densités conditionnelles avec noyaux continus et

discrets . . . 5

2 Méthodologie d’estimation 11

2.1 Démarche méthodologique . . . 11

2.2 Processus de génération des données sous les hypothèses nulle et alternative . . . 12

2.3 Estimation paramétrique de la densité conditionnelle . . . 13

2.4 Estimation non paramétrique . . . 16

2.5 Simulations . . . 18

3 Application 21

3.1 Calcul de la taille et la puissance des tests sur R . . . 21

3.2 Résultats et interprétation . . . 22

Conclusion 29

A Annexes 31

A.1 Lemme et théorèmes utilisés . . . 31

(6)

(7)

Liste des tableaux

3.1 Taille basée sur le modele H0: y∗i = 1 + xi− zi+ ui avec M=1000, B=399 et σu= 1 . 23

3.2 Puissance basée sur le modele DGP H1a : y∗i = 1 + xi− zi+ sin(0, 5πxi) + ui avec

M=1000, B=399 et σu= 1 . . . 24

3.3 Puissance basée sur le modele DGP H1b : y∗_i = 1 + xi− zi+ x2i + ui avec M=1000,

B=399 et σu= 1. . . 25

3.4 Puissance basée sur le modele DGP H1c : y∗i = 1 + xi− zi+ xiuiavec M=1000, B=399

et σu= 1 . . . 26

3.5 Fenêtres de lissage conditionnelles, DGP H1a : y∗i = 1 + xi− zi+ sin(0, 5πxi) + uiavec

(8)

(9)

Avant-propos

Ce travail n’aurait pu être réalisé sans l’aide de mon directeur de recherche, le Professeur Carlos Ordás Criado, et de mon co-directeur, le Professeur Guy Lacroix. Je leur suis profondément recon-naissant pour leur assistance et leurs conseils. Je remercie le troisième lecteur de ce mémoire, Charles Bellemare, pour sa lecture et ses remarques.

Je voudrais exprimer plus particulièrement ma gratitude au Professeur Carlos Ordás Criado pour son apport sur les méthodes non paramétriques, ainsi que pour son généreux support financier.

Je suis reconnaissant au corps professoral du département d’économique pour l’enseignement de qua-lité qu’il m’a apporté.

Pour finir, je tiens à remercier mes camarades de maîtrise, mes collègues de la Chaire de Recherche Aéroportuaire, mes amis, mes parents, ma femme ainsi que ma fille pour leurs soutiens moral et psychologique, et enfin au Créateur de l’univers pour m’avoir accordé la vie et la santé.

(10)

(11)

Introduction

Les économistes utilisent différents types de modèles pour analyser les choix de consommation des in-dividus. Lorsque ces choix sont de nature discrète (décisions liées aux modes de transports, choix entre différentes politiques publiques, entrée ou non sur le marché du travail), le modèle le plus couramment utilisé est celui de l’utilité aléatoire. Cette approche impose un certain nombre de restrictions qui per-mettent aux économistes de relier les choix observés à des mécanismes de décision. À titre d’exemple, les modèles classiques de choix discrets deMcFadden(1974) ou Maddala(1983) postulent que les variables explicatives constituent un indice linéaire et que la probabilité conditionnelle est logistique ou normale (logit ou probit). Or, rien ne garantit que cette formulation ne décrit adéquatement les choix observés, conditionnellement aux variables explicatives qui sont pertinentes du point de vue de la théorie économique. Un mécanisme comportemental compatible avec la réalité observée est pour-tant crucial pour valider les recommandations de politiques économiques et les analyses de bien-être issues des modèles d’utilité aléatoire.

De nombreux modèles de choix discret ont été proposés afin de permettre une plus grande flexibilité dans la fonction de probabilité et de réduire différentes sources de biais dans l’estimation. Les for-mulations flexibles les plus populaires sont l’estimateur semi-paramétrique deKlein et Spady(1993), celui du score maximum de Manski (1975) ou la version lissée proposée par Horowitz (1992), les algorithmes de Matzkin(1992, 1993) ou encore l’estimateur de Blevins et Khan (2013). Plusieurs tests statistiques permettent de comparer des modèles paramétriques et semi-paramétriques dans ce contexte. On trouve également dans la littérature économétrique des tests généraux de spécification pour densités conditionnelles. Par exemple,Andrews(1988a,b,1997) propose différentes extensions du test de Khi-deux de Pearson et du test de Kolmogorov-Smirnov. Ces tests sont néanmoins non constructifs, car ils n’offrent pas d’alternative satisfaisante en cas de rejet de la probabilité condition-nelle postulée. De plus, ils obligent souvent le chercheur à utiliser des estimations locales basées sur un faible nombre d’observations, sans exploiter de manière optimale l’information se trouvant dans le voisinage des régions peu denses du support.

De récents développements sur l’estimation non paramétrique de densités par noyau ont permis de re-médier à ces déficiences. Le premier pas a été donné par le travail pionnier deLi et Racine(2003), qui propose d’utiliser la méthode non paramétrique du noyau pour estimer de manière lisse les densités jointes d’un mélange de variables aléatoires discrètes et continues. La principale innovation de cette

(12)

recherche est d’introduire des noyaux discrets lissés, qui permettent d’estimer la probabilité jointe sans réduire en sous-échantillons le support de la distribution. Cette méthode ajoute du biais dans l’estimation de la densité mais elle réduit sa variance. Dans des travaux ultérieurs,Hall et al.(2004),

Racine et al.(2004) etLi et Racine(2008) étendent leurs estimateurs aux densités/probabilités condi-tionnelles, à la régression par noyaux et aux quantiles conditionnels.Hall et al.(2004) montrent que le choix du paramètre de lissage de la fonction noyau par validation croisée par les moindre carrés permet d’exclure asymptotiquement les variables explicatives non pertinentes dans le cadre de l’estimation conditionnelle. Ils montrent également que cette validation croisée génère des gains de performance prévisionnel ‘hors-échantillon’, même en échantillon fini. Des tests formels d’adéquation pour les densités conditionnelles sont proposés parFan et al.(2006), et parLi et Racine(2013), où les résultats mis en lumière parHall et al.(2004) sont exploités.

L’objectif principal du présent travail de maîtrise est de répliquer les deux tests proposés parFan et al.

(2006) etLi et Racine(2013), afin de vérifier si les résultats publiés sur leur taille et leur puissance restent valides en échantillon fini dans le cadre de l’hypothèse standard de variance unitaire des mo-dèles probit et logit (polytomique ordonné et non ordonné).Fan et al.(2006) proposent un test qui omet de lisser le variable réponse discrète de la densité conditionnelle mais qui lisse les variables explicatives discrètes.Li et Racine(2013) proposent de lisser toutes les variables discrètes présentent dans la densité conditionnelle, la variable réponse discrète incluse.

L’implémentation de ces tests n’étant pas disponible sur R, nous décrivons les grandes étapes de cette implémentation. Les résultats de nos simulations en échantillon fini indiquent que les deux tests pré-sentent une bonne taille et qu’ils sont puissants contre des alternatives non linéaires et hétéroscédas-tiques. Cependant, nous obtenons des différences de puissance très faibles quand nous comparons la performance des deux tests. Ceci contraste avec les résultats deLi et Racine(2013), qui obtiennent systématiquement des puissances supérieures par rapport à la version ‘semi-lissée’ de la statistique de

Fan et al.(2006), et ceci pour tous les seuils critiques.

Ce travail est structuré en trois chapitres. Au chapitre 1, nous passons en revue les procédures mises en place pour tester l’adéquation des probabilités conditionnelles des principaux modèles de choix discrets. Le chapitre 2 décrit les procédures d’estimations et de tests. Notons que les simulations requièrent l’estimation de paramètres de lissages par validation croisée par les moindres carrés. Par conséquent, une parallélisation de la procédure est souhaitable, pour obtenir des résultats dans un délai raisonnable. Le chapitre 3 commente les résultats et nous terminons ce mémoire en récapitulant nos résultats et en offrant quelques recommandations pour l’implémentation du test sur R.

(13)

Chapitre 1

Revue de littérature

La littérature économétrique propose de nombreuses approches pour tester la spécification ou l’adé-quation des densités conditionnelles postulées par les chercheurs. On peut distinguer entre les ap-proches qui se basent sur des fonctions paramétriques sous l’hypothèse alternative (Hausman,1978;

Hausman et McFadden,1984;Horowitz et Louviere,1993) et celles qui utilisent des formes fonction-nelles non paramétriques. Ces dernières approches ayant l’avantage d’être plus robustes à des erreurs de spécification sous l’hypothèse alternative, nous nous concentrons sur ces dernières. Dans cette classe de méthodes, nous distinguons encore deux grandes catégories : celles qui utilisent une discré-tisation du support sans référence explicite à l’estimation par noyau et celles qui emploient des noyaux (avec détermination d’une fenêtre optimale de lissage). Sans être exhaustif, ce chapitre propose une revue des principaux tests généralement discutés lorsque l’on s’intéresse aux tests non paramétriques de densités conditionnelles. Nous mettons l’accent sur l’aspect le plus pratique de cette discussion : leur performance en échantillon fini.

1.1 Tests de spécification pour densités conditionnelles sans noyaux

continus et discrets

Dans cette section, nous nous concentrons sur deux tests qui n’utilisent pas la méthode des noyaux, ceux proposés par Andrews dans ses travaux de 1988 et 1997. Cet auteur dérive des tests qui utilisent des approches non paramétriques basées sur l’idée générale des tests de Khi-deux de Pearson et de Kolmogorov. Ils ont l’avantage d’être puissants contre toute alternative locale à l’hypothèse.

1.1.1 Test de Andrews (1988, 1997)

Andrews(1988a,b) propose un test de Khi-deux conditionnel pour vérifier la spécification de la densité conditionnelle des modèles paramétriques (voir égalementHeckman(1984)). Il s’agit d’une extension du test de Khi-deux de Pearson, applicable aux différents modèles (transversaux) de réponses discrètes (logit et probit polytomiques, régression SUR, équations simultanées, etc).

(14)

Sous l’hypothèse nulle, la densité conditionnelle de Yi (variable dépendante pour l’observation i)

sa-chant Xi (vecteur de variables explicatives pour cette observation) appartient à la famille de densité

conditionnelle ( f (y|x, θ ) : θ ∈ Θ) qui respecte une mesure σ -finie. Le terme Θ représente l’espace des paramètres. L’hypothèse alternative est que la distribution conditionnelle est mal spécifiée. Le test est basé sur le partitionnement du support de la densité conditionnelle en cellules disjointes et la comparaison entre les probabilités empiriques issues de l’échantillon et les probabilités prédites par le modèle postulé pour ces cellules. Il note par Γ un élément aléatoire de la classe des partitions Y × X , dont ˆΓ est l’estimateur. La mesure de divergence utilisée est basée sur l’écart entre les effectifs obser-vés et les effectifs conditionnels prédits. Plus précisément, cette distance est donnée par l’expression :

vn( ˆΓ, ˆθ ) = √

nPn( ˆΓ) − Fn( ˆΓ, ˆθ ) , (1.1)

où Pnreprésente la distribution conditionnelle empirique du couple {(Yi, Xi), i = 1, ..., n}, Fnest la

dis-tribution conditionnelle paramétrique estimée de Yi sachant Xi. Soit ˆW un estimateur convergent de

l’inverse généralisé de Σ0 (la vraie matrice de dispersion sous H0). Sous l’hypothèse nulle, la

distri-bution asymptotique de l’expression (1.1) est normale, de moyenne nulle et de matrice de dispersion Σ0. En utilisant la distance quadratique est en divisant par l’écart-type, nous obtenons la statistique de

test :

X_n2( ˆΓ, ˆθ ) = v 0

n( ˆΓ, ˆθ ) ˆW vn( ˆΓ, ˆθ ) (1.2) Sous H0, l’expression (1.2) est distribuée asymptotiquement selon un Khi-deux dont les degrés de

liberté sont donnés par le rang de Σ0.Andrews(1988b) vérifie la performance du test en échantillon

fini à l’aide d’un modèle de régression censurée1. Il teste le DGP sous H0contre deux alternatives

sy-métriques (à queues mince puis épaisse), une version asymétrique de ce même DGP, ainsi que contre le modèle censuré proposé parCragg(1971). Il calcule la taille du test avec 5000 réplications Monte Carlo sur des échantillons finis de taille 100 et 250. Ses résultats révèlent que le test est de bonne taille et puissant contre toute alternative. Ce test non paramétrique se révèle plus puissant que les tests paramétriques développés parHausman(1978),Hausman et McFadden(1984).

Dans la continuité de ses travaux,Andrews(1997) propose un test de spécification pour densités condi-tionnelles de type Kolmogorov (appelé Kolmogorov Conditionnel, KC). Ce test est une extension du test traditionnel d’adéquation de Kolmogorov pour les distributions non conditionnelles. L’hypothèse nulle (de bonne spécification du modèle paramétrique) s’écrit :

H₀: H(y|x) = F(y|x, θ ) pour un certain θ ∈ Θ, (1.3)

où F(y|x, θ ) est la fonction de répartition de Yiconditionnellement aux vecteurs de variables

explica-tives Xi= x, et au vecteur de paramètres θ , Θ est l’espace des paramètres, H(y|x) est la vraie fonction

de répartition conditionnelle, et f (y|x, θ ) est la fonction de densité respectant une mesure σ -finie (pas 1. Plus précisément, le processus de génération de données est Yi= c + X

0

iβ + Ui> 0 et 0 sinon, avec (Ui|Xi) ∼ N(0, 1) sous H0.

(15)

nécessairement la mesure de Lebesgue). L’auteur estime θ par un estimateur ˆθ qui converge vers θ0.

La statistique de test est une distance maximisée (Max), différente de l’habituel supremum (Sup) utilisé dans le test standard de Kolmogorov :

CKn= √ nmax j≤n | ˆHn(Zj) − ˆFn(Zj, ˆθ ) | (1.4) où ˆFn(z, ˆθ ) =1_n n ∑ i=1

F(y|Xi, θ )I(Xi≤x)avec z = (y, x).

Sous H0la distribution asymptotique de la statistique dépend des paramètres de nuisances ˆθ (ou θ0

quand il est connu) et de G, la fonction de répartition empirique de X . La performance du test en échantillon fini s’obtient par une procédure de bootstrap paramétrique. Dans l’article, l’auteur utilise un modèle logit multinomial sous H0. La taille du test est calculée avec 4000 réplications de Monte

Carlo pour les échantillons de petite taille et 2000 réplications pour les échantillons de grande taille. Il utilise des bootstrap de taille 299 dans les deux cas. Il montre que le test est puissant contre les alternatives locales à √1

n-convergent et contre toutes alternatives fixes à l’hypothèse nulle

2_.

1.2 Tests de spécification pour les densités conditionnelles avec noyaux

continus et discrets

L’un des défauts du test d’Andrews(1997) est qu’il ne propose pas directement d’alternative à la den-sité conditionnelle paramétrique rejetée. Les tests basés sur l’estimateur du noyau offrent directement cette spécification alternative, mais leur performance dépend du choix d’un paramètre de lissage op-timal. Ces dernières années, certaines méthodes de sélection du paramètre de lissage ont révélé des propriétés intéressantes : (i) elles permettent de combiner de manière optimale de l’information sur des supports discrets et peu denses, (ii) elles détectent automatiquement les variables pertinentes dans le conditionnement. Nous abordons à présent dans cette section les tests proposés parZheng(2000),

Fan et al.(2006), etLi et Racine(2013). Tous ces tests utilisent une approche non paramétrique basée sur l’estimation par noyau et ils se complètent dans leur démarche méthodologique. Dans cette sec-tion, nous utilisons les notations originales des auteurs, pour faciliter la comparaison avec les articles originaux.

1.2.1 Test proposé par Zheng (2000)

Zheng(2000) est le précurseur de la série de tests non paramétriques qui utilisent l’approche par la méthode du noyau pour tester l’adéquation de la densité conditionnelle postulée par le chercheur. Soit {yi, xi}i=1,..,nune observation d’un échantillon aléatoire indépendante et identiquement distribuée

provenant d’une famille de loi de densité jointe p(y, x), où yi un vecteur de l variables dépendantes,

tel que yi∈ Rl et xiun vecteur de m variables explicatives, tel que xi∈ Rm.

2. C’est une séquence d’alternatives de densité conditionnelle qn(y|x) = f (y|x, θ0) +d(z)√_n, qui sont des perturbations au voisinage de l’hypothèse nulle.

(16)

Soit p(y|x) la densité conditionnelle de y sachant x. Comme annoncé plus haut, Zheng s’intéresse à tester p(y|x) à l’intérieur d’une famille de densité conditionnelle paramétrique. Soit Θ l’espace des paramètres3, un sous-ensemble compact et convexe de Rk. La densité conditionnelle paramétrique de ysachant x étant donné θ0est définie par f (y|x, θ0).

Zheng cherche une procédure de test qui permet de départager les deux hypothèses suivantes :

H0: P(p(y|x) = f (y|x, θ0)) = 1 , pour un θ0∈ Θ donné,

contre

H1: P(p(y|x) = f (y|x, θ )) < 1 ∀θ ∈ Θ

Pour mesurer la différence entre p(y|x) et f (y|x, θ0) sous l’hypothèse nulle,Zheng(2000) choisit le

critère d’information de divergence de Kullback et Leibler (1951) en encore la mesure d’entropie relative. Ce critère est une mesure de la dissimilarité entre deux distributions de probabilités, l’une théorique et l’autre empirique. Il est défini dans le cas présent par :

I_{(p, f ) = E} log p(yi|xi) f(yi|xi, θ0) (1.5) Il montre de façon générale que I(p, f ) ≥ 0 et nulle sous l’hypothèse H0. Par ailleurs, par le

dévelop-pement de Taylor4d’ordre 1 du log h p(yi|xi) f(yi|xi,θ0) i on a I_{(p, f ) = E} p(yi|xi) f(yi|xi, θ0) − 1 = E p(yi|xi) − f (yi|xi, θ0) f(yi|xi, θ0) (1.6)

Zheng(2000) prouve qu’en pondérant la densité conditionnelle paramétrique par la densité margi-nale de x que l’expression (1.6) conserve les mêmes propriétés que I(p, f ) sous H0 comme sous H1.

L’expression (1.6) devient donc sous H0:

I1(p, f ) = E

p(yi, xi) − p1(xi) f (yi|xi, θ0)

f(yi|xi, θ0)

(1.7)

où p1(x) la densité marginale de x. Zheng propose d’estimer les fenêtres de lissage des estimateurs

respectifs des densités p(yi, xi) et p1(xi) par l’approche deSilverman (1986). De même, la densité

jointe p(yi, xi) est estimée par le produit des noyaux. En effet, c’est une méthode qui permet de

ré-soudre des problèmes non linéaires à l’aide des méthodes linéaires en transformant les espaces de données en un espace de dimension plus grande. Ainsi, les estimateurs de densité ˆp(yi, xi) et ˆp1(xi)

3. L’espace de paramètre en général différent de l’espace des variables. Ils sont égaux si le nombre de variables pour l’estimation non paramétrique est exactement égale à celui de l’estimation paramétrique. Voir les hypothèses alternatives pour le calcul de la puissance, chapitre 3.

(17)

sont respectivement définis par les expressions suivantes : ˆ p(yi, xi) = 1 n n

∑

j=1 1 hl+mK2 yi− yj h K₁ xi− xj h (1.8) ˆ p1(xi) = 1 n n

∑

j=1 1 hmK1 xi− xj h (1.9)

En outre, en estimant le paramètre θ0 par la méthode de quasi maximum de vraisemblance, Zheng

(2000) dérive l’estimateur lissé de la densité ˜p(y, x) de f (yi|xi, θ )p1(xi) qui est défini par :

˜ p(yi, xi) = 1 n n

∑

j=1 1 hl+m Z K₂ yi− y h K₁ xi− xj h f(y|xj, ˆθ )dy (1.10)

où ˆθ est l’estimateur quasi maximum de vraisemblance de θ , et h correspond au paramètre de lissage de x et y . Il déduit la statistique Wndu test et sa version normalisée Tnqui prennent la forme :

Wn= 1 n(n − 1) n

∑

i=1 n

∑

j=1 j6=i 1 hl+m   K2 yi−yh K1 _x i−xj h −R K2 yi−yh K1 _x i−xj h f(y|xj, ˆθ )dy f(yi|xi, ˆθ )   (1.11) et Tn= nhl+m2 W_n ˆ σ (1.12)

Zheng (2000) montre sous certaines hypothèses de régularité que la statistique Tn converge en loi

vers une loi normale centrée réduite sous l’hypothèse nulle et que la statistique non standardisée Wn

converge en probabilité vers I(p, f ) > 0 sous l’hypothèse alternative. Zheng a abordé la puissance en se basant sur une séquence d’alternatives locales, c’est-à-dire, H1n: p(y|x) = f (y|x, θ0) + dn× l(y, x),

où l(., .) est une fonction continument différentiable et uniformément bornée, avecR

l(x, y)dy = 0. Cet auteur vérifie la performance du test en échantillon fini sur les modèles de régression linéaire et les modèles de régression censurée par une simulation Monte Carlo de 1000 réplications avec des échantillons de taille 50, 100, 200 et 300. La taille du test est calculée sous H0 en spécifiant un

modèle linéaire homoscédastique avec une erreur normale centrée réduite, et la puissance avec quatre hypothèses alternatives, dont les deux premières sont linéaires avec des erreurs suivant respectivement une loi logistique et une Student à 5 degrés de liberté (à queues plus minces). Les deux dernières sont respectivement quadratique et hétéroscédastique avec des erreurs normales standards. Par ailleurs, Zheng souligne que le test deAndrews(1997) est localement plus puissant que son test.

1.2.2 Test proposé par Fan et al. (2006)

Le défaut du test deZheng(2000) est qu’il ne considère que des variables continues dans ses produits de noyaux. En outre, il ne fournit pas de directives pour l’estimation des fenêtres de lissage. Ces manquements sont pris en compte par le test deFan et al.(2006). Ils proposent d’exploiter les produits de noyaux mixtes développés parLi et Racine(2003).

(18)

Soit x un vecteur de variables explicatives continues et discrètes (xc, xd_{), tel que x}c _{pour une}

obser-vation donnée est une matrice q × 1 et xd une matrice r × 1. Soit Dk le support de xdikde longueur ck

allant de 0 à ck− 1. Les valeurs prises par la k-ième composante de la i-ième observation de xd sont

notées xd_ik. Pour estimer la densité par la méthode de noyau,Fan et al.(2006) utilisent l’estimateur de

Aitchison et Aitken(1976) pour la k-ième variable discrète défini par :

l(xd_ik, xd_jk, λk) = ( 1 − λksi xd_ik= xd_jk λk ck−1si x d ik6= x d jk (1.13) La densité jointe de l’ensemble de variables discrètes est donnée par le produit de noyaux :

L(xdi, x d j, λ ) = r

∏

k=1 l(xdik, x d jk, λk) = r

∏

k=1 λk ck− 1 Nik(x) (1 − λk)1−Nik(x) (1.14)

où Nik(x) est la fonction indicatrice donnant 1 si xdik6= x d

jket 0 sinon, λkest le paramètre de lissage de la

k-ième variable discrète, dont les valeurs sont comprises entre 0 et ck−1

ck . Pour les variables continues, la fonction noyau utilisée est le noyau d’ordre 2 d’Epanechnikov défini par : w(u) =3₄(1 − u2₎₁

{|u|≤1}.

Ainsi, l’estimateur par noyau de la densité jointe des variables continues est :

W(xc_i, xc_j, h) = q

∏

k=1 1 hk w _xc ik− x c jk hk (1.15)

où hk est le paramètre de lissage de la k-ième variable continue xc. Par la suite, l’estimateur par

noyau de la densité jointe des variables explicatives est le produit des densités marginales continues et discrètes (Fan et al.,2006) :

Kγ(xi, xj) = W (xci, x c j, h) × L(x d i, x d j, λ ) (1.16)

Pour estimer les densités p(yi, xi) et p1(xi) au point i,Fan et al.(2006) suggèrent d’omettre le point i

dans l’estimation (estimateur "leave-one-out"), conduisant à l’estimateur : ˆ p−i(yi, xi) = 1 n− 1 n

∑

j=1 j6=i I(yi= yj)Kγ(xi, xj) (1.17) ˆ p1,−i(xi) = 1 n− 1 n

∑

j=1 j6=i Kγ(xi, xj) (1.18)

Ainsi, l’estimateur de lissage du produit de densité f (yi|xi, θ )p1(xi), ˜p(yi, xi) proposé par Fan et al.

(2006) est défini par :

˜ p(yi, xi) = 1 n− 1 n

∑

j=1 j6=i

∑

y∈Dy I(yi= y)Kγ(xi, xj) f (y|xj, ˆθ ) (1.19)

(19)

où Dyest le support de la variable dépendante y.

Lorsque yi= y, l’expression (1.19) devient donc :

˜ p(yi, xi) = 1 n− 1 n

∑

j=1 j6=i Kγ(xi, xj) f (yi|xj, ˆθ ) (1.20)

En remplaçant, les expressions de ˆp(yi, xi), ˆp(xi) et ˜p(yi, xi) dans l’expression de I1(p, f ),Fan et al.

(2006) déduisent l’estimateur non lissé de la statistique Wn,γ :

W_n,γns = 1 n(n − 1) n

∑

i=1 n

∑

j=1 j6=i Kγ(xi, xj) f(yi|xi, ˆθ ) I(yi= yj) − f (yi|xj, ˆθ ) (1.21)

Ils proposent d’estimer les paramètres de lissage par la méthode de validation croisée par moindres carrés qui a la propriété asymptotique d’éliminer les variables non pertinentes dans le modèle. Ainsi, sous les conditions de régularité deHall et al.(2004) liées à la convergence des fenêtres de lissage,

Fan et al.(2006) montrent sous H0 que la statistique de l’expression (1.21) converge en loi vers une

loi normale centrée réduite :

T_{n, ˆ}ns_γ =n(ˆh1ˆh2...ˆhq) 1/2_Wns n, ˆγ q ˆ Vn, ˆγ d → N(0, 1) (1.22) où ˆV_{n, ˆ}_γ = _n(n−1)2 n ∑ i=1 n ∑ j6=i n_K ˆ γ(xi,xj) ˆ f(yi|xi, ˆθ )I(yi= yj) − f (yi|xj, ˆθ ) o2

est un estimateur convergent de la va-riance asymptotique de n(ˆh1ˆh2...ˆhq)1/2W_{n, ˆ}ns_γ.

Pour examiner la performance du test en échantillon fini, Fan et al.(2006) utilise la statistique non standardisée W_{n, ˆ}ns_γ pour la simulation Monte Carlo avec 5000 réplications pour le calcul de la taille et 2000 réplications pour le calcul de la puissance en 1000 bootstraps pour déduire la distribution asymp-totique de Wnnssous H0. Ils utilisent sous H0un PGD binaire caractérisé par une variable latente qui suit

une loi normale standard (probit), qui est testé contre deux alternatifs, dont les variables latentes sont respectivement quadratique et hétéroscédastique. Ils obtiennent de bonnes tailles et montrent aussi que leur test est plus puissant que le test deZheng(2000). De même, le test est plus puissant que celui deAndrews(1997) quand il s’agit de tester l’adéquation de densités conditionnelles paramétriques.

1.2.3 Test proposé par Li et Racine (2013)

En échantillon fini, le lissage des variables discrètes apporte un gain d’efficacité dans l’estimation. Ainsi, Li et Racine (2013) profite de cette propriété pour améliorer la performance en échantillon fini de la statistique proposée par Fan et al. (2006). Ils proposent de remplacer l’indicatrice de la variable réponse par un estimateur lissé selon la méthode deAitchison et Aitken(1976). Ainsi, pour

(20)

une variable dépendante discrète nominale, ils utilisent l’estimateur suivant : l(yi, yj, λ0) = (1 − λ0)I(yi= yj) +

λ0

c0− 1

I(yi6= yj) (1.23)

avec λ0 compris entre 0 et c0_c−1₀ . Ils étendent la procédure du test également aux variables réponses

discrètes ordonnées en utilisant l’estimateur deWang et van Ryzin(1981) :

l(yi, yj, λ0) = (1 − λ0)I(yi= yj) +

λ₀|yi−yj|

2 I(yi6= yj) (1.24)

avec λ0compris entre 0 et 1.

En intégrant l’estimateur lissé de la fonction indicatrice,Li et Racine(2013) dérivent les estimateurs "leave-one-out" des densités p(yi, xi), p1(xi), et ˜p(yi, xi) :

ˆ p−i(yi, xi) = 1 n− 1 n

∑

j=1 j6=i l(yi, yj, λ0)Kγ(xi, xj) (1.25) ˆ p_1,−i(xi) = 1 n− 1 n

∑

j=1 j6=i K_γ(xi, xj) (1.26) ˜ p−i(yi, xi) = 1 n− 1 n

∑

j=1 j6=i

∑

y∈Dy l(yi, y, λ0)Kγ(xi, xj) f (yi|xj, ˆθ ) (1.27)

En utilisant les expressions (1.25), (1.26), (1.27),Li et Racine(2013) déduisent les statistiques lissées W_n,γs et Ts

n,γ (contrepartie des équations (1.21) et (1.22) ) :

W_n,γs = 1 n(n − 1) n

∑

i=1 n

∑

j=1 j6=i ( K_γ(xi, xj) f(yi|xi, ˆθ ) " l(yi, yj, λ0) −

∑

y∈Dy l(yi, y, λ0) f (y|xj, ˆθ ) #) (1.28) T_{n, ˆ}s_γ= n(ˆh1ˆh2...ˆhq) 1/2_Ws n, ˆγ q ˆ V_{n, ˆ}_γ (1.29) Ils montrent que la statistique standardisée T_{n, ˆ}s_γ converge en loi vers une loi normale centrée et ré-duite sous l’hypothèse nulle (Li et Racine(2013), Théorème 2.1, voir aussi l’annexe)). De plus, sous l’hypothèse alternative, Ts

n, ˆγ converge en probabilité vers une valeur strictement positive (Li et Racine

(2013), Théorème 2.2, voir aussi l’annexe).

Par ailleurs, pour obtenir la performance du test en échantillon fini, ils utilisent une procédure boots-trap paramétrique de 1000 réplications et 399 bootsboots-traps, sur un modèle probit ordonné dont la variable latente est linéaire sous H0et un alternatif sinusoïdal. Les résultats de la simulation réalisée avec des

tailles d’échantillon 200, 300, 400 révèlent que le test possède une bonne taille qui ne varie pas selon le type de statistique utilisée, et que la statistique lissée apporte un gain de puissance par rapport à la statistique deFan et al.(2006).

(21)

Chapitre 2

Méthodologie d’estimation

Lorsque des tests statistiques sont proposés, il est parfois possible d’établir des règles de rejet et d’acceptation de l’hypothèse nulle à la fois en grand échantillon et en échantillon de taille fixe.Fan et al. (2006) etLi et Racine (2013) établissent que leurs statistiques de test sont asymptotiquement normales sous l’hypothèse nulle (sous-section 1.2.2, et sous-section1.2.3), mais ils ajoutent que la normalité de la distribution n’est aucunement garantie en échantillon fini. Pour pallier cette déficience, ils proposent une procédure bootstrap qui possède de très bonnes propriétés en échantillon fini : (i) elle identifie le vrai modèle au même seuil d’erreur qu’en grand échantillon lorsque le chercheur postule le vrai modèle, (ii) elle rejette avec une probabilité suffisamment élevée le modèle utilisé par le chercheur lorsque le modèle postulé ne correspond pas au vrai processus de génération de données (bonne puissance du test). Dans ce chapitre, nous décrivons en détail les différentes étapes qui permettent de démontrer ces résultats.

2.1 Démarche méthodologique

Pour analyser la taille du test en échantillon fini, nous commençons par choisir le vrai processus de génération de données (PGD) sous l’hypothèse nulle et nous créons des échantillons de différentes tailles. Comme dans les articles originaux deFan et al.(2006) etLi et Racine(2013), nous retiendrons n= {200, 300, 400, 500}. Pour une taille fixe d’échantillon, nous obtenons une première estimation du vrai PGD à l’aide des deux estimateurs paramétrique et non paramétrique par noyau. Nous calculons l’écart d’ajustement des valeurs prédites par les deux estimateurs à l’aide des statistiques Wn(voir les

équations (1.21) et (1.28)). De toute évidence, cette statistique n’est pas utile car il nous manque sa distribution en échantillon fini. Nous tirons donc 399 échantillons bootstrap de l’échantillon original et nous réestimons avec ces échantillons bootstrap les statistiques des deux tests (lissé et non lissé). Ceci nous donne 399 valeurs bootstrap des statistiques des tests, qui permettent de définir une densité empirique des statistiques(lissée et non lissée) pour l’échantillon initialement généré. Nous comparons finalement les statistiques (lissée et non lissée) de notre échantillon original à leurs distributions boots-trap. Si les statistiques échantillonnales dépassent les quantiles 90%, 95% ou 99% des distributions

(22)

bootstrap, l’égalité des estimations paramétrique et non paramétrique sera rejetée au seuil de confiance correspondant. En répétant cette procédure 1000 fois (toujours pour un échantillon de même taille), nous testons la capacité des statistiques proposées (Fan et al.,2006;Li et Racine,2013) à détecter le vrai processus de génération de données en échantillon fini.

L’analyse de la puissance des deux tests se fait en générant nos échantillons de taille fixe avec un processus de génération de données alternatif à celui postulé sous H0. Nous estimons ensuite les

pro-babilités conditionnelles avec le modèle postulé sous H0. Le modèle postulé sous H0inclut les mêmes

variables incluses dans le PGD alternatif, mais il se distingue par une forme fonctionnelle différente. Par conséquent, l’utilisation d’une forme fonctionnelle paramétrique erronée (celle postulée sous H0)

conduit à des estimations paramétriques biaisées de la densité conditionnelle postulée sous l’hypothèse alternative H1. L’estimateur de noyau étant flexible, il captera correctement le processus de génération

de données postulé sous H1. La procédure bootstrap décrite ci-dessus devrait alors aboutir à rejeter

l’hypothèse nulle plus fréquemment, et à la rejeter avec une probabilité croissante lorsque la taille de l’échantillon croît.

La simulation requiert donc la définition d’un PDG (ou modèle de densité conditionnelle) sous l’hy-pothèse nulle, d’un PGD alternatif, d’un estimateur paramétrique, d’un estimateur non paramétrique et d’une procédure bootstrap adéquate. Dans tous les cas, nous utilisons les estimateurs et procédures recommandées par les auteurs des tests et nous les implémentons dans R.

Dans les sous-sections qui suivent, nous commençons par définir le vrai PGD utilisé pour calculer la taille des tests deFan et al.(2006) et deLi et Racine(2013), puis nous identifions les PGD utilisés pour établir leur puissance dans la section2.2. Ensuite, nous définissons les estimateurs paramétriques et les fonctions du logiciel R utilisées pour l’estimation. Nous nous tournons ensuite vers l’estimateur non paramétrique et nous précisons les outils pertinents pour les obtenir dans R. Finalement, nous rappelons l’ensemble de la procédure sous la forme d’une liste d’étapes. Ce n’est qu’au chapitre 3 que nous rapportons nos résultats.

2.2 Processus de génération des données sous les hypothèses nulle et

alternative

Le PGD retenu sous H0est similaire à celui proposé parLi et Racine(2013). La seule différence tient

à notre hypothèse de variance unitaire σu2= 1, alors que les auteurs précités préfèrent σ2= 0.25. Par

conséquent, nous considérons le modèle probabiliste :

y∗_i = θ0+ θ1xi+ θ2zi+ ui, (2.1)

où xi∼ N(0, σx= 1), zi est généré par un processus Bernoulli {0, 1} tel que P(zi= 1) = 0, 5, ui ∼

N(0, σu), avec θ0 = 1, θ1 = 1, θ2= −1, et σu = 1. Le modèle (2.1) génère une variable latente,

(23)

variable dépendante polytomique y est générée selon les quantiles de la distribution normale. À titre d’illustration, pour σu2= 1 et c = 4, yiprend les valeurs discrètes suivantes :

yi=            0 si −∞ ≤ y∗i< −0, 674 1 si −0, 674 ≤ y∗ i< 0 2 si 0 ≤ y∗_i< 0, 674 3 si 0, 674 ≤ y∗i< +∞

Afin d’étendre nos simulations au modèle logistique multinomial simple, nous considérons également le PGD de l’équation (2.1) avec une erreur ui∼ logit(0, σu). La variable latente est ensuite transformée

selon la même logique vis-à-vis de la distribution logistique.

En ce qui concerne la puissance du test,Li et Racine(2013) postulent des PGD différents de l’équation (2.1) en utilisant les mêmes variables explicatives. Ils se concentrent ainsi sur une erreur de spécifica-tion de la forme foncspécifica-tionnelle. Dans nos simulaspécifica-tions, nous considérons l’alternative sinusoïdale deLi et Racine(2013), mais également les modèles à indice quadratique et hétéroscédastique deFan et al.

(2006). Les trois PGD considérés pour tester la puissance sont donc :

DGP 1a : y∗_i =θ0+ θ1xi+ θ2zi+ θ3sin(0, 5πxi) + ui

DGP 1b : y∗_i =θ0+ θ1xi+ θ2zi+ θ3x2i + ui

DGP 1c : y∗i =θ0+ θ1xi+ θ2zi+ xiui

Comme indiqué au début de la section2.1, nous devons maintenant estimer les modèles

P(yi= y|xi, zi) =    Φ(xi, zi; θ ) paramétrique f(xi, zi) non paramétrique.

La section 2.3décrit les estimateurs utilisés pour les modèles paramétriques alors que la section2.4

décrit l’estimation non paramétrique.

2.3 Estimation paramétrique de la densité conditionnelle

Comme indiqué dans la section1.2, le calcul des statistiques des tests deFan et al.(2006) etLi et Racine(2013) nécessite l’estimation de la densité conditionnelle paramétrique et de fenêtres de lissage pour estimer la densité du noyau jointe des variables explicatives. Dans cette section, nous rappelons la procédure d’estimation des densités conditionnelles polytomiques par maximum de vraisemblance.

2.3.1 Estimation de la densité conditionnelle paramétrique d’un modèle polytomique non ordonné

Soit {yi, xi}i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de

(24)

explicatives. Soit y∗imla variable latente de yi définit telle que : y∗im= xiθm+ uim; i = 1, ..., n et m =

1, ..., M ; θmest un vecteur de k paramètres réelles. La variable latente peut être vue comme l’utilité de

l’individu i de choisir la modalité m de la variable réponse. La probabilité que l’individu i choisisse la modalité m conditionnellement aux variables explicatives xiest définie par :

P(yi= m |xi) =P(y∗im> y ∗ i j, ∀ j 6= m |xi) =P(xiθm+ uim> xiθj+ ui j, ∀ j 6= m |xi) =P(ui j− uim< xiθm− xiθj, ∀ j 6= m |xi) =P(umi j< xiθm− xiθj, ∀ j 6= m |xi) =Fim(xi(θm− θ1), ..., xi(θm− θM)) avec um_{i j}= ui j− uim (2.2)

La fonction de répartition Fim est celle de l’erreur umi = (ui1− uim, ui2− uim, ..., uiM− uim). Elle peut

être une loi multinormale si le modèle estimé est un probit multinomial, ou encore une loi de Gumbel dans le cas logit multinomial. Pour ymi j = xiθm− xiθj, yim = I(yi= m) et pim(θ ) = P(yi= m |xi) la

densité conditionnelle de yi sachant xiest donnée par :

f(yi|xi, θ ) = M

∏

m=1 pyim jm(θ ) (2.3)

La log vraisemblance à maximiser s’écrit sous la forme suivante :

L(θ ) = 1 n n

∑

i=1 M

∑

m=1 yimlog(pim(θ )) (2.4)

La condition de premier ordre de l’équation (2.4) est donnée par :

∂ L(θ ) ∂ θ = 1 n n

∑

i=1 M

∑

m=1 yim 1 pim(θ ) ∂ pim(θ ) ∂ θ = 0 (2.5)

Sous des conditions de régularité (McFadden,1974;Amemiya,1985) le problème de maximisation admet un maximun global unique. Par ailleurs, si les conditions de régularité sont respectées, la dis-tribution limite1de l’estimateur est :

√ n ˆθ − θ0 d → N(0, A−1₀ B0A−1₀ ), (2.6) avec A0= E ∂2L(θ ) ∂ θ ∂ θ0 et B0= E ∂ L(θ ) ∂ θ ∂ L(θ ) ∂ θ0

. Par conséquent, sous H0, la distribution asymptotique

de ˆθ est :

ˆ

θ∼ N(θd 0, −A0) (2.7)

(25)

L’estimateur de la densité conditionnelle paramétrique est donné par : f(yi|xi, ˆθ ) = M

∏

m=1 pyim jm( ˆθ ) (2.8)

Ce modèle est estimé sur R avec la fonction mlogit() du package mlogit proposé par Croissant

(2013)2. L’optimisation de la log vraisemblance peut être améliorée par la fonction mlogit.optim() qui utilise par défaut l’algorithme de Newtn-Raphson (NR) avec la numérisation de la matrice hes-sienne. Cette fonction offre la possibilité de choisir les méthodes d’optimisation alternatives3.

2.3.2 Estimation de la densité conditionnelle paramétrique d’un modèle polytomique ordonné

(y, x). yi est une variable polytomique dont le support Dy= {1, 2, ..., M} et la variable latente y∗i =

xiθ + ui où θ ∈ Θ ⊂ Rk (un sous-ensemble compact et convexe) et xi∈ Rk telle que (Long, 1997;

Agresti,2002) : yi=            1 si α0≤ y∗i < α1 2 si α1≤ y∗i < α2 ... M si αM−1≤ y∗i < αM (2.9)

avec α0= −∞ et αM= +∞, uiest identiquement distribué avec une fonction de répartition F. On a :

P(yi= m|xi, θ , αm−1, αm) = P(αm−1≤ xiθ + ui< αm)

= P(αm−1− xiθ ≤ ui< αm− xiθ )

= F(αm− xiθ ) − F (αm−1− xiθ )

avec m ∈ Dy, F(α0− xiθ ) = 0, P(yi= 1|xi, θ ) = F(α1− xiθ ), et P(yi= M|xi, θ ) = 1 − F(αM−1− xiθ )

La densité conditionnelle est donnée par :

f(yi|xi, θ , α) = M

∏

m=1 pI(yi=m) im (θ , αm−1, αm) (2.10) où pim(θ , αm−1, αm) = F(αm− xiθ ) − F (αm−1− xiθ ).

De plus, en posant yim= I(yi= m) et en maximisant la log vraisemblance :

L(α, θ ) =1 n n

∑

i=1 M

∑

m=1 yimlog(pim(θ , αm−1, αm)) (2.11)

2. Estimation of multinomial logit model in R : mlogit packages.

(26)

nous obtenons les conditions de premier ordre ci-après : ∂ L(θ ) ∂ θ = 1 n n

∑

i=1 M

∑

m=1 ∂ pim(θ , αm−1, αm) ∂ θ yim pim(θ , αm−1, αm) = 0 (2.12) ∂ L(α , θ ) ∂ αm =1 n n

∑

i=1 yim pim(θ , αm−1, αm) − yi(m+1) p_i(m+1)(θ , αm, αm+1) f(αm+ xiθ ) = 0 (2.13)

avec m = 1, ..., M et F0(αm+ xiθ ) = f (αm+ xiθ ) la fonction de densité de la distribution de DGP.

Sous certaines conditions de régularité4(Pratt,1981), le problème admet un unique maximum global qui respecte la propriété de convergence de l’expression (2.6). Ce qui permet de dériver la fonction de densité conditionnelle paramétrique :

f(yi|xi, ˆθ , ˆα ) = M

∏

m=1 pyim im( ˆθ , ˆαm−1, ˆαm) (2.14)

Ce modèle est estimable sur R par le package MASS, avec la fonction polr(), développé parVenables et Ripley(2002) . Elle utilise l’algorithme de Newton-Raphson et la méthode vcov() du package stats (R Core Team,2014). Par ailleurs, le cas binaire est estimé par la fonction glm() du package stats.

2.4 Estimation non paramétrique

L’estimation non paramétrique comprend l’obtention des fenêtres de lissage pour densités condition-nelles, jointe et marginale de respectivement (y|x), (y, x) et de x puis le calcul des produits de noyaux discrets et continus.

2.4.1 Estimation des fenêtres de lissage conditionnelles par validation croisée par moindres carrés

Il existe de nombreuses méthodes pour obtenir les paramètres de lissage optimaux. Les méthodes de validation croisée proposent de partir de fenêtres de lissages candidates et de minimiser l’erreur de prévision des densités en chaque point i de l’échantillon en utilisant toutes les valeurs de l’échantillon, excepté le point i. Cette approche est qualifiée en anglais de ‘leave-one-out’. Une fois obtenues les estimations en chaque point, il convient de définir une métrique qui mesure la qualité d’ajustement de la prévision non paramétrique. À titre d’exemple, la méthode de validation croisée par maximum de vraisemblance utilise la (log)vraisemblance de la densité estimée comme fonction objectif. Cette méthode a tendance à surlisser les fenêtres soit en raison d’une estimation non robuste (sensibilité excessive aux points extrêmes), soit à cause de la présence de variables explicatives non pertinentes (Li et Racine,2007, pp. 161) dans le modèle postulé par le chercheur. Par contre, la méthode de validation croisée par moindres carrés à l’avantage d’éliminer asymptotiquement les variables explicatives non pertinentes du modèle.

(27)

(y, x), et soit yi, une variable polytomique dont le support Dy= {1, 2, ..., M}. La méthode de validation

croisée par les moindres carrés se base sur le critère de minimisation de la somme de carré des erreurs (Integrated Squared Errors) :

CV(h, λ ) =1 n n

∑

l=1 ˆ G−l(xl) [ ˆµ−l(xl)]2 −2 n n

∑

l=1 ˆ f−l(xl, yl) ˆ µ−l(xl) (2.15) où, ˆf−let ˆµ−lsont respectivement les densités jointe de (x, y) et marginale de x estimées par

"leave-one-out", et ˆGl est défini par :

ˆ G−l(xl) = 1 n2 n

∑

i=1,i6=l n

∑

j=1, j6=l K(xi, xl)K(xj, xl)L(yi, yj) (2.16)

avec Kγ(xi, xj) = W (xci, xcj, h) × L(xdi, xdj, λ ), où K(), W() et L() sont les fonctions-noyaux définies

dans les équations (1.13), (1.14) et (1.15). Les paramètres (ˆh, ˆλ ) sont les estimateurs des fenêtres de lissage. Hall et al. (2004) établissent que l’estimateur des paramètres de lissage par la méthode de validation croisée par les moindres carrés converge en probabilité vers (h0, λ0) selon le Lemme 2.1 (Voir Annexe). Un algorithme existe sur R pour calculer ces paramètres de lissage. Il est implémenté dans la fonction npcdensbw() du package np développé parHayfield et Racine(2008)5.

2.4.2 Estimation non paramétrique de la densité conditionnelle

Nous avons vu que les statistiques des tests sont estimées par la mesure de divergence I1(p, f ) définie

par l’expression (1.7).6Les sous-sections précédentes ont permis d’estimer les fenêtres de lissage des densités conditionnelles et la fonction de densité conditionnelle. Il reste à estimer la densité jointe (p(yi, xi)) et la densité marginale (p1(xi)).

Comme nous l’avons vu dans les sous-sections1.2.2et1.2.3,Fan et al.(2006) etLi et Racine(2013) proposent d’estimer les densités jointe p(yi, xi) et marginale p1(xi) par la méthode de validation

croi-sée "leave-one-out" et en utilisant le produit de noyaux continus et discrets (l’expression (1.13)) pour l’estimateur de Aitchison-Aitken et (1.14) pour noyaux discrets nominaux et l’expression (1.24) mé-thode de Wang et Van Ryzin pour les noyaux discret ordonnés). Ainsi en utilisant les fenêtres opti-males issues de la validation croisée par moindres carrés et les expressions (1.25), (1.26), et (1.27), l’estimateur non paramétrique de la densité conditionnelle est donné par :

ˆ p−i(yi|xi) = n ∑ j=1 j6=i l(yi, yj, ˆλ0)Kγˆ(xi, xj) n ∑ j=1 j6=i K_γ_ˆ(xi, xj) (2.17)

5. Pour plus d’information voir la documentation du package. 6. I1(p, f ) = E n_p(y i,xi)−p1(xi) f (yi|xi,θ0) f(yi|xi,θ0) o .

(28)

où l(yi, yj, ˆλ0) est donné par les expressions (1.23) et (1.24) suivant la nature de la variable réponse.

En utilisant les expressions (1.21), (1.28), (2.8), et (2.14), nous pouvons définir la statistique lissée qui est prête à être implémentée sur R par :7

W_{n, ˆ}s_γ=                  1 n(n−1) n ∑ i=1 n ∑ j=1 j6=i    Kγˆ(xi,xj) M ∏ m=1 pyim_im ( ˆθ , ˆαm−1, ˆαm) " l(yi, yj, ˆλ0) − ∑ y∈Dy l(yi, y, ˆλ0) M ∏ m=1 pyim im( ˆθ , ˆαm−1, ˆαm) #   ordonnée 1 n(n−1) n ∑ i=1 n ∑ j=1 j6=i    Kγˆ(xi,xj) M ∏ m=1 pyim_jm( ˆθ ) " l(yi, yj, ˆλ0) − ∑ y∈Dy l(yi, y, ˆλ0) M ∏ m=1 pyim jm( ˆθ ) #   non ordonnée (2.18) La densité jointe Kγˆ(xi, xj) est estimée à l’aide de la fonction npksum() du package np (Hayfield et

Racine,2008).

2.5 Simulations

Cette section décrit la procédure de simulation utilisée parLi et Racine(2013) pour établir la taille et la puissance de leur test en échantillon fini. Elle présente également de manière un peu plus formelle les calculs de taille et de puissance.

2.5.1 Bootstrap

Nous commençons par décrire la procédure bootstrap. Elle est de type paramétrique et elle s’effectue dans le but de déterminer la distribution des statistiques Wnset Wnnsen échantillon fini pour une seule

simulation de Monte Carlo.

(a) Générer la i-ième valeur bootstrap de la variable y à partir de la distribution conditionnelle estimée f (yi|xi, ˆθ ). Soit ybi cette valeur et i = 1, . . . , n. L’échantillon {xi, yBi}n1=1 constitue un

échantillon bootstrap. Des détails sur l’identification de yb _{seront donnés en section}_3.1.1_{, au}

point (f).

(b) Sous l’hypothèse nulle, estimer le vecteur de paramètres θ avec l’échantillon bootstrap. Nous pouvons appeler l’estimateur ˆθb l’estimateur bootstrap de θ . Il n’est pas nécessaire d’obtenir des paramètres de lissage ˆγ spécifiques à l’échantillon bootstrap. En effet,Fan et al.(2006) et

Li et Racine(2013) précisent que les paramètres de lissage calculés avec l’échantillon Monte Carlo peuvent être réutilisés pour le calcul de la statistique sous bootstrap ;

(c) Estimer les statistiques lissées W_{n, ˆ}s,b_γ et non lissées W_{n, ˆ}ns,b_γ en remplaçant {yi}i=1,...,npar {ybi}i=1,...,n

et le paramètre ˆθ par ˆθb.

(29)

(d) Répéter (a), (b) et (c) un grand nombre de fois (par exemple B = 399). Ces tirages successifs permettent d’approximer la distribution des statistiques lissées W_{n, ˆ}s,b_γ et non lissées W_{n, ˆ}ns,b_γ sous l’hypothèse nulle pour un échantillon Monte Carlo donné ;

(e) Calculer les quantiles d’ordre α de W_{n ˆ}s,b_γ et de W_{n ˆ}ns,b_γ pour les B tirages bootstrap ;

(f) L’hypothèse nulle d’un modèle paramétrique correctement spécifié est rejetée par le test boots-trap si les deux statistiques empiriques W_{n, ˆ}s_γ et W_{n, ˆ}ns_γ calculées pour l’échantillon Monte Carlo donné sont supérieures aux quantiles d’ordre α de, respectivement, {W_{n, ˆ}s,b_γ}B

j=1et {W ns,b n, ˆγ }

B j=1.

2.5.2 Simulations de Monte Carlo

Les calculs de la taille et de la puissance nécessitent la répétition de la procédure bootstrap M fois, par exemple M=1000.

Calcul de la taille

Le calcul de la taille utilise la distribution de la statistique bootstrap obtenue en générant des échan-tillons bootstrap de taille fixe avec le processus générateur des données (PGD) sous H0. Ainsi, à partir

d’un grand nombre de réalisations du modèle sous H0, il est possible de tester le nombre de fois

que H0 est rejetée alors que le modèle paramétrique utilisé pour l’estimation est le vrai modèle. La

taille du test bootstrap équivaut à l’erreur de première espèce. Soit M simulations sous H0des

statis-tiques lissées W_{n, ˆ}s_{γ ,i}et non lissées W_{n, ˆ}ns_{γ ,i}avec i = 1, ..., M ; W_{n, ˆ}s,b_{γ ,i}(α) et W_{n, ˆ}ns,b_{γ ,i}(α) les quantiles bootstrap d’ordre α respectivement de W_{n, ˆ}s,b_{γ ,i}et non lissées W_{n, ˆ}ns,b_{γ ,i}sous H0. En pratique, la taille de test est définie

(MacKinnon,2006;Flachaire,2005) telle que :

Taille(α) = 1 M M

∑

i=1 I(Wn, ˆγ ,i> W b n, ˆγ ,i(α)) (2.19)

Il est souvent recommandé de calculer la taille du test en passant par la p-valeur plutôt que par le quantile du seuil critique de la statistique (Flachaire,2005). La p-valeur se définit par la distribution (asymptotique, car M est grand) des réalisations bootstrap sous l’hypothèse nulle.

pv= Pb(Wn, ˆbγ> Wn, ˆγ) = 1 − Fb(Wn, ˆγ) (2.20)

De l’équation (2.20), nous déduisons la taille du test par l’expression suivante :

Taille(α) = PH0(pv< α) = 1 − FH0(F −1 b (Wn, ˆγ)) = 1 M M

∑

i=1 I(pv,i≤ α) (2.21) Calcul de la puissance

La puissance évalue la capacité d’un test à rejeter le modèle postulé par le chercheur lorsque ce modèle est effectivement erroné. Ici, il s’agit de vérifier la puissance des tests de Fan et al. (2006)

(30)

etLi et Racine (2013) en échantillon fini. La puissance se calcule en générant dans le processus de Monte Carlo sous l’hypothèse alternative. Elle correspond à la probabilité de rejeter l’hypothèse nulle sachant qu’elle est fausse. Soit M simulations sous H1des statistiques lissées W_{n, ˆ}as_{γ ,i}et non lissées W_{n, ˆ}ans_{γ ,i}

avec i = 1, ..., M. En pratique, la puissance est définie telle que : Puissance(α) = 1 M M

∑

i=1 I(W_{n, ˆ}a_{γ ,i}> W_{n, ˆ}b_{γ ,i}(α)) (2.22)

(31)

Chapitre 3

Application

Ce chapitre s’intéresse à l’implémentation des deux tests développés par Fan et al. (2006) etLi et Racine (2013), en prenant comme modèle sous l’hypothèse H0 la spécification proposée par Li et

Racine(2013), et à l’interprétation des résultats.

3.1 Calcul de la taille et la puissance des tests sur R

Nous abordons dans cette section les procédures de calcul de la taille et de la puissance sur R.

3.1.1 Procédure de calcul de la taille sur R

Pour calculer la taille des deux tests, nous nous contentons de décrire les étapes suivies pour un modèle à réponse binaire. L’extension aux modèles polytomiques se fait facilement.

(a) Simuler un échantillon {xi, zi, ui}i=1,..,n suivant le modèle H0 retenu tels que ui ∼ N(0, 1), xi ∼

N(0, 1) et zi∼ Bernoulli(1₂). La variable latente sous H0étant définie par y∗i = θ0+ θ1xi+ θ2zi+ ui

avec θ0= 1, θ1= 1, θ2= −1 et déduire la variable réponse yi= 1{_y∗ i>0} ;

(b) Estimer les paramètres ˆθ pour l’échantillon simulé avec la fonction glm() du package stats ; (c) Prédire la probabilité P(yi= 1|xi, zi, ˆθ ) à l’aide de la fonction predict.glm() du package stats ;

(d) Calculer les fenêtres de lissage ( ˆλ0, ˆλ , ˆh) des variables y, z et x par la méthode de validation croisée

par moindres carrés avec la fonction npcdensbw() du package np ;

(e) Calculer Wn,i(y, z, x, ˆλ0, ˆλ , ˆh, ˆp) selon l’expression (2.18) en utilisant la fonction npksum() du

pa-ckage np pour estimer le densité jointe K(xi, zi) ;

(f) Générer l’échantillon bootstrap selon la procédure décrite dans la sous-section2.5.1. L’échantillon bootstrap est constitué de {ybi, xi}i=1,..,n en utilisant la probabilité P(yi= 1|xi, zi, ˆθ ). En pratique, on génère un échantillon {ei}n_i=1 tel que ei∼ U[0, 1] puis on ordonne les éléments de chaque

vecteur-ligne [ ei P(yi= 0|xi, zi, ˆθ ), 1 ] de manière croissante1. On récupère ensuite le rang de

(32)

ei dans le vecteur réordonné2et on lui soustrait la valeur 1. La valeur ainsi obtenue constitue la

modalité 0 ou 1 de la ième observation3yb_i ;

(g) Obtenir ˆθbavec les valeurs {yb_i, xi}i=1,..,nafin de prédire P(ybi = 1|xi, ziθˆb) ;

(h) calculer Wn,i,b(yb, z, x ˆλ0, ˆλ1, ˆh, ˆpb) ;

(i) Calculer la taille selon la formule (2.21).

3.1.2 Procédure de calcul de la puissance sur R

Comme décrit dans la sous-section 2.5.2, le calcul de la puissance se base sur les quantiles de la distribution boostrap des statistiques de test. En prenant l’exemple du modèle DGP1a de la section

2.2, la procédure de calcul de la puissance du test est la suivante :

(a) A partir de l’échantillon {xi, zi, ui}i=1,..,n, calculer la variable latente y∗i = θ0+ θ1xi+ θ2zi+

θ3sin(0, 5πxi) + uiet en déduire la variable réponse yi= 1{_y∗ i>0} ;

(b) Estimer ˆθ avec le modèle postulé sous H0, (dans notre cas, il s’agit du modèle (2.1), section

2.2) et en déduire la probabilité PHa(yi= 1|xi, zi, ˆθ ) ;

(c) Calculer les fenêtres de lissage ( ˆλ0, ˆλ , ˆh) des variables y, z et x par la méthode de validation

croisée par moindres carrés ;

(d) Calculer la statistique W_n,ia(y, x, z, ˆλ0, ˆλ , ˆh, ˆp) ;

(e) Calculer la puissance du test à l’aide des statistiques bootstraps et de la formule (2.22).

3.2 Résultats et interprétation

Cette section est consacrée aux résultats liés aux calculs de la taille et de la puissance. Par ailleurs, pour dériver les puissances et les tailles, nous réalisons 1000 simulations Monte Carlo et 399 tirages bootstraps avec le modèle de base deLi et Racine(2013). Les calculs sont fondés sur les statistiques non standardisées Wn (lissée et non lissée). La simulation est réalisée sur R. Les tirages bootstrap et

le calcul des fenêtres de lissage sont parallélisés sur Colosse (Calcul Québec) à l’aide des fonctions "foreach" et "dopar" des package foreach et doSNOW développés parAnalytics et Weston(2014b,a). En procédant ainsi, nous réduisons considérablement le temps de calcul des simulations. Bien entendu, ce temps est fonction du nombre de nœuds alloués à la parallélisation. Nous avons généralement utilisé entre 24 et 48 processeurs, selon la taille des échantillons.

3.2.1 Estimation de la taille du test

Comme décrit plus haut, le calcul de la taille est basé sur le PGD donné par l’équation (2.1). Les estimations sont faites pour des variables dépendantes polytomiques ordonnées et non ordonnées avec

2. Ce rang sera dans ce cas, soit 1, soit 2, car la probabilité d’obtenir un eide exactement 0 ou 1 est infime.

3. Cette approche est celle utilisée parLi et Racine(2013) et elle est particulièrement utile lorsqu’elle est adaptée au cas des réponses polytomiques.

(33)

un nombre de classe c ∈ {2, 3, 4, 5} et un nombre d’observations n ∈ {200, 300, 400, 500}. Par ailleurs, deux types de modèles paramétriques sont estimés à savoir le probit ordonné et le logit multinomial simple4.

D’après le tableau3.1, les résultats de la simulation montrent que les tailles sont relativement proches de celles attendues avec les statistiques asymptotiques, ce qui révèle que les tests proposés par Fan et al. (2006) et Li et Racine (2013) conservent leurs bonnes propriétés en échantillon fini : ils ne rejettent que rarement l’hypothèse nulle de spécification correct, lorsque le vrai modèle est utilisé pour établir la probabilité conditionnelle en petit échantillon. Par exemple, pour le modèle probit binaire avec n=200, les tailles au seuil de 1% , 5% et 10% sont respectivement 1,8% , 8,0% et 16,5% pour les deux statistiques (lissée et non lissée). Un résultat similaire est obtenu au niveau du modèle logit binaire. Par ailleurs, quel que soit le type de statistique (lissée ou non lissée), la taille du test ne varie presque pas. Ce qui confirme les résultats deLi et Racine(2013). De plus, la taille des deux tests ne s’améliore ni lorsque n croît à nombre égale de modalités, ni quand le nombre c de modalités de la variable dépendante augmente en conservant la taille de l’échantillon fixe.

TABLE3.1: Taille basée sur le modele H0: y∗i = 1 + xi− zi+ uiavec M=1000, B=399 et σu= 1

Probit multinomial ordonné Logit multinomial non ordonné

y lissée y non lissée y lissée y non lissée

n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.018 0.080 0.165 0.018 0.080 0.165 0.026 0.113 0.174 0.026 0.113 0.174 300 2 0.021 0.085 0.158 0.021 0.085 0.158 0.024 0.087 0.152 0.024 0.087 0.152 400 2 0.015 0.070 0.131 0.015 0.070 0.131 0.017 0.091 0.156 0.017 0.091 0.156 500 2 0.020 0.094 0.164 0.020 0.094 0.164 0.018 0.099 0.174 0.018 0.099 0.174 200 3 0.010 0.078 0.147 0.010 0.079 0.146 0.026 0.108 0.181 0.026 0.108 0.181 300 3 0.019 0.075 0.131 0.019 0.075 0.131 0.039 0.107 0.184 0.039 0.107 0.184 400 3 0.015 0.063 0.127 0.015 0.063 0.127 0.027 0.106 0.197 0.027 0.106 0.197 500 3 0.013 0.066 0.127 0.013 0.066 0.127 0.030 0.116 0.200 0.030 0.116 0.200 200 4 0.018 0.080 0.137 0.020 0.078 0.136 0.030 0.116 0.195 0.030 0.116 0.195 300 4 0.014 0.072 0.130 0.014 0.072 0.130 0.037 0.101 0.194 0.037 0.101 0.194 400 4 0.015 0.062 0.122 0.015 0.062 0.122 0.035 0.129 0.210 0.035 0.129 0.210 500 4 0.017 0.075 0.133 0.017 0.075 0.133 0.037 0.127 0.211 0.037 0.127 0.211 200 5 0.014 0.071 0.142 0.014 0.071 0.143 0.028 0.107 0.181 0.028 0.107 0.181 300 5 0.014 0.057 0.110 0.016 0.057 0.110 0.040 0.122 0.204 0.040 0.122 0.204 400 5 0.010 0.071 0.136 0.010 0.071 0.135 0.032 0.119 0.198 0.032 0.119 0.198 500 5 0.008 0.062 0.121 0.008 0.062 0.121 0.047 0.138 0.229 0.047 0.138 0.229

(34)

3.2.2 Estimation de la puissance du test

Le calcul de la puissance est basé sur trois modèles alternatifs proposés parFan et al.(2006) etLi et Racine(2013) comme indiqué dans la section2.1. Dans le tableau3.2, l’alternative sinusoïdale (H1a)

conduit à une puissance minimale de 30% approximativement pour les deux types de modèles (probit ordonné et logit multinomial simple) et pour la grande majorité des seuils critiques. Plus précisément, la probabilité de rejeter H0au seuil de 1% sachant qu’elle est fausse est au minimum de ∼ 30%. Cette

probabilité augmente à ∼ 50% si on accepte d’accroitre le risque de se tromper un peu plus souvent, soit au seuil de 10%. Notons que, lorsque l’on maintient la taille d’échantillon fixe, la puissance du test ne s’accroît pas nécessairement avec le nombre de modalités de la variable réponse. Comme attendu, la puissance s’accroît avec n. Pour ce qui est de la puissance selon le type de statistique utilisée (lissée versusnon lissée), il n’y a pas de gain significatif de puissance pour la statistique lissée. Même si par endroit nous observons des gains de puissance, ceux-ci restent très faibles (de l’ordre de 10−3) au regard de l’aléa attendu.

TABLE3.2: Puissance basée sur le modele DGP H1a : y∗i = 1 + xi− zi+ sin(0, 5πxi) + uiavec M=1000,

B=399 et σu= 1

n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.387 0.546 0.616 0.386 0.546 0.616 0.298 0.483 0.575 0.296 0.479 0.573 300 2 0.484 0.628 0.703 0.483 0.628 0.703 0.381 0.590 0.693 0.377 0.590 0.692 400 2 0.599 0.744 0.804 0.600 0.744 0.804 0.494 0.668 0.746 0.494 0.666 0.746 500 2 0.734 0.838 0.873 0.734 0.838 0.873 0.570 0.751 0.837 0.570 0.751 0.835 200 3 0.406 0.583 0.683 0.407 0.582 0.683 0.298 0.486 0.585 0.299 0.483 0.584 300 3 0.585 0.756 0.818 0.584 0.755 0.817 0.437 0.605 0.695 0.431 0.600 0.695 400 3 0.755 0.869 0.902 0.754 0.869 0.902 0.526 0.743 0.814 0.526 0.743 0.814 500 3 0.835 0.926 0.953 0.835 0.925 0.953 0.656 0.822 0.880 0.656 0.821 0.881 200 4 0.415 0.636 0.735 0.413 0.634 0.734 0.313 0.469 0.558 0.312 0.468 0.554 300 4 0.609 0.769 0.828 0.607 0.768 0.828 0.402 0.599 0.692 0.400 0.597 0.692 400 4 0.769 0.886 0.932 0.769 0.885 0.932 0.557 0.723 0.803 0.550 0.721 0.804 500 4 0.866 0.944 0.966 0.866 0.944 0.966 0.634 0.804 0.868 0.633 0.805 0.869 200 5 0.422 0.612 0.727 0.420 0.609 0.727 0.304 0.441 0.517 0.299 0.440 0.528 300 5 0.617 0.786 0.854 0.614 0.786 0.853 0.406 0.586 0.656 0.402 0.585 0.656 400 5 0.784 0.906 0.938 0.783 0.906 0.938 0.530 0.695 0.780 0.530 0.694 0.781 500 5 0.892 0.962 0.976 0.892 0.961 0.976 0.608 0.774 0.861 0.607 0.774 0.859

Pour l’hypothèse alternative quadratique H1b, le tableau3.3 montre que la puissance du test est

su-périeure à 90% quel que soit le modèle et le type de statistique utilisé pour tester la spécification correcte. Les autres résultats pour ce DGP sont similaires aux résultats obtenus sous H1a. Notons en

(35)

particulier l’absence de gains de puissance en faveur de la statistique lissée.

TABLE3.3: Puissance basée sur le modele DGP H1b : y∗_i = 1 + xi− zi+ x2i + uiavec M=1000, B=399

et σu= 1

n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.934 0.985 0.998 0.934 0.984 0.998 0.836 0.938 0.970 0.834 0.938 0.968 300 2 0.989 0.999 1.000 0.989 0.999 1.000 0.942 0.993 0.998 0.939 0.993 0.998 400 2 0.998 1.000 1.000 0.998 1.000 1.000 0.983 0.997 0.999 0.983 0.997 0.99 500 2 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 1.000 1.000 200 3 0.947 0.994 0.997 0.947 0.993 0.997 0.903 0.966 0.983 0.898 0.963 0.983 300 3 0.995 1.000 1.000 0.995 1.000 1.000 0.976 0.998 1.000 0.975 0.997 1.000 400 3 1.000 1.000 1.000 1.000 1.000 1.000 0.996 1.000 1.000 0.996 1.000 1.000 500 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 4 0.955 0.993 0.998 0.954 0.991 0.998 0.920 0.974 0.992 0.914 0.973 0.988 300 4 0.996 1.000 1.000 0.995 1.000 1.000 0.989 0.998 0.999 0.988 0.998 0.999 400 4 1.000 1.000 1.000 1.000 1.000 1.000 0.999 1.000 1.000 0.999 1.000 1.000 500 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 5 0.965 0.994 0.997 0.964 0.994 0.997 0.911 0.975 0.991 0.902 0.971 0.991 300 5 0.998 1.000 1.000 0.998 1.000 1.000 0.989 1.000 1.000 0.986 0.999 1.000 400 5 1.000 1.000 1.000 1.000 1.000 1.000 0.998 1.000 1.000 0.998 1.000 1.000 500 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Les résultats du test de puissance pour l’alternative hétéroscédastique sont présentés dans le tableau

3.4. On note les mêmes tendances que pour les alternatives quadratiques et sinusoïdales. La puissance est virtuellement unitaire lorsque n est supérieur à 300 et lorsque c est supérieur à 3.

D’après nos analyses, les gains de puissance apportés par la statistique lissée sont donc négligeables. Ces résultats contrastent avec ceux deLi et Racine(2013) qui obtiennent systématiquement des gains de puissance pour la statistique lissée à tous les seuils critiques. Sous l’hypothèse d’absence d’erreur de codage, ces différences pourraient être dues à la variance inférieure du terme stochastique du PGD, supérieure dans nos simulations en comparaison à Li et Racine (2013). Ces auteurs utilisent une variance quatre fois inférieure pour l’erreur normale. Dans ce contexte, nos paramètres de lissage pourraient être sous optimaux comparés à ceux de Li et Racine (2013). Sachant que les variables explicatives de nos modèles sont toutes pertinentes, nous nous attendons à observer peu de surlissage des fenêtres optimales calculées par validation croisée par les moindres carrés. Le tableau3.5donne donc la proportion de paramètres de lissage qui peut être considérée comme excessivement large pour les 1000 simulations de Monte Carlo, en fonction de la taille de l’échantillon et du nombre de modalités de la variable dépendante. Dans ce tableau, nous nous concentrons sur le PGD considéré

(36)

TABLE3.4: Puissance basée sur le modele DGP H1c : y∗i = 1 + xi− zi+ xiuiavec M=1000, B=399 et

σu= 1

n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.877 0.951 0.971 0.876 0.951 0.971 0.781 0.913 0.954 0.778 0.909 0.953 300 2 0.982 0.995 0.998 0.982 0.995 0.998 0.938 0.986 0.992 0.935 0.984 0.990 400 2 0.998 1.000 1.000 0.998 1.000 1.000 0.989 0.998 0.999 0.989 0.997 0.999 500 2 0.998 1.000 1.000 0.998 1.000 1.000 0.996 0.998 1.000 0.996 0.998 1.000 200 3 0.993 0.998 0.998 0.993 0.998 0.998 0.996 0.998 0.998 0.995 0.998 0.998 300 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 400 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 500 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 4 0.997 0.999 0.999 0.997 0.999 0.999 0.999 1.000 1.000 0.998 1.000 1.00 300 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 400 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 500 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 5 0.995 0.998 0.999 0.995 0.997 0.999 1.000 1.000 1.000 1.000 1.000 1.000 300 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 400 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 500 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

sous H1a: plus de 15% des fenêtres de lissage continues (variable x) peuvent être considérées comme

excessivement larges5. Cette proportion peut même être supérieure pour les autres PDG utilisés6. Le surlissage n’est pas un problème avec les variables discrètes réponse et explicative du modèle car il n’y virtuellement pas de surlissage. Cela pourrait vouloir dire que l’accroissement de puissance établi par

Li et Racine(2013) pourrait ne pas avoir la portée générale souhaitée dans les applications pratiques. Si cette explication était plausible, nous devrions probablement constater certaines distorsions de taille et de puissance dans nos simulations par rapport à celles deLi et Racine(2013), dues à une estimation moins performante du modèle non paramétrique. Or, ce n’est pas ce que nous constatons. De plus, des simulations menées7avec la variance utilisée parLi et Racine(2013) ne nous permettent pas non plus de constater les gains de puissance établis par ces auteurs par rapport à la statistique deFan et al.

(2006). Dans notre cas, nous concluons donc que les gains de puissance apportés par le lissage de la variable réponse ne concordent pas avec ceux établis parLi et Racine(2013) et qu’ils mériteraient peut-être d’être confirmés ou infirmés par d’autres simulations.

5. Le seuil informel de ‘surlissage’ du paramètre de lissage est fixé à 0.75nq+41 _{pour la variable continu et à 0.75}c−1

c pour la variable discrète. Ces seuils correspondent aux valeurs asymptotiques définies par le Lemme 2.1.

6. Ces résultats n’ont pas été reportés ici. 7. Ces résultats sont disponibles sur demande.