Initialisation d’un optimisateur - Méthode d'inférence utilisant la vraisemblance empirique bas

Il est commun que les optimisateurs numériques utilisés ne convergent que vers des minimums locaux. Ceci est justement le cas pour la méthode de Nelder-Mead proposée par défaut par la fonction optim en R. Le minimum local trouvé par l’algorithme dépend du vecteur de paramètres initial choisi. Comme le note Andrews(1997), si ce problème est ignoré, notre estimateur perd ses propriétés de consistance et de distribution normale asymptotique. Alors, il faut préférablement initialiser l’optimisateur avec un vecteur appartenant à l’espace de para- mètres Ω et étant le plus près possible des vrais paramètres afin de converger plus facilement vers le minimum global. Ceci n’est pas un enjeu lorsque seulement des données simulées par des paramètres connus sont utilisées, comme c’est le cas lorsque l’efficacité entre deux méthodes d’inférences est étudiée. Avec des données empiriques, il devient important de trouver des méthodes efficaces pour converger vers le minimum global, surtout dans une situation où il y a seulement une intuition limitée sur la valeur des vrais paramètres. Dans cette section-ci, quelques solutions possibles à cet enjeu sont présentées.

Andrews (1997) suggère l’utilisation d’un critère basé sur le test d’adéquation afin de choisir un bon vecteur de param`etres initial, β(0), qui permettra à l’optimisateur numérique de mieux approximer le minimum global. Le vecteur β(0) doit satisfaire

sinon, un autre vecteur initial est choisi. Donc, cela revient à choisir un vecteur initial où les distributions paramétrique et empirique ne sont pas significativement différentes au seuil de 5%. L’optimisateur est appliqué à diff´erents vecteurs β(0) respectant le critère et celui donnant le meilleur résultat est conservé. Si aucun vecteur initial satisfaisant la contrainte n’est trouvé, l’hypothèse nulle du test d’adéquation est généralement rejetée. Luong(2017b) suggère d’inclure le critère4.20 dans la fonction objective4.17, soit

OL(λ, β) = n

∑

i=1 π_i∗(λ, β)ln π∗_i(λ, β) + K 2   n

∑

i=1 π_i∗(λ, β)[g1(xi, β)] !2 +. . . + n

∑

i=1 π_i∗(λ, β)[gr(xi, β)] !2 + H 2 c +2 , o`u c+=max 2KL(π∗(λ, β), p_n) − χ 2 0.95(k−p) n , 0

et H est une constante de pénalité. D’une certaine fa¸con, la nouvelle condition limite la recherche de paramètres à une zone où ils sont jugés plausibles. Cette méthode est utile pour s’assurer de conserver les propriétés de l’estimateur, par contre, il reste qu’il faut encore une approche pour trouver un vecteur initial.

4.4.1 Recherche d’un vecteur initial

Dans cette sous-section, des approches possibles afin de trouver de bons vecteurs initiaux pour un optimisateur numérique sont suggérées. Les deux premières approches sont de type recherche aléatoire. La troisième approche est simple et a une forme analytique.

L’utilisation d’algorithmes de recherche aléatoire est une avenue intéressante pour trouver le minimum global. L’idée de ces algorithmes est de survoler l’espace de paramètresΩ et d’éviter de rester piégé près d’un minimum local. Dans son processus itératif, la méthode simulated annealing présentée dansChong and Zak(2013) est capable de sortir d’une région proche d’un minimum local en choisissant, de temps à autre, des vecteurs de paramètres moins optimaux. Par contre, la rapidité de convergence est affectée par le nombre élevé de paramètres ; dans notre cas, la fonction objective, O(λ, β), en a r+p. La recherche aléatoire peut être limitée

sur le vecteur β et d´eduire le vecteur λ correspondant par les ´equations

π∗(λ, β)0[gj(x, β)] =0, (4.21)

pour j=1, . . . , r. Comme il est mentionné à la sous-section 4.3.2, le vecteur λ est dépendant de β. Les équations4.21sont résolues à l’aide d’un optimisateur classique. Ainsi, cette méthode se résume par les étapes suivantes :

2. Simuler un vecteur ˜β(k) ∈ω

β(k)

et d´eduire ˜λ(k);

3. Le vecteur β(k+1) égale à ˜β(k), et λ(k+1) =λ˜(k), avec une probabilité

pk, O ˜λ(k), ˜β(k)

, Oλ(k), β(k)

et `a β(k), et λ(k+1) = λ(k), avec une probabilit´e

1−pk, O ˜λ(k), ˜β(k)

, Oλ(k), β(k)

;

4. Conserver le meilleur vecteur ; si Oλ(_Meilleurk) , β(_Meilleurk)

> Oλ(k+1), β(k+1)

, alors

β(_Meilleurk+1) =β(k+1)et λ(_Meilleurk+1) = λ(k+1), sinon, β(_Meilleurk+1) = β(_Meilleurk) et λ(_Meilleurk+1) = λ(_Meilleurk) ;

5. Arrêter l’algorithme si un certain critère est satisfait, par exemple, un nombre d’itérations prédéfini ;

6. Retourner `a l’´etape 2 aveck =k+1. L’expression ω

β(k)

repr´esente un sous-ensemble deΩ proche de β(k). Le vecteur al´eatoire e

(k)

peut être simulé à l’aide de lois uniformes ; par exemple, le param`etre σ du modèle de Merton peut être choisi par une loi uniforme définie sur[max(0, σ−0.1), σ+0.1]. Aussi, la probabilité de l’étape 3 est définie par

pk, O ˜λ(k), ˜β(k) , O λ(k), β(k) =min 1, e− O(_λ˜(k)_{, ˜β}(k)₎₋_O₍ λ(k),β(k)) Tk ! , (4.22) o`u Tk = γ log(k+2), γ>0.

L’équation 4.22égale à 1 lorsque O ˜λ(k), ˜β(k)

≤ Oλ(k), β(k)

; donc, le vecteur de para- mètres aléatoire est conservé s’il est meilleur. Toutefois, il a toujours une probabilité que le vecteur aléatoire soit conservé même s’il est moins bon. Cette probabilité diminue lorsque le vecteur β(k) est de plus en plus meilleur. De plus, le facteur Tk rend moins probable le

choix du vecteur aléatoire lorsque le nombre d’itérations atteint est grand. L’idée derrière ce facteur est que l’algorithme puisse survoler l’espaceΩ en début d’itérations et, donc, facilement s’éloigner des minimums locaux. Ensuite, avec un nombre d’itérations grandissant, le facteurTk

augmente les chances que l’algorithme passe plus de temps à explorer les paramètres proches du minimum global. Le param`etre γ est une constante `a ajuster selon les besoins ; plus il est grand, plus l’algorithme choisira le vecteur de paramètres aléatoire. Finalement, cette recherche aléatoire est préférablement utilisée dans une étape préliminaire à l’optimisateur de Nelder-Mead. En effet, le résultat de la méthode simulated annealing procure un vecteur initial potentiellement proche du minimum global.

Dorsey and Mayer (1995) propose l’utilisation de l’algorithme génétique pour l’estimation de paramètres d’un modèle économétrique. Comme pour le cas du simulated annealing, c’est un type de recherche aléatoire et son utilisation est complémentaire à un optimisateur classique. Cette méthode est applicable même si la fonction objective est discontinue et non dérivable.

L’algorithme imite la sélection naturelle telle que décrite par Charles Darwin. En fait, des populations de vecteurs β sont successivement créées o`u chacune de celle-ci hérite, en général, des meilleures caractéristiques de la population précédente. Le processus est brièvement décrit par les étapes suivantes :

1. La première étape consiste à choisir une population initiale dem vecteurs de paramètres, soit G(1) = {β(1), . . . , β(m)}.m doit être pair. Contrairement aux méthodes tradition-

nelles, il n’y a pas qu’un seul point de départ. Cette étape n’est pas répétée par la suite.

2. Ensuite, `a chaque vecteur β(i), une probabilit´e pi qu’il ait une contribution `a la prochaine

génération G(2) est assignée pouri=1, . . . , m. Les probabilités prennent la forme pi = Th−Oλ(i), β(i) i ∑m j=1T h −Oλ(j), β(j) i , i=1, . . . , m,

où T[.]est une fonction positive et monotone croissante. Donc, plus un vecteur minimise la fonction objective, plus elle a de chance de contribuer à la prochaine génération. 3. m vecteurs sont pigés, avec remplacement et avec les probabilités de l’étape précédente,

afin de former H(1)= {β

0₍₁₎

, . . . , β0(m)}. 4. Des paires de vecteurs(β

0₍_d₎

, β0(v))sont choisies au hasard parmiH(1)_{sans remplacement.} Ensuite, un entier I entre 1 et p−1 est choisi aléatoirement. Y étant une réalisation d’une Bernoulli ; si Y=1, (β

0₍_d₎

, β0(v)) est m´elang´e comme suit

β 00₍₁₎ = (β 0₍_d₎ 1 , . . . , β 0₍_d₎ I , β 0₍_v₎ I+1, . . . , β 0₍_v₎ p )0 β 00₍₂₎ = (β 0₍_v₎ 1 , . . . , β 0₍_v₎ I , β 0₍_d₎ I+1, . . . , β 0₍_d₎ p )0; sinon, β00(1)= β 0₍_d₎ et β00(2) =β 0₍_v₎ . Aussi, Pr(Y=1) =ξ.

5. L’étape précédente est répétée jusqu’à ce queH(1)soit vide. Alors,G(2)= {β

00₍₁₎

, . . . , β00(m)}

est obtenu.

6. Pour chacun des m×p paramètres contenus dans G(2)_{, ils sont remplac´}_{es, avec une} probabilit´e γ, par un paramètre tiré au hasard dans Ω. Cette étape correspond à la mutation.

Les étapes 2 à 6 peuvent être répétées un grand nombre de fois. L’algorithme génétique obtient de meilleurs résultats que la méthode simulated annealing dans Dorsey and Mayer(1995).

Une dernière approche pour obtenir un bon vecteur initial s’inspire de la technique pro- posée parSeneta(2004) pour le modèle Variance-Gamma. L’idée est de supposer un paramètre ´

egal à 0 afin de calculer analytiquement les autres par la méthode des moments. Pour le mod`ele de Merton, βMerton = (θ, σ, λ, τ, δ)0, il suffit de poser θ=0 et d’utiliser l’estimation proposée par Press et présentée à la sous-section1.2.3. Similairement pour le modèle de Tsay,

βTsay = (θ, σ, λ, κ, η)0, une estimation analytique est obtenue par les ´equations 4.6, 4.7, 4.8

Dans le document Méthode d'inférence utilisant la vraisemblance empirique basée sur l'entropie pour les modèles de diffusion avec sauts (Page 59-63)