• Aucun résultat trouvé

Les modèles empiriques de l'offre agricole

III. REVUE DE LA LITTERATURE

3.3. Les modèles empiriques de l'offre agricole

Como j´a mencionado anteriormente, a distribui¸c˜ao das r maiores estat´ısticas de ordem (GEVr) ´e utilizada como alternativa a amplamente adotada distribui¸c˜ao de m´aximo, a

distribui¸c˜ao GEV. A distribui¸c˜ao GEVr se torna, assim, uma op¸c˜ao quando se tem mais

do que apenas os m´aximos em blocos, para ent˜ao vir-se a utilizar mais informa¸c˜oes a partir dos dados.

Um dos principais empecilhos para a utiliza¸c˜ao da distribui¸c˜ao GEVr quanto `a mo-

delagem de dados est´a relacionado a escolha do r ´otimo, pois uma vez que a escolha do r seja grande, um aumento no vi´es poder´a ocorrer, al´em da aproxima¸c˜ao para a distribui¸c˜ao GEVr tornar-se fraca, devido `a diminui¸c˜ao da taxa de convergˆencia. J´a se a escolha do r

for pequena, a variˆancia do estimador pode aumentar (SMITH, 1986). Assim, busca-se um r ´otimo, com o objetivo de ter estimadores eficientes para os parˆametros da GEVr, a fim

de obter melhores resultados na caracteriza¸c˜ao dos dados em quest˜ao.

Um dos primeiros trabalhos que introduziram a proposta para escolha do r ´otimo foi elaborado por Smith (1986) e Tawn (1988), no qual utilizaram gr´aficos de probabilidades (PP) para as distribui¸c˜ao marginais para cada r estat´ıstica de ordem em escolha, em busca de avaliar a qualidade dos ajustes.

Uma alternativa a esse crit´erio, sugerida por Tawn (1988), foi utilizar um ajuste por espa¸camentos, estrutura vista em Weissman (1978), que se baseia no seguinte: seja Dn:i

um espa¸co entre a i-´esimo e a (i + 1)-´esimo maior valor de ordem, em uma amostra de tamanho M de uma distribui¸c˜ao com dom´ınio de atra¸c˜ao da distribui¸c˜ao Gumbel. Logo, iDi : i = 1, ..., r − 1 ´e aproximadamente um conjunto de v.a.’s i.i.d com distribui¸c˜ao

exponencial quando M → ∞. A limita¸c˜ao sobre esse m´etodo se d´a pelo fato de ser necess´ario ter conhecimento sobre o dom´ınio de atra¸c˜ao da distribui¸c˜ao.

Dupuis (1997) propˆos um m´etodo de estima¸c˜ao robusto em que s˜ao utilizados pesos para detec¸c˜ao de inconsistˆencias na distribui¸c˜ao GEVr, e proporciona o ajuste dos dados

para o modelo da distribui¸c˜ao conjunta da Gumbel, podendo ser extendido para o modelo geral das distribui¸c˜oes GEVr, por´em ´e computacionalmente custoso.

O m´etodo que ser´a utilizado nesta disserta¸c˜ao para escolha do r ´otimo ter´a como re- ferˆencia o trabalho de Bader, Yan e Zhang (2016), que recentemente propuseram m´etodos para escolha r ´otimo por meio de testes gerais e rigorosos.

O mecanismo utilizado por Bader, Yan e Zhang (2016) baseia-se em avaliar a qualidade do ajuste para a distribui¸c˜ao GEVr, atrav´es de sequˆencias de hip´oteses nulas, isto ´e,

Ho : a ditribui¸c˜ao GEVr ajusta bem a amostra com r estat´ısticas de ordem

para r = 1, ..., R, em que R ´e o m´aximo de estat´ısticas de ordem contidas na amostra para cada bloco M .

Desse modo, foram desenvolvidos dois tipos de teste para analisar a hip´otese Ho(r),

para um valor de r fixo, a fim de assessorar na escolha do r, dentro dos valores r ≥ 1, de maneira que o modelo utilizando a distribui¸c˜ao GEVr ainda descreva adequadamente os

dados.

Os dois tipos de testes s˜ao os seguintes: teste de score; e teste de diferen¸ca de en- tropia. O teste de score foi realizado utilizando duas aproxima¸c˜oes, devido `a quebra das condi¸c˜oes de regularidades apresentadas pela distribui¸c˜ao GEVr. Assim, o m´etodo de

bootstrap param´etrico (computacionalmente custoso) e bootstrap m´ultiplo (mais r´apido computacionalmente) foram propostos como solu¸c˜ao para adequa¸c˜ao do teste. Tais testes s˜ao intuitivos e ser˜ao expostos a seguir.

Seja (xi1, ..., xir), r maiores estat´ısticas de ordem retiradas de um bloco i para i =

1, ..., n. Assumindo independˆencia entre os blocos, a distribui¸c˜ao GEVr ´e usada, ao inv´es

de utilizar a distribui¸c˜ao GEV para m´aximos em blocos, para realizar inferˆencia acerca dos parˆametros de interesse θ = (µ, σ, ξ). Assim, seja l(r)i (θ) = l(r)(x

i1, ..., xir|θ), no qual l(r)(x 1, ..., xr|θ) = −rlogσ −  1 + ξ   xr− µ σ     −1/ξ −   1 ξ+ 1   r X j=1 log  1 + ξ   xj − µ σ    , (2.10)

em que a equa¸c˜ao (2.10) ´e a fun¸c˜ao de log-verossimilhan¸ca para apenas um bloco (x1, ..., xr).

Assim, o estimador de m´axima verossimilhan¸ca para θ utilizando as r maiores estat´ısticas de ordem seria ˆθ(r)n = arg max Pni=1l(r)i (θ).

2.3.2.1 Teste de Score

A estat´ıstica de score para testar a qualidade do ajuste de uma hip´otese H0(r) ´e cons- tru´ıda de maneira usual com a fun¸c˜ao score e a matriz de informa¸c˜ao de Fisher. Para facilitar a nota¸c˜ao, ser´a retirado o sobrescrito r. Dessa forma, a fun¸c˜ao Score ´e dada por

S(θ) = n X i=1 Si(θ) = n X i=1 ∂li(θ)/∂θ

e a matriz de informa¸c˜ao de Fisher sendo I(θ), que pode ser vista no apˆendice do trabalho de Tawn (1988).

O mesmo comportamento encontrado no estimador de m´axima verossimilhan¸ca para a distribui¸c˜ao GEV de m´aximos pode ser observado na distribui¸c˜ao GEVr, que exige

ξ > −0.5.

A estat´ıstica de Score ´e dada, ent˜ao, por:

Vn =

1 nS

>θ

n)I−1(ˆθn)S(ˆθn).

Sob condi¸c˜oes de regularidades, Vnseguiria assintoticamente uma distribui¸c˜ao χ2 com

3 graus de liberdade. No entanto, a distribui¸c˜ao GEVr viola as condi¸c˜oes de regularidades

para o teste de score, por causa do seu suporte que depende dos valores de seus parˆametros, a menos que ξ = 0. Bader, Yan e Zhang (2016) realizaram uma compara¸c˜ao gr´afica da distribui¸c˜ao de Vn, com n = 5000 de 5000 r´eplicas, sobreposta com a distribui¸c˜ao χ2(3),

para ξ ∈ {−0.25, 0.25} e r ∈ {1, 2, 5}. Conclui-se que a distribui¸c˜ao amostrada Vn possui

uma cauda mais pesada em rela¸c˜ao a χ2(3), aumentando o desajuste ao passo que o r

aumenta.

Embora n˜ao sendo v´alida as condi¸c˜oes de regularidades, a estat´ıstica de score fornece uma medida de ajuste, uma vez que ´e uma forma quadr´atica do score, que tem esperan¸ca zero sob a hip´otese nula. Valores muito altos de Vnem rela¸c˜ao a sua distribui¸c˜ao amostrada

sugerem falta de ajuste e, portanto, poss´ıvel especifica¸c˜ao incorreta de H0(r). Assim, para aplicar o teste de score ´e necess´ario obter uma aproxima¸c˜ao da distribui¸c˜ao amostrada Vn.

Bader, Yan e Zhang (2016) propuseram duas abordagens para a aproxima¸c˜ao: bootstrap param´etrico e bootstrap m´ultiplo. Segue abaixo detalhes desses m´etodos.

Bootstrap Param´etrico

Para a hip´otese H0(r), o procedimento do teste ´e o seguinte:

1. Calcule ˆθn sob H0 com os dados observados;

2. Calcule a estat´ıstica de teste Vn;

3. Para cada k ∈ {1, ..., L} com um n´umero L grande, repita:

(a) Gerar uma amostra de bootstrap de tamanho n para as r maiores estat´ısticas a partir de uma distribui¸c˜ao GEVr com vetor de parˆametro ˆθn;

(c) Calcule a estat´ıstica de teste score Vn .

4. Retornar um aproximado valor-p de Vn como L−1

PL

k=11(V

(k)

n > Vn).

Logo, a abordagem do bootstrap param´etrico envolve a amostragem a partir da dis- tribui¸c˜ao da hip´otese nula e calcula o estimador de m´axima verossimilhan¸ca para cada amostra do bootstrap, que poder´a ser computacionalmente custoso. Especialmente, a me- dida que aumenta o tamanho da amostra n, e/ou o aumento no n´umero de estat´ısticas de ordem r inclu´ıdas no modelo.

Bootstrap M´ultiplo

O bootstrap m´ultiplo ´e uma alternativa mais r´apida em rela¸c˜ao ao bootstrap para- m´etrico, em teste de bondade do ajuste. A id´eia ´e aproximar a distribui¸c˜ao assint´otica de n−1/2I−1/2(θ)S(θ) utilizando sua representa¸c˜ao assint´otica

n−1/2I−1/2(θ)S(θ) = √1 n n X i=1 φi(θ),

em que φi(θ) = I−1/2Si(θ). Assim, sua distribui¸c˜ao assint´otica ´e a mesma que a distribui-

¸c˜ao assint´otica de Wn(Z, θ) = 1 √ n n X i=1 (Zi− ¯Z)φi(θ),

condicionando os dados observados, em que Z = (Z1, ..., Zn) ´e um conjunto de multipli-

cadores independentes e identicamente distribu´ıdos (independente dos dados) com espe- ran¸ca 0 e variˆancia 1, e ¯Z = n1 Pn

i=1Zi. Os multiplicadores devem satisfazer

R∞

0 {P (|Z1| >

x)}1/2dx < ∞. Um exemplo de uma poss´ıvel distribui¸c˜ao para o multiplicador ´e a distri-

bui¸c˜ao N (0, 1).

O teste de bootstrap m´ultiplo ´e realizado da seguinte forma:

1. Calcule ˆθn sob H0 com os dados observados;

2. Calcule a estat´ıstica de teste Vn;

3. Para cada k ∈ {1, ..., L} com um n´umero L grande, repita:

(a) Gerar Z(k) = (Z1(k), ..., Zn(k)) a partir da distribui¸c˜ao N (0, 1);

(c) Calcule Vn(k)(ˆθn) = Wn>(Z (k)

, ˆθn)Wn(Z(k), ˆθn);

4. Retornar um aproximado valor-p de Vn como L−1

PL

k=11(V

(k)

n > Vn).

Este procedimento ´e mais r´apido que o procedimento do bootstrap par´ametrico, dado que para cada amostra ele s´o precisa gerar Z e calcular Wn(Z, θ). Assim, o estimador de

m´axima verossimilhan¸ca s´o precisa ser obtido uma vez a partir dados observados.

2.3.2.2 Teste de diferen¸ca de entropia

Outro teste para especifica¸c˜ao de um modelo para distribui¸c˜ao GEVr´e proveniente da

diferen¸ca de entropia para os modelos da GEVr e GEVr−1. A entropia para uma vari´avel

aleat´oria cont´ınua com densidade f ´e a seguinte:

E[−lnf (y)] = − Z ∞

−∞

f (y)logf (y)dy,

no qual essencialmente, ´e a esperan¸ca da log-verossimilhan¸ca negativa. A esperan¸ca pode ser aproximada com a m´edia amostral da contribui¸c˜ao para a log-verossimilhan¸ca dos dados observados ou, simplesmente, o log-verossimilhan¸ca escalonada pelo tamanho da amostra n.

Supondo que a estat´ıstica de ordem r − 1 ajusta a distribui¸c˜ao GEVr−1, a diferen¸ca na

log-verossimilhan¸ca entre GEVr−1e GEVrfornece uma medida de desvio de H (r)

0 , podendo

ser encontrada sua distribui¸c˜ao assint´otica. Grandes desvios da diferen¸ca esperada sob H0(r) sugerem uma poss´ıvel especifica¸c˜ao incorreta de H0(r).

A partir da fun¸c˜ao de log-verossimilhan¸ca em (2.10), a diferen¸ca na log-verossimilhan¸ca para o ith bloco, Yir(θ) = l

(r) i − l (r−1) i , ´e Yir(θ) = −logσ −  1 + ξ   xir− µ σ     −1/ξ +  1 + ξ   xir−1− µ σ     −1/ξ −   1 ξ+ 1  log  1 + ξ   xir− µ σ    . Seja ¯Yr = n1Pni=1Yir e SY2r = Pn i=1(Yir− ¯Yr)

2/(n − 1), a m´edia amostral e a variˆancia

amostral, respectivamente. Considere a vers˜ao padronizada de ¯Yr como

Tn(r)(θ) =

em que ηr = logσ − 1 + (1 + ξ)ψ(r), e ψ(x) = d logΓ(x)/dx ´e a fun¸c˜ao digama. A

distribui¸c˜ao assint´otica de Tn(r) ´e dada pelo Teorema 2.3.3 a seguir.

Teorema 2.3.3. Seja Tn(r) uma quantidade calculada com base em uma amostra aleat´oria

de tamanho n da distribui¸c˜ao GEVr com o vetor de parˆametros θ e assumido que H (r−1) 0

´e verdadeira. Logo, Tn(r) converge em distribui¸c˜ao para N (0, 1) com n → ∞.

A prova do teorema encontra-se no apˆendice 2 de Bader, Yan e Zhang (2016). Ob- servando que no Teorema 2.3.3, Tn(r)´e calculado de uma amostra aleat´oria de tamanho n

de uma distribui¸c˜ao GEVr. Se a amostra aleat´oria for de uma distribui¸c˜ao com dom´ınio

de atra¸c˜ao de uma distribui¸c˜ao GEV, a qualidade da aproxima¸c˜ao da distribui¸c˜ao GEVr

para as r maiores estat´ısticas de ordem depender´a do tamanho de cada bloco B → ∞ com r  B. O tamanho do bloco B n˜ao deve ser confundido com o tamanho da amostra n.

Dessa maneira, assumindo ξ > −0.5, a estat´ıstica de diferen¸ca de entropia proposta para H0(r) ´e Tn(r)(ˆθn), no qual ˆθn ´e o estimador de m´axima verossimilhan¸ca de θ com

r estat´ısticas de ordem para a distribui¸c˜ao GEVr. Como ˆθn ´e consistente para θ com

ξ > −0.5, Tn(r)(ˆθn), tem a mesma distribui¸c˜ao limite de T (r)

n (θ) sob H0(r).

Nesta disserta¸c˜ao, foram utilizados os dois tipo de teste, cada um foi aplicado de acordo com as conclus˜oes obtidas em Bader, Yan e Zhang (2016), em que na Se¸c˜ao 5 do seu artigo, as simula¸c˜oes evidenciam para quais tamanho de amostras cada teste melhor se adequa.

Por conseguinte, tem-se que o teste de Score, com o procedimento bootstrap para- m´etrico, ´e mais apropriado para amostras pequenas, menor que 50 observa¸c˜oes. J´a o procedimento bootstrap m´ultiplo, uma alternativa mais r´apida comparada ao bootstrap param´etrico, ´e mais adequado quando h´a amostras maiores que 100, e parˆametro ξ ≥ 0. Por fim, o teste de diferen¸ca de entropia fundamenta-se em amostras de tamanho 50 ou maior que, para que as condi¸c˜oes do teste sejam satisfeitas.

Para testar uma quantidade fixa de r maiores estat´ısticas de ordem, ser´a necess´ario tomar R hip´oteses nulas Ho(r), r = 1, ..., R, como j´a mencionado. Nessas sequˆencias m´ulti-

plas de testes, aparecer˜ao problemas quanto aos erros de rejei¸c˜ao equivocada da hip´otese nula, assim ´e necess´ario tomar cuidado para controle desses erros. O trabalho recente de G’Sell et al. (2016) desenvolve t´ecnicas que avaliam tais erros, chamados de FWER (familywise error rate) e FDR (false discovery rate), em que Bader, Yan e Zhang (2016) incorporam essas estruturas de avalia¸c˜ao de erros em seu modelo.

Considere uma sequˆencia de hip´oteses nulas H1, ...., Hm. Um procedimento de teste

ordenado deve rejeitar H1, ...., Hk para alguns k ∈ {0, 1, ..., m}, em que exclui os m´eto-

dos cl´assicos de controle FDR (BENJAMINI; HOCHBERG, 1995). Seja p1, ..., pm ∈ [0, 1] os

correspondentes valores-p das m hip´oteses, tais que pj ´e uniformemente distribu´ıdo em

torno de [0,1] quando Hj ´e verdadeira. Os m´etodos de G’Sell et al. (2016) transformam a

sequˆencia de valores-p numa sequˆencia mon´otona e depois aplicam o procedimento original de Benjamini-Hochberg na sequˆencia mon´otona.

Assim, eles propuseram duas regras de rejei¸c˜ao, cada uma retornando um corte ˆk tal que H1, ...., Hk s˜ao rejeitadas. A primeira ´e chamada de ForwardStop

ˆ kF = max ( k ∈ {1, ..., m} : −1 k k X i=1 log(1 − pi) ≤ α ) ,

enquanto a segunda ´e chamada de StrongStop

ˆ kS = max ( k ∈ {1, ..., m} : exp m X j=k log pj j ! ≤ αk m ) ,

em que α ´e um n´ıvel pr´e-especificado. Ambas as regras s˜ao utilizadas para controlar o FDR no n´ıvel α sob a suposi¸c˜ao de independentes valores-p.

A ForwardStop define o limiar de rejei¸c˜ao no maior k no qual a m´edia dos primeiros k valores-p transformados ´e suficientemente pequena. Como ele n˜ao depende desses valores-p com ´ındices posteriores, essa regra ´e robusta `a poss´ıvel especifica¸c˜ao incorreta em ´ındices posteriores. A StrongStop oferece uma garantia mais forte do que ForwardStop. Se os valores-p n˜ao nulos precederem de fato os valores-p nulos, ele controla o FWER a n´ıvel α, e tamb´em o FDR.

Assim, para a ForwardStop, o α refere-se ao FDR e para StrongStop, α refere-se ao FWER. Como a decis˜ao de parar em k depende de todos os valores-p ap´os k, seu poder pode ser prejudicado se, por exemplo, os ´ultimos valores-p forem ligeiramente mais altos do que o esperado sob as hip´oteses nulas.

Para aplicar as duas regras ao modelo proposto por Bader, Yan e Zhang (2016), no- tando que o objetivo seria dar um limiar ˆr tal que o primeiro ˆr de m = R hip´oteses sejam aceitas em vez de rejeitadas. Desse modo, eles colocaram os valores-p em ordem inversa: seja o conjunto ordenado de p-valores {p1, ..., pR} correspondentes as hip´oteses

{H0(R), ...., H0(1)}. As duas regras d˜ao um corte ˆk ∈ {1, ..., R} tal que as hip´oteses

¸c˜ao ´e feita.

Bader, Yan e Zhang (2016) ressaltam que ao contr´ario da configura¸c˜ao de G’Sell et al. (2016), os valores-p dos testes seq¨uenciais s˜ao dependentes. No entanto, os procedimentos ForwardStop e StrongStop ainda podem fornecer algum controle de erro. Por exemplo, no cen´ario de testes m´ultiplos n˜ao sequenciais, Benjamini e Yekutieli (2001) mostraram que seu procedimento controla o FDR sob determinadas condi¸c˜oes de dependˆencia positiva, en- quanto Blanchard e Roquain (2009) implementaram vers˜oes adaptativas de procedimentos step-up que controlam de forma prov´avel o FDR sob dependˆencia n˜ao especificada entre os valores de p.

Na Se¸c˜ao 6 do trabalho de Bader, Yan e Zhang (2016) s˜ao realizadas simula¸c˜oes para investigar as propriedades emp´ıricas das duas regras para os testes. Em resumo, se o n´umero de testes (R), ou seja, o n´umero de hip´oteses nulas, para cada valor de r for grande, ´e indicado utilizar resultados com ajustes disignados como procedimentos ForwardStop e StrongStop, para avaliar as hip´oteses em quest˜ao. J´a se R ´e pequeno, n˜ao se faz necess´ario usar tais ajustes para an´alise dos testes de hip´oteses.

Para mais detalhes quanto ao procedimento de escolha do r abordado nessa se¸c˜ao, recomenda-se o artigo base Bader, Yan e Zhang (2016) para utiliza¸c˜ao desse crit´erio.

3

An´alise de ponto de mudan¸ca

Documents relatifs