• Aucun résultat trouvé

Chapitre 2 L’argumentation dans le roman : fondements et finalités . 43

2. La typologie des arguments

2.2 Les types des arguments

2.2.2 Le pathos

O termo P-spline foi pela primeira vez introduzido por Eilers e Marx(1992), para designar as fun¸c˜oes B-spline com penaliza¸c˜ao num contexto de ajuste de curvas. Neste contexto, a fun¸c˜ao n˜ao linear m(.) era aproximada, supondo que o efeito da covari´avel X podia ser descrito por uma fun¸c˜ao spline, escrita em termos de uma combina¸c˜ao linear de fun¸c˜oes de base B-spline, com n´os igualmente espa¸cados, penalizando as diferen¸cas entre coeficientes de regress˜ao consecutivos. Tal facto conduz a uma contrac¸c˜ao dos coeficientes bq, q = 1, . . . , Q, em direc¸c˜ao a zero ou `a

penaliza¸c˜ao de diferen¸cas muito acentuadas entre parˆametros consecutivos. Em (Eilers e Marx,

1996) ´e feito o desenvolvimento mais aprofundado desta metodologia. Ruppert et al. (2003) desenvolvem uma abordagem alternativa baseada em fun¸c˜oes potˆencia truncadas, com n´os n˜ao igualmente espa¸cados e uma penaliza¸c˜ao das cristas. Devido ao aumento da popularidade de ambas as abordagens, o termo P-spline pode tornar-se confuso numa abordagem inicial do problema, pois n˜ao evidencia qual a base de fun¸c˜oes e o tipo de penaliza¸c˜ao, por isso Eilers e Marx(2010) sugerem o uso de PB-spline e PT-spline, para as fun¸c˜oes B-spline com penaliza¸c˜ao e para as TPF com penaliza¸c˜ao, respectivamente. Para uma discuss˜ao aprofundada relativamente `

as diferen¸cas e semelhan¸cas entre ambos os m´etodos pode consultar-se Eilers e Marx(2010). A ideia por tr´as desta abordagem ´e conceptualmente simples. J´a vimos que a fun¸c˜ao desco- nhecida, m(x), pode ser aproximada atrav´es de uma combina¸c˜ao linear de fun¸c˜oes de base com suporte local, B-splines. A utiliza¸c˜ao de uma base de fun¸c˜oes de dimens˜ao reduzida revela-se, frequentemente, pouco flex´ıvel, obrigando a uma escolha muito cuidada dos n´os. Esta dificul- dade levou a que se considerassem bases com uma dimens˜ao elevada, assegurando que o n´umero de fun¸c˜oes seja o bastante para permitir flexibilidade suficiente na forma da fun¸c˜ao estimada. Contudo, a dimens˜ao elevada da base conduz-nos a problemas de sobreajustamento. Para se evitar tal facto, os coeficientes das fun¸c˜oes que constituem a base s˜ao penalizados, por forma a obrigar a que a fun¸c˜ao estimada seja mais suave.

Seja B a matriz das Q fun¸c˜oes de base B-spline avaliadas nos pontos xi, i = 1, . . . , N , tal

como visto em (II-5.8). Do ponto de vista frequencista, a fun¸c˜ao objectivo para o ajuste atrav´es de fun¸c˜oes PB-spline ´e dada pelo crit´erio de m´ınimos quadrados penalizados

min

b ky − Bbk 2+ 1

τ2k∆

dbk2, (5.10)

onde ∆d de dimens˜ao (Q − d) × Q ´e a matriz das diferen¸cas de ordem d e τ2 ´e o parˆametro suavizador que controla a quantidade de penaliza¸c˜ao. Com efeito, esta forma penaliza desvios da curva ajustada relativamente a um polin´omio de grau d − 1 (Eilers e Marx,1996), uma vez que a derivada de ordem d das fun¸c˜oes B-spline depende, essencialmente, das diferen¸cas de ordem d.

Brezger e Lang(2006) e socorre-se de passeios aleat´orios, de 1aou de 2a, ordem como substitutos naturais das penaliza¸c˜oes relativas `as diferen¸cas entre coeficientes bq adjacentes e que assegu-

ram a suavidade da fun¸c˜ao. O procedimento ´e baseado numa distribui¸c˜ao a priori gaussiana homosced´astica para as diferen¸cas de ordem d, ∆db, dos coeficientes, b, das fun¸c˜oes B-spline, isto ´e:

∆db ∼ N (0, τ2IQ−d), (5.11)

resultando que,

bj = bj−1+ uj, j = 2, . . . , Q, (5.12)

no caso de um passeio aleat´orio de ordem 1, e que

bj = 2bj−1− bj−2+ uj, j = 3, . . . , Q, (5.13)

no caso de um passeio aleat´orio de ordem 2. Em ambos os casos uj ∼ N (0, τ2). S˜ao ainda

supostas distribui¸c˜oes a priori difusas para π(b1) ∝ constante no caso do passeio aleat´orio de

ordem 1 e π(b1), π(b2) ∝ constante para um passeio aleat´orio de ordem 2. Alternativamente,

(II-5.12) e (II-5.13) podem ser escritas como

bj|bj−1∼ N (bj−1, τ2) e bj|bj−1, bj−2 ∼ N (2bj−1− bj−2, τ2), (5.14)

respectivamente. Valores elevados da variˆancia τ2 correspondem a curvas estimadas mais “rugo- sas”, enquanto que valores baixos correspondem a curvas estimadas mais suaves. A distribui¸c˜ao para este parˆametro ´e uma gama inversa, π(τ2) ∼ GI(α, β). Uma escolha bastante comum

´e α = β = 0.001, o que corresponde a uma distribui¸c˜ao a priori n˜ao informativa, vaga mas pr´opria.

A suposi¸c˜ao de um parˆametro global de variˆancia, τ2, poder´a ser inapropriada. Por exem- plo, no caso de fun¸c˜oes muito oscilantes numa parte e pouco oscilantes noutra, pode tornar-se necess´ario introduzir uma penaliza¸c˜ao local. Em tais situa¸c˜oes poder´a ser utilizada uma distri- bui¸c˜ao a priori alternativa, nomeadamente aquela que considera maiores penaliza¸c˜oes em ´areas de pequena varia¸c˜ao e menores penaliza¸c˜oes em zonas de maior curvatura ou de descontinuidades, o que significa que esta distribui¸c˜ao dever´a ter uma moda em 0, por um lado, mas cauda pesada, por outro. Uma candidata promissora ´e a distribui¸c˜ao Norma-Exponencial-Gamma (Griffin e Brown, 2007) que combina as propriedades desejadas, com conveniˆencia computacional, num modelo bayesiano hier´arquico.

A distribui¸c˜ao conjunta dos coeficientes b ´e uma distribui¸c˜ao gaussiana multivariada (impr´opria), cuja distribui¸c˜ao a priori conjunta ´e

π b|τ2 ∝ exp  − 1 2τ2b > Pb  , (5.15)

5.2 Aplica¸c˜ao

apropriada, dada por P = D>D, sendo que D ´e a matriz (Q − d) × Q das diferen¸cas de ordem d. Este facto explica a equivalˆencia entre a aproxima¸c˜ao bayesiana e aquela obtida atrav´es da maximiza¸c˜ao da verosimilhan¸ca penalizada (Brezger e Lang,2008).

No caso de um passeio aleat´orio de ordem 1, por exemplo, a matriz P ´e dada por

D>D =          −1 1 −1 . .. . .. . .. 1 −1 1          ×          −1 1 −1 1 . .. . .. . .. −1 1 −1 1          =          1 −1 −1 2 −1 . .. . .. . .. −1 2 −1 −1 1          = P (5.16)

ou, no caso de um passeio aleat´orio de ordem 2, a matriz P ´e dada por

D>D =               1 −2 1 1 −2 1 . .. . .. . .. 1 −2 1 1 −2 1               ×          1 −2 1 1 −2 1 . .. . .. . .. 1 −2 1 1 −2 1          =            1 −2 1 1 −4 6 −4 1 . .. . .. . .. 1 −4 6 −4 1 1 −4 5 −2 1 −2 1            = P. (5.17)

A matriz P n˜ao ´e de caracter´ıstica completa. No caso de diferen¸cas de ordem d = 2, a caracter´ıstica ´e Q − 2. Por isso, (II-5.15) tem a forma de uma distribui¸c˜ao normal singular, sendo, portanto, impr´opria. Contudo, a distribui¸c˜ao a posteriori ´e pr´opria (Brezger e Lang,

2008).

5.2

Aplica¸c˜ao

Nesta sec¸c˜ao iremos apresentar um modelo conjunto onde o biomarcador longitudinal CD4 ser´a modelado usando uma base de fun¸c˜oes B-spline c´ubicas com penaliza¸c˜ao. Devido `as dificul- dades encontradas no processo de ajustamento do modelo, nomeadamente no que concerne ao tempo computacional, reduzimos o n´umero de indiv´ıduos. Dos 4653 iniciais, descritos na sec¸c˜ao

II-2, pass´amos para 500, tendo o cuidado de manter as mesmas propor¸c˜oes que a´ı foram referi- das. Al´em disso, n˜ao foi inclu´ıda qualquer fragilidade espacial ou frac¸c˜ao de cura no submodelo de sobrevivˆencia.

5.2.1 Modelo longitudinal

Consideremos que o verdadeiro valor de √CD4 (biomarcador longitudinal) do i-´esimo in- div´ıduo no instante t, yi∗(t), ´e bem aproximado pelo modelo (II-5.3) com r = 1, ao qual adicio-

namos uma ordenada na origem comum, β10, e uma individual, bi0, ou seja,

yi∗(t) = m1i(X1i) + zi>β1+ (β10+ bi0), (5.18)

onde m1i(.) ´e a fun¸c˜ao que vai ser estimada atrav´es de fun¸c˜oes B-spline c´ubicas com penaliza¸c˜ao

de ordem 2, utilizando passeios aleat´orios de 2a ordem que penalizam as diferen¸cas entre os coeficientes das fun¸c˜oes B-Spline, X1i representa uma covari´avel longitudinal, que neste caso

ser´a substitu´ıda pelo tempo, t, zi´e um vector de s covari´aveis observadas e β1>= (β11, . . . , β1s)

´e o respectivo vector de coeficientes de regress˜ao. Por simplicidade, vamos omitir o ´ındice 1 da nota¸c˜ao da fun¸c˜ao m, porque vamos utilizar uma ´unica fun¸c˜ao.

A fun¸c˜ao mi(t) pode ser dividida em duas partes. Uma parte fixa, respeitante `a popula¸c˜ao,

e uma parte aleat´oria, respeitante a cada indiv´ıduo. Assim,

mi(t; β2, bi, p) = Q

X

q=1

(β2q+ biq)Bq(t; p), (5.19)

onde Q representa o n´umero de fun¸c˜oes B-spline, β2>= (β21, β22, . . . , β2Q) ´e o vector dos efeitos

da popula¸c˜ao e b>i = (bi1, bi2, . . . , biQ) ´e o vector dos efeitos individuais. O parˆametro p pode

agora ser exclu´ıdo da nota¸c˜ao, uma vez que nos cingiremos ao caso p = 3, isto ´e, a B-splines c´ubicas. Em suma, o valor esperado do marcador longitudinal no instante t dados os efeitos aleat´orios e as covari´aveis de base, assume a forma

E [yi(t|bi, bi0)] = mi(t; β2, bi) + z>i β1+ (β10+ bi0) = Q X q=1 (β2q+ biq)Bq(t) + zi>β1+ (β10+ bi0). (5.20)

O n´umero de n´os que utilizaremos para definir as fun¸c˜oes B-spline ser´a fixo. Testaremos v´arios cen´arios, sendo que o n´umero seleccionado ser´a baseado no valor do DIC. Em particular, fixare- mos n´os a cada 2 meses, o que far´a um total de 30 n´os (relembre-se que a nossa base de dados abrange um per´ıodo de 5 anos), a cada 3 meses (resultando num total de 20 n´os), a cada 4 meses (resultando num total de 15 n´os) e a cada 6 meses (perfazendo um total de 10 n´os).

Continuaremos a utilizar aqui as mesmas covari´aveis de base j´a anteriormente utilizadas nos cap´ıtulosII-3eII-4, nomeadamente sexo, idade.int e IOPrev. Por fim, o modelo longitudinal PB-spline (II-5.20) assumir´a ent˜ao a forma

E [yi(t|bi, bi0)] = Q

X

q=1

(β2q+ biq)Bq(t) + (β10+ bi0)+

5.2 Aplica¸c˜ao

5.2.2 Modelo de sobrevivˆencia

A forma para ligar o modelo de sobrevivˆencia ao modelo longitudinal, nestes modelos, inici- almente denotados por modelos D (vide tabela1.1), n˜ao utilizar´a a partilha dos efeitos aleat´orios entre os submodelos, pois a utiliza¸c˜ao de splines num modelo longitudinal impede uma inter- preta¸c˜ao pr´atica desses mesmos efeitos aleat´orios (Rizopoulos e Ghosh,2011). Por isso, iremos utilizar aqui a parametriza¸c˜ao mais tradicional dos modelos conjuntos. O valor da traject´oria do marcador longitudinal CD4 no instante t, y∗i(t), ser´a introduzido no modelo de riscos relativos como uma covari´avel dependente do tempo. Portanto, a fun¸c˜ao de risco (relativo) dada a medida longitudinal ´e expressa como

hi(t|y∗i(t)) = h0(t) exp{z>i β3+ γyi∗(t)}, (5.22)

onde z>i ´e um vector de covari´aveis de base, que neste caso vai coincidir com as utilizadas no modelo longitudinal, β3 ´e o respectivo vector de parˆametros que liga as covari´aveis de base ao

risco de falha e γ ´e um parˆametro que quantifica directamente o efeito do processo longitudinal no risco de evento.

Documents relatifs