• Aucun résultat trouvé

3 Etude exploratoire

3.3 Mise en place d’un effet raidisseur

A chave para que um modelo seja corretamente ajustado ´e a constru¸c˜ao de uma base de dados apropriada `as suas especificidades. Deste modo, a orga- niza¸c˜ao da base de dados ´e uma etapa fundamental na aplica¸c˜ao de qualquer modelo, que por vezes pode revelar-se desafiante na an´alise de dados mais complexos, como acontece no caso em que se regista mais do que um aconte- cimento para um mesmo indiv´ıduo. Assim sendo, antes de implementar cada um dos modelos marginais ´e preciso perceber de que forma a base de dados deve ser organizada.

Em qualquer modelo marginal, a constru¸c˜ao da base de dados ´e feita de forma a que cada entrada/linha diga respeito a um tempo observado, ao qual ´e necess´ario fazer corresponder um indiv´ıduo. Para al´em disso, ´e pre- ciso indicar se esse tempo foi ou n˜ao censurado e, ainda, a ordem pela qual este foi registado para aquele indiv´ıduo em quest˜ao. O registo da ordena¸c˜ao dos tempos observados deve de ser efetuado com imenso cuidado, uma vez que essa vari´avel ser´a utilizada como vari´avel de estratifica¸c˜ao nos modelos que consideram uma fun¸c˜ao de risco subjacente espec´ıfica para cada aconte- cimento. Posto isto, tamb´em ´e importante proceder ao registo de todas as covari´aveis que se julgue poderem vir a afetar o tempo at´e a ocorrˆencia de cada um dos acontecimentos.

A constru¸c˜ao da base de dados adequada a cada modelo marginal di- fere essencialmente na forma como se regista os tempos observados. Quando se definiu formalmente estes modelos enfatizou-se para o facto dos mode- los PWP-CP (3.1) e WLW (3.4), bem como dos modelos AG (3.3) e LWA (3.5), terem fun¸c˜oes de risco semelhantes. Foi ent˜ao referido que a grande diferen¸ca entre estes modelos est´a na formula¸c˜ao do intervalo de risco que

cada um considera, o que consequentemente ter´a influˆencia na forma como os tempos devem ser registados. Para perceber facilmente como ´e que esse registo se processa em cada uma das formula¸c˜oes, considere-se o exemplo que se segue. Suponha-se que um dado indiv´ıduo come¸cou a ser seguido no instante 0 e sofreu acontecimentos m´ultiplos instantˆaneos nos instantes t1 e t2, acabando por ser censurado em t3. Os tempos observados deste indiv´ıduo, ou seja, os seus intervalos de risco, devem ser registados tal como se encontra indicado na Tabela 4.3.

Tabela 4.3: Influˆencia da formula¸c˜ao do intervalo de risco na constru¸c˜ao da base de dados.

Processo de contagem Tempo por intervalos Tempo total (0, t1] (0, t1] (0, t1] (t1, t2] (0, t2− t1] (0, t2] (t2, t3] (0, t3− t2] (0, t3]

Qualquer que seja a formula¸c˜ao adotada, o registo dos tempos observados deve ser feito indicando o instante de entrada do indiv´ıduo no conjunto de risco e o instante em que ocorreu o acontecimento de interesse ou a sa´ıda do estudo. Alternativamente, quando se considera as formula¸c˜oes tempo por intervalos ou tempo total, pode-se registar apenas as amplitudes dos interva- los de risco, uma vez que nestas formula¸c˜oes os instantes iniciais mantˆem-se constantes. Note-se que, em todos os casos, um indiv´ıduo encontra-se em risco para o primeiro acontecimento no intervalo (0, t1], aspeto este que j´a havia sido referido na sec¸c˜ao 3.3.1.

Voltando ao conjunto de dados que foi simulado na sec¸c˜ao anterior (dados1), o qual se encontra representado na Tabela 4.1, constata-se que este foi constru´ıdo por interm´edio das formula¸c˜oes processo de contagem (ver colunas start e stop) e tempo por intervalos (ver coluna time). Deste modo, esta base de dados j´a se encontra em condi¸c˜oes para que os modelos PWP-CP, PWP-GT e AG, possam ser implementados.

Embora numa r´apida leitura da base de dados1 n˜ao seja poss´ıvel verificar a formula¸c˜ao tempo total, esta tamb´em se encontra presente neste conjunto de dados. Ao examinar com melhor aten¸c˜ao a Tabela 4.3, verifica-se que a partir de qualquer uma das formula¸c˜oes do intervalo de risco ´e poss´ıvel obter as outras duas. Para al´em disso, comparando as formula¸c˜oes processo de contagem e tempo total, chega-se `a conclus˜ao que os instantes finais dos respetivos intervalos de risco s˜ao os mesmos. Como a formula¸c˜ao tempo total permite que seja registada a amplitude dos intervalos de risco e, neste caso,

os instantes iniciais s˜ao todos iguais a 0, a coluna stop pode ser vista como o tempo decorrido desde o in´ıcio do estudo at´e `a ocorrˆencia do acontecimento de interesse ou `a censura. Por outras palavras, a coluna stop por si s´o repre- senta a formula¸c˜ao tempo total.

Ap´os identificar a formula¸c˜ao do intervalo de risco que ser´a utilizada nos modelos WLW e LWA, ´e necess´ario referir que para estes modelos a cons- tru¸c˜ao da base de dados realiza-se de forma diferente. A raz˜ao para que isso aconte¸ca est´a no facto de se assumir que, a partir do instante em que um indiv´ıduo come¸ca a ser seguido, ele encontra-se simultaneamente em risco para a ocorrˆencia de qualquer um dos acontecimentos. Assim sendo, ´e fulcral que a base de dados reflita este aspeto, pois s´o assim ´e poss´ıvel diferenciar um modelo marginal de um modelo condicional, relativamente `a estrutura de dependˆencia entre acontecimentos.

No caso do modelo WLW, se o maior n´umero de acontecimentos que um indiv´ıduo pode vir a sofrer for S, ent˜ao para cada indiv´ıduo em estudo ter˜ao que ser registados S tempos observados. Desta forma, haver´a sempre n ob- serva¸c˜oes associadas a cada acontecimento e, consequentemente, a base de dados ter´a que ser constitu´ıda por n × S linhas. J´a no caso do modelo LWA, a constru¸c˜ao da base de dados processa-se de forma semelhante, o ´unico por- menor a ter em conta ´e que os grupos n˜ao tˆem que ter obrigatoriamente a mesma dimens˜ao, ou seja, pode haver situa¸c˜oes em que o n´umero de entradas ´e diferente de grupo para grupo. No entanto, como neste trabalho se est´a a efetuar um estudo com dados simulados, admite-se que se est´a perante a situa¸c˜ao mais simples, isto ´e, que os grupos tˆem a mesma dimens˜ao. Assim, pode-se utilizar a mesma base de dados para os modelos WLW e LWA.

Tendo em conta todos os aspetos que acabaram de ser mencionados, ser´a necess´ario construir uma nova base de dados, a qual se designar´a por dados2. Executando no R o comando max(dados1$obs.episode), determinou-se que nesta base de dados cada indiv´ıduo ter´a que ter S = 10 linhas. Por´em, atrav´es do comando max(dados1[dados1$status==1, ”obs.episode”]) obteve- se que o n´umero m´aximo de acontecimentos observados para um mesmo indiv´ıduo foi 9, o que significa que nenhum dos indiv´ıduos em risco para o acontecimento de ordem 10 sofreu esse acontecimento. Em todo o caso, ser´a necess´ario construir uma nova base de dados com n×S = 1 000×10 = 10 000 entradas. Esta nova base de dados ´e obtida por interm´edio da base de dados1. Basicamente a ideia ´e repetir os valores da ´ultima linha de cada indiv´ıduo, o n´umero de vezes necess´ario at´e atingir 10 linhas. Depois, s´o ´e preciso garantir que a vari´avel obs.episode toma, para todos os indiv´ıduos, os valores consecu- tivos 1, 2, . . . , 10. Em rela¸c˜ao `as vari´aveis que definem o tempo observado, s´o ´e preciso englobar na base de dados2 a vari´avel stop, mas sugere-se que a sua designa¸c˜ao seja alterada para fulltime, de modo a evitar qualquer conflito.

Com o intuito de apresentar o aspeto final da base de dados2, representou- se na Tabela 4.4 apenas as entradas1 do indiv´ıduo 4. Tal como ´e poss´ıvel observar, este indiv´ıduo sofreu dois acontecimentos e foi censurado quando se encontrava em risco para o acontecimento de ordem 3. Repare-se que este indiv´ıduo tamb´em se encontra representado na Tabela 4.1, onde apenas apresenta 3 entradas.

Tabela 4.4: Visualiza¸c˜ao das dez entradas do indiv´ıduo 4 no conjunto de dados – dados2.

nid obs.episode status fulltime x x.1 x.2

4 1 1 626.210 1 0.254 0.325 4 2 1 857.427 1 0.254 0.325 4 3 0 1 306.826 1 0.254 0.325 4 4 0 1 306.826 1 0.254 0.325 4 5 0 1 306.826 1 0.254 0.325 4 6 0 1 306.826 1 0.254 0.325 4 7 0 1 306.826 1 0.254 0.325 4 8 0 1 306.826 1 0.254 0.325 4 9 0 1 306.826 1 0.254 0.325 4 10 0 1 306.826 1 0.254 0.325

Ap´os a constru¸c˜ao das duas bases de dados ´e preciso verificar exausti- vamente se todas as vari´aveis se encontram bem definidas, em particular a vari´avel de estratifica¸c˜ao (obs.episode), a vari´avel que indica se foi observado o acontecimento ou a censura (status) e, por fim, aquelas que representam os tempos observados (start, stop, time e fulltime). Ainda que este seja um processo que requer tempo e rigor, ´e imprescind´ıvel para que as fun¸c˜oes que ser˜ao implementadas no R permitam obter resultados fidedignos.