Vers la profondeur de l'âme - Marier la source et la blessure

Quando mais de 2 tipos de tecidos biológicos devem ser comparados, é poss´ıvel utilizar métodos de análise de variância (ANOVA). Modelos de ANOVA fazem parte de uma área da estat´ıstica conhecida como modelos lineares (Drapper & Smith, 1998; Searle, 1997), e têm sido muito usados em análises de dados de microarray. Modelos de ANOVA mais simples envolvem um ´

unico fator com vários n´ıveis de interesse, como por exemplo tratamento de uma linhagem celular com duas ou mais drogas diferentes, onde pode-se buscar os genes significativamente alterados entre as observa¸cões de controle e as drogas utilizadas, ou para as diferentes drogas entre si. Em estat´ıstica estas compara¸cões espec´ıficas são chamadas de contrastes. Outros modelos de ANOVA mais elaborados, envolvem a análise de mais de dois fatores com dois ou mais n´ıveis cada um, onde é poss´ıvel também analisar os efeitos de intera¸cão entre os fatores.

Cap´ıtulo 5. M´etodos de an´alise tradicionais por

wijq = λi+ µiq+ ǫijq, i = 1, · · · , ns, q = 1, · · · , t, jq = 1, · · · , nq, (5.6)

onde λi representa a média global de expressão para o gene i, µiq representa a contribui¸cão

m´edia do tecido tipo q na m´edia global para o gene i, jq representa o conjunto de tecidos

utilizados que são do tipo q com nq representando o número total de observa¸cões utilizadas

para este tipo de tecido, note quePt_q=1nq = nl. Os termos ǫijq representam os erros aleat´orios

independentes com média zero e variância desconhecida. Para a ANOVA clássica assume-se que ǫijq ∼ N(0, σ

i). Neste modelo definimos a soma de quadrados totais como sendo

SQt= t X q=1 nq X jq=1 (wijq − wi·) 2_, _(5.7) onde wi· = (1/nl) Pnl

j=1wij ´e a m´edia global para o gene i. De maneira similar, pode-se definir

a soma de quadrados para cada tipo de tecido utilizado e a soma de quadrados para o erro cometido no ajuste, que s˜ao dados, respectivamente, por

SQc = t X q=1 nq X jq=1 (wiq − wi·)2 (5.8) e SQe = t X q=1 nq X jq=1 (wijq − wiq) 2_, _(5.9) onde wiq = (1/nq)P nq

jq=1wijq é a média espec´ıfica para as observa¸cões de tipo q. Dadas estas

medidas, define-se a estat´ıstica F como

F = SQc t₋₁ SQe nl−t , (5.10)

que tem distribui¸c˜ao F com (t − 1) e (nl− t) graus de liberdade, e que pode ser usada para

testar as hip´oteses   

H0 : µi1 = µi2 = · · · = µit

HA: pelo menos uma das igualdades n˜ao ´e verdadeira.

Quando o interesse é o teste de contrastes espec´ıficos, utiliza-se testes t equivalentes àqueles descritos na se¸cão 5.2.1 com a suposi¸cão de igualdade de variâncias imposta pelo modelo dado na equa¸cão (5.6), com a diferen¸ca de que a variância é estimada globalmente por SQe/(nl−

t). De maneira similar a equa¸c˜ao dada em (5.6) pode ser estendida para modelos de ANOVA com mais de um fator incorporando termos referentes aos fatores estudados.

Um exemplo de modelo deste tipo foi proposto por Wolfinger et al. (2001), que usam um modelo de ANOVA inicial para a normaliza¸cão dos dados e um segundo modelo para a estima¸cão das diferen¸cas de expressão. O primeiro modelo é dado por

Tijq = λi+ µiq+ βij + (µβ)ijq+ ǫijq, i = 1, · · · , ns, j = 1, · · · , nl, q = 1, · · · , t,

onde λi é a média global para o gene i, µiq é o efeito do tecido q, βij é o efeito da lâmina j,

(µβ)ijq é o efeito de intera¸cão entre a lâmina j com o tecido q e ǫijq são os erros aleatórios com

média zero. Sendo rijq os res´ıduos do modelo anterior, o modelo de expressão gênica é dado

por

rijq = γi+ (γµ)iq+ (γβ)ij + τijq, i = 1, · · · , ns, j = 1, · · · , nl, q = 1, · · · , nt,

onde γi é o efeito do gene i, (γβ)ij é o efeito de intera¸cão entre o gene i e a lâmina j, (γµ)iq é o

efeito de intera¸cão entre o gene i e o tecido q, que é o efeito de interesse, e os erros aleatórios são dados por τijq. Outros trabalhos também propõem modelos de ANOVA que incorporam todos

os fatores de interesse (Kerr et al., 2000, 2002). Uma discussão mais detalhada sobre modelos de análise de variância aplicada para dados de microarray pode ser encontrada em Draghici (2003, Cap. 7)

E importante lembrar que os tamanhos amostrais dos grupos estudados, ou seja os valores de nq, para qualquer tipo de teste realizado são de fundamental importância para o cálculo dos

n´ıveis descritivos, alguns trabalhos recentes têm discutido tópicos importantes relacionados a este tema, como o cálculo dos tamanhos amostrais ideais de acordo com o problema em questão (Tsai et al., 2005) e o desenvolvimento de modelos mais robustos para lidar com conjuntos de dados pequenos (Kooperberg et al., 2005).

Ajuste bayesiano emp´ırico

Uma possibilidade para contornar problemas relacionados com tamanhos amostrais pequenos são métodos de Bayes emp´ıricos (Carlin & Louis, 1996), onde alguma distribui¸cão a priori é assumida nos dados, como nos métodos bayesianos convencionais, mas eventuais parâmetros desconhecidos desta distribui¸cão são estimados a partir do próprio conjunto de dados.

Métodos bayesianos emp´ıricos aplicados para a análise de dados de microarray foram inicialmente propostos por Lönnstedt & Speed (2002), que supõem wij ∼ N(µi, σ2) e que

Cap´ıtulo 5. Métodos de análise tradicionais H0 rejeitada H0 não rejeitada

H0 verdadeira erro tipo I √

H0 falsa √ erro tipo II

Tabela 5.1: Tipos de erros cometidos em testes de hip´oteses.

Tipos de erros que podem ser cometidos em procedimentos de testes de hip´oteses. (1/σ2

i) e µi|σi2 tˆem distribui¸c˜oes priori dadas por uma gama e uma normal, respectivamente.

Então, é definida uma nova estat´ıstica dada por Bi = log p 1 − p 1 √ 1 + nlc   a + s2i + w2i· a + s2 i + w2 i· 1+nlc   (v+nl₂) , (5.11) onde p é a propor¸cão de genes do conjunto de dados esperado para ser diferencialmente expres- sos; a, c e v são parâmetros associados com as distribui¸cões priori de µi e σ2i. Note que esses

parâmetros são desconhecidos e, então, são estimados a partir dos dados através de um método bayesiano emp´ırico.

Esta estat´ıstica só é interessante para experimentos que comparam apenas dois tipos de tecidos biológicos sem a utiliza¸cão da amostra de referência. Assim, Smyth (2004) propôs uma extensão da estat´ıstica dada pela equa¸cão (5.11) para a aplica¸cão com testes de hipóteses baseados em modelos de ANOVA, tanto para testes F como testes t envolvendo contrastes espec´ıficos.

Dans le document Marier la source et la blessure (Page 95-107)