• Aucun résultat trouvé

Vers la profondeur de l'âme

Dans le document Marier la source et la blessure (Page 95-107)

Quando mais de 2 tipos de tecidos biol´ogicos devem ser comparados, ´e poss´ıvel utilizar m´etodos de an´alise de variˆancia (ANOVA). Modelos de ANOVA fazem parte de uma ´area da estat´ıstica conhecida como modelos lineares (Drapper & Smith, 1998; Searle, 1997), e tˆem sido muito usados em an´alises de dados de microarray. Modelos de ANOVA mais simples envolvem um ´

unico fator com v´arios n´ıveis de interesse, como por exemplo tratamento de uma linhagem celular com duas ou mais drogas diferentes, onde pode-se buscar os genes significativamente alterados entre as observa¸c˜oes de controle e as drogas utilizadas, ou para as diferentes drogas entre si. Em estat´ıstica estas compara¸c˜oes espec´ıficas s˜ao chamadas de contrastes. Outros modelos de ANOVA mais elaborados, envolvem a an´alise de mais de dois fatores com dois ou mais n´ıveis cada um, onde ´e poss´ıvel tamb´em analisar os efeitos de intera¸c˜ao entre os fatores.

Cap´ıtulo 5. M´etodos de an´alise tradicionais por

wijq = λi+ µiq+ ǫijq, i = 1, · · · , ns, q = 1, · · · , t, jq = 1, · · · , nq, (5.6)

onde λi representa a m´edia global de express˜ao para o gene i, µiq representa a contribui¸c˜ao

m´edia do tecido tipo q na m´edia global para o gene i, jq representa o conjunto de tecidos

utilizados que s˜ao do tipo q com nq representando o n´umero total de observa¸c˜oes utilizadas

para este tipo de tecido, note quePtq=1nq = nl. Os termos ǫijq representam os erros aleat´orios

independentes com m´edia zero e variˆancia desconhecida. Para a ANOVA cl´assica assume-se que ǫijq ∼ N(0, σ

2

i). Neste modelo definimos a soma de quadrados totais como sendo

SQt= t X q=1 nq X jq=1 (wijq − wi·) 2, (5.7) onde wi· = (1/nl) Pnl

j=1wij ´e a m´edia global para o gene i. De maneira similar, pode-se definir

a soma de quadrados para cada tipo de tecido utilizado e a soma de quadrados para o erro cometido no ajuste, que s˜ao dados, respectivamente, por

SQc = t X q=1 nq X jq=1 (wiq − wi·)2 (5.8) e SQe = t X q=1 nq X jq=1 (wijq − wiq) 2, (5.9) onde wiq = (1/nq)P nq

jq=1wijq ´e a m´edia espec´ıfica para as observa¸c˜oes de tipo q. Dadas estas

medidas, define-se a estat´ıstica F como

F = SQc t−1 SQe nl−t , (5.10)

que tem distribui¸c˜ao F com (t − 1) e (nl− t) graus de liberdade, e que pode ser usada para

testar as hip´oteses   

H0 : µi1 = µi2 = · · · = µit

HA: pelo menos uma das igualdades n˜ao ´e verdadeira.

Quando o interesse ´e o teste de contrastes espec´ıficos, utiliza-se testes t equivalentes `aqueles descritos na se¸c˜ao 5.2.1 com a suposi¸c˜ao de igualdade de variˆancias imposta pelo modelo dado na equa¸c˜ao (5.6), com a diferen¸ca de que a variˆancia ´e estimada globalmente por SQe/(nl−

t). De maneira similar a equa¸c˜ao dada em (5.6) pode ser estendida para modelos de ANOVA com mais de um fator incorporando termos referentes aos fatores estudados.

Um exemplo de modelo deste tipo foi proposto por Wolfinger et al. (2001), que usam um modelo de ANOVA inicial para a normaliza¸c˜ao dos dados e um segundo modelo para a estima¸c˜ao das diferen¸cas de express˜ao. O primeiro modelo ´e dado por

Tijq = λi+ µiq+ βij + (µβ)ijq+ ǫijq, i = 1, · · · , ns, j = 1, · · · , nl, q = 1, · · · , t,

onde λi ´e a m´edia global para o gene i, µiq ´e o efeito do tecido q, βij ´e o efeito da lˆamina j,

(µβ)ijq ´e o efeito de intera¸c˜ao entre a lˆamina j com o tecido q e ǫijq s˜ao os erros aleat´orios com

m´edia zero. Sendo rijq os res´ıduos do modelo anterior, o modelo de express˜ao gˆenica ´e dado

por

rijq = γi+ (γµ)iq+ (γβ)ij + τijq, i = 1, · · · , ns, j = 1, · · · , nl, q = 1, · · · , nt,

onde γi ´e o efeito do gene i, (γβ)ij ´e o efeito de intera¸c˜ao entre o gene i e a lˆamina j, (γµ)iq ´e o

efeito de intera¸c˜ao entre o gene i e o tecido q, que ´e o efeito de interesse, e os erros aleat´orios s˜ao dados por τijq. Outros trabalhos tamb´em prop˜oem modelos de ANOVA que incorporam todos

os fatores de interesse (Kerr et al., 2000, 2002). Uma discuss˜ao mais detalhada sobre modelos de an´alise de variˆancia aplicada para dados de microarray pode ser encontrada em Draghici (2003, Cap. 7)

´

E importante lembrar que os tamanhos amostrais dos grupos estudados, ou seja os valores de nq, para qualquer tipo de teste realizado s˜ao de fundamental importˆancia para o c´alculo dos

n´ıveis descritivos, alguns trabalhos recentes tˆem discutido t´opicos importantes relacionados a este tema, como o c´alculo dos tamanhos amostrais ideais de acordo com o problema em quest˜ao (Tsai et al., 2005) e o desenvolvimento de modelos mais robustos para lidar com conjuntos de dados pequenos (Kooperberg et al., 2005).

Ajuste bayesiano emp´ırico

Uma possibilidade para contornar problemas relacionados com tamanhos amostrais pequenos s˜ao m´etodos de Bayes emp´ıricos (Carlin & Louis, 1996), onde alguma distribui¸c˜ao a priori ´e assumida nos dados, como nos m´etodos bayesianos convencionais, mas eventuais parˆametros desconhecidos desta distribui¸c˜ao s˜ao estimados a partir do pr´oprio conjunto de dados.

M´etodos bayesianos emp´ıricos aplicados para a an´alise de dados de microarray foram inicialmente propostos por L¨onnstedt & Speed (2002), que sup˜oem wij ∼ N(µi, σ2) e que

Cap´ıtulo 5. M´etodos de an´alise tradicionais H0 rejeitada H0 n˜ao rejeitada

H0 verdadeira erro tipo I √

H0 falsa √ erro tipo II

Tabela 5.1: Tipos de erros cometidos em testes de hip´oteses.

Tipos de erros que podem ser cometidos em procedimentos de testes de hip´oteses. (1/σ2

i) e µi|σi2 tˆem distribui¸c˜oes priori dadas por uma gama e uma normal, respectivamente.

Ent˜ao, ´e definida uma nova estat´ıstica dada por Bi = log p 1 − p 1 √ 1 + nlc   a + s2i + w2i· a + s2 i + w2 i· 1+nlc   (v+nl2) , (5.11) onde p ´e a propor¸c˜ao de genes do conjunto de dados esperado para ser diferencialmente expres- sos; a, c e v s˜ao parˆametros associados com as distribui¸c˜oes priori de µi e σ2i. Note que esses

parˆametros s˜ao desconhecidos e, ent˜ao, s˜ao estimados a partir dos dados atrav´es de um m´etodo bayesiano emp´ırico.

Esta estat´ıstica s´o ´e interessante para experimentos que comparam apenas dois tipos de tecidos biol´ogicos sem a utiliza¸c˜ao da amostra de referˆencia. Assim, Smyth (2004) propˆos uma extens˜ao da estat´ıstica dada pela equa¸c˜ao (5.11) para a aplica¸c˜ao com testes de hip´oteses baseados em modelos de ANOVA, tanto para testes F como testes t envolvendo contrastes espec´ıficos.

Dans le document Marier la source et la blessure (Page 95-107)

Documents relatifs