O projeto Genoma Humano, iniciado na década de 90 e com previsão de conclusão em 15 anos gerou tamanha revolução nas metodologias de sequenciamento (high throughput technologies) que acabou sendo concluído dois anos antes (OLSON, 1993). Depois dele, diversos outros organismos tiveram seu genoma concluído, incluindo bactérias, arqueas, eucariotos, vírus e organelas, totalizando mais de 1000 genomas presentes na base de dados do NCBI (https://www.ncbi.nlm.nih.gov/guide/genomes- maps/). Diversas aplicações usando sequenciamento, bem como outras tecnologias high
throughput como a espectrometria de massas, geraram uma mudança de paradigma na
pesquisa biológica na qual as estratégias de processamento de informação e ordenação do conhecimento passaram da abordagem botton-up, representada por uma “colcha de retalhos” na qual se estuda as partes para tentar entender o todo, para uma abordagem
top-down cujo objetivo é avaliar de forma mais abrangente os fenótipos moleculares para
então determinar em quais aspectos seriam importantes para focar. Dentro desse contexto surgiu a biologia de sistemas.
A biologia de sistemas, por ser uma área de pesquisa bastante abrangente e com diversas aplicações, é difícil de definir. O que as fontes de pesquisa concordam é que é uma abordagem holística e interdisciplinar, que usa modelagem matemática e computacional para estudar as complexas relações entre sistemas biológicos, que compreendem diversos tipos moleculares (BREITLING, 2010; INSTITUTE FOR SYSTEMS BIOLOGY, 2018a). Ao contrário do reducionismo, em que se acredita que sistemas complexos podem ser reduzidos às suas partes mais simples para serem decifrados ou explicados, a biologia de sistemas é baseada em holismo, onde se entende que redes de interação que formam organismos vivos como um todo são mais do que a soma de suas partes. Nesse sentido, a biologia de sistemas em seu aspecto mais amplo é referida como “a rede das redes” (INSTITUTE FOR SYSTEMS BIOLOGY, 2018b). Isso porque organelas formam redes de interações que tornam células funcionais e conjunto de células interagem para formar tecidos, assim como tecidos constituem redes que dão origem a órgãos, que por sua vez interagem para formar sistemas com funções específicas como o digestivo ou o reprodutor. A junção de todos esses sistemas dá origem a um organismo vivo que é, portanto, o resultado de diferentes níveis de interações. Desse ponto de vista, a biologia de sistemas é mais do que a aplicação de uma técnica em um
conjunto específico de dados, mas uma forma de pensar questões biológicas entendendo que o fenótipo é o resultado da propagação de sinais em vários níveis.
É também cada vez mais evidente que a visão centro-gênica induzida pelo dogma central da biologia molecular é demasiadamente reducionista, sempre buscando uma relação causal direta em um único sentido. Desta forma, é fundamental reconhecer que níveis mais altos (tecidos, órgãos, organismo) regulam a expressão dos genes numa intrincada rede compartilhada de informações entre os diferentes níveis de organização biológica, um fenômeno descrito como causação descendente (Figura 1, NOBLE, 2006). Ou seja, é necessária uma visão mais holística, menos reducionista que culmina na definição de biologia de sistemas de Dennis Noble “Biologia de sistemas...é sobre colocar as coisas juntas ao invés de separadas, integração em oposto à redução”. Como área da ciência, a biologia de sistemas é particularmente o estudo das interações entre os componentes dos sistemas biológicos, e como estas interações dão origem à função e comportamento de um sistema. Do ponto de vista prático, a biologia de sistemas pode ser vista como uma série de protocolos usados para fazer pesquisa baseando-se em um ciclo contendo teoria, modelação analítica ou computacional para testar hipóteses específicas sobre um sistema biológico gerando novas informações que serão utilizadas para alimentar e refinar o modelo computacional ou teoria (KHOLODENKO; BRUGGEMAN; SAURO, 2005).
Figura 1 – Representação do fenômeno descrito como causação descendente (downward
causation)
Em adição ao esquema representando o fluxo de informações baseado no dogma central da biologia molecular, a figura representa também a relação causal no sentido oposto exercida por níveis mais altos (organismo, órgãos, tecidos) na sinalização celular e expressão de genes e proteínas. Além disso, está representando o papel da maquinaria proteica em ler e interpretar genes, gerando um loop de causa e efeito que pode ser construído entre diversos níveis da organização biológica. Fonte: Noble (2006).
A arquitetura genética por trás de características complexas envolve uma variedade enorme de genes sensíveis a mudanças ambientais e, portanto, determinar os mecanismos responsáveis por elas representa um grande desafio (SWAMI, 2009). Sistemas biológicos complexos são regulados por milhares de moléculas de diferentes naturezas químicas. Nesse contexto, surge o termo “genética de sistemas”. A genética de sistemas é uma versão especializada da biologia de sistemas, focada em populações, que visa elucidar complexas interações entre genes, proteínas, metabólitos, células e tecidos que se manifestam como variações fenotípicas, a fim de identificar as variantes genéticas relacionadas à característica de interesse (VOY, 2011). Estas abordagens baseiam-se no fato de que os genes e produtos de genes podem interagir uns com os outros numa rede complexa e por isso, o efeito da mudança no comportamento de um gene pode ser propagado através das interações e afetar outros genes (CHO; KIM; PRZYTYCKA, 2012). Esse comportamento é chamado em inglês de “power law” e em estatística é definido como uma relação funcional entre duas quantidades, sendo que a mudança
relativa em uma, causa uma mudança proporcional na outra, independentemente do tamanho inicial das duas (BAR-YAM, 2011). Redes baseadas em power law tem como característica muitos nódulos com poucas conexões e poucos nódulos centrais com muitas conexões, que são chamados “hubs” (Figura 2, DE LA FUENTE, 2010).
Figura 2 – Exemplo de rede co-expressão baseada em power law.
Nódulos representam genes, com destaque para os genes centrais (hubs) em cinza escuro. Vértices representam a correlação entre a expressão dos genes. Fonte: própria autoria.
Os estudos de redes, quando aplicados a dados de transcriptoma, podem revelar uma regulação mais complexa da transcrição, detectando conjuntos de genes altamente co-expressos (FULLER et al., 2007). O resultado são conjuntos ou “módulos” de genes relacionados entre si, que tentam recuperar a informação estrutural e funcional do tecido (HUDSON; DALRYMPLE; REVERTER, 2012a). Esta estratégia pode ser particularmente útil para revelar a função biológica de novos genes, uma vez que se espera que genes co-expressos trabalhem coordenadamente para uma função biológica específica, representando uma via metabólica ou até mesmo um tipo celular. Como prova da importância da abordagem de co-expressão diferencial, HUDSON, REVERTER e DALRYMPLE (2009) estudando bovinos com e sem uma mutação no gene da miostatina que leva à dupla musculatura, não encontraram o gene como sendo diferencialmente expresso, mas puderam identificá-lo como importante baseando-se na análise de co- expressão diferencial, o que demonstra que a importância de um gene, ou conjunto de genes, para o fenótipo não está apenas ligado à diferença em sua abundância relativa.
Redes de genes fornecem uma representação eficiente das interações nas células e base para modelos matemáticos/estatísticos para estudar esses sistemas (SHOJAIE,
2018). Uma rede é formada por diversos nódulos e vértices. Uma forma conveniente de representar os vértices de uma rede é através de uma matriz de adjacência, que é uma matriz quadrada com valores 1 se existir um vértice entre um nódulo na linha e um na coluna e 0 caso contrário. Para vértices que não se tem claro a direção da interação, o valor 1 é adicionado em ambas as direções. A presença de um vértice entre os nódulos i e j significa que conforme a expressão de i muda, espera-se que a expressão de j aumente/diminua. Na prática, observa-se N medidas de cada variável (que pode ser genes, proteínas, metabólitos, etc.) para diferentes indivíduos e tenta-se determinar quais variáveis são conectadas entre si. Porém, definir quais variáveis são relevantes não é uma tarefa clara e algumas estratégias como identificar genes centrais (hub genes) ou usar informações da literatura podem orientar essa seleção (SHOJAIE, 2018).
Existem duas classes gerais de métodos para inferência de redes: (1) os baseados em medidas marginais de associação, englobando associações lineares (redes de co- expressão) e não-lineares e (2) os baseados em medidas de associação condicional como redes Bayesianas ou redes dinâmicas Bayesianas (SHOJAIE, 2018). Os métodos baseados em redes de co-expressão/correlação são os mais simples e mais amplamente utilizados e assumem que os vértices correspondem à correlações de alta magnitude (SHOJAIE, 2018). Como a correlação é simétrica, a rede é não-direcionada, já que não é possível definir qual gene regula qual, a não ser utilizando conhecimento adicional da literatura. Um exemplo da aplicação dessa metodologia é a abordagem utilizada pelo pacote WGCNA – Weighted Gene Co-Expression Network Analysis (LANGFELDER; HORVATH, 2008) no ambiente R que define módulos de genes co-expressos baseados em correlação sem prévia utilização de dados da literatura para a seleção de genes. Posteriormente, os diversos módulos identificados são testados quando a sua correlação com fenótipos de interesse para identificar módulos relevantes para o tema investigado.
Uma limitação dessa análise é que correlações altas nem sempre significam interação direta. Além disso, várias relações biológicas não são lineares e essas são perdidas com esse tipo de metodologia. Uma maneira de contornar a primeira questão é utilizando metodologias baseadas em correlação parcial, como o PCIT – Partial
Correlation And Information Theory (WATSON-HAIGH; KADARMIDEEN;
REVERTER, 2010). Com ela obtém-se a correlação entre i e j depois de remover o efeito de outras variáveis, considerando-se que por vezes a “informação” passa por um vizinho mútuo de i e j e não diretamente entre eles. Em outras palavras, se A é correlacionado
com B e com C, observaremos também uma correlação entre B e C, não pelo fato de ser uma relação real, mas por B e C compartilharem correlação com um vizinho em comum. Essa metodologia identifica e exclui essas correlações que não são verdadeiras.
Por fim, mais do que determinar a relação entre genes, vem se tornando cada vez mais importante entender a dinâmica celular que leva a mudanças no comportamento das redes. Por esse motivo, um número crescente de trabalhos vem analisando essa dinâmica através do mapeamento de redes em condições, espécies e tempos diferentes (IDEKER; KROGAN, 2012). Nessa abordagem, é feita a comparação da estrutura de duas sub-redes de co-expressão em condições fenotípicas diferentes. Essa comparação pode mostrar alterações em sistemas regulatórios através da diferença na conectividade de um gene nas duas condições, já que podemos admitir que genes com grande alteração de conectividade têm um papel importante para o fenótipo (DE LA FUENTE, 2010). O grau de conectividade (K) de um nódulo é calculado pela soma dos vértices ligados a ele. Dessa maneira, interações diferenciais fortes não são as que necessariamente são fortes em uma das sub-redes, mas aquelas que mudam seu comportamento mais claramente (IDEKER; KROGAN, 2012). Assim, as interações diferenciais, também referidas como co- expressão diferencial, são um reflexo de quais processos celulares são diferencialmente importantes nas condições estudadas (IDEKER; KROGAN, 2012). Os métodos para análise de co-expressão diferencial, baseados na subtração de scores de interação (conectividade) em diferentes situações, são importantes para distinguir interações que desencadeiam processos celulares dinâmicos, daquelas que suportam funções de manutenção da célula (housekeeping).