Com o intuito de estudar os fatores de transcrição oferecidos pela base de dados Transcription Factor ChIP-seq (Txn Factor ChIP), no qual é composta por 161 FTs, e de associar estes fatores com os grupos formados pelos algoritmos, experimentos também foram realizados com os FTs. Primeiramente, houve a validação da base, no qual o procedimento foi explicado na Seção 4.5, assim o resultado obtido pode ser visualizado na Figura 5.6.1.
Figura 5.6.1- Validação da base. O eixo x corresponde aos dados e o eixo y tá relacionado com a
quantidade de sequências e correspondências.
Assim, foi visto que as correspondências (matches) das regiões upstream com os FTs não eram aleatórias, portanto, ela foi utilizada neste trabalho. Primeiramente, foi observada a época de origem dos FTs que compõem a base de dados, através do banco de dados GeneAges (estes dados podem ser visualizados na Figura 5.6.2). Além disto, foram realizados estudos com a quantidade de genes de cada clado, regulados por cada FT. Este experimento foi realizado para os bancos de dados GeneAges e Inparanoid e os resultados podem ser visualizados no arquivo Suplementar 2.
Figura 5.6.2- Clado evolutivo dos FTs. O eixo x corresponde ao clado e o eixo y está relacionado
com a quantidade de FTs originados no determinado clado.
Como a base era composta por mais fatores de transcrição originados em Eukaryota e Eumetazoa, estes dois clados foram os mais estudados, assim foi criado um índice para cada FT, onde seu valor foi dado pela Equação 5.6.1.
Equação 5.6.1- Fórmula para cálculo do índice dos fatores de transcrição.
Com isto, era possível saber o quanto os FTs tinham predominância em um dos dois clados, e assim a Figura 5.6.3 mostra os fatores de transcrição, que regulam em torno do dobro ou mais genes originados em um dos dois clados. Os únicos 2 genes cujos índices foram negativos, ou sejam, predominam mais em Eumetazoa do que em Eukaryota fazem parte do grupo de proteínas do complexo Polycomb.
Figura 5.6.3- Fatores de transcrição que são predominantemente o dobro em um dos 2 clados. O
eixo x são os FTs e o eixo y os valores de log.
Desta forma, foi realizado um estudo dos genes regulados pelos 2 Polycombs, em relação ao fator de transcrição com o índice mais positivo e aos genes totais regulados pelos FTs da base. Estes resultados podem ser visualizados nas Figuras 6.5.4 (banco de dados GeneAges) e 6.5.5 (banco de dados Inparanoid).
Figura 5.6.4- Resultados, com o banco de dados GeneAges, em relação aos FTs do complexo Polycomb, com o FT com o índice mais positivo e os genes totais regulados pelos FTs da base. O
eixo x representa os clados evolutivos, o eixo y a porcentagem de genes, de cada clado, regulados pelos FTs e cada linha representa um FT.
Figura 5.6.5- Resultados, com o banco de dados Inparanoid, em relação aos FTs do complexo Polycomb, com o FT com o índice mais positivo e os genes totais regulados pelos FTs da base. O
eixo x representa os clados evolutivos, o eixo y a porcentagem de genes, de cada clado, regulados pelos FTs e cada linha representa um FT.
Dessa forma foi comprovado que os 2 Polycombs são fora dos padrões dos genes regulados pelos FTs da base, onde regulam mais genes de Eukaryota do que de Eumetazoa, enquanto que os Polycombs possuem comportamento inverso, principalmente em Bilateria e Euteleostomi.
Assim, foram calculados índices para os FTs em relação Eukaryota e Bilateria e Eukaryota e Euteleostomi, então os cálculos foram realizados de acordo com as Equações 5.6.2 e 5.6.3, respectivamente. Além disso, o um teste Fisher também foi realizado em relação a estes três clados. Estes resultados também mostraram os polycombs como FTs de menores índices e com menores p-values e podem ser visualizados no Suplementar 3.
Equação 5.6.2- Fórmula para cálculo do índice dos fatores de transcrição em relação ao clado
Bilateria.
Equação 5.6.3- Fórmula para cálculo do índice dos fatores de transcrição em relação ao clado
Euteleostomi.
Um outro estudo foi realizado com os FTs da base, desta vez em relação aos grupos de genes que foram formados pelos algoritmos das bases de dados Uhlen, Fantom e Encode. Assim foram vistos os 10 TFs que regulavam mais genes em cada um dos grupos. Estes resultados podem ser visualizados no Anexo C.
Além disto, estudos foram realizados com o grupo 8 da base Uhlen agrupado pelo Hierárquico, visto que ele era o grupo com mais genes recentes de Mammalia, em especial em Eutheria e que ele estava contido em outros grupos formados, como já foi citado nas Seções 5.4 e 5.5. Assim, foi criado um índice para cada TF, no qual foi calculado pela Equação 5.6.4.
Equação 5.6.4- Fórmula para cálculo do índice dos fatores de transcrição relacionando o grupo 8 com os demais grupos do agrupamento da base Uhlen.
Com isto, foi possível observar que 4 dos FTs (BRF1, POLR3G, ZNF274, BDP1) regulavam 8 vezes mais genes do grupo 8 do que dos demais grupos do Hierárquico para a base Uhlen, e que dos 4 TFs, 3 deles (BRF1, POLR3G, BDP1) são do complexo RNA polimerase III, enquanto que o ZNF274 é um repressor da transcrição.
Estudos mostraram que a isoflavona daidzeína de soja estimula especificamente a expressão de BRF2 em células de câncer de mama, bem como o fator relacionado BRF1. A indução é acompanhada por níveis aumentados de RNA não codificantes que são regulados por BRF2 e BRF1 (KOO et al, 2015). Além disto, foi visto que BRF1 e BDP1 estão relacionados. A análise de sequenciamento profunda de 16 tecidos humanos revelou múltiplas variantes de splicing de duas das subunidades TFIIIB, BDP1 e BRF1, com padrões de expressão específicos de tecido (ZHANG et al, 2011). A POLR3G regula um subconjunto específico do transcriptoma do hPSC, incluindo vários tipos de transcritos, como genes codificantes de proteínas, e RNAs não codificantes (microRNAs e RNA nucleares pequenos) e afeta o splicing de RNA. A principal função do POLR3G é o sustento em vez da repressão da transcrição (LUND et al, 2017). Estudos analisaram o enriquecimento de sítios de HighD em categorias específicas de ncRNA. Essas categorias enriquecidas incluem DHSs (particularmente distal) e sítios de ligação de sequências específicas de FTs (especificamente os das famílias ZNF e NR), como é o caso da ZNF274 (KHURANA et al, 2013).
Assim, foi possível fazer a associação que o grupo é composto com mais de 86% de genes não codificantes, está relacionado com detecção de estímulos e percepção sensorial, mais da metade dos genes codificantes cujo genes não codificantes são co-expressos são genes originados recentemente, em Mammalia, no qual cerca de 10% foram originados em Eutheria e os genes deste grupo ainda há relação com regulação pelos fatores de transcrição que fazem parte do complexo da RNA polimerase III.