Este capítulo propõe um classificador 2D baseado em uma rede neural convoluci- onal que realiza a classificação de sinais de ECG com base no esquema orientado ao paciente e nas diretrizes do padrão AAMI, validadas através do conjunto de registros de ECG do MIT- BIH Arrhythmia Database. O sistema é composto por três etapas, sendo o pré-processamento do sinal para remover o deslocamento DC, seguido pela extração de características através da aplicação da transformada wavelet contínua e o uso dos intervalos entre batimentos para rota- cionar as imagens geradas pela transformada wavelet. Por fim, um classificador composto de duas camadas de convolução, duas camadas de agrupamento max-pooling, uma camada total- mente conectada e a camada de saída é implementado. Esse classificador recebe como entrada as imagens do estágio anterior e discrimina cada batimento em uma das cinco classes AAMI. O conjunto de dados de treinamento é usado para modelar o classificador e o conjunto de dados de teste usado independentemente para avaliar o desempenho do modelo ideal.
Esse método obteve resultados satisfatórios, com uma acurácia geral de 95,27%. Observa-se a ocorrência de um erro significativo nos resultados provenientes da classe supra- ventricular, devido ao pequeno número de amostras rotuladas no banco de dados, porém apre- sentando bons resultados se comparado com outros trabalhos publicados.
Nesse capítulo, as características temporais e morfológicas dos sinais cardíacos fo- ram associadas a uma imagem, possibilitando à rede neural convolucional classificar o bati- mento cardíaco de acordo com sua categoria. Essa técnica pode ser aprimorada através da se- paração dessas informações, utilizando redes específicas voltadas para o aprendizado dessas características, conforme será discutido no capítulo seguinte.
4 CLASSIFICADOR DE ARRITMIAS CARDÍACAS USANDO REDES
NEURAIS CONCATENADAS
4.1 Introdução
A configuração proposta neste capítulo usa uma abordagem original para o desen- volvimento de um classificador de arritmias cardíacas de acordo com o padrão AAMI, que estabelece cinco classes normalizadas, usando uma combinação de três classificadores: uma CNN que automaticamente extrai as características morfológicas de uma imagem 2D de bati- mentos cardíacos, gerada através de um CWT, e que fornece um vetor de 10 características de saída; em paralelo, uma MLP analisa cinco características temporais segmentadas, fornecendo também um vetor de 10 características; e uma segunda MLP para classificar o batimento car- díaco, usando como entrada o vetor concatenado contendo ambas saídas das redes anteriores. Essa combinação de especialistas constitui um conjunto funcional complementar, que é dife- rente da configuração tradicional de especialistas baseada em uma decisão de voto. Os resulta- dos mostram que esse desempenho de configuração oferece melhorias recentes e atualizadas na classificação automática de arritmias.
4.2 Métodos
A metodologia de classificação de sinais de ECG apresentada neste capítulo usa uma combinação de redes neurais MLP e convolucionais para discriminar uma das cinco clas- ses AAMI. As etapas necessárias para a classificação estão ilustradas na Figura 4.1, onde o primeiro estágio representa o pré-processamento do sinal, onde é feita a remoção do sinal CC, bem como a extração de dois conjuntos de características preliminares dos batimentos cardía- cos: características de intervalo entre batimentos e coeficientes da transformada wavelet contí-
nua dos segmentos do sinal. Dois módulos de rede neural constituem o estágio de extração de características, sendo que os dados de intervalo de tempo entre batimentos são utilizados como entrada para a rede temporal, que consiste de uma MLP, enquanto a imagem do escalograma é processada pela rede morfológica convolucional. As saídas das redes temporal e morfológica são concatenadas em um vetor que é utilizado como entrada no próximo estágio. O classifica- dor, composto por uma rede denominada de rede de decisão, recebe o vetor de características, realiza o processamento e indica uma classe AAMI prevista.
4.2.1 Pré-processamento dos sinais
Os sinais adotados neste capítulo para o treinamento e teste do classificador são os mesmos descritos na seção 2.1.3 e apresentados na Tabela 2.2. Cada registro inclui um arquivo de anotação, que indica a ocorrência do complexo QRS, geralmente correspondendo ao pico da onda R. Essa ocorrência é utilizada como referência para coletar informações sobre a distância entre duas ondas R, bem como para construir imagens de escalas da transformada wavelet que envolvam os complexos QRS. Ambas as propriedades são importantes e amplamente utilizadas para discriminar classes de arritmias cardíacas. Um indicador para cada pulso, que corresponde às características do intervalo de tempo, é adotado e submetido ao estágio de extração de ca- racterísticas. Um vetor v com cinco indicadores é extraído do sinal de ECG, considerando o intervalo RR anterior (pr ´e_RR), o intervalo RR posterior (p ´os_RR), a média dos últimos 20 intervalos RR (m ´edia_20), a média dos últimos 100 intervalos RR (m ´edia_100), a média dos últimos 500 intervalos RR (m ´edia_500) e a média dos 20 intervalos RR mais longos conside- rando os últimos 500 intervalos (m ´edia_longos_20), conforme ilustrado na Equação (4.1).
v= [pre_RR´ pos_RR´ , pre_RR´ media_20´ , pre_RR´ media_100´ , pre_RR´ media_500´ , pre_RR´ media_longos_20´ ] (4.1) Da mesma forma que descrito no Capítulo 3, aqui também são consideradas ca- racterísticas extraídas dos sinais com o uso da CWT. No entanto, aqui estas características são consideradas preliminares e definidas no estágio de pré-processamento. Todos os batimentos cardíacos são processados e segmentados em uma janela de 180 amostras, com o complexo QRS centralizado na imagem. A transformada wavelet é computada usando 64 escalas e função chapéu mexicano como wavelet-mãe, englobando o mesmo espectro de frequências descrito na Seção 3.2.2. Como resultado, uma imagem de 180 x 64 pixels é criada. Essa imagem é redimen- sionada em uma imagem quadrada de 28 x 28 pixels usando interpolação bilinear e normalizada no intervalo entre -1 e +1. Imagens com os respectivos vetores pertencentes às classes N, S, V, F e Q, amostradas aleatoriamente do conjunto de treinamento, estão ilustradas na Figura 4.2.
Figura 4.2 – Batimentos cardíacos, os respectivos vetores e imagens de 28x28 pixels de cada uma das classes AAMI.
4.2.2 Extração de características
O foco aqui está no uso de duas redes que aprendem a extrair conjuntos de caracte- rísticas do ECG para serem apresentados ao classificador final. A rede MLP, denominada aqui de rede temporal, apresenta duas camadas escondidas contendo 20 neurônios cada, usa ReLU como função de ativação e recebe como entrada o vetor temporal v. A camada de saída contém 10 neurônios, representando um vetor de características temporais expandidas que corresponde às variações temporais de cada batimento cardíaco.
A rede, denominada aqui de morfológica, recebe como entrada as imagens norma- lizadas de 28 x 28 pixels. A primeira camada oculta é uma camada de convolução, com um tamanho de kernel de 5 x 5 pixels e 6 canais de saída, usando a função de ativação ReLU. A segunda camada oculta é uma camada de agrupamento max-pooling 2 x 2. A terceira ca- mada oculta é outra camada convolucional, usando um tamanho de kernel de 5 x 5 pixels e 12 canais de saída, com a função de ativação ReLU, seguida por outra camada de agrupamento max-pooling2 x 2. A última camada oculta é uma camada neural totalmente conectada com 50 neurônios e função de ativação ReLU. Finalmente, a camada de saída é uma camada totalmente conectada com 10 neurônios representando um vetor com as características morfológicas dos batimentos.
4.2.3 Classificação
O procedimento de classificação de batimentos cardíacos segue o padrão AAMI e usa o conjunto de sinais DS1 para o treinamento do classificador, conforme o procedimento adotado no Capítulo 3 e descrito na Seção 3.2.3.
Figura 4.3 – Visão esquemática do sistema de redes ecgConcatNet, gerada com (LENAIL, 2019).
um sistema de rede que combina três redes: temporal, morfológica e de decisão, conforme ilustrado na Figura 4.3. As redes temporal e morfológica pertencem à etapa de extração de características, conforme explicado na Seção 4.2.2, enquanto a rede de decisão faz parte do estágio de classificação.
A rede de decisão recebe um vetor concatenado contendo 20 características, sendo 10 delas pertencentes à rede temporal e outras 10 à morfológica. A primeira e a segunda ca- madas ocultas são camadas totalmente conectadas com 20 neurônios cada, usando funções de ativação ReLU. A saída é formada por uma camada softmax contendo 5 neurônios, que atribuem probabilidades a cada uma das cinco classes AAMI.
O sistema de redes, chamado aqui ecgConcatNet, é treinado na plataforma Tensor- Flow (ABADI et al., 2015). Durante a fase de treinamento, a técnica Uniform Xavier Initiali- zationé usada para inicializar os pesos, exceto os pesos da última camada oculta (totalmente conectada) pertencente à rede morfológica, que usa Normal Xavier Initialization (GLOROT; BENGIO, 2010). A entropia cruzada é usada como função custo, atualizada com Adaptive Mo- ment Estimation(Adam). A taxa de aprendizado utilizada é de 0,001 usando regularização L2. Uma taxa de dropout de 0,5 é aplicada antes da camada de saída de cada uma das três redes. O treinamento das redes é feito em conjunto, observando o erro na saída do classificador. Os parâmetros relacionados a essa técnica de aprendizado são escolhidos de acordo com estudos empíricos.
Dados os parâmetros adotados, os melhores resultados são obtidos usando um mini- lote de tamanho 128, com 3800 épocas. É usado o critério de parada antecipado considerando
o erro refletido pela função custo no conjunto de dados de validação. Uma vez que os rótulos das classes no conjunto de treinamento não são balanceados e alguns deles são limitados, onde no banco de dados DS1, os rótulos da classe Normal representam 89,9% do total de rótulos, seguidos pela classe V com 7,4%, S com 1,9% , F com 0,8% e Q com 0,01%, uma técnica de aumento de dados é usada para construir o conjunto de dados de validação, mantendo o conjunto de dados DS1 exclusivamente para o treinamento. Para construir o conjunto de dados de validação, 100 imagens artificiais são criadas a partir de cada classe N, S, V e F. Cada imagem é criada deslocando a imagem original, escolhida aleatoriamente entre todo o conjunto de dados DS1 e adicionando um pequeno ruído de distribuição Gaussiana. Da mesma forma, para cada imagem é criado um vetor correspondente v, adicionando também um pequeno ruído de distribuição Gaussiana. A exceção ocorre na classe Q, que apresenta apenas sete amostras no conjunto de dados DS1. Neste caso, todos eles são usados para criar sete dados artificiais, considerando a mesma estratégia acima mencionada.
Esses rótulos desequilibrados, somados ao pequeno número de batimentos cardía- cos nas últimas quatro classes, implicam em esforço adicional na escolha do momento para in- terromper o treinamento. Foi observado um pequeno aumento no erro de validação entre 3500 e 4000 iterações. De acordo com esta observação e considerando algumas análises, o treinamento é interrompido após atingir 3800 épocas.
4.3 Resultados
São apresentados aqui os resultados obtidos com o sistema ecgConcatNet usando o conjunto de registros DS1 para o treino e DS2 para o teste do classificador. Para fim de com- paração, são adotados aqui os mesmos indicadores usados na Seção 3.3, ilustrados na Tabela 3.2.
A Tabela 4.1 apresenta os resultados experimentais, onde os registros dos pacientes de 100 a 234, pertencentes ao conjunto de dados DS2, são mostrados com seus respectivos in- dicadores para todas as cinco classes. A última linha (Geral) apresenta os resultados das cinco classes referentes a todos os batimentos cardíacos, onde seus números absolutos são ilustrados em uma matriz de confusão mostrada na Tabela 4.2. Todo o desempenho é analisado consi- derando a parametrização explicada na Seção 4.2. Alguns batimentos do conjunto DS2 são rejeitados, respectivamente 91, 3, 6, 0 e 1 amostra para as classes N, S, V, F e Q. Esses bati- mentos não têm pelo menos um dos intervalos RR e são excluídos dos cálculos. A avaliação do desempenho do método proposto resultou em uma acurácia geral de 96,24%. A classe supra- ventricular alcançou uma acurácia de 98,25%, uma sensibilidade de 78,84%, um valor preditivo positivo de 75,16% e uma taxa de falso-positivo de 1%. Para a classe Ventricular, os resultados de acurácia, sensibilidade, valor preditivo positivo e taxa de falsos positivos foram de 98,44%,
Tabela 4.1 – Resultados do modelo ecgConcatNet de acordo com o padrão AAMI.
Registro Número de batimentos Acc geral(%) S (%) V (%)
N S V F Q Rej.∗ Acc Se +P FPR Acc Se +P FPR
100 2239 33 1 0 0 3 98,77 98,77 18,18 85,71 0,04 99,96 0,00 - 0,00 103 2082 2 0 0 0 3 99,90 99,90 0,00 - 0,00 100,00 - - 0,00 105 2526 0 41 0 5 7 95,95 99,84 - 0,00 0,16 96,18 58,54 22,86 3,21 111 2123 0 1 0 0 3 98,54 100,00 - - 0,00 98,54 100,00 3,12 1,46 113 1789 6 0 0 0 3 98,49 98,49 83,33 16,13 1,46 99,94 - 0,00 0,06 117 1534 1 0 0 0 3 99,28 99,93 0,00 - 0,00 99,35 - 0,00 0,65 121 1861 1 1 0 0 3 99,78 99,95 0,00 - 0,00 99,84 0,00 0,00 0,11 123 1515 0 3 0 0 3 99,54 99,54 - 0,00 0,46 100,00 100,00 100,00 0,00 200 1743 30 826 2 0 6 97,65 98,27 0,00 0,00 0,58 98,92 96,60 100,00 0,00 202 2061 55 19 1 0 3 97,98 98,08 25,45 100,00 0,00 99,67 94,74 75,00 0,28 210 2423 22 195 10 0 5 96,94 98,37 9,09 8,00 0,88 97,96 74,36 97,32 0,16 212 2748 0 0 0 0 3 100,00 100,00 - - 0,00 100,00 - - 0,00 213 2641 28 220 362 0 3 83,47 98,58 0,00 0,00 0,56 95,19 30,00 97,06 0,07 214 2002 0 256 1 2 2 93,14 99,91 - 0,00 0,09 94,68 71,09 79,82 2,30 219 2082 7 64 1 0 10 99,02 99,21 0,00 0,00 0,47 99,58 90,32 94,92 0,14 221 2031 0 396 0 0 3 100,00 100,00 - - 0,00 100,00 100,00 100,00 0,00 222 2274 209 0 0 0 6 84,38 85,47 45,93 27,99 10,89 99,03 - 0,00 0,97 228 1688 3 362 0 0 9 93,93 98,09 33,33 2,63 1,81 94,13 66,76 100,00 0,00 231 1568 1 2 0 0 12 97,69 98,33 0,00 0,00 1,60 99,36 100,00 16,67 0,64 232 398 1382 0 0 0 5 96,73 96,73 95,87 99,92 0,25 98,87 - 0,00 1,13 233 2230 7 831 11 0 3 96,85 97,76 0,00 0,00 2,02 97,39 91,20 99,08 0,31 234 2700 50 3 0 0 3 98,18 98,18 0,00 - 0,00 100,00 100,00 100,00 0,00 Geral 44258 1837 3221 388 7 101 96,24 98,25 78,84 75,16 1,00 98,44 83,67 91,59 0,53
∗: número de batimentos cardíacos rejeitados durante o teste.
83,67%, 91,59% e 0,53%, respectivamente.
Da mesma forma que apresentado no Capítulo 3, estão ilustrados a seguir os resulta- dos do registros 100 e 200 pertencentes ao conjunto DS2. A Tabela 4.3 apresenta a classificação dos batimentos cardíacos do registro 100 obtida pelo modelo ecgConcatNet. Nota-se que dos 2236 batimentos considerados normais, o modelo classificou 2263 batimentos como normais. Já os batimentos supraventriculares, que totalizam 33, o modelo classificou apenas 7, sendo que um deles é considerado um batimento ventricular.
Já a Tabela 4.4 ilustra a classificação dos batimentos cardíacos do registro 200. Observa-se que o algoritmo classificou 1784 batimentos como normais, sendo que 1739 são considerados normais. Todos os batimentos supraventriculares foram classificados incorreta-
Tabela 4.2 – Matriz de confusão do modelo ecgConcatNet no conjunto DS2.
Algoritmo N S V F Q Soma Referência N 43602 314 211 40 0 44167 S 352 1446 36 0 0 1834 V 302 163 2690 60 0 3215 F 367 1 12 8 0 388 Q 4 0 2 0 0 6 Soma 44627 1924 2951 108 0 49610
Tabela 4.3 – Matriz de confusão do modelo ecgConcatNet no registro 100. Algoritmo N S V F Q Soma Referência N 2236 0 0 0 0 2236 S 27 6 0 0 0 33 V 0 1 0 0 0 1 F 0 0 0 0 0 0 Q 0 0 0 0 0 0 Soma 2263 7 0 0 0 2270
mente como normais. Já quanto aos batimentos ventriculares, que totalizam 824, houve 28 falsos negativos identificados pelo algoritmo.
4.4 Conclusões
Este estudo apresenta uma arquitetura composta por um conjunto de redes neurais artificiais que realiza a extração de características e classificação de arritmias cardíacas seguindo as diretrizes da norma AAMI, validadas através dos sinais do MIT-BIH Arrhythmia Database. Inicialmente, o sinal é pré-processado para eliminar o deslocamento DC e calcular as caracterís- ticas preliminares. Essas características referem-se às variações dos intervalos entre batimentos, enquanto uma transformada wavelet contínua é usada para produzir uma imagem bidimensional de cada batimento cardíaco. No estágio de aprendizado, os intervalos temporais são submetidos a uma rede perceptron multicamadas, e as imagens de batimentos cardíacos 2D são submetidas a uma rede neural convolucional, responsável pelo processamento de uma representação das respectivas características morfológicas. Essas duas saídas de rede são concatenadas em um vetor e apresentadas na entrada da etapa de classificação, composta por outra rede perceptron multicamadas, que finalmente discrimina entre as cinco classes AAMI. Os conjuntos de dados de treino e de teste contêm sinais de diferentes indivíduos, acarretando o desenvolvimento de um classificador com base no esquema orientado ao paciente.
Tabela 4.4 – Matriz de confusão do modelo ecgConcatNet no registro 200.
Algoritmo N S V F Q Soma Referência N 1738 1 0 0 0 1739 S 30 0 0 0 0 30 V 14 14 796 0 0 824 F 2 0 0 0 0 2 Q 0 0 0 0 0 0 Soma 1784 15 796 0 0 2595
Os experimentos alcançaram bons resultados, com uma acurácia geral de 96,24%, o que indica robustez para lidar com classes desequilibradas e convergência de treinamento para discriminar diferentes classes de arritmias cardíacas.
O treinamento realizado nesse capítulo e no anterior foi baseado na abordagem su- pervisionada, que minimiza a função custo usando um conjunto de dados de treino rotulado. No entanto, é possível aprimorar a otimização de um classificador através de técnicas de treina- mento não-supervisionado, conforme será discutido no próximo capítulo.
5 CLASSIFICADOR DE ARRITMIAS CARDÍACAS ATRAVÉS DE
REDES ADVERSÁRIAS ADAPTATIVAS
5.1 Introdução
Os capítulos anteriores apresentaram técnicas de classificação de sinais de ECG através do treinamento supervisionado. Essa abordagem lida com dois conjuntos de dados, sendo os dados de treino (que incluem também os dados de validação) e os dados de teste. Quando estes dois conjuntos apresentam pequena diferença na distribuição dos dados, os resul- tados são satisfatórios, uma vez que a acurácia obtida com os dados de teste apresenta valores próximos da obtida com os dados de treino. No entanto, quando a diferença na distribuição dos dados se torna significativa, porém relacionada, a rede treinada não consegue um bom de- sempenho na inferência dos dados de teste. Assim, uma das técnicas utilizadas para lidar com esta questão é a Adaptação ao Domínio (DA, do inglês Domain Adaptation), que é um campo do aprendizado de máquina que lida com o cenário da diferença de distribuição dos dados. O objetivo desta técnica consiste em adaptar um modelo de uma distribuição (distribuição source) para uma nova distribuição (distribuição target), melhorando os resultados do classificador.
Este capítulo implementa um método de treinamento adversário não-supervisionado baseado nas redes adversárias generativas para classificar arritmias cardíacas, também usando os padrões definidos pela AAMI. O trabalho apresentado por Tzeng et al. (2017), baseado em GANs, também foi usado como referência. O método proposto neste capítulo treina a rede ecgConcatNet, apresentada no Capítulo 4, através da técnica de adaptação adversária ao novo domínio de dados, com o objetivo de aprimorar a precisão geral da classificação de arritmias, uma vez que pacientes distintos acarretam em diferença na distribuição dos sinais de ECG. Essa técnica aprimora os resultados anteriores, uma vez que o classificador é treinado para se adaptar ao domínio dos batimentos cardíacos do próprio paciente.
5.2 Métodos
Nesta abordagem, tem-se o modelo source que se refere à rede treinada no método supervisionado utilizando o conjunto de dados de treino rotulados (DS1). Esse modelo é idên- tico à rede ecgConcatNet, descrita no Capítulo 4. Em seguida, o modelo source é adaptado ao novo domínio de dados DS2, através de um treinamento adaptativo, formando o modelo target. É importante ressaltar que os rótulos dos dados DS2 não são utilizados (treinamento não-supervisionado). O novo modelo proposto, chamado de ecgAdvNet, é desenvolvido atra- vés de três fases: treinamento source, treinamento target e teste. A Figura 5.1 apresenta a visão
Figura 5.1 – Sistema ecgAdvNet, ressaltando os modelos com linhas tracejadas que não sofrem atualização de pesos e vieses.
geral do sistema, que tem como objetivo final obter uma rede target treinada para cada sinal do conjunto DS2.
Na fase "treinamento source", tem-se acesso aos dados de entrada Xsource(composto
pelos vetores v e pelas imagens de 28x28 pixels) e aos respectivos rótulos Ysource provenientes
do conjunto de treino (DS1). O objetivo é realizar o treinamento supervisionado padrão, que classifica corretamente os batimentos cardíacos em uma das cinco categorias (N, S, V, F ou Q). Este método é idêntico ao treinamento realizado no Capítulo 4, utilizando os mesmos parâme- tros e o mesmo sistema composto por três redes (Temporal, Morfológica e de Decisão).
A fase "treinamento target", que corresponde à adaptação ao novo domínio, é com- posta por três modelos, chamados de source concatnet (Fs), target concatnet (Ft) e discriminator
(Fd). Assume-se acesso aos dados source Xsource (que representa uma parcela do conjunto de
dados DS1), bem como dados target Xtarget (DS2), sem o uso de rótulos. Inicialmente o modelo
(Ft) é uma cópia do modelo (Fs), ou seja, os pesos e vieses de ambos os modelos são idênticos.
O modelo Fd é composto por uma rede neural clássica apresentando duas camadas escondi-
das totalmente conectadas com 100 neurônios cada e ReLU como função de ativação, além da camada de saída com dois neurônios. Para o treinamento, os pesos são inicializados usando a técnica Uniform Xavier Initialization (GLOROT; BENGIO, 2010). Esse modelo é responsável por julgar se os dados são provenientes de Fsou Ft. O objetivo desta fase é obter um modelo (Ft)
aprimorado, capaz de classificar Xtarget de modo mais eficiente, mesmo na ausência de rótulos
do referido domínio.
O modelo Fd é otimizado de acordo com o padrão supervisionado, onde os rótulos
indicam se os dados são provenientes do modelo Fs ou do modelo Ft. Vale destacar que estes
rótulos não são os mesmos que identificam cada uma das categorias N, S, V, F e Q. O treina- mento desse modelo tem por finalidade fornecer a probabilidade de os dados pertencerem a Fs
ou Ft e é realizado maximizando a Equação (5.1).
onde E denota o valor esperado, xs representa as amostras de dados provenientes da saída do
modelo Fse xtamostras provenientes da saída do modelo Ft. Esse modelo é treinado de modo a
produzir resultado ’1’ (ou 100%) para amostras de dados provenientes do modelo Fse resultado
’0’ (ou 0%) para amostras de dados provenientes do modelo Ft. Conforme ilustra a Equação
(5.1), maximizando o termo Fd(Fs(xs)) de modo a se aproximar do valor ’1’, faz logFd(Fs(xs))
se aproximar do valor ’0’. De forma similar, produzindo resultados próximos de ’0’ para os dados provenientes do modelo Ft, ou seja, aproximando Fd(Ft(xt)) do valor ’0’, a expressão
log(1 − Fd(Ft(xt))) resulta em valores próximos de zero.
Do outro lado, o modelo Ft tenta dificultar o trabalho de Fd, uma vez que o papel de
Ft é o mesmo de Fd, mas no sentido contrário. Assim, a função custo para o modelo Ft se torna:
Ladv Ft(Fs, Ft) = − Exs∼Xs[logFd(Fs(xs))] − Ext∼Xt[log(1 − Fd(Ft(xt)))] (5.2)
O modelo Ft tenta modificar seus pesos de modo a maximizar Ladv Ft(Fs, Ft) da
Equação (5.2). O papel do modelo Ft é o de gerar resultados de forma a enganar o modelo
Fd. Observe que o modelo Ft não influencia o primeiro termo do lado direito da expressão
Ladv Ft(Fs, Ft), uma vez que este termo não envolve parâmetros em Ft. Maximizando o outro termo, tem-se altos valores para Fd(Ft(xt)) (próximos de ’1’). No entanto, observe que Fd deve-
ria produzir resultados próximos de ’1’ apenas quando recebesse dados provenientes do modelo