CHAPITRE III - CARACTERISTIQUES DEMOGRAPHIQUES D'UNE
II. 2 - Résultats et discussion
II. 2. c - Les causes de mortalité
Nesta sessão, apresentamos os modelos desenvolvidos na etapa experimental deste projeto. O modelo anteriormente apresentado foi construído dentro da empresa em um tempo reduzido, porém, seguindo a metodologia julgada adequada para o problema. A ideia desta sessão foi explorar alternativas de modelagem e comparar sob diversas métricas (Subseção2.9.1) as performances dos modelos.
Capítulo 4. Resultados 42
4.3.1
Algoritmos Genéticos
Esta abordagem foi desenvolvida com o objetivo de utilizar os Algoritmos Genéticos para explorar outras formas de combinação dos Scores de primeiro nível (o valor máximo, a média simples, a média geométrica, a média harmônica e a regressão logística) e ainda ajudar a entender se seria necessário utilizar todos os Scores ou apenas alguns deles. O problema modelado possuía um espaço de busca de (25− 1) * 5 = 155) possibilidades. Foram realizadas simulações de probabilidade de crossover e mutação e a seleção foi feita via elitismo, mantendo na população sempre os indivíduos mais aptos.
4.3.1.1 Codificação, População inicial e fitness do GA
Cada indivíduo foi codificado em um vetor de seis posições, em que as cinco posições iniciais indicavam, de forma binária, se um Score de primeiro nível estava presente ou ausente naquele indivíduo. A ordem do vetor foi relevante para o problema, pois o Score com melhor desempenho aparecia na primeira posição e o Score com pior desempenho, na quinta posição.
Para avaliar o desempenho preditivo dos modelos de primeiro nível foi utilizada a matriz de confusão. Os pontos de corte para cada um dos cinco Scores foram definidos considerando como propensos os cinquenta mil clientes com maiores Scores. Ou seja, pela ordenação dos clientes por essa métrica, atribuiu-se a marcação Propenso = 1 aos cinquenta mil primeiros e Propenso = 0 aos demais. Isso foi feito na amostra de desenvolvimento (153.400 clientes). As performances podem ser conferidas na Tabela16.
O Score de Motivo de Chamada apresentou a melhor performance com acurácia de 70,33%, sensibilidade de 50,92%, especificidade de 71,81%, VPP de 30,27% e VPN de 85,89%. A segunda melhor performance foi obtida pelo Score Comercial. Em seguida, vieram os Scores de Histórico ODC, Reparos e, por fim, Chamadas. É interessante perceber que, independente da métrica escolhida, a ordenação dos Scores com relação à performance foi a mesma. A tabela22
representa a probabilidade de seleção baseada no valor da sensibilidade para a população inicial na amostra de treinamento.
Capítulo 4. Resultados 43
Tabela 22 – Probabilidade de Seleção do Score da população inicial
Score Sensibilidade Proporção Acumulada
Motivo Chamada (S1) 0,5754 23,3% 23,3% Comercial (S2) 0,5092 20,6% 43,9% Passou ODC (S3) 0,4825 19,5% 63,5% Reparos (S4) 0,4680 19,0% 82,4% Chamadas (S5) 0,4345 17,6% 100,0% Soma 2.4696 100.0% -
O processo de definir quais Scores comporiam os genes dos indivíduos foi realizado via sorteio de um número inteiro aleatório entre zero e cem, via um gerador uniforme. O número sorteado definiu o limite superior da proporção acumulada gerada pela sensibilidade dos Scores de primeiro nível, representado na tabela22. Por exemplo, para um determinado indivíduo i se o número 45 for sorteado, farão parte do processo de avaliação desse indivíduo os Scores Motivo de Chamada e Comercial, pois ambos acumulam 43,9% da proporção da sensibilidade.
A sexta posição do vetor de codificação foi ocupada pela regra de combinação, atribuída para cada indivíduo de forma aleatória, a saber: Regra 1 - Média Simples, Regra 2 - Média Geométrica, Regra 3 - Média Harmônica, Regra 4 - Máximo e Regra 5 - Regressão logística. A Tabela23apresenta um exemplo da codificação para uma população inicial de dez indivíduos.
Tabela 23 – População Inicial com dez indivíduos - seed(123)
Ind S1 S2 S3 S4 S5 Regras Fitness
1 1 1 0 0 0 4 16.902 2 1 1 0 0 0 5 17.182 3 1 1 1 1 1 1 18.011 4 1 1 1 0 0 5 18.009 5 1 1 1 0 0 3 17.691 6 1 1 1 1 1 3 17.660 7 1 1 1 1 0 3 17.704 8 1 0 0 0 0 5 17.102 9 1 1 0 0 0 1 17.059 10 1 1 0 0 0 5 17.182
A função de fitness foi a contagem de quantos clientes apresentavam marcação Propenso = 1 entre os cinquenta mil clientes com os maiores valores no Score final. A tabela23mostra que o indivíduo 1, com os genes de Scores S1 e S2 e Regra 4 obteve fitness de 16.902.
4.3.1.2 Crossover, Mutação e Seleção
O processo de crossover baseou-se na troca de regras entre dois indivíduos de forma aleatória. Ou seja, para cada geração, um indivíduo foi avaliado segundo a probabilidade de
Capítulo 4. Resultados 44
realizar crossover e caso essa probabilidade fosse maior do que um número aleatório, ele trocava de regra com outro elemento escolhido ao acaso. Senão, ele seguia para a próxima geração com o mesmo gene de regra.
A mutação foi responsável por alterar os genes de Scores dos indivíduos. Da mesma forma que no processo de crossover, existia uma probabilidade de mutação em que cada indivíduo era confrontado com um número aleatório e, caso a probabilidade de mutação fosse maior, os Scores eram embaralhados. Essa foi uma característica boa do GA proposto, pois permitiu explorar melhor o espaço de busca, sobretudo, por fazer alterações significativas no gene da população inicial que seguia a lógica da Tabela22. Com a mutação, por exemplo, cromossomos com a ausência de S1 também eram viáveis de existir, algo que não ocorria na população inicial. Nesse processo, também foi permitida a extinção de algum gene para determinados indivíduos. A seleção foi realizada via elitismo, em que os dez pais eram comparados com os dez filhos e sobreviviam para a geração seguinte apenas os dez mais aptos, ou seja, os dez indivíduos com maiores fitness. Ao final de n gerações, a resposta procurada estava contida nos cromossomos do indivíduo mais apto.
4.3.1.3 Simulações com GA
Diversas simulações foram realizadas, alterando valores da população inicial (10, 20 e 50) e os parâmetros de Crossover e mutação (5%, 10% e 50%). Em todos os cenários, foi fixada uma única semente para a aleatorização. Um exemplo de população inicial com dez indivíduos está representada na Tabela23. A seleção ocorreu via elitismo e, entre cada uma das gerações, foram selecionados os dez indivíduos mais aptos. Nesse processo de seleção, foram descartados indivíduos exatamente iguais aos seus pais.
O algoritmo encontrou que a solução com melhor desempenho foi a combinação dos ScoresS1 (Motivo Chamada) e S3 (Passou ODC) via regra do Máximo, com fitness de 18.550. A tabela24apresenta as medidas de desempenho da regra final.
Tabela 24 – Métricas do Modelo Selecionado
Período Acurácia S E VPP VPN F1-Score Lift
Desenvolvimento 0.7221 0.6241 0.7457 0.3710 0.8919 0.6795 1.9146
Validação 0.6770 0.6926 0.6733 0.3393 0.9004 0.6828 1.7398
O resultado obtido, em termos de desempenho, foi um pouco superior ao obtido pela metodologia de stacking de Regressão Logística, Seção4.1. A acurácia obtida com a heurística de GA foi de 67,70% contra 67,60%. O lift foi de 1,7398 contra 1,7334. Em termos de desempenho, não representa um ganho relevante, porém, do ponto de vista de parcimônia, é muito melhor e simples a utilização desse modelo alternativo. Do ponto de vista do negócio, é interessante destacar que esse modelo ficou com os dois Scores finais, Passou ODC e Motivo Chamada,
Capítulo 4. Resultados 45
que são as duas dimensões que a área de negócio julgou mais relevantes para captar o perfil de clientes propensos a reclamar no ODC.
4.3.2
Stacking Random Forest
Para a elaboração dos modelos de primeiro nível, foi utilizada a técnica de Random Forest com os parâmetros mtry = log2(M+1) e ntree = 200 (ver2.7.4). O banco de dados utilizado foi aquele com as variáveis brutas, com remoção de variáveis muito correlacionadas. Assim, o parâmetro mtry para os modelos foram: Passou ODC: 7, Chamadas: 4, Reparos: 8, Motivo Chamada: 3 e Comercial: 9. Para o modelo de segundo nível, esse parâmetro assumiu o valor de 3.
A Tabela 25 apresenta o desempenho dos modelos de primeiro nível. O modelo de Motivo de Chamada apresentou o melhor desempenho com acurácia de 70,37% e lift de 1,7689. O segundo melhor desempenho foi obtido pelo modelo Comercial, seguido por Chamadas, Passou ODC e Reparos.
Tabela 25 – Métricas de Predição para Modelos de Primeiro Nível - Treinamento
Modelos Acurácia S E VPP VPN F1-Score Lift
Passou ODC 0,6641 0,4743 0,7097 0,2820 0,8489 0,5686 1,4552
Chamadas 0,6697 0,4888 0,7132 0,2906 0,8530 0,5801 1,4997
Reparos 0,6609 0,4661 0,7077 0,2771 0,8465 0,5620 1,4299
Motivo Chamada 0,7037 0,5766 0,7343 0,3428 0,8783 0,6459 1,7689
Comercial 0,7011 0,5698 0,7327 0,3388 0,8763 0,6411 1,7482
A Tabela26mostra que a ordem de desempenho na amostra de validação se manteve a mesma com relação à amostra de treinamento, com redução no valor das métricas. Por exemplo, a acurácia do modelo de motivo da chamada foi de 66,04%.
Tabela 26 – Métricas de Predição para Modelos de Primeiro Nível - Validação
Modelos Acurácia S E VPP VPN F1-Score Lift
Passou ODC 0,6285 0,5682 0,6431 0,2784 0,8601 0,6033 1,4273
Chamadas 0,6195 0,5450 0,6375 0,2670 0,8526 0,5877 1,3691
Reparos 0,6287 0,5686 0,6432 0,2786 0,8602 0,6036 1,4284
Motivo Chamada 0,6604 0,6499 0,6629 0,3184 0,8865 0,6563 1,6325
Comercial 0,6563 0,6393 0,6604 0,3132 0,8831 0,6497 1,6060
A Tabela27apresenta as métricas de avaliação desse modelo. A acurácia na amostra de validação foi de 68,72%, mais de um ponto percentual com relação ao melhor modelo obtido anteriormente (GA). O lift obtido foi de 1,8052, valor superior ao melhor modelo (GA) (1,7398). Ou seja, essa abordagem de fato trouxe ganhos para a melhor assertividade do modelo.
Capítulo 4. Resultados 46
Tabela 27 – Métricas do Modelo de Segundo Nível - RF
Período Acurácia S E VPP VPN F1-Score Lift
Desenvolvimento 0,7280 0,6392 0,7493 0,3800 0,8963 0,6899 1,9610
Validação 0,6872 0,7186 0,6796 0,3521 0,9088 0,6986 1,8052