• Aucun résultat trouvé

A8.1 - Variation du patrimoine (article R2313-3 du CGCT) - Entrées X

Dans le document LISTE DES CODES FONCTIONNELS (Page 196-200)

Nesta seção apresenta-se os resultados alcançados para a predição de explosões solares de classes ≥ 𝐶 5.0, para os horizontes de predição de 24, 48 e 72 horas, considerando modelos com dados desbalanceados e balanceados. Semelhante à Seção 5.2, os resultados exibidos correspondem a média das métricas obtidas no conjunto de validação à partir de validação cruzada com 3folds.

5.3.1

Horizonte de predição de 24 horas

Nesta seção são apresentados os resultados alcançados para a predição de explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 24 horas. A Figura5.12apresenta os resultados obtidos para o algoritmo Floresta Aleatória.

Figura 5.12: Resultados do algoritmo Floresta Aleatória no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 24h.

Observa-se resultados próximos em relação às métricas TSS e Escore F1 para os modelos com dados balanceados. As técnicas SMOTE-Tomek e ADASYN obtêm TSS igual a 0,588, com desvios de 0,018 e 0,011, respectivamente. O TSS médio para a técnica SMOTE-ENN é de 0, 592, enquanto que a técnica SMOTE obtém TSS de 0, 598 ± 0, 007.

O melhor modelo é alcançado através do conjunto de dados desbalanceado, que maximiza as métricas TSS, alcançando valores aproximados de 0,625, e Escore F1, atingindo 67,2%. A taxa de verdadeiros positivos e negativos são, respectivamente, 84,4% e 78,1%.

A Figura5.13apresenta os resultados alcançados para o algoritmo LightGBM. Os resultados obtidos são similares ao algoritmo Floresta Aleatória em relação aos resultados com o uso de dados balanceados.

Figura 5.13: Resultados do algoritmo LightGBM no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 24h.

Os valores alcançados para a métrica TSS variam entre 0,584 e 0,616. O modelo considerando o conjunto de dados desbalanceado maximiza a métrica TSS, 0, 616 ± 0, 019, e a métrica Escore F

1, 67, 2% ± 0, 9%.

A taxa de verdadeiros positivos também é maximizada pelo modelo com dados desbalanceados, alcançando taxa aproximada de 81,9%. Nesse modelo a taxa de verdadeiros negativos é de 79, 8% ± 1, 1%. Em relação aos valores preditos, o modelo alcança PPV igual a 57, 0% ± 0, 7% e NPV igual a 93, 1% ± 0, 9%.

A Figura 5.14 apresenta os resultados para o algoritmo SVM para o conjunto de dados de validação. Nesse caso as métricas TPR e TSS apresentam maior dispersão em relação aos algoritmos apresentados anteriormente.

A métrica TSS é igual a 0,596 para os modelos com dados desbalanceados e balanceados através da técnica SMOTE, com desvios padrões de 0, 050 e 0, 033, respectivamente. O TSS mínimo é obtido pela técnica de balanceamento SMOTE-ENN, igual a 0, 560 ± 0, 051.

Os algoritmos com as técnicas SMOTE-Tomek e ADASYN apresentam desempenhos superiores, com TSS iguais a 0, 602 ± 0, 033 e 0, 615 ± 0, 036, respectivamente. O algoritmo

Figura 5.14: Resultados do algoritmo SVM no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 24h.

SMOTE-Tomek maximiza a métrica Escore F1, aproximadamente igual a 68,2%, e PPV, igual a 62, 6% ± 1, 3%.

Considerando o melhor modelo preditivo aquele que maximiza a métrica TSS, a técnica ADASYN é selecionada. As taxas de verdadeiros positivos e negativos são, respectivamente, 80,2% e 81,3%. A proporção de amostras preditivas positivas que classificam corretamente é de 58,5%, enquanto que amostras preditivas negativas é de 92,6%.

A Tabela5.6apresenta os melhores resultados alcançados para os métodos individuais e a combinação dos modelos. Nesse caso, os modelos preditivos através dos algoritmos Floresta Aleatória e LightGBM consideram dados desbalanceados, enquanto que o modelo SVM considera a técnica ADASYN, devido ao melhor desempenho.

A combinação de todos os métodos através da média das probabilidades minimiza as métricas TSS e PPV e maximiza a métrica TPR, o que indica uma menor capacidade para que amostras preditas positivas classifiquem corretamente. Com o objetivo de aumentar a capacidade de predição do modelo, avalia-se a métrica TSS em conjunto com as demais métricas de avaliação do desempenho.

Para a métrica TSS observa-se diferenças, sem arredondamento dos valores, entre os modelos com o algoritmo Floresta Aleatória e a combinação dos métodos Floresta Aleatória e LightGBM com o conectivo lógico “ou” a partir da terceira casa decimal. O algoritmo Floresta Aleatória obtém TSS aproximado de 0,6253, enquanto que o modelo com Floresta Aleatória ou LightGBM obtém TSS aproximadamente igual a 0,6249.

Tabela 5.6: Resultados da combinação dos algoritmos no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 24h.

Método TPR TNR PPV NPV TSS Escore F1 SVMa 0,802 0,813 0,585 0,926 0,615 0,676 (0,047 ) ( 0,014 ) ( 0,010 ) ( 0,015 ) ( 0,036 ) ( 0,018) RFb* 0,844 0,781 0,558 0,939 0,625 0,672 (0,031 ) ( 0,014 ) ( 0,007 ) ( 0,010 ) ( 0,018 ) ( 0,006) LGBMb 0,819 0,798 0,570 0,931 0,616 0,672 (0,028 ) ( 0,011 ) ( 0,007 ) ( 0,009 ) ( 0,019 ) ( 0,009) SVM ou RF 0,860 0,762 0,542 0,943 0,622 0,665 (0,026 ) ( 0,016 ) ( 0,009 ) ( 0,009 ) ( 0,010 ) ( 0,002) SVM ou LGBM 0,851 0,768 0,547 0,940 0,620 0,666 (0,024 ) ( 0,011 ) ( 0,006 ) ( 0,008 ) ( 0,015 ) ( 0,006) RF ou LGBM* 0,855 0,770 0,550 0,942 0,625 0,669 (0,026 ) ( 0,014 ) ( 0,009 ) ( 0,009 ) ( 0,017 ) ( 0,008) SVM e RF 0,786 0,832 0,606 0,923 0,619 0,684 (0,051 ) ( 0,011 ) ( 0,009 ) ( 0,016 ) ( 0,043 ) ( 0,022) SVM e LGBM 0,769 0,842 0,616 0,918 0,612 0,683 (0,051 ) ( 0,014 ) ( 0,010 ) ( 0,016 ) ( 0,040 ) ( 0,020) RF e LGBM 0,809 0,808 0,581 0,928 0,617 0,676 (0,033 ) ( 0,012 ) ( 0,005 ) ( 0,011 ) ( 0,021 ) ( 0,008) RF ou SVM ou LGBM 0,867 0,753 0,536 0,945 0,620 0,662 (0,024 ) ( 0,015 ) ( 0,009 ) ( 0,008 ) ( 0,010 ) ( 0,003) RF e SVM e LGBM 0,766 0,845 0,618 0,917 0,611 0,683 (0,054 ) ( 0,013 ) ( 0,007 ) ( 0,017 ) ( 0,042 ) ( 0,021) Voto Majoritário1* 0,832 0,794 0,570 0,935 0,626 0,676 (0,029 ) ( 0,010 ) ( 0,006 ) ( 0,010 ) ( 0,021 ) ( 0,010) Média Geral 0,892 0,692 0,488 0,952 0,585 0,631 (0,018 ) ( 0,022 ) ( 0,014 ) ( 0,006 ) ( 0,011 ) ( 0,008) a

Construído a partir do conjunto de dados balanceado através da técnica ADASYN

b

Construído a partir do conjunto de dados desbalanceado 1 TSS ótimo * Maiores TSS ** Menores TSS

Já a combinação dos modelos por voto majoritário obtém TSS igual a 0, 626 ± 0, 021. Comparado com os modelos com maiores TSS, a combinação dos modelos também maximiza a métrica Escore F

1e é selecionado para predição de explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 24h. O percentual de predições positivas que classificam

corretamente é de 57%. Em relação as observações positivas, a taxa de verdadeiros positivos é de 83,2%.

5.3.2

Horizonte de predição de 48 horas

Nesta seção são apresentados os resultados alcançados para predição de explosões solares em um horizonte de predição de 48 horas, i. e., dado o instante de tempo atual 𝑡 , avaliar a ocorrência de explosão solar no instante 𝑡 + 2 dias.

A Figura 5.15 exibe os resultados para o algoritmo Floresta Aleatória. A métrica de desempenho TSS varia entre, aproximadamente, 0,50 e 0,54, e a métrica TPR varia entre 73% e 79%.

Figura 5.15: Resultados do algoritmo Floresta Aleatória no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 48h.

O algoritmo utilizando dados desbalanceados destaca-se pelo melhor desempenho, maximizando as métricas TPR, TSS e Escore F

1. Nesse caso, obtém-se taxa de verdadeiros positivos de 79,6%, com desvio padrão de 2,9%.

Em relação às predições, aproximadamente 50,7% das predições positivas classificam corretamente e 91,8% das predições negativas classificam corretamente. A métrica TSS e o Escore F

1são, respectivamente, iguais a 0, 544 ± 0, 040 e 61, 9% ± 2, 4%.

A Figura5.16exibe os resultados para o algoritmo LightGBM. Novamente, o modelo com conjunto de dados desbalanceado destaca pelo melhor desempenho, maximizando as métricas TPR, TSS e Escore F1.

Figura 5.16: Resultados do algoritmo LightGBM no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 48h.

As técnicas de balanceamento dos dados alcançam TSS máximo igual a 0, 526 ± 0, 046 para o método SMOTE, e TPR máximo de 75,6% para o método ADASYN. O conjunto de dados desbalanceado obtém TPR igual a 78,9% com desvio padrão igual a 3, 2% e TSS igual a 0,542 com desvio padrão igual a 0, 049.

Nesse caso, o modelo com dados desbalanceados para a algoritmo LightGBM possui maior capacidade de predição. As taxas de predições positivas e negativas que classificam corretamente são, respectivamente, aproximadamente iguais a 51,1% e 91,6%.

A Figura5.17apresenta os resultados para o algoritmo SVM. Comparando a métrica TSS, as técnicas de balanceamento dos dados apresentam menores desvios e maiores médias. O modelo com dados desbalanceado alcança TSS médio igual 0,494 e TPR igual a 75,3%.

O modelo utilizando a técnica ADASYN obtém melhor desempenho, maximizando a métrica TSS e TPR, e será aplicado para combinação dos modelos. A taxa média de verdadeiros positivos é de 80,9% e TSS igual a 0, 523 ± 0, 040.

A Tabela 5.7 reúne os melhores resultados para os modelos utilizando os algoritmos individualmente e a combinação dos modelos. Conforme mencionado nas análises individuais, os modelos usando os algoritmos Floresta Aleatória e LightGBM consideram o conjunto de dados desbalanceado, enquanto que o modelo SVM considera o balanceamento dos dados através da técnica ADASYN, devido ao melhor desempenho.

O modelo com o algoritmo Floresta Aleatória apresenta maior TSS em relação aos demais algoritmos avaliados individualmente, com valor aproximado de 0,544, seguido do algoritmo LightGBM, com TSS igual a 0,542.

Figura 5.17: Resultados do algoritmo SVM no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 48h.

A métrica de desempenho TSS também obtém valor médio de 0,542 para a combinação dos modelos SVM e Floresta Aleatória e 0,548 para a combinação por voto majoritário. A combinação de todos os modelos através da média de probabilidades resulta no modelo com mínimo TSS, com valor médio igual a 0,490, e máximo TPR, igual a 88%.

A combinação dos modelos Floresta Aleatória e LightGBM usando o conectivo lógico “e” resulta no melhor modelo preditivo que maximiza as métricas TSS, com valor médio igual a 0,550 e desvio padrão igual 0,047, e Escore F1, com valor médio de 62,8%.

As taxas médias de verdadeiros positivos e negativos são 77,8% e 77,2%, respectivamente. Em relação às predições positivas, aproximadamente 52,6% classificam corretamente, enquanto que 91,4% da predições negativas classificam corretamente.

5.3.3

Horizonte de predição de 72 horas

Nesta seção são apresentados os modelos para predição de explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 72 horas, i. e., dado o instante de tempo atual 𝑡 , avaliar a ocorrência de explosão solar no instante 𝑡 + 3 dias.

A Figura5.18apresenta os resultados alcançados para o algoritmo Floresta Aleatória. As técnicas de balanceamento dos dados alcançam resultados próximos em relação à métrica TSS, com valores médios entre 0,475 e 0,484. O modelo com dados desbalanceados apresenta TSS médio igual a 0,528.

Tabela 5.7: Resultados da combinação dos algoritmos no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 48h.

Método TPR TNR PPV NPV TSS Escore F1 SVMa 0,809 0,714 0,480 0,920 0,523 0,603 ( 0,027 ) ( 0,023 ) ( 0,024 ) ( 0,011 ) ( 0,040 ) ( 0,024) RFb* 0,796 0,748 0,507 0,918 0,544 0,619 ( 0,029 ) ( 0,011 ) ( 0,020 ) ( 0,012 ) ( 0,040 ) ( 0,024) LGBMb* 0,789 0,754 0,511 0,916 0,542 0,620 ( 0,032 ) ( 0,022 ) ( 0,029 ) ( 0,013 ) ( 0,049 ) ( 0,030) SVM ou RF 0,842 0,683 0,464 0,930 0,524 0,598 ( 0,021 ) ( 0,025 ) ( 0,023 ) ( 0,010 ) ( 0,041 ) ( 0,024) SVM ou LGBM 0,838 0,688 0,468 0,929 0,527 0,600 ( 0,024 ) ( 0,028 ) ( 0,025 ) ( 0,011 ) ( 0,042 ) ( 0,025) RF ou LGBM 0,806 0,730 0,493 0,920 0,536 0,612 ( 0,026 ) ( 0,015 ) ( 0,022 ) ( 0,011 ) ( 0,041 ) ( 0,025) SVM e RF* 0,763 0,779 0,530 0,910 0,542 0,625 ( 0,031 ) ( 0,008 ) ( 0,020 ) ( 0,012 ) ( 0,039 ) ( 0,024) SVM e LGBM 0,759 0,779 0,529 0,909 0,539 0,624 ( 0,037 ) ( 0,019 ) ( 0,028 ) ( 0,014 ) ( 0,047 ) ( 0,030) RF e LGBM1* 0,778 0,772 0,526 0,914 0,550 0,628 ( 0,034 ) ( 0,018 ) ( 0,027 ) ( 0,013 ) ( 0,047 ) ( 0,029) RF ou SVM ou LGBM 0,845 0,674 0,459 0,930 0,520 0,595 ( 0,018 ) ( 0,026 ) ( 0,023 ) ( 0,009 ) ( 0,039 ) ( 0,023) RF e SVM e LGBM 0,753 0,789 0,538 0,907 0,541 0,627 ( 0,034 ) ( 0,014 ) ( 0,025 ) ( 0,012 ) ( 0,044 ) ( 0,028) Voto Majoritário* 0,796 0,753 0,512 0,919 0,548 0,623 ( 0,034 ) ( 0,016 ) ( 0,024 ) ( 0,013 ) ( 0,046 ) ( 0,028) Média Geral** 0,881 0,609 0,424 0,940 0,490 0,572 ( 0,014 ) ( 0,032 ) ( 0,021 ) ( 0,008 ) ( 0,039 ) ( 0,021) a

Construído a partir do conjunto de dados balanceado através da técnica ADASYN

b

Construído a partir do conjunto de dados desbalanceado 1 TSS ótimo * Maiores TSS ** Menores TSS

Avaliando a taxa de verdadeiros positivos, os valores médios para os modelos com dados balanceados variam entre 70,6% e 75,9%. Para a métrica Escore F1, os valores alcançados para as quatro técnicas são próximas, com valores entre 57,2% e 58,0%. Para dados desbalanceados, o modelo alcança Escore F1igual a 59, 7% ± 2, 6%.

Figura 5.18: Resultados do algoritmo Floresta Aleatória no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 72h.

O modelo com dados desbalanceados maximiza a métrica TSS, Escore F1 e TPR, e é escolhido pelo melhor desempenho preditivo para o algoritmo Floresta Aleatória. A taxa média de verdadeiros positivos é de 80,6%, enquanto que a taxa média de verdadeiros negativos é de 72,2%. O percentual médio de predições positivas e negativas que classificam corretamente são 47,4% e 92,3%, respectivamente.

A Figura 5.19 apresenta os resultados para o algoritmo LightGBM. As técnicas de balanceamento dos dados SMOTE, SMOTE-Tomek e ADASYN apresentam TSS médio próximos, em torno de 0,465. A técnica SMOTE-ENN apresenta TSS superior em relação aos demais, com resultado igual a 0,494, enquanto que o modelo com o conjunto de dados desbalanceado maximiza a métrica, alcançando valor médio igual a 0,522.

Considerando o modelo ótimo aquele que maximiza a métrica TSS, 77,9% das amostras positivas e 74,3% das amostras negativas são corretamente classificadas. O Escore F

1 é maximizado, obtendo valor médio igual a 59,7%. Para as amostras preditas, 48,5% das predições positivas e 91,5% das predições negativas classificam corretamente.

A Figura 5.20 apresenta os resultados para o algoritmo SVM. Os valores alcançados em relação à métrica TSS são próximos para as diferentes técnicas avaliadas, variando de 0,478 a 0,489.

O modelo usando a técnica ADASYN maximiza a métrica TSS, obtendo valor igual a 0, 489 ± 0, 038. Para esse modelo, a taxa de verdadeiros positivos é de aproximadamente 70,2%. O modelo com conjunto de dados desbalanceado obtém TSS médio igual a 48,5%, com diferenças

Figura 5.19: Resultados do algoritmo LightGBM no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 72h.

Figura 5.20: Resultados do algoritmo SVM no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 72h.

apenas na terceira casa decimal. No entanto, 77,5% das amostras positivas são classificadas corretamente.

Nesse caso, para a predições de explosões solares utilizando o algoritmo SVM, o melhor modelo é obtido com o conjunto de dados desbalanceado, que maximiza a métrica TPR e obtém valores próximos em relação ao máximo TSS.

A Tabela 5.8 apresenta os modelos individuais utilizando dados desbalanceados e a combinação dos modelos. Os textos em destaque referem-se aos modelos com maiores TSS, e o texto grafado em itálico refere-se ao modelo com mínimo TSS.

Tabela 5.8: Resultados da combinação dos algoritmos no conjunto de dados de validação para explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 72h.

Método TPR TNR PPV NPV TSS Escore F1 SVMa 0,775 0,710 0,454 0,911 0,485 0,572 ( 0,053 ) ( 0,029 ) ( 0,017 ) ( 0,016 ) ( 0,037 ) ( 0,020) RFa* 0,806 0,722 0,474 0,923 0,528 0,597 ( 0,040 ) ( 0,007 ) ( 0,019 ) ( 0,015 ) ( 0,047 ) ( 0,026) LGBMa* 0,779 0,743 0,485 0,915 0,522 0,597 ( 0,027 ) ( 0,012 ) ( 0,020 ) ( 0,011 ) ( 0,038 ) ( 0,023) SVM ou RF 0,827 0,679 0,445 0,927 0,506 0,578 ( 0,040 ) ( 0,023 ) ( 0,013 ) ( 0,014 ) ( 0,031 ) ( 0,016) SVM ou LGBM 0,832 0,676 0,444 0,929 0,509 0,579 ( 0,040 ) ( 0,026 ) ( 0,015 ) ( 0,014 ) ( 0,032 ) ( 0,017) RF ou LGBM* 0,824 0,701 0,461 0,928 0,524 0,591 ( 0,033 ) ( 0,009 ) ( 0,014 ) ( 0,012 ) ( 0,035 ) ( 0,019) SVM e RF 0,754 0,753 0,486 0,908 0,507 0,591 ( 0,053 ) ( 0,008 ) ( 0,021 ) ( 0,018 ) ( 0,054 ) ( 0,031) SVM e LGBM 0,722 0,776 0,501 0,900 0,498 0,591 ( 0,037 ) ( 0,012 ) ( 0,024 ) ( 0,013 ) ( 0,044 ) ( 0,028) RF e LGBM* 0,761 0,764 0,501 0,912 0,525 0,604 ( 0,034 ) ( 0,013 ) ( 0,025 ) ( 0,013 ) ( 0,047 ) ( 0,029) RF ou SVM ou LGBM 0,843 0,662 0,437 0,932 0,506 0,575 ( 0,031 ) ( 0,024 ) ( 0,013 ) ( 0,011 ) ( 0,023 ) ( 0,012) RF e SVM e LGBM 0,720 0,781 0,506 0,900 0,502 0,594 ( 0,036 ) ( 0,010 ) ( 0,023 ) ( 0,012 ) ( 0,044 ) ( 0,028) Voto Majoritário1* 0,797 0,731 0,479 0,921 0,528 0,598 ( 0,051 ) ( 0,012 ) ( 0,022 ) ( 0,019 ) ( 0,056 ) ( 0,031) Média Geral** 0,907 0,552 0,386 0,951 0,460 0,542 ( 0,012 ) ( 0,016 ) ( 0,006 ) ( 0,005 ) ( 0,011 ) ( 0,006) a

Construído a partir do conjunto de dados desbalanceado 1 TSS ótimo * Maiores TSS ** Menores TSS

A combinação dos modelos através da média das probabilidades resulta no modelo com máximo TPR, igual a 90,7% e mínimo TSS, com valor aproximado de 0,46. Os modelos com os algoritmos Floresta Aleatória e LightGBM, assim como a combinação de ambos usando os conectivos lógicos “e” ou “ou” apresentam os melhores resultados, tal como a combinação dos métodos através do voto majoritário.

Levando em consideração os modelos com melhores TSS, a máxima taxa de verdadeiros positivos é igual a 82,4% para o modelo combinando “RF ou LGBM”, enquanto que o modelo “RF e LGBM” maximiza a métrica PPV, obtendo 50, 1% ± 2, 5%.

Para predição de explosões solares de classes ≥ 𝐶 5.0 no horizonte de predição de 72 horas escolhe-se a combinação dos modelos por voto majoritário, que maximiza a métrica TSS, alcançando 0,528. As taxas de verdadeiros positivos e negativos são de 79,7% e 73,1%, respectivamente.

Dans le document LISTE DES CODES FONCTIONNELS (Page 196-200)

Documents relatifs