MAXIMUM LIKELIHOOD MINIMUM ENTROPY HMM
4. Discussion 1 Convexity
em que esta a ocorrer a análise, neste caso dia da semana 1.
Analisando este caso em particular o cluster 1-B caracteriza um perfil relativo ao dia de Domingo, e o dia da semana em análise é 1 (Domingo) deste modo o indicador será 0 pois existe conformidade entre o cluster e o dia da semana.
Avaliação:
Neste ponto o modelo deve interpretar a comparação feita no ponto anterior, de modo a imprimir a mensagem de anomalia mais adequada.
valor “0” (zero)
valor “1”
Consumo sem comportamento anómalo
Mensagem: “Anomalia” Avaliação
Descrição: “Possível feriado/ponte”
Descrição: “Possível véspera de feriado” Cluster de maior pertença referente a um Domingo
Cluster de maior pertença referente a um Sábado
Descrição: “Dia sem matéria-prima (dia de abastecimento)”
Descrição: “Hoje é ex.quinta e o consumo
está a comportar-se como ex. sexta”
Restantes dias
Cluster de maior pertença referente a uma Segunda-feira
Figura 3.20 - Fluxograma do processo de avaliação do indicar 1
Analisando o fluxograma anterior observa-se que o modelo desenvolvido para avaliar as anomalias esta diretamente ligado ao cluster de maior pertença. É a partir desta informação que o modelo vai determinar a descrição mais adequada para cada anomalia detetada.
As mensagens descritivas guardas na base de dados são impressas de acordo com as decisões tomadas pelo modelo de avaliação. Como por exemplo, no caso do modelo de avaliação tomar a decisão do cluster de maior pertença ser referente a segunda-feira, aí o modelo irá imprimir a mensagem de: “Anomalia – Dia sem matéria-prima (dia de abastecimento)”.
3.2.8.2 - Indicador 2
O indicador 2 tem como principal objetivo compreender o comportamento do consumo em relação ao perfil identificado pelo cluster, isto é para cada hora é analisada a distribuição
3.2.8.2- Indicador 2 55
do consumo. Esta análise foi estudada de diversas formas e como conclusão o modelo desenvolvido para o indicador 2 usa como ferramenta a distribuição normal.
Propriedades
Distribuição normal:
Cálculo dos parâmetros
n – Número de dados
Algoritmo de cálculo
Função densidade de probabilidade:
Função distribuição acumulada:
Redimensionamento da escala
Limites
Fora dos limites
(Anomalia detetada)
Cluster de maior pertença
Mensagens Dentro dos Limites
(sem anomalia)
Figura 3.21 - Fluxograma do algoritmo do indicador 2
No fluxograma da figura 3.21 estão presentes as várias fazes pelo qual o algoritmo é desenvolvido.
56 Metodologia
Propriedades:
Uma variável aleatória contínua segue uma distribuição normal se a sua distribuição é:
Simétrica;
Apresenta um gráfico com a forma de um sino;
Se a variável aleatória segue uma distribuição normal então define-se como:
(
)
De um modo geral, a maior parte dos fenómenos probabilísticos de natureza contínua, e mesmo alguns de natureza discreta, tendem a seguir uma lei de distribuição designada por função de distribuição normal, ou de Gauss.
Esta lei de distribuição estabelece que os valores mais frequentes (isto é, os valores a que correspondem as maiores probabilidades) se encontram em torno da média da variável aleatória. Quanto mais afastados os valores estão da média (este afastamento é quantificado em termos de variância ou segundo momento em relação à média), quer acima quer abaixo desta, menos frequentes são. Esta interpretação da lei de distribuição normal é coerente com o que se passa com a maior parte dos fenómenos que ocorrem na natureza.
Calculo dos parâmetros:
Para determinar a média, a variância e o desvio padrão foi utilizado o histórico de dados utilizado para desenvolver o modelo, deste modo foram filtrados os valores referentes a cada
cluster e assim calculados os parâmetros para cada hora.
∑ √ ∑( ) ∑ ( ) ( )
A curva tem a forma de um sino e é simétrica n – Número de dados (8) (9) (10) (11)
3.2.8.2- Indicador 2 57
Após o cálculo de todas as médias e desvios padrões dos clusters, estes valores são organizados numa tabela que será integrada na base de dados. Com isto o cálculo do indicador apenas vai necessitar de recorrer à tabela 3.6 para extrair a média e desvio padrão referente à hora e cluster em análise.
De seguida está representada a tabela criada e guardada na base de dados:
Tabela 3.6 - Médias e desvios padrões dos clusters
Com isto já estão reunidas todas as condições para criar o algoritmo de cálculo do segundo indicador.
Algoritmo de cálculo:
Esquematicamente, esta distribuição tem uma curva em forma de sino, simétrica em
torno da média, tendo o eixo das abcissas como assimptota horizontal (12).
Pela definição de assimptota horizontal:
58 Metodologia
Figura 3.22 - Curva da distribuição normal
A curva da distribuição normal tem a seguinte função de densidade:
( )
√ (
)
que depende de dois parâmetros: média µ, e desvio padrão σ, que caracterizam cada uma das curvas em particular. Como anteriormente foi referido, a curva é simétrica em torno da média.
Neste algoritmo desenvolvido utiliza-se a função distribuição acumulada.
(
) ∫ ( )
(
) ∫
√
( )
Figura 3.23 - Distribuição acumulada
A probabilidade de ocorrência de um dado valor X num determinado intervalo [x1, x2] equivale à área delimitada pela curva e pelo eixo das abcissas.
(13)
(14)
3.2.8.2- Indicador 2 59
A utilização da distribuição normal é devido a esta ser inteiramente descrita pelos seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes consegue-se determinar qualquer probabilidade.
Nos gráficos em cima representados identifica-se do lado esquerdo os gráficos da distribuição normal a variarem com a média e desvio padrão. Do lado esquerdo a distribuição normal da primeira hora do cluster 1.
Redimensionamento da escala:
O indicador numa primeira fase detinha uma escala entre 0 e 1, que é a saída natural da função acumulada da distribuição normal (F(x)).
Para a leitura do indicador ser mais clara de analisar foi mudada a escala, passando a ter uma escala entre -1 e 1. Deste modo os valores próximos de zero significam que o consumo esta próximo do valor médio, sendo o caso em que o indicador apresenta valores vizinhos de 1 ou -1 significar que o consumo está muito acima do normal ou muito a baixo respetivamente. 0 0,1 0,2 0,3 0,4 0,5 0,6 0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 Figura 3.24 - Distribuição normal
0 1 0,5 -1 1 0 𝑭 𝒏𝒐𝒗𝒂 𝒆𝒔𝒄𝒂𝒍𝒂(𝒙) 𝑭(𝒙) × 𝟐 𝟏
60 Metodologia Limites:
É neste ponto que são definidos os limites que caracterizam o indicador 2. São eles que vão limitar o algoritmo, isto é quando o modelo imprimir valores exteriores aos limites fixados significa que o consumo esta com um comportamento fora do normal.