• Aucun résultat trouvé

Comment le médiateur peut réussir dans les relations avec les administrations

Dans le document Sommaire général (Page 76-80)

Os modelos multivariados baseados em análise de fatores são modelos tendenciosos e sujeitos a sobreajuste. Para a obtenção de um modelo que possua boa capacidade preditiva, são necessários cuidados como correto pré-processamento dos dados e a escolha do número ótimo de fatores a ser utilizado.

1.4.3.1 Pré-Tratamento de Dados

Antes de construir os modelos de regressão, geralmente é importante que os dados sejam pré-tratados para evidenciar as informações úteis que se pretende extrair. Os pré-tratamentos de dados podem incluir transformações aplicadas aos espectros de cada amostra e/ou às variáveis.

Os espectros de cada amostra podem carregar informações que não estão relacionadas com a propriedade química/física de interesse. Os principais tipos de informações indesejáveis que aparecem nos espectros são advindos de variações aleatórias e/ou sistemáticas que, de alguma forma, influenciam o sinal analítico medido. As variações aleatórias englobam o ruído instrumental e os erros experimentais de medida e amostragem. Esse tipo de variação é passível de ser diminuído, mas é virtualmente impossível de ser eliminado completamente. As variações sistemáticas, por sua vez, proporcionam informações que deslocam os dados em um dado sentido com aumento ou diminuição em relação ao valor real

ℎ•|=r= 𝑦vy3z* ∑ 𝑦r =* = Equação 26 ℎ•y3z= ℎy3z+ ℎ•|=r•1 − ‘ 𝑦y3z 𝑦vy3z’ * “ Equação 27 |3” = max (ℎ • y3z) Equação 28 𝐿𝑂𝑄 = 3×𝐿𝑂𝐷 Equação 29

devido a um fator não-estatístico. Alguns dos efeitos indesejáveis presentes nos conjuntos de dados podem ser facilmente identificados durante a visualização dos dados. Alguns exemplos incluem regiões claramente ruidosas, deslocamentos constantes e inclinações de linha de base. Existem várias transformações que podem ser aplicadas ao conjunto de dados de maneira a compensar ou eliminar esses problemas37.

O alisamento (ou suavização) dos espectros é a transformação aplicada com o intuito de reduzir o ruído presente nos espectros. As técnicas de alisamento mais comuns consistem em percorrer e transformar os espectros por meio de janelas contendo um número limitado de variáveis. O alisamento pela média é utilizado quando se deseja aumentar a razão sinal/ruído e ao mesmo tempo realizar a compressão dos dados. Com o alisamento pela média, a janela é deslocada ao longo do espectro e cada segmento de pontos é substituído pela média das variáveis na respectiva janela. Quando a compressão dos dados não é desejada, o alisamento pode ser realizado pela média móvel, onde a janela se desloca de uma em uma variável. Para o caso da média móvel, pode ser realizada a média simples ou a média ponderada dos pontos da janela. Quando a média ponderada é realizada, a técnica recebe o nome de alisamento Savitzky-Golay. Esse último tipo de alisamento consiste em realizar um ajuste polinomial aos pontos da janela móvel e estimar o valor do polinômio para o ponto central da janela. O procedimento é repetido com o deslocamento da janela de uma em uma variável até completar todo o espectro37.

Os problemas de linha de base são normalmente corrigidos com a aplicação de derivadas. Para o caso do deslocamento constante da linha de base, a correção pode ser feita com a aplicação da primeira derivada. Quando, além do deslocamento constante, houver inclinações na linha de base, a correção pode ser feita com a transformação pela segunda derivada. Existem vários algoritmos para calcular as derivadas de um conjunto de dados. O algoritmo de Savitzky-Golay, que funciona de modo muito semelhante ao utilizado para o alisamento dos espectros, é provavelmente o mais utilizado. O procedimento consiste em ajustar um polinômio aos pontos da janela móvel, obter a derivada da expressão analítica desse polinômio e determinar a derivada no ponto central da janela42.

Além das transformações mencionadas para a correção de variações indesejáveis nos espectros, existem também alguns pré-tratamentos que são aplicados às variáveis, tais como centragem na média e escalamento.

Ao centrar os dados na média, busca-se evidenciar as diferenças entre os espectros uma vez que as flutuações são tomadas em relação ao zero e não em relação à média. Esse procedimento evita que o primeiro fator extraído seja simplesmente para definir a localização do conjunto de dados no espaço multidimensional, pois para dados não centrados na média, o eixo do primeiro fator passa necessariamente pelo ponto médio37. Para centrar os dados na média, basta subtrair de cada variável espectral o valor da média das variáveis.

O escalamento das variáveis também é importante em algumas situações. Quando existem diferenças entre as escalas das respostas medidas, é necessário que seja observada a importância das variáveis para o modelo a fim de evitar que uma variável se sobressaia e mascare o efeito das demais37. Os tipos de escalamento mais comuns são o escalamento pela variância, o autoescalamento e o escalamento pela amplitude.

1.4.3.2 Escolha do Número de Fatores

Os modelos multivariados PLS e PCR são modelos tendenciosos que podem fornecer ajustes excelentes à medida que o número de fatores incluídos no modelo aumenta. Entretanto, um bom ajuste não garante que o modelo apresentará boa capacidade preditiva. Por um lado, se o número de fatores incluídos no modelo é maior que o necessário, informações desnecessárias (e.g., ruído) começam a ser modeladas. Essa situação corresponde a um sobreajuste e produz modelos de baixa qualidade. Por outro lado, um número de fatores inferior ao necessário também é problemático. Na situação de subajuste, o modelo não explicará toda variabilidade dos dados e apresentará baixo poder preditivo.

A determinação do número ótimo de fatores para um modelo PLS ou PCR pode ser feita através da validação cruzada. A validação permite estimar o RMSE de previsão e avaliar o comportamento do modelo com a inclusão de fatores adicionais. A situação ótima é aquela em que ocorre a minimização dos erros de previsão.

Dans le document Sommaire général (Page 76-80)