Os modelos que são selecionados no ajustamento do conjunto de dados são usualmente escolhidos a partir de uma classe específica e para que o modelo seja representativo é preciso que essa classe seja amplamente importante para o tipo de dados no caso estudo. Uma característica importante nos modelos lineares generalizados é a assumpção de independência entre as observações (ou ausência de correlacção). Esta assumpção de independência é uma característica proveniente dos modelos lineares de análise de regressão clássica e é transportada para os modelos lineares generalizados sem qualquer alteração. A escolha de uma escala para a análise é um aspecto muito relevante para a seleção do modelo. Uma decisão comum, nestes casos, está entre tomar uma análise sobre 𝑌, a escala original, ou sobre log (𝑌). Com a introdução dos modelos lineares generalizados, os problemas derivados da escala são significativamente reduzidos. A existência de normalidade e a variância constante já não são imperativas, apesar da relação dependente entre a variância e o valor médio ter de ser conhecido.
Outro factor muito importante no processo de seleção do modelo é a escolha das covariáveis a serem introduzidas na parte sistemática do modelo. Para o efeito, existem estratégias de escolha que consistem num balanço entre melhorar o ajustamento dos valores observados ao adicionar uma covariável ao modelo e o indesejado aumento da complexidade com a introdução dessa nova covariável. É imperativo ter em conta “à priori” a ideia de que existem várias alternativas para a escolha do modelo ótimo, visto ser pouco provável que o conjunto de dados indique um possível candidato à altura entre um elevado número de modelos significativos.
Numa abordagem inicial ao problema de modelação, é preciso encontrar um ou mais conjuntos parcimoniosos de covariáveis correspondente a uma matriz de dimensão 𝑛 × 𝑝, onde n é o número de observações e p o número de covariáveis do modelo. O termo parcimonioso, na área da estatística, implica que as covariáveis, que não produzem qualquer efeito na variável resposta, devem ser excluídas do preditor linear. Para que o modelo seja representativo, é necessário que não lhe sejam introduzidas interacções sem que produzam efeitos relevantes nem algum termo de grau superior sem o seu termo associado de grau inferior.
Seleção de Covariáveis
A seleção de um conjunto de covariáveis uteis para o modelo, a partir de um conjunto razoavelmente grande de possíveis covariáveis, com vista a formar uma estrutura parcimoniosa não é um processo trivial.
Método Stepwise
Existe um método que ignora qualquer relação existente entre as covariáveis e procura o melhor conjunto, de dimensão 𝑟 , de covariáveis. Se 𝑘 ≤ 12 , sendo 𝑘 o número total de covariáveis disponíveis, o melhor conjunto de covariáveis, para cada componente 𝑟 de 1 até
47
𝑘 − 1, pode ser encontrado passo a passo. Para 𝑘 ≥ 35, existem três métodos de pesquisa admissíveis para o problema de seleção. Os métodos de aproximação para gerar um único conjunto de covariáveis “ótimo” são os seguintes:
Forward selection: Consiste num método onde em cada fase vão sendo inseridas as
melhores covariáveis que satisfazem o critério definido até não restar mais nenhuma covariável nessas condições.
Backward elimination: Método que começa com o modelo saturado, isto é, o modelo
com o número máximo de covariáveis disponíveis e vai eliminando as piores covariáveis até todas as covariáveis que restem satisfizerem o critério.
Stepwise regression: Método que engloba ambos os métodos anteriores, começando
por backward elimination, seguido de forward selection e assim sucessivamente até se obter o melhor modelo de acordo com o critério definido.
Estatísticas para a seleção do modelo
Por outro lado, existem métodos de seleção de modelos com base na comparação de dois modelos distintos no número de covariáveis. Quando se pretende comparar dois modelos e decidir qual deles deve ser rejeitado, estes podem estar relacionados de duas maneiras:
Ambos os modelos estão encaixados
Ambos os modelos não estão encaixados
Para o primeiro caso, a função de desvio (Deviance), enunciada de seguida, pode ser aplicada.
Função de desvio
Na prática o modelo nulo (modelo com apenas uma variável) é usualmente demasiado simples e o modelo saturado (modelo com tantas covariáveis quantas as observações) demasiado complexo e pouco representativo uma vez que não resume o conjunto de dados e contem certamente muita informação redundante. No entanto, o modelo saturado proporciona um modelo base para medir a discrepância existente relativamente a um modelo intermédio com 𝑝 parâmetros.
Sejam 𝛽̂𝑆 e 𝛽̂𝐶 os estimadores da máxima verosimilhança de 𝜷 para o modelo saturado e para
o modelo corrente, respetivamente. A estatística de teste de verosimilhanças já descrita anteriormente, é definida por:
Λ = 2{𝑙(𝛽̂𝑆) − 𝑙(𝛽̂𝐶)} = −2{𝑙(𝛽̂𝐶) − 𝑙(𝛽̂𝑆)}
podendo ser escrita também na forma: = −2{𝑙(𝛽̂𝐶) − 𝑙(𝛽̂𝑆)} = −2 ∑ 𝜔𝑖 𝜙 𝑛 𝑖=1 {[𝑦𝑖𝜃̂𝐶𝑖− 𝑎(𝜃̂𝐶𝑖)] − [𝑦𝑖𝜃̂𝑆𝑖− 𝑎(𝜃̂𝑆𝑖)]} = 𝐷(𝒚, 𝝁̂) 𝜙
onde 𝜃̂𝐶𝑖 e 𝜃̂𝑆𝑖 são os estimadores de máxima verosimilhança de 𝜃𝑖 para os modelos corrente e
saturado, respetivamente e onde 𝐷(𝒚, 𝝁̂) é a função desvio para o modelo corrente, sendo uma função apenas relativa ao conjunto de dados. Esta medida pode ainda ser descrita como a diferença entre os logaritmos das verosimilhanças observada e ajustada para a i-ésima observação. A razão entre a função desvio para o modelo corrente e o parâmetro de dispersão,
𝐷(𝒚,𝝁̂)
𝜙 , é denominada de desvio reduzido.
𝐷(𝒚, 𝝁̂) = ∑ 2𝜔𝑖{[𝑦𝑖(𝜃̂𝑆𝑖− 𝜃̂𝐶𝑖) − 𝑎(𝜃̂𝑆𝑖) + 𝑎(𝜃̂𝐶𝑖)]} 𝑛
48
A função desvio para o modelo corrente tem a propriedade de aditividade para modelos encaixados.
Quando os modelos não estão encaixados é aplicado o Critério de Informação de Akaike (AIC) e o Critério de Informação Bayesiano (BIC).
Critério AIC e BIC
Para um modelo com 𝑝 parâmetros, o critério AIC é dado por: 𝐴𝐼𝐶 = 𝐷𝑒𝑠𝑣𝑖𝑜(𝑚𝑜𝑑𝑒𝑙𝑜) + 2𝑝
Um outro critério igualmente usual é o BIC que, para um modelo com 𝑝 parâmetros é dado por:
𝐵𝐼𝐶 = 𝐷𝑒𝑠𝑣𝑖𝑜(𝑚𝑜𝑑𝑒𝑙𝑜) + 2𝑝𝑙𝑜𝑔(𝑛)
Ambos os critérios são baseados na função log-verosimilhança com um factor de penalização para o número de parâmetros. Quanto menor for o valor obtido em ambos os critérios melhor será o modelo.