Emmorey, McCullough & Brentari (2003)

Os modelos que são selecionados no ajustamento do conjunto de dados são usualmente escolhidos a partir de uma classe específica e para que o modelo seja representativo é preciso que essa classe seja amplamente importante para o tipo de dados no caso estudo. Uma característica importante nos modelos lineares generalizados é a assumpção de independência entre as observações (ou ausência de correlacção). Esta assumpção de independência é uma característica proveniente dos modelos lineares de análise de regressão clássica e é transportada para os modelos lineares generalizados sem qualquer alteração. A escolha de uma escala para a análise é um aspecto muito relevante para a seleção do modelo. Uma decisão comum, nestes casos, está entre tomar uma análise sobre 𝑌, a escala original, ou sobre log (𝑌). Com a introdução dos modelos lineares generalizados, os problemas derivados da escala são significativamente reduzidos. A existência de normalidade e a variância constante já não são imperativas, apesar da relação dependente entre a variância e o valor médio ter de ser conhecido.

Outro factor muito importante no processo de seleção do modelo é a escolha das covariáveis a serem introduzidas na parte sistemática do modelo. Para o efeito, existem estratégias de escolha que consistem num balanço entre melhorar o ajustamento dos valores observados ao adicionar uma covariável ao modelo e o indesejado aumento da complexidade com a introdução dessa nova covariável. É imperativo ter em conta “à priori” a ideia de que existem várias alternativas para a escolha do modelo ótimo, visto ser pouco provável que o conjunto de dados indique um possível candidato à altura entre um elevado número de modelos significativos.

Numa abordagem inicial ao problema de modelação, é preciso encontrar um ou mais conjuntos parcimoniosos de covariáveis correspondente a uma matriz de dimensão 𝑛 × 𝑝, onde n é o número de observações e p o número de covariáveis do modelo. O termo parcimonioso, na área da estatística, implica que as covariáveis, que não produzem qualquer efeito na variável resposta, devem ser excluídas do preditor linear. Para que o modelo seja representativo, é necessário que não lhe sejam introduzidas interacções sem que produzam efeitos relevantes nem algum termo de grau superior sem o seu termo associado de grau inferior.

Seleção de Covariáveis

A seleção de um conjunto de covariáveis uteis para o modelo, a partir de um conjunto razoavelmente grande de possíveis covariáveis, com vista a formar uma estrutura parcimoniosa não é um processo trivial.

Método Stepwise

Existe um método que ignora qualquer relação existente entre as covariáveis e procura o melhor conjunto, de dimensão 𝑟 , de covariáveis. Se 𝑘 ≤ 12 , sendo 𝑘 o número total de covariáveis disponíveis, o melhor conjunto de covariáveis, para cada componente 𝑟 de 1 até

𝑘 − 1, pode ser encontrado passo a passo. Para 𝑘 ≥ 35, existem três métodos de pesquisa admissíveis para o problema de seleção. Os métodos de aproximação para gerar um único conjunto de covariáveis “ótimo” são os seguintes:

 Forward selection: Consiste num método onde em cada fase vão sendo inseridas as

melhores covariáveis que satisfazem o critério definido até não restar mais nenhuma covariável nessas condições.

 Backward elimination: Método que começa com o modelo saturado, isto é, o modelo

com o número máximo de covariáveis disponíveis e vai eliminando as piores covariáveis até todas as covariáveis que restem satisfizerem o critério.

 Stepwise regression: Método que engloba ambos os métodos anteriores, começando

por backward elimination, seguido de forward selection e assim sucessivamente até se obter o melhor modelo de acordo com o critério definido.

Estatísticas para a seleção do modelo

Por outro lado, existem métodos de seleção de modelos com base na comparação de dois modelos distintos no número de covariáveis. Quando se pretende comparar dois modelos e decidir qual deles deve ser rejeitado, estes podem estar relacionados de duas maneiras:

 Ambos os modelos estão encaixados

 Ambos os modelos não estão encaixados

Para o primeiro caso, a função de desvio (Deviance), enunciada de seguida, pode ser aplicada.

Função de desvio

Na prática o modelo nulo (modelo com apenas uma variável) é usualmente demasiado simples e o modelo saturado (modelo com tantas covariáveis quantas as observações) demasiado complexo e pouco representativo uma vez que não resume o conjunto de dados e contem certamente muita informação redundante. No entanto, o modelo saturado proporciona um modelo base para medir a discrepância existente relativamente a um modelo intermédio com 𝑝 parâmetros.

Sejam 𝛽̂𝑆 e 𝛽̂𝐶 os estimadores da máxima verosimilhança de 𝜷 para o modelo saturado e para

o modelo corrente, respetivamente. A estatística de teste de verosimilhanças já descrita anteriormente, é definida por:

Λ = 2{𝑙(𝛽̂𝑆) − 𝑙(𝛽̂𝐶)} = −2{𝑙(𝛽̂𝐶) − 𝑙(𝛽̂𝑆)}

podendo ser escrita também na forma: = −2{𝑙(𝛽̂𝐶) − 𝑙(𝛽̂𝑆)} = −2 ∑ 𝜔𝑖 𝜙 𝑛 𝑖=1 {[𝑦𝑖𝜃̂𝐶_𝑖− 𝑎(𝜃̂𝐶_𝑖)] − [𝑦𝑖𝜃̂𝑆_𝑖− 𝑎(𝜃̂𝑆_𝑖)]} = 𝐷(𝒚, 𝝁̂) 𝜙

onde 𝜃̂𝐶_𝑖 e 𝜃̂𝑆_𝑖 são os estimadores de máxima verosimilhança de 𝜃𝑖 para os modelos corrente e

saturado, respetivamente e onde 𝐷(𝒚, 𝝁̂) é a função desvio para o modelo corrente, sendo uma função apenas relativa ao conjunto de dados. Esta medida pode ainda ser descrita como a diferença entre os logaritmos das verosimilhanças observada e ajustada para a i-ésima observação. A razão entre a função desvio para o modelo corrente e o parâmetro de dispersão,

𝐷(𝒚,𝝁̂)

𝜙 , é denominada de desvio reduzido.

𝐷(𝒚, 𝝁̂) = ∑ 2𝜔𝑖{[𝑦𝑖(𝜃̂𝑆_𝑖− 𝜃̂𝐶_𝑖) − 𝑎(𝜃̂𝑆_𝑖) + 𝑎(𝜃̂𝐶_𝑖)]} 𝑛

A função desvio para o modelo corrente tem a propriedade de aditividade para modelos encaixados.

Quando os modelos não estão encaixados é aplicado o Critério de Informação de Akaike (AIC) e o Critério de Informação Bayesiano (BIC).

Critério AIC e BIC

Para um modelo com 𝑝 parâmetros, o critério AIC é dado por: 𝐴𝐼𝐶 = 𝐷𝑒𝑠𝑣𝑖𝑜(𝑚𝑜𝑑𝑒𝑙𝑜) + 2𝑝

Um outro critério igualmente usual é o BIC que, para um modelo com 𝑝 parâmetros é dado por:

𝐵𝐼𝐶 = 𝐷𝑒𝑠𝑣𝑖𝑜(𝑚𝑜𝑑𝑒𝑙𝑜) + 2𝑝𝑙𝑜𝑔(𝑛)

Ambos os critérios são baseados na função log-verosimilhança com um factor de penalização para o número de parâmetros. Quanto menor for o valor obtido em ambos os critérios melhor será o modelo.

Dans le document Fondements historiques et implications théoriques d'une phonologie des langues des signes - Etude de la perception catégorielle des configurations manuelles en LSF et réflexion sur la transcription des langues des signes (Page 134-138)