Esta é uma versão antiga do documento!
Tabela de Conteúdos
Modelo Lineares Generalizados
Os modelos lineares generalizados (GLMs) são usado quando a variância não é constante ou o erro do modelo não tem uma distribuição gaussiana (normal). A natureza da nossa variável resposta indica os desvios que iremos encontrar em relação aos pressupostos dos modelos lineares ( regressões ordinárias ).
<WRAP center round box 80%> Devemos considerar os GLMs principalmente quando a variável resposta é expressa em:
- contagem expressa em proporções
- contagens simples
- variáveis binárias (ex. morto x vivo)
- tempo para o evento ocorrer (modelos de sobrevivência)
</WRAP>
Preditor linear e função de ligação
O preditor linear está baseado na estrutura linear que temos visto nos modelos. Para uma variável preditora:
$$ \eta = \alpha + \beta * x$$
A função de ligação é o que relaciona o preditor linear com a esperança:
$$ \eta = g(E_{(y)}) $$
Funções de ligações canônicas
Para alguns tipos de famílias de variáveis temos funções de ligações padrões. As mais usadas são
Natureza da resposta | Estrutura dos resíduos (erro) | Função de ligação |
---|---|---|
contínua | normal | identidade |
contagem | poisson | log |
proporção | binomial | logit |
Exemplo de contagem
<WRAP center round box 80%> Sequência de ajuste de modelo de contagem
- faça o modelo cheio usando a familia de ligação poisson(log)
- avalie o sobre-dispersão do erro pela razão
Residual deviance
edegrees of freedom
- se o valor da razão for muito maior que 1, ajuste o modelo cheio novamente com a família
quasipoisson
- compare os modelos simplificados com o mais complexo usando
anova
- com
poisson
use o argumentotest = “Chisq”
- com
quasipoisson
use o argumentotest = “F”
- retenha o modelo mínimo adequado.
</WRAP>
Carregando o pacote MASS
No Rcommader (Rcmdr) vá ao menu Tools > Load package(s) e selecione o pacote MASS
</WRAP>
Lendo os dados: quine
Em sequida:
- abra o menu Data > Data in packages > Read data from an attached package…
- selecione o pacote MASS e os dados quine 1)
Entendendo os dados: quine
Os dados estão relacionados ao estudo para entender quais variáveis estão relacionados à ausência (falta) do aluno na escola. A observação está relacionada a alunos amostrados aleatoriamente de escolas na Austrália.
<WRAP center round box 80%>
- Days: variável resposta, número de dias ausente da escola
- Eth: origem aborígene (A) ou não (N)
- Sex: homem (M) ou mulher (F)
- Age: estágio de educação F0(primário)… quatro níveis.
- Lrn: classificação de aprendizado do aluno médio (AL) e fraco (SL)
</WRAP>
Ajustando o modelo cheio
Como entendemos que todas as variáveis e interações são possíveis e interpretáveis para a tomada de decisão sobre o permanência do aluno na escola, vamos construir o modelo cheio com todas as possibilidades de interações. Para isso vamos construir o modelo usando a família de erro POISSON e a função de ligação log.
- abra o menu Statistics > Fit model > Generalized Linear Model
- complete os campos como na figura abaixo
<WRAP center round box 90%>
</WRAP>
<WRAP center round important 60%> O nosso modelo cheio não conseguiu estimar alguns dos parâmetros. Isso se deveu ao fato de algumas combinações de níveis de fatores não foram encontradas na amostra. Por exemplo não há nenhum:
- aluno de etnia Aborígene do sexo feminino no nível máximo de escolaridade com desempenho fraco!
- aqui o primeiro passo é jogar fora a interação de quarto nível e prosseguir
</WRAP>
Avaliando o modelo cheio
Um dos pressupostos do modelo Poisson é que a variância aumenta linearmente com a esperança (média do modelo). Podemos avaliar isso dividindo a Residual Deviance
pelo seu degrees of freedom
. Essa razão deve ser próxima a 1. O que não é o caso do nosso modelo. Nesses casos uma das alternativas é:
- ajustar o modelo usando Family:
quasipoisson
<WRAP center round box 60%>
- utilize a familia quasipoisson e
- siga em frente simplificando o modelo para o mínimo adequado
- interprete o modelo selecionado
</WRAP>
GLM Binomial
Os modelos de proporção ou de resposta binária (presença/ausência, vivo/morto, sucessos/falhas) são modelados normalmente com estrutura do erro binomial. No caso dessas variáveis o limite dos valores da variável resposta é bem definido 0 e 1 e isso faz com que o erro apresente uma estrutura em que ele aumenta e depois diminuí. Em geral o maior erro é encontrado nos valores intermediários já que se todos os valores são 0 ou 1 a variação é zero!
Função de ligação
A função de ligação para modelos com resposta binária ou proporção é chamada de logit
ou log odds-ratio
.
Pode ser definida como:
$$ p = \log{(\frac{a+bx}{1-(a+bx)})} $$