roteiros:vero
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
roteiros:vero [2015/03/09 19:35] – leo | roteiros:vero [2024/01/12 10:40] (atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 4: | Linha 4: | ||
Para esse primeiro exercício utilizaremos excepcionalmente o programa Excel. Não se acostume com isso, o programa não merece sua confiança. Caso tenha conhecimento da linguagem R e queira utilizar essa **MARAVILHOSA** ferramenta sugerimos fortemente que tente montar um script a partir desse roteiro. Para ver um pseudo-código de de verossimilhança no R veja o roteiro [[: | Para esse primeiro exercício utilizaremos excepcionalmente o programa Excel. Não se acostume com isso, o programa não merece sua confiança. Caso tenha conhecimento da linguagem R e queira utilizar essa **MARAVILHOSA** ferramenta sugerimos fortemente que tente montar um script a partir desse roteiro. Para ver um pseudo-código de de verossimilhança no R veja o roteiro [[: | ||
- | Uma ótima leitura introdutória para verossimilhança é o texto {{: | + | Uma ótima leitura introdutória para verossimilhança é o texto {{: |
===== Exercício - Máxima Verossimilhança ===== | ===== Exercício - Máxima Verossimilhança ===== | ||
- | Este é um exercício sobre o **Método da Máxima Verossimilhança**, | + | Este é um exercício sobre o **Método da Máxima Verossimilhança**, |
**Objetivos: | **Objetivos: | ||
- | O principal objetivo desse exercício é entender o que significa estimar parâmetros | + | O principal objetivo desse exercício é entender o que significa estimar parâmetros |
a) Obter estimativa da máximo verossimilhança dos parâmetros: | a) Obter estimativa da máximo verossimilhança dos parâmetros: | ||
- | * probabilidade de ocorrência: | + | * probabilidade de ocorrência: |
- | * probabilidade de detecção: | + | * probabilidade de detecção: |
b) Representar graficamente a superfície de verosimilhança.\\ | b) Representar graficamente a superfície de verosimilhança.\\ | ||
1) **Um conjunto de observações fictícios**. | 1) **Um conjunto de observações fictícios**. | ||
- | * Esta base de dados pode ser compreendida como uma matriz [i,j], com número i de linhas e j de colunas.\\ | + | * Os dados estão em uma matriz [i,j], com número i de linhas |
* Como tratam-se de dados de presença e ausência, vamos representar as ausências por zeros, e as presenças por um.\\ | * Como tratam-se de dados de presença e ausência, vamos representar as ausências por zeros, e as presenças por um.\\ | ||
Exemplo: | Exemplo: | ||
Linha 41: | Linha 42: | ||
2)Um um modelo simples de **ocorrência com dois parâmetros**, | 2)Um um modelo simples de **ocorrência com dois parâmetros**, | ||
- | * ψ (psi) é a probabilidade de ocorrência, | + | * $\psi$ é a probabilidade de ocorrência, |
- | * Φ (p) é a detecção (condicionada à ocorrência), | + | * $p$ é a detecção (condicionada à ocorrência), |
- | A somatória | + | A somatória |
===== Calculando Probabilidades ===== | ===== Calculando Probabilidades ===== | ||
- | Quando | + | Nos locais em que a espécie não foi registrada |
* a espécie não ocorre na localidade, ou | * a espécie não ocorre na localidade, ou | ||
- | * a espécie ocorre na localidade e não foi detectada em nenhuma | + | * a espécie ocorre na localidade e não foi detectada em nenhuma |
- | Podemos calcular essa probabilidade como: | + | Podemos calcular essa probabilidade |
| | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
- | <wrap em>Fórmula (i): </ | + | <wrap em> |
- | probabilidade de não ocorrer ou ocorrer e não ser detectada em cinco ocasiões: | + | |
- | $$ prob_{(x_i=0)} =(1-psi) + psi*(1-p)^5 | + | \begin{equation} |
+ | \label{eq: | ||
+ | P(n=0) =(1-\psi) + \psi(1-p)^5 | ||
+ | \end{equation} | ||
</ | </ | ||
- | A primeira parte da expressão acima $(1-psi)$ é a probabilidade de não ocorrer e a segunda parte é composta pela probabilidade de ocorrer $psi$ vezes a probabilidade de não ser detectado em cinco ocasiões $ (1-p)^5 $. | + | A primeira parte da expressão acima $(1-\psi)$ é a probabilidade de não ocorrer e a segunda parte é composta pela probabilidade de ocorrer $\psi$ vezes a probabilidade de não ser detectado em cinco ocasiões $ (1-p)^5 $. |
- | Quando a soma das observações | + | Quando a soma das observações |
<WRAP center round box 60%> | <WRAP center round box 60%> | ||
- | <wrap em>Fórmula (ii): </ | + | <wrap em> |
- | probabilidade de ocorrer e ser detectado $x_i$ vezes e não ser detectados nas outra amostras (total - $x_i$). | + | |
- | | + | |
- | </ | + | \begin{equation} |
+ | \label{eq: | ||
+ | P(n) = \psi p^{n_i} (1-p)^{5-n_i} | ||
+ | \end{equation} | ||
- | Com isso temos o equações que descrevem a ocorrência e a detecção da espécie nas diferentes localidades ou unidades amostrais. Só precisamos agora solucionar essas equações para obter o valor da probabilidade de detecção e probabilidade de ocorrência da nossa espécies. | ||
- | Essas equações compõem um conjunto de equações acopladas com duas variáveis que precisamos estimar. Imaginemos uma situação **HIPOTÉTICA** de que nosso conhecimento em matemática seja rudimentar e não sabemos como resolver esse problema que parece muito básico! Nesse cenário uma solução possível é simplesmente chutarmos valores para essas probabilidades. | ||
- | |||
- | <WRAP center round todo 60%> | ||
- | * Calcule os valores para cada localidade para psi=0,7 e p=0,3; | ||
- | * Calcule a verossimilhança para o conjunto do dados, dado esses parâmetros; | ||
</ | </ | ||
+ | |||
+ | Com isso temos o equações que expressam o registro das espécie em função da sua ocorrência e detecção, que são quantidades desconhecidas. Só conhecemos $n_i$, o número de ocasiões em que a espécie foi registrada em cada localidade. Mas podemos usar as expressões \ref{eq:1} e \ref{eq:2} para calcular a probabilidade que uma certa combinação de $\psi$ e $p$ atribui a cada uma de nossas observações. Vamos fazer este cálculo para $\psi=0,7$ e $p=0,3$: | ||
<WRAP center round box 100%> | <WRAP center round box 100%> | ||
{{: | {{: | ||
+ | |||
* abra a planilha do {{: | * abra a planilha do {{: | ||
* faça a soma das ocorrências para cada localidade; | * faça a soma das ocorrências para cada localidade; | ||
- | * insira | + | * insira |
* faça a multiplicação desses valores ao final da coluna. | * faça a multiplicação desses valores ao final da coluna. | ||
</ | </ | ||
| | ||
- | Muito bem! Acabamos de calcular a verossimilhança para os valores dos parâmetros psi=0,7 e p=0,30. Imagine que existe uma probabilidade de encontrar os dados observados, | + | Muito bem! Acabamos de calcular a verossimilhança para os valores dos parâmetros |
$$\mathcal{L} \ = \ k P(\text{dados}|\text{parâmetros})$$ | $$\mathcal{L} \ = \ k P(\text{dados}|\text{parâmetros})$$ | ||
- | Onde $k$ é qualquer valor constante, o que nos permite dividir ou multiplicar a verossimilhança por qualquer constante, o que muitas vezes ajuda nos cálculos. Neste exercício não precisaremos disso, e fazemos $k=1$ e portanto a verossimilhança será o próprio valor da probabilidade dos dados obtida com cada valor dos parâmetros: | + | Onde $k$ é qualquer valor constante, o que nos permite dividir ou multiplicar a verossimilhança por qualquer constante. Isso muitas vezes ajuda nos cálculos. Neste exercício não precisaremos disso, e fazemos $k=1$ e portanto a verossimilhança será o próprio valor da probabilidade dos dados obtida com cada valor dos parâmetros: |
$$\mathcal{L} | $$\mathcal{L} | ||
Linha 118: | Linha 120: | ||
* $\theta$ representa o conjunto de parâmetros que definem o modelo probabilístico. | * $\theta$ representa o conjunto de parâmetros que definem o modelo probabilístico. | ||
- | Notem que nós invertemos | + | Notem que nós invertemos |
- | Agora podemos definir uma função de verossimilhança para os dados tratados aqui. É o mesmo calculo feito acima, apenas deixando os parâmetros psi e p como incógnitas. | + | Agora podemos definir uma função de verossimilhança para os dados tratados aqui. É o mesmo calculo feito acima, apenas deixando os parâmetros |
<WRAP center round box 60%> | <WRAP center round box 60%> | ||
- | <wrap em>Em quatro localidades não foi não encontrar | + | <wrap em>Em quatro localidades não houve registros |
- | $$ ((1-psi) + psi*(1-p)^5)^4 $$ | + | $$ \mathcal{L}_0=(1-\psi) + \psi (1-p)^5 $$ |
- | <wrap em>Em duas localidades | + | <wrap em>Em duas localidades |
- | $$ ((psi* p^1) * (1-p)^4)^2 $$ | + | $$ \mathcal{L}_1=(\psi p^1) (1-p)^4 $$ |
- | <wrap em>Em duas localidades | + | <wrap em>Em duas localidades |
- | $$ ((psi* p^2) * (1-p)^3)^2 $$ | + | $$ \mathcal{L}_2=(\psi p^2) (1-p)^3 $$ |
- | <wrap em>Em duas localidades | + | <wrap em>Em duas localidades |
- | $$ ((psi* p^3) * (1-p)^2)^2 $$ | + | $$ \mathcal{L}_3=(\psi p^3) (1-p)^2 $$ |
- | <wrap em>Em uma localidades foi encontrar | + | <wrap em>Em uma localidade houve registro |
- | $$ ((psi* p^4) * (1-p)^1)^1 $$ | + | $$ \mathcal{L}_4=(\psi p^4) (1-p)^1 $$ |
</ | </ | ||
- | Multiplicando | + | Multiplicando |
Linha 143: | Linha 145: | ||
Verossimilhança = | Verossimilhança = | ||
</ | </ | ||
- | [(1-psi) + psi*(1-p)^5]^4 * (psi* p^1 * (1-p)^4)^2 * (psi* p^ * (1-p)^3)^2 * (psi* p^3 * (1-p)^2)^2 * psi* p^4 * (1-p) | + | $\mathcal{L}_0^4 \times \mathcal{L}_1^2 \times \mathcal{L}_2^2 \times \mathcal{L}_3^2 \times \mathcal{L}_4$ |
</ | </ | ||
- | Parece uma expressão complicada, mas se acompanhou passo a passo os caminhos até aqui e entendeu a ideia, é só não errar nenhum parênteses que essa fórmula funciona como nossa função de verossimilhança. Quando calculamos a verossimilhança para os valores dos parâmetro psi =0,7 e p=0,3 encontramos um valor muito pequeno, se é que seu computador conseguiu mostrar algum valor, pois a probabilidade estava | + | Parece uma expressão complicada, mas se acompanhou passo a passo os caminhos até aqui e entendeu a ideia, é só não errar nenhum parênteses que essa fórmula funciona como nossa função de verossimilhança. Quando calculamos a verossimilhança para os valores dos parâmetro |
<WRAP center round box 60%> | <WRAP center round box 60%> | ||
Linha 159: | Linha 161: | ||
Log-Verossimilhança = | Log-Verossimilhança = | ||
</ | </ | ||
- | 4* log[(1-psi) + psi*(1-p)^5] | + | $4 \log \mathcal{L}_0+ 2 \log \mathcal{L}_1 |
</ | </ | ||
Como logarítmos de números próximos a zero ($0< | Como logarítmos de números próximos a zero ($0< | ||
- | Vamos calcular então o valor de -logaritmo da verossimilhança para diferentes valores de parâmetros no Excel, usando a fórmula | + | Vamos calcular então o valor de -logaritmo da verossimilhança para diferentes valores de parâmetros no Excel, usando a expressão |
<WRAP center round box 60%> | <WRAP center round box 60%> | ||
{{: | {{: | ||
- | * crie uma coluna com valores de psi de 0.05 até 0.95 a cada 0.05; | + | * crie uma coluna com valores de $\psi$ de 0.05 até 0.95 a cada 0.05; |
- | * faça o mesmo para a linha para valores de p, formando um quadro; | + | * faça o mesmo para a linha para valores de $p$, formando um quadro; |
- | * digite a fórmula da -Log-Verossimilhança usando a referência dos valores de psi e p; | + | * digite a fórmula da -Log-Verossimilhança usando a referência dos valores de $\psi$ e $p$; |
* copie a formula para todo o quadro de valores; | * copie a formula para todo o quadro de valores; | ||
</ | </ | ||
Linha 188: | Linha 190: | ||
<WRAP center round 60%> | <WRAP center round 60%> | ||
- | Faça um gráfico com os valores dos parâmetros no eixo x (p) e y (psi) e no eixo z inclua os valores de log-verossimilhança negativa. | + | Faça um gráfico com os valores dos parâmetros no eixo x ($p$) e y ($\psi$) e no eixo z inclua os valores de log-verossimilhança negativa. |
</ | </ | ||
===== Máxima Verossimilhança ===== | ===== Máxima Verossimilhança ===== | ||
- | Acabamos de construir a superfície de verossimilhança do nosso modelo! Poderia ter sido melhor, poderíamos ter usado intervalos muito menores de psi e p, se possível intervalos infinitesimalmente pequenos, o que nos daria a superfície contínua dos possíveis valores de parâmetros. Para nossa proposta aqui, intervalos de 0,05, bastam. | + | Acabamos de construir a superfície de verossimilhança do nosso modelo! Poderia ter sido melhor, poderíamos ter usado intervalos muito menores de $\psi$ e $p$, se possível intervalos infinitesimalmente pequenos, o que nos daria a superfície contínua dos possíveis valores de parâmetros. Para nossa proposta aqui, intervalos de 0,05, bastam. |
<WRAP center round box 60%> | <WRAP center round box 60%> | ||
Linha 202: | Linha 204: | ||
- | * Ou seja, nossa melhor estimativa para os parâmetros p e psi são os que atribuem mais probabilidade ao que observamos, que são os dados. Se aceitamos isso, podemos dizer que essa estimativa são os valores mais plausíveis, | + | * Ou seja, nossa melhor estimativa para os parâmetros |
* Como a verossimilhança nos ajuda a chegar a esses valores? Os valores mais plausíveis dos parâmetros são os aqueles para os quais a verossimilhança é máxima. Portanto, os valores que geram o menor valor de Log-Verossimilhança negativa. | * Como a verossimilhança nos ajuda a chegar a esses valores? Os valores mais plausíveis dos parâmetros são os aqueles para os quais a verossimilhança é máxima. Portanto, os valores que geram o menor valor de Log-Verossimilhança negativa. | ||
Linha 215: | Linha 217: | ||
<WRAP center round todo 60%> | <WRAP center round todo 60%> | ||
* quais o parâmetros que maximizam a verossimilhança para nossos dados? | * quais o parâmetros que maximizam a verossimilhança para nossos dados? | ||
- | * varie os valores dos dados (tabela com 0 e 1) e veja se sua intuição quanto ao valor de psi e p dos dados hipotéticos se aproxima à estimativa LogLike. | + | * varie os valores dos dados (tabela com 0 e 1) e veja se sua intuição quanto ao valor de $\psi$ e $p$ dos dados hipotéticos se aproxima à estimativa LogLike. |
</ | </ | ||
---- | ---- |
roteiros/vero.1425929711.txt.gz · Última modificação: 2024/01/12 10:39 (edição externa)