Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

--- roteiros:vero [2015/03/15 22:30] – prado
+++ roteiros:vero [2024/01/12 10:40] (atual) – edição externa 127.0.0.1
@@ Linha 14: / Linha 14: @@
 a) Obter estimativa da máximo verossimilhança dos parâmetros:
-  * probabilidade de ocorrência: ψ
+  * probabilidade de ocorrência: $\psi$
-  * probabilidade de detecção: Φ
+  * probabilidade de detecção: $p$
 b) Representar graficamente a superfície de verosimilhança.\\
@@ Linha 42: / Linha 42: @@
 )Um um modelo simples de **ocorrência com dois parâmetros**, leva em conta:\\
-  * ψ (psi) é a probabilidade de ocorrência, relativa aos locais (LINHAS);\\
+  * $\psi$ é a probabilidade de ocorrência, relativa aos locais (LINHAS);\\
-  * Φ (p) é a detecção (condicionada à ocorrência), relativa ao momento da amostragem (COLUNAS);\\
+  * $p$ é a detecção (condicionada à ocorrência), relativa ao momento da amostragem (COLUNAS);\\
@@ Linha 50: / Linha 50: @@
 ===== Calculando Probabilidades =====
-Nos locais em que a  espécie não foi registrada  em nenhum dos tempos, a soma das observações ($\sum x_i$) é zero a temos duas possibilidades:
+Nos locais em que a  espécie não foi registrada  em nenhum dos tempos, a soma das observações ($n_i=\sum_i x_{ij}$) é zero a temos duas possibilidades:
   * a espécie não ocorre na localidade, ou
@@ Linha 58: / Linha 58: @@
 <WRAP center round box 80%>
-<wrap em>Expressão (i): </wrap>
+<wrap em>probabilidade de não ocorrer ou ocorrer e não ser detectada em cinco ocasiões: </wrap>
-probabilidade de não ocorrer ou ocorrer e não ser detectada em cinco ocasiões:
-$$P(x_i=0) =(1-\psi) + \psi*(1-p)^5$$
+\begin{equation}
+\label{eq:1}
+P(n=0) =(1-\psi) + \psi(1-p)^5
+\end{equation}
 </WRAP>
-A primeira parte da expressão acima $(1-psi)$ é a probabilidade de não ocorrer e a segunda parte é composta pela probabilidade de ocorrer $psi$ vezes a probabilidade de não ser detectado em cinco ocasiões $ (1-p)^5 $.
+A primeira parte da expressão acima $(1-\psi)$ é a probabilidade de não ocorrer e a segunda parte é composta pela probabilidade de ocorrer $\psi$ vezes a probabilidade de não ser detectado em cinco ocasiões $ (1-p)^5 $.
-Quando a soma das observações  em uma localidade ($x_i$) é maior que zero $x_i > 0$, ou seja a espécie foi observada em pelo menos uma das observações, o cálculo da probabilidade é:
+Quando a soma das observações  em uma localidade ($n_i$) é maior que zero, ou seja a espécie foi observada em pelo menos uma das ocasiões, o cálculo da probabilidade é:
 <WRAP center round box 60%>
-<wrap em>Expressão (ii): </wrap>
+<wrap em>probabilidade de ocorrer e ser detectado $n$ vezes e não ser detectados nas outra amostras (total - $n_i$): </wrap>
-probabilidade de ocorrer e ser detectado $x_i$ vezes e não ser detectados nas outra amostras (total - $x_i$).
- $$  prob_{(x_i>0)} = psi* p^{x_i} * (1-p)^{5-x_i}$$
-</WRAP>
+\begin{equation}
+\label{eq:2}
+P(n) = \psi p^{n_i} (1-p)^{5-n_i}
+\end{equation}
-Com isso temos o equações que descrevem a ocorrência e a detecção da espécie nas diferentes localidades ou unidades amostrais. Só precisamos agora solucionar essas equações para obter o valor da probabilidade de detecção e probabilidade de ocorrência da nossa espécies.
-Essas equações compõem um conjunto de equações acopladas com duas variáveis que precisamos estimar. Imaginemos uma situação **HIPOTÉTICA** de que nosso conhecimento em matemática seja rudimentar e não sabemos como resolver esse problema que parece muito básico! Nesse cenário uma solução possível é simplesmente chutarmos valores para essas  probabilidades.
-<WRAP center round todo 60%>
-  * Calcule os valores para cada localidade para psi=0,7 e p=0,3;
-  * Calcule a verossimilhança para o conjunto do dados, dado esses parâmetros;
 </WRAP>
+Com isso temos o equações que expressam o registro das espécie em função da sua ocorrência e detecção, que são quantidades desconhecidas. Só conhecemos $n_i$, o número de ocasiões em que a espécie foi registrada em cada localidade. Mas podemos usar as expressões \ref{eq:1} e \ref{eq:2} para calcular a probabilidade que uma certa combinação de $\psi$ e $p$ atribui a cada uma de nossas observações. Vamos fazer este cálculo para $\psi=0,7$ e $p=0,3$:
 <WRAP center round box 100%>
 {{:roteiros:vero01.png?500  |}}
   * abra a planilha do {{:roteiros:aulaverossimilhancaalunos.xls|excel}} com os dados;
   * faça a soma das ocorrências para cada localidade;
-  * insira a formula (i) ou (ii) descritas acima, dependendo se houve alguma ocorrência ou não da espécie na localidade;
+  * insira as expressões acima em cada linha, dependendo se houve alguma ocorrência (equação \ref{eq:2}) ou não  (equação \ref{eq:1}) da espécie na localidade;
   * faça a multiplicação desses valores ao final da coluna.
 </WRAP>
-Muito bem! Acabamos de calcular a verossimilhança para os valores dos parâmetros psi=0,7 e p=0,30. Imagine que existe uma probabilidade de encontrar os dados observados, dado esses parâmetros. A verossimilhança pode ser qualquer quantidade proporcional a esta probabilidade. Em linguagem matemática:
+Muito bem! Acabamos de calcular a verossimilhança para os valores dos parâmetros $\psi=0,7$ e $p=0,30$. Imagine que existe uma probabilidade de encontrar os dados observados, dados esses parâmetros. A verossimilhança pode ser qualquer quantidade proporcional a esta probabilidade. Em linguagem matemática:
 $$\mathcal{L} \ = \ k P(\text{dados}|\text{parâmetros})$$
-Onde $k$ é qualquer valor constante, o que nos permite dividir ou multiplicar a verossimilhança por qualquer constante, o que muitas vezes ajuda nos cálculos. Neste exercício não precisaremos disso, e fazemos $k=1$ e portanto a verossimilhança será  o próprio valor da probabilidade dos dados obtida com cada valor dos parâmetros:
+Onde $k$ é qualquer valor constante, o que nos permite dividir ou multiplicar a verossimilhança por qualquer constante. Isso muitas vezes ajuda nos cálculos. Neste exercício não precisaremos disso, e fazemos $k=1$ e portanto a verossimilhança será  o próprio valor da probabilidade dos dados obtida com cada valor dos parâmetros:
 $$\mathcal{L}  \ = \ P(\text{dados}|\text{parâmetros})$$
@@ Linha 119: / Linha 120: @@
    * $\theta$ representa o conjunto de parâmetros que definem o modelo probabilístico.
-Notem que nós invertemos a lógica: os parâmetros do nosso modelo agora estão funcionando como variáveis de uma nova função, que é a verossimilhança.
+Notem que nós invertemos os argumentos da função: os parâmetros do nosso modelo agora estão funcionando como variáveis de uma nova função, que é a verossimilhança.
-Agora podemos definir uma função de verossimilhança para os dados tratados aqui. É o mesmo calculo feito acima, apenas deixando os parâmetros psi e p como incógnitas.
+Agora podemos definir uma função de verossimilhança para os dados tratados aqui. É o mesmo calculo feito acima, apenas deixando os parâmetros $\psi$ e $p$ como incógnitas.
 <WRAP center round box 60%>
-<wrap em>Em quatro localidades não foi não encontrar em nenhuma ocasião:</wrap>
+<wrap em>Em quatro localidades não houve registros em nenhuma ocasião:</wrap>
-$$ ((1-psi) + psi*(1-p)^5)^4 $$
+$$ \mathcal{L}_0=(1-\psi) + \psi (1-p)^5 $$
-<wrap em>Em duas localidades foi encontrar apenas um vez:</wrap>
+<wrap em>Em duas localidades houve registro apenas um vez:</wrap>
-$$ ((psi* p^1) * (1-p)^4)^2 $$
+$$ \mathcal{L}_1=(\psi p^1)  (1-p)^4 $$
-<wrap em>Em duas localidades foi encontrar duas  vezes:</wrap>
+<wrap em>Em duas localidades houve registros duas  vezes:</wrap>
-$$ ((psi* p^2) * (1-p)^3)^2 $$
+$$ \mathcal{L}_2=(\psi p^2)  (1-p)^3 $$
-<wrap em>Em duas localidades foi encontrar três vezes:</wrap>
+<wrap em>Em duas localidades houve registro três vezes:</wrap>
-$$ ((psi* p^3) * (1-p)^2)^2 $$
+$$ \mathcal{L}_3=(\psi p^3)  (1-p)^2 $$
-<wrap em>Em uma localidades foi encontrar quatro vezes:</wrap>
+<wrap em>Em uma localidade houve registro quatro vezes:</wrap>
-$$ ((psi* p^4) * (1-p)^1)^1 $$
+$$ \mathcal{L}_4=(\psi p^4)  (1-p)^1 $$
 </WRAP>
-Multiplicando todas essas expressões temos uma fórmula para calcular a probabilidade que qualquer valores de parâmetros atribui aos dados observados((supondo que cada registro é uma observação independente)):
+Multiplicando as verossimilhanças para cada localidade obtemos a probabilidade que os parâmetros atribuem ao conjunto de dados observados ((supondo que cada registro é uma observação independente)):
@@ Linha 144: / Linha 145: @@
 Verossimilhança =
 </wrap>
-[(1-psi) + psi*(1-p)^5]^4 * (psi* p^1 * (1-p)^4)^2 * (psi* p^ * (1-p)^3)^2 * (psi* p^3 * (1-p)^2)^2 * psi* p^4 * (1-p)
+$\mathcal{L}_0^4 \times \mathcal{L}_1^2 \times \mathcal{L}_2^2 \times \mathcal{L}_3^2 \times \mathcal{L}_4$
 </WRAP>
-Parece uma expressão complicada, mas se acompanhou passo a passo os caminhos até aqui e entendeu a ideia, é só não errar nenhum parênteses que essa fórmula funciona como nossa função de verossimilhança. Quando calculamos a verossimilhança para os valores dos parâmetro psi =0,7 e p=0,3 encontramos um valor muito pequeno, se é que seu computador conseguiu mostrar algum valor, pois a probabilidade estava por volta de $ 3.5 * 10^{-15}$, o que arredondando é zero em muitos programas. Esse valor próximo a zero faz sentido para o que pretendemos e não seu arrendondamento para zero. Para não correr o risco desses pequenos valores desaparecerem dos nossos cálculos, vamos utilizar uma transformação matemática que faz com que o valor muito próxima a zero tenha, em módulo, um número que é mais fácil de tratar: o logaritmo. Duas regras básicas operações de logaritmo vão nos ajudar a simplificar a expressão acima:
+Parece uma expressão complicada, mas se acompanhou passo a passo os caminhos até aqui e entendeu a ideia, é só não errar nenhum parênteses que essa fórmula funciona como nossa função de verossimilhança. Quando calculamos a verossimilhança para os valores dos parâmetro $\psi =0,7$ e $p=0,3$ encontramos um valor muito pequeno ((por volta de $ 3,5 \times 10^{-15}$)). Estes valores podem facilmente ficar abaixo da precisão numérica do computador. Para não correr o risco desses pequenos valores desaparecerem dos nossos cálculos, vamos utilizar uma transformação matemática que faz com que o valor muito próxima a zero tenha, em módulo, um número que é mais fácil de tratar: o logaritmo. Duas regras básicas operações de logaritmo vão nos ajudar a simplificar a expressão acima:
 <WRAP center round box 60%>
@@ Linha 160: / Linha 161: @@
 Log-Verossimilhança =
 </wrap>
-* log[(1-psi) + psi*(1-p)^5] + 2* log[(psi* p^1) * (1-p)^4] + 2* log[(psi* p^2) * (1-p)^3] + 2* log[(psi* p^3) * (1-p)^2] + log[(psi* p^4) * (1-p)]
+$4 \log \mathcal{L}_0+ 2 \log \mathcal{L}_1 + 2 \log \mathcal{L}_2 + 2 \log \mathcal{L}_3 + \log \mathcal{L}_4$
 </WRAP>
 Como logarítmos de números próximos a zero ($0<x<1$) são negativos, vamos completar nossa transformação multiplicamos o valor da Log-Verossimilhança por $-1$ para obter a Log-Verossimilhança negativa. Como a escala e o sinal do valor foram modificados por nossa transformação, agora os valores de -Log-Verossimilhança maiores indicam verossimilhanças menores e valores pequenos, verossimilhanças maiores.
-Vamos calcular então o valor de -logaritmo da verossimilhança para diferentes valores de parâmetros no Excel, usando a fórmula acima.
+Vamos calcular então o valor de -logaritmo da verossimilhança para diferentes valores de parâmetros no Excel, usando a expressão acima.
 <WRAP center round box 60%>
 {{:roteiros:verofunc.png?500  |}}
-  * crie uma coluna com valores de psi de 0.05 até 0.95 a cada 0.05;
+  * crie uma coluna com valores de $\psi$ de 0.05 até 0.95 a cada 0.05;
-  * faça o mesmo para a linha para valores de p, formando um quadro;
+  * faça o mesmo para a linha para valores de $p$, formando um quadro;
-  * digite a fórmula da -Log-Verossimilhança usando a referência dos valores de psi e p;
+  * digite a fórmula da -Log-Verossimilhança usando a referência dos valores de $\psi$ e $p$;
   * copie a formula para todo o quadro de valores;
 </WRAP>
@@ Linha 189: / Linha 190: @@
 <WRAP center round  60%>
-Faça um gráfico com os valores dos parâmetros no eixo x (p) e y (psi) e no eixo z inclua os valores de log-verossimilhança negativa.
+Faça um gráfico com os valores dos parâmetros no eixo x ($p$) e y ($\psi$) e no eixo z inclua os valores de log-verossimilhança negativa.
 </WRAP>
 ===== Máxima Verossimilhança =====
-Acabamos de construir a superfície de verossimilhança do nosso modelo! Poderia ter sido melhor, poderíamos ter usado intervalos muito menores de psi e p, se possível intervalos infinitesimalmente pequenos, o que nos daria a superfície contínua dos possíveis valores de parâmetros. Para nossa proposta aqui, intervalos de 0,05, bastam.
+Acabamos de construir a superfície de verossimilhança do nosso modelo! Poderia ter sido melhor, poderíamos ter usado intervalos muito menores de $\psi$ e $p$, se possível intervalos infinitesimalmente pequenos, o que nos daria a superfície contínua dos possíveis valores de parâmetros. Para nossa proposta aqui, intervalos de 0,05, bastam.
 <WRAP center round box 60%>
@@ Linha 203: / Linha 204: @@
-  * Ou seja, nossa melhor estimativa para os parâmetros p e psi são os que atribuem mais probabilidade ao que observamos, que são os dados. Se aceitamos isso, podemos dizer que essa estimativa são os valores mais plausíveis, ou mais verossímeis dos parâmetros **para esse conjunto de dados**.
+  * Ou seja, nossa melhor estimativa para os parâmetros $p$ e $\psi$ são os que atribuem mais probabilidade ao que observamos, que são os dados. Se aceitamos isso, podemos dizer que essa estimativa são os valores mais plausíveis, ou mais verossímeis dos parâmetros **para esse conjunto de dados**.
   * Como a verossimilhança nos ajuda a chegar a esses valores? Os valores mais plausíveis dos parâmetros são os aqueles para os quais a verossimilhança é máxima. Portanto, os valores que geram o menor valor de Log-Verossimilhança negativa.
@@ Linha 216: / Linha 217: @@
 <WRAP center round todo 60%>
   * quais o parâmetros que maximizam a verossimilhança para nossos dados?
-  * varie os valores dos dados (tabela com 0 e 1) e veja se sua intuição quanto ao valor de psi e p dos dados hipotéticos se aproxima à estimativa LogLike.
+  * varie os valores dos dados (tabela com 0 e 1) e veja se sua intuição quanto ao valor de $\psi$ e $p$ dos dados hipotéticos se aproxima à estimativa LogLike.
 </WRAP>
 ----