planeco:roteiro:05-descr_base
Diferenças
Esta página mostra as diferenças entre as duas revisões da página.
Ambos os lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
planeco:roteiro:05-descr_base [2018/02/28 13:56] – melina.leite | planeco:roteiro:05-descr_base [2024/01/09 18:38] (Atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 59: | Linha 59: | ||
</ | </ | ||
- | 1) Vamos olhar como os dados das quatro variáveis numéricas estão distribuídos | + | 1) __Vamos |
+ | |||
+ | |||
**1.a) Histograma de frequência: | **1.a) Histograma de frequência: | ||
===== histograma ===== | ===== histograma ===== | ||
+ | |||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
- | **O que está representado no eixo X e no eixo Y de cada um desses gráficos? | + | |
- | Quais são os valores que definem as classes usadas no eixo X desse histograma? São os mesmos valores para todos os gráficos? Poderiam ser usados diferentes valores para essas mesmas variáveis? Qual a melhor forma de definir as classes de um histograma? | + | **__Entenda o seu Histograma__** |
- | ** | + | |
+ | | ||
+ | | ||
+ | * São os mesmos valores para todos os gráficos? | ||
+ | * Poderiam ser usados diferentes valores para essas mesmas variáveis? | ||
+ | * Qual a melhor forma de definir as classes de um histograma? | ||
</ | </ | ||
Linha 101: | Linha 111: | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
- | * - Anote quantos dados existem (i.e. qual é o //n// da amostra)? | + | * - Anote quantos dados existem (i.e. qual é o //n// da amostra?). |
* - Anote os valores mínimo e o máximo | * - Anote os valores mínimo e o máximo | ||
- | * - Anote o valor que separa os dados ordenados em duas metades (i.e. o valor que representa 50% dos dados). | + | * - Anote o valor que separa os dados ordenados em duas metades (i.e. o valor que representa 50% dos dados) |
* - Anote o valor que separa os primeiros 25% valores dos restantes 75% | * - Anote o valor que separa os primeiros 25% valores dos restantes 75% | ||
* - Anote o valor que separa os primeiros 75% valores dos restantes 25% | * - Anote o valor que separa os primeiros 75% valores dos restantes 25% | ||
Linha 140: | Linha 150: | ||
</ | </ | ||
- | Vamos fazer um boxplot modificado com os nossos dados de COMPRIMENTO_BICO | ||
- | < | ||
- | boxplot(univar1$COMPRIMENTO_BICO) | ||
- | </ | ||
+ | ===== boxplot3 ===== | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
Linha 158: | Linha 165: | ||
- | ===== boxplot3 ===== | ||
**1.d) Comparando Boxplots (e usando o argumento // | **1.d) Comparando Boxplots (e usando o argumento // | ||
Linha 165: | Linha 171: | ||
No nosso conjunto de dados, podemos avaliar se a biomassa de insetos apresenta diferentes distribuições em locais com diferentes níveis de distúrbio: | No nosso conjunto de dados, podemos avaliar se a biomassa de insetos apresenta diferentes distribuições em locais com diferentes níveis de distúrbio: | ||
- | < | ||
- | boxplot(univar1$BIOMASSA_INSETOS ~ univar1$NIVEL_DISTURBIO) | ||
- | </ | ||
+ | ===== boxplot4 ===== | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
**Avalie a posição das medianas, a distribuição dos valores entre os quartis, os valores máximos e mínimos, a simetria da distribuição, | **Avalie a posição das medianas, a distribuição dos valores entre os quartis, os valores máximos e mínimos, a simetria da distribuição, | ||
Linha 176: | Linha 180: | ||
Existe uma forma bastante simples de calcular **" | Existe uma forma bastante simples de calcular **" | ||
- | < | ||
- | boxplot(univar1$BIOMASSA_INSETOS ~ univar1$NIVEL_DISTURBIO, | ||
- | </ | ||
- | |||
- | <WRAP center round box 80%> | ||
- | |||
- | **E agora, você está mais seguro(a) para afirmar se a biomassa de insetos difere ou não entre os dois níveis de distúrbio? | ||
- | |||
- | </ | ||
- | ===CHECANDO O AJUSTE DOS DADOS A UMA DISTRIBUIÇÃO=== | + | =====CHECANDO O AJUSTE DOS DADOS A UMA DISTRIBUIÇÃO===== |
Agora vamos avaliar visualmente se as variáveis se distribuem de acordo com uma distribuição conhecida. Por simplicidade, | Agora vamos avaliar visualmente se as variáveis se distribuem de acordo com uma distribuição conhecida. Por simplicidade, | ||
- | |||
<WRAP center round important 90%> | <WRAP center round important 90%> | ||
Linha 196: | Linha 190: | ||
Nesse momento, em que estamos analisando a normalidade de uma variável isoladamente, | Nesse momento, em que estamos analisando a normalidade de uma variável isoladamente, | ||
</ | </ | ||
- | |||
Linha 217: | Linha 210: | ||
ATENÇÃO: Outra forma de representar os dados esperados para a distribuição normal é usar a distribuição normal padronizada, | ATENÇÃO: Outra forma de representar os dados esperados para a distribuição normal é usar a distribuição normal padronizada, | ||
*/ | */ | ||
- | |||
- | Vamos então aplicar as funções abaixo aos nossos dados: | ||
- | |||
- | < | ||
- | par(mfrow = c(2, | ||
- | |||
- | qqnorm(univar1$COMPRIMENTO_BICO) | ||
- | qqline(univar1$COMPRIMENTO_BICO) | ||
- | |||
- | qqnorm(univar1$BIOMASSA_AVE) | ||
- | qqline(univar1$BIOMASSA_AVE) | ||
- | |||
- | qqnorm(univar1$BIOMASSA_INSETOS) | ||
- | qqline(univar1$BIOMASSA_INSETOS) | ||
- | |||
- | qqnorm(univar1$TAMANHO_SEMENTES) | ||
- | qqline(univar1$TAMANHO_SEMENTES) | ||
- | |||
- | par(mfrow=c(1, | ||
- | </ | ||
- | |||
+ | ===== qqplot2 ===== | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
Linha 254: | Linha 227: | ||
- | ===AVALIANDO AUTOCORRELAÇÃO=== | + | =====AVALIANDO AUTOCORRELAÇÃO===== |
- | + | ||
- | Para essa parte do tutorial, importe o conjunto de dados " | + | |
- | < | + | |
- | autocorr< | + | |
- | head(autocorr) | + | |
- | summary(autocorr) | + | |
- | </ | + | |
Linha 282: | Linha 248: | ||
Vejamos como ficam esses gráficos para os dados do conjunto **autocorr** que temos disponível para essa análise. Nesse arquivo temos os dados de dois transectos (x1 e x2) com 100 pontos cada. | Vejamos como ficam esses gráficos para os dados do conjunto **autocorr** que temos disponível para essa análise. Nesse arquivo temos os dados de dois transectos (x1 e x2) com 100 pontos cada. | ||
- | < | ||
- | lag.plot(autocorr$x1, | ||
- | lag.plot(autocorr$x2, | + | |
- | </ | + | ===== autocorr2 ===== |
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
Linha 306: | Linha 270: | ||
- | ====ANALISANDO DADOS BIVARIADOS==== | + | =====ANALISANDO DADOS BIVARIADOS===== |
Muitas vezes não estamos interessados em analisar a distribuição de uma variável //per se//, mas sim em analisar se existe alguma relação entre duas variáveis numéricas ordenadas. | Muitas vezes não estamos interessados em analisar a distribuição de uma variável //per se//, mas sim em analisar se existe alguma relação entre duas variáveis numéricas ordenadas. | ||
Linha 322: | Linha 286: | ||
* {{ : | * {{ : | ||
- | -Importe o arquivo para o R | + | - Importe o arquivo para o R, |
+ | - Faça um gráfico de dispersão (ou //Gráfico XY//) e descreva sua primeira impressão sobre a relação entre as variáveis. | ||
- | < | ||
- | bivar< | ||
- | head(bivar) | ||
- | summary (bivar) | ||
- | </ | ||
- | Faça um gráfico de dispersão (ou //Gráfico XY//) e descreva sua primeira impressão sobre a relação entre as variáveis. | + | ===== bivariado2 ===== |
- | + | ||
- | < | + | |
- | plot(bivar$y.l ~ bivar$x.l) | + | |
- | </ | + | |
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
Linha 343: | Linha 299: | ||
Para tentar captar a tendência da relação, você poderia ir traçando pequenas linhas que buscassem a melhor relação entre os dados da variável y.l e da variável x.l ao longo de pequenos trechos da variável x.l, como se estivesse desenhando "à mão" | Para tentar captar a tendência da relação, você poderia ir traçando pequenas linhas que buscassem a melhor relação entre os dados da variável y.l e da variável x.l ao longo de pequenos trechos da variável x.l, como se estivesse desenhando "à mão" | ||
Existe uma função que faz isso. Ela se chama //lowess// e pode ser aplicada da seguinte forma: | Existe uma função que faz isso. Ela se chama //lowess// e pode ser aplicada da seguinte forma: | ||
- | < | ||
- | plot(bivar$y.l ~ bivar$x.l) | ||
- | lines(lowess(bivar$y.l ~ bivar$x.l)) | ||
- | </ | ||
+ | |||
+ | ===== bivariado3 ===== | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
**E agora, suas respostas às 4 questões colocadas no início dessa seção mudariam?** | **E agora, suas respostas às 4 questões colocadas no início dessa seção mudariam?** | ||
Linha 353: | Linha 307: | ||
- | Agora vamos fazer o gráfico de dispersão para outras duas variáveis y.n (resposta) e x.n (preditora): | + | Agora vamos fazer o gráfico de dispersão para outras duas variáveis y.n (resposta) e x.n (preditora). |
- | < | + | |
- | plot(bivar$y.n ~ bivar$x.n) | + | |
- | lines(lowess(bivar$y.n ~ bivar$x.n)) | + | ===== bivariado4 ===== |
- | </ | + | |
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
Linha 364: | Linha 317: | ||
- | Existe um gráfico | + | Existe um gráfico que nos mostra várias informações de uma relação entre duas variáveis e pode ajudar bastante no entendimento da relação. |
- | < | ||
- | scatterplot (bivar$y.l ~ bivar$x.l) | ||
- | </ | ||
- | < | + | =====Transformando os dados:===== |
- | scatterplot (bivar$y.n ~ bivar$x.n) | + | |
- | </ | + | |
- | + | ||
- | + | ||
- | + | ||
- | ====Transformando os dados:==== | + | |
Algumas vezes, a relação que observamos entre duas variáveis não é linear, mas gostaríamos de analisar essa relação dentro do escopo de uma Análise de Regressão Linear, em função das facilidades de trabalhar com esse tipo de análise. Para isso, precisamos recorrer aos recursos de **transformação dos dados**. | Algumas vezes, a relação que observamos entre duas variáveis não é linear, mas gostaríamos de analisar essa relação dentro do escopo de uma Análise de Regressão Linear, em função das facilidades de trabalhar com esse tipo de análise. Para isso, precisamos recorrer aos recursos de **transformação dos dados**. | ||
Linha 387: | Linha 331: | ||
==Logaritmo natural (ln)== | ==Logaritmo natural (ln)== | ||
Vamos analisar a relação entre as variáveis COMPRIMENTO_BICO e BIOMASSA_AVE e verificar se a relação parece linear. Para isso vamos utilizar o gráfico síntese produzido pelo pacote //car//: | Vamos analisar a relação entre as variáveis COMPRIMENTO_BICO e BIOMASSA_AVE e verificar se a relação parece linear. Para isso vamos utilizar o gráfico síntese produzido pelo pacote //car//: | ||
- | < | ||
- | scatterplot(univar1$COMPRIMENTO_BICO ~ univar1$BIOMASSA_AVE) | ||
- | </ | ||
- | Como podemos observar pelos boxplots laterais, nesse caso, aparentemente são os dados da variável Y que parecem estar afetando a linearidade da relação. Então, vamos transformar os dados de Y pelo logaritmo natural e ver se o ajuste melhora. | ||
- | < | + | |
- | scatterplot (log(univar1$COMPRIMENTO_BICO) ~ univar1$BIOMASSA_AVE) | + | ===== transforma2 ===== |
- | </ | + | |
<WRAP center round box 80%> | <WRAP center round box 80%> |
planeco/roteiro/05-descr_base.1519826160.txt.gz · Última modificação em: 2024/01/09 18:38 (edição externa)