planeco:roteiro:05-descr
Diferenças
Esta página mostra as diferenças entre as duas revisões da página.
Ambos os lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
planeco:roteiro:05-descr [2017/12/23 11:08] – [Copiando os arquivos de dados e instalando pacotes] adalardo | planeco:roteiro:05-descr [2024/01/09 18:38] (Atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | <WRAP tabs> | ||
+ | * [[planeco: | ||
+ | * [[planeco: | ||
+ | </ | ||
+ | |||
=====ANÁLISES EXPLORATÓRIAS DE DADOS===== | =====ANÁLISES EXPLORATÓRIAS DE DADOS===== | ||
- | /* Para esconder partes do texto*/ | + | {{section> |
- | + | ||
- | Neste tutorial, pretendemos instrumentalizar os(as) usuários(as) a realizar várias técnicas de Análise Exploratória de Dados (AED). | + | |
- | + | ||
- | Apesar de existirem questionamentos estatísticos e filosóficos sobre a realização da AED antes das análises de dados previstas em um projeto de pesquisa, o contato prévio com os dados pode, no mínimo, auxiliar a detectar anomalias nos dados e buscar suas causas. | + | |
+ | ==== Preparação dos dados e programa ==== | ||
- | ====Objetivos da Análise Exploratória de Dados (AED)==== | + | As análises abaixo serão realizadas em ambiente R e para isso teremos que instalar alguns pacotes, |
- | + | ||
- | A AED teve origem a partir da expansão das análises frequentistas, | + | |
- | * A amostra foi obtida seguindo o princípio da aleatoriedade | + | |
- | * A amostra é proveniente de uma distribuição fixa (normal, binomial, etc) | + | |
- | * A distribuição tem uma " | + | |
- | * A distribuição tem variação fixa (variância, | + | |
- | + | ||
- | + | ||
- | Dentre os principais **objetivos** de uma AED podemos listar os seguintes: | + | |
- | * Procurar variáveis mais importantes dentro de um conjunto abrangente; | + | |
- | * Compreender a estrutura implícita dos dados; | + | |
- | * Detectar pontos extremos (// | + | |
- | * Testar premissas; | + | |
- | * Avaliar se os dados se ajustam aos modelos que serão utilizados nas análises; | + | |
- | * Determinar ajustes ótimos; | + | |
- | + | ||
- | Alguns entusiastas da AED acreditam que muitas vezes é possível discutir os resultados obtidos a partir apenas da AED, sem precisar de testes de inferência estatística | + | |
- | + | ||
- | Na página virtual [[http:// | + | |
- | * O que é um valor típico (p. ex., média, mediana, etc)? | + | |
- | * Qual é a incerteza para um valor típico (variância, | + | |
- | * Qual seria um bom ajuste (em relação às distribuições) para um dado conjunto de números? | + | |
- | * Quais são os valores de determinados percentis? | + | |
- | * Um determinado fator tem algum efeito? | + | |
- | * As medidas provenientes de diferentes fontes são equivalentes? | + | |
- | * Qual pode ser a melhor função para relacionar uma variável resposta a um conjunto de fatores? | + | |
- | * Podemos separar //sinal// de //ruído// em dados temporalmente dependentes? | + | |
- | * Os dados têm valores extremos (// | + | |
- | + | ||
- | Ao final deste tutorial esperamos que você consiga responder algumas dessas questões. | + | |
- | + | ||
- | ====Copiando os arquivos de dados e instalando pacotes==== | + | |
- | As análises | + | |
1) Crie um diretório (pasta), copie os arquivos de dados abaixo para esse diretório e faça a descompactação no mesmo diretório: | 1) Crie um diretório (pasta), copie os arquivos de dados abaixo para esse diretório e faça a descompactação no mesmo diretório: | ||
Linha 48: | Linha 17: | ||
* {{ : | * {{ : | ||
* {{ : | * {{ : | ||
- | + | ||
- | /* | + | |
- | * bivar | + | |
- | * transf | + | |
- | */ | + | |
2) Abra o R no seu computador e mude o diretório de trabalho para o diretório (//i.e.// a pasta) que você criou, usando o menu **// | 2) Abra o R no seu computador e mude o diretório de trabalho para o diretório (//i.e.// a pasta) que você criou, usando o menu **// | ||
Linha 77: | Linha 42: | ||
==== ANALISANDO DADOS UNIVARIADOS ==== | ==== ANALISANDO DADOS UNIVARIADOS ==== | ||
- | === Conhecendo os dados: === | + | |
1) importe o conjunto de dados para o R | 1) importe o conjunto de dados para o R | ||
< | < | ||
Linha 93: | Linha 58: | ||
</ | </ | ||
- | Note que para variáveis numéricas (contínuas ou discretas) são apresentados | + | === Conhecendo |
- | + | {{section>planeco: | |
- | <WRAP center round box 60%> | + | |
- | **Veja se você entendeu o conjunto de dados. Você consegue pensar em como esses dados podem estar distribuídos? | + | |
- | </WRAP> | + | |
4) Se quiser, visualize o conjunto de dados como uma planilha convencional | 4) Se quiser, visualize o conjunto de dados como uma planilha convencional | ||
Linha 105: | Linha 67: | ||
- | ===ANÁLISES GRÁFICAS=== | + | ==== Análises gráficas ==== |
- | + | ||
- | <WRAP center round important 80%> | + | |
- | **Salve todos os gráficos que você criar a partir de agora** | + | |
- | </ | + | |
- | 1) Vamos olhar como os dados das quatro variáveis numéricas estão distribuídos graficamente. | + | {{section> |
- | **1.a) Histograma de frequência:** | + | |
< | < | ||
Linha 123: | Linha 80: | ||
</ | </ | ||
- | <WRAP center round box 80%> | + | {{section>planeco: |
- | **O que está representado no eixo X e no eixo Y de cada um desses gráficos? | + | |
- | Quais são os valores que definem as classes usadas no eixo X desse histograma? São os mesmos valores para todos os gráficos? Poderiam ser usados diferentes valores para essas mesmas variáveis? Qual a melhor forma de definir as classes de um histograma? | + | |
- | ** | + | |
- | </ | + | |
- | E se mudássemos para 20 classes no eixo X, como ficariam os gráficos? | ||
< | < | ||
+ | #use o argumento breaks para determinar o número de classes | ||
par(mfrow = c(2, | par(mfrow = c(2, | ||
hist(univar1$COMPRIMENTO_BICO, | hist(univar1$COMPRIMENTO_BICO, | ||
Linha 139: | Linha 92: | ||
</ | </ | ||
- | |||
- | E se mudássemos para 10 classes no eixo X, como ficariam os gráficos? | ||
< | < | ||
par(mfrow = c(2, | par(mfrow = c(2, | ||
Linha 150: | Linha 101: | ||
</ | </ | ||
- | /* | + | {{section> |
- | Existem também os gráficos stem-and-leaf (ramos e folhas), que são uma outra forma de representar a distribuição dos dados brutos | + | |
- | Vantagens: **Dentro** de uma determinada classe (por exemplo, dentre os valores que estào entre 10 e 20) é possível visualizar se tem algum valor predominante (agregação) entre os valores à direita do " | + | |
- | Desvantagens: Visualização um pouco mais confusa e maior dificuldade para representar valores contínuos, além de ser pouco utilizado em geral. | + | |
- | + | ||
- | MOSTRAR ALGUMA FIGURA COM DOIS STEM-AND-LEAF, UM PARA DADOS CONTÍNUOS E OUTRO PARA DADOS DISCRETOS*/ | + | |
- | + | ||
- | + | ||
- | **1.b) Gráfico de densidade** | ||
- | Ao invés de usarmos classes, podemos representar a distribuição por meio de uma linha, que é obtida usando a densidade estimada (por uma função conhecida como //kernel//) de valores para " | ||
- | Vamos ver como ficam as distribuições das nossas quatro variáveis numéricas: | ||
< | < | ||
par(mfrow = c(2, | par(mfrow = c(2, | ||
Linha 211: | Linha 151: | ||
Todas essas informações nos auxiliam para identificarmos a quais distribuições teóricas nossos dados se ajustam. | Todas essas informações nos auxiliam para identificarmos a quais distribuições teóricas nossos dados se ajustam. | ||
+ | {{section> | ||
- | **1.c) Box-plot ou Box-whiskers plot ou Five-numbers-summary** | ||
- | Um box-plot clássico utiliza os seguintes valores: | ||
- | * - Mínimo | ||
- | * - Primeiro quartil | ||
- | * - Mediana | ||
- | * - Terceiro quartil | ||
- | * - Máximo | ||
- | |||
- | - Ordene a variável COMPRIMENTO_BICO do menor para o maior valor: | ||
< | < | ||
(sort(univar1$COMPRIMENTO_BICO)) | (sort(univar1$COMPRIMENTO_BICO)) | ||
</ | </ | ||
- | <WRAP center round box 80%> | + | {{section>planeco: |
- | * - Anote quantos dados existem (i.e. qual é o //n// da amostra)? | + | |
- | * - Anote os valores mínimo e o máximo | + | |
- | * - Anote o valor que separa os dados ordenados em duas metades (i.e. o valor que representa 50% dos dados). | + | |
- | * - Anote o valor que separa os primeiros 25% valores dos restantes 75% | + | |
- | * - Anote o valor que separa os primeiros 75% valores dos restantes 25% | + | |
- | </ | + | |
- | <WRAP center round important 90%> | ||
- | Quando o quartil desejado (primeiro, segundo [= mediana] ou terceiro) se posicionar exatamente sobre um dado valor, use esse valor. Quando o quartil desejado se localizar entre dois valores, retire a média desses dois valores. | ||
- | </ | ||
- | |||
- | Com esses dados você poderia construir um box-plot manualmente, | ||
- | |||
- | {{ : | ||
- | |||
- | |||
- | Mas temos uma função que faz isso por nós: | ||
< | < | ||
boxplot(univar1$COMPRIMENTO_BICO, | boxplot(univar1$COMPRIMENTO_BICO, | ||
</ | </ | ||
- | Confira se os valores utilizados pela função //boxplot// são iguais aos que você calculou | + | {{section>planeco: |
- | + | ||
- | Muitas vezes, o //default// de um programa estatístico faz um gráfico chamado **boxplot modificado**. Esse **boxplot modificado** nos ajuda a identificar os pontos extremos que comumente chamamos de **// | + | |
- | + | ||
- | Ao invés de usarmos os valores de **máximo** e **mínimo** nas pontas das linhas verticais (tanto para cima quanto para baixo), usamos a seguinte equação //1.5*IQ// para definirmos o comprimento da linha vertical. //IQ// é a distância entre o primeiro e o terceiro quartil (ou distância interquartis ou ainda a amplitude da caixa central do boxplot). //IQ = Q3 - Q1//, onde Q3 é o valor do terceiro quartil e Q1 é o valor do primeiro quartil. | + | |
- | + | ||
- | <WRAP center round tip 90%> | + | |
- | Suponha uma situação em que sua variável resposta é medida em ml. Se Q3=30ml e Q1=20ml, então, IQ =10ml e a linha vertical deve ter 15ml (IQ = 1.5*10). Como a linha vertical é plotada a partir das bordas das caixas (quartis) para se obter o valor superior da linha vertical é preciso somar Q3+IQ (30 + 15 = 45ml) e para se obter o valor inferior da linha vertical é preciso subtrair Q1 - IQ (20-15 = 5 ml). Os valores que estiverem abaixo de 5ml e acima de 45 ml serão considerados // | + | |
- | </ | + | |
- | + | ||
- | Um boxplot modificado fica assim: | + | |
- | + | ||
- | {{ :planeco: | + | |
- | + | ||
- | + | ||
- | <WRAP center round important 90%> | + | |
- | O valor a ser multiplicado por IQ pode variar de um autor para outro e de um programa computacional para outro, então é muito importante que as legendas dos gráficos tragam essa informação. Infelizmente, | + | |
- | </ | + | |
Vamos fazer um boxplot modificado com os nossos dados de COMPRIMENTO_BICO | Vamos fazer um boxplot modificado com os nossos dados de COMPRIMENTO_BICO | ||
Linha 271: | Linha 170: | ||
</ | </ | ||
+ | {{section> | ||
- | <WRAP center round box 80%> | ||
- | ** | ||
- | Várias informações podem ser obtidas a partir de um boxplot. | ||
- | - Existem // | ||
- | - A distribuição dos dados é simétrica ou assimétrica? | ||
- | - Se for assimétrica, | ||
- | \ | ||
- | * PARA PENSAR: É possível construir um box-plot com menos de 5 dados? | ||
- | ** | ||
- | </ | ||
- | |||
- | |||
- | |||
- | **1.d) Comparando Boxplots (e usando o argumento // | ||
- | |||
- | Podemos comparar visualmente as respostas de organismos a dois níveis de um determinado tratamento, ou de uma determinada condição (variáveis categóricas), | ||
- | |||
- | No nosso conjunto de dados, podemos avaliar se a biomassa de insetos apresenta diferentes distribuições em locais com diferentes níveis de distúrbio: | ||
< | < | ||
boxplot(univar1$BIOMASSA_INSETOS ~ univar1$NIVEL_DISTURBIO) | boxplot(univar1$BIOMASSA_INSETOS ~ univar1$NIVEL_DISTURBIO) | ||
</ | </ | ||
- | <WRAP center round box 80%> | + | {{section>planeco: |
- | **Avalie a posição das medianas, a distribuição dos valores entre os quartis, os valores máximos e mínimos, a simetria da distribuição, | + | |
- | </ | + | |
- | Existe uma forma bastante simples de calcular **" | ||
< | < | ||
Linha 311: | Linha 189: | ||
</ | </ | ||
+ | ==== CHECANDO O AJUSTE DOS DADOS A UMA DISTRIBUIÇÃO ==== | ||
- | ===CHECANDO O AJUSTE DOS DADOS A UMA DISTRIBUIÇÃO=== | + | {{section>planeco:roteiro:05-descr_base# |
- | + | ||
- | Agora vamos avaliar visualmente se as variáveis se distribuem de acordo com uma distribuição conhecida. Por simplicidade, | + | |
- | + | ||
- | + | ||
- | <WRAP center round important 90%> | + | |
- | IMPORTANTE: Vários tipos de análises têm a normalidade como premissa. Porém, é importante não confundir a normalidade dos dados brutos, com a normalidade dos erros, da variância ou dos resíduos das relações. No tópico **Testes clássicos frequentistas** vamos entender o que significa analisar a normalidade dos resíduos. | + | |
- | Nesse momento, em que estamos analisando a normalidade de uma variável isoladamente, | + | |
- | </ | + | |
- | + | ||
- | + | ||
- | + | ||
- | **Gráfico quantil-quantil** | + | |
- | + | ||
- | A ideia de um gráfico quantil-quantil é expressar visualmente o quanto seus dados se aproximam de uma determinada distribuição. Eles podem ser usados para comparar as distribuições de dois conjuntos de dados diferentes (para saber se ambos vêm de uma mesma população) ou para comparar a distribuição de um conjunto de dados coletados com uma distribuição de probabilidade teórica (normal, binomial, etc). Nesse segundo caso, eles são também chamados de Gráficos de Probabilidade (// | + | |
- | + | ||
- | Um quantil((Os **quartis** calculados anteriormente, | + | |
- | + | ||
- | <WRAP center round box 80%> | + | |
- | **Relembrando: em uma distribuição normal, qual o valor que limita os dados abaixo de 2.5%? Expresse em termos de desvio-padrão para facilitar** | + | |
- | </ | + | |
- | + | ||
- | + | ||
- | Para facilitar a comparação do valor que representa, por exemplo, 10% de uma distribuição normal e comparar com o valor que representa 10% dos seus dados, tanto a distribuição normal quanto seus dados precisam estar na mesma escala. Então, para que os dois eixos do gráfico estejam exatamente na mesma escala, os quantis esperados para uma distribuição normal são distribuídos ao longo da amplitude (mínimo e máximo) dos dados coletados. | + | |
- | + | ||
- | No eixo X serão projetados os valores esperados pela distribuição normal para cada quantil e no eixo Y serão projetados os valores dos dados coletados, também para cada quantil. A maior parte dos programas traça uma linha diagonal em 45 graus, para auxiliar a visualização. | + | |
- | + | ||
- | /* | + | |
- | ATENÇÃO: Outra forma de representar os dados esperados para a distribuição normal é usar a distribuição normal padronizada, | + | |
- | */ | + | |
Vamos então aplicar as funções abaixo aos nossos dados: | Vamos então aplicar as funções abaixo aos nossos dados: | ||
Linha 363: | Linha 213: | ||
</ | </ | ||
+ | {{section> | ||
+ | ==== AVALIANDO AUTOCORRELAÇÃO ==== | ||
- | <WRAP center round box 80%> | + | Para essa parte do tutorial, importe o conjunto de dados " |
- | ** | ||
- | Uma vez compreendida a forma como esse gráfico foi construído, | ||
- | |||
- | Para cada uma das variáveis avalie: | ||
- | - É possível visualizar // | ||
- | - A distribuição dos dados é simétrica ou assimétrica? | ||
- | - Os dados se ajustam bem à distribuição normal? | ||
- | ** | ||
- | |||
- | </ | ||
- | |||
- | |||
- | ===AVALIANDO AUTOCORRELAÇÃO=== | ||
- | |||
- | Para essa parte do tutorial, importe o conjunto de dados " | ||
< | < | ||
autocorr< | autocorr< | ||
Linha 388: | Linha 225: | ||
</ | </ | ||
+ | {{section> | ||
- | Dentre as premissas mais importantes dos testes estatísticos está a **independência** (espacial e/ou temporal) dos dados coletados. Existem diversas formas de avaliar o nível de autocorrelação(("// | ||
- | |||
- | Porém, existe uma forma simples de visualizar os dados e obter uma primeira impressão sobre possíveis autocorrelações para dados coletados em transectos lineares e também para dados de séries temporais. | ||
- | |||
- | Imagine o transecto abaixo: | ||
- | |||
- | {{ : | ||
- | |||
- | Você poderia se perguntar se os dados mais próximos espacialmente são mais parecidos entre si (i.e. positivamente autocorrelacionados). Uma forma de avaliar isso é plotar o valor de um dado em relação ao seu antecessor, então, no eixo X teríamos os valores do segundo dado em diante e no eixo Y teríamos, correspondendo a cada valor do eixo X, o valor do dado anterior. Esse tipo de gráfico é chamado de **lag plot** | ||
- | |||
- | O gráfico do tipo // | ||
- | |||
- | <WRAP center round box 80%> | ||
- | O que você esperaria que acontecesse em um gráfico desse tipo, caso os valores estejam autocorrelacionados? | ||
- | </ | ||
- | |||
- | |||
- | Vejamos como ficam esses gráficos para os dados do conjunto **autocorr** que temos disponível para essa análise. Nesse arquivo temos os dados de dois transectos (x1 e x2) com 100 pontos cada. | ||
< | < | ||
lag.plot(autocorr$x1, | lag.plot(autocorr$x1, | ||
Linha 413: | Linha 233: | ||
</ | </ | ||
- | <WRAP center round box 80%> | + | {{section>planeco: |
- | **Olhando para esses resultados, qual a sua conclusão? | + | |
- | </WRAP> | + | |
- | Entretanto, é importante entender que no gráfico padrão (// | + | ==== ANALISANDO DADOS BIVARIADOS ==== |
- | Vamos ver como ficam os gráficos com lags=2 | + | {{section>planeco: |
- | < | + | |
- | lag.plot(autocorr$x1, | + | |
- | lag.plot(autocorr$x2, | + | |
- | </ | + | |
- | + | ||
- | <WRAP center round box 80%> | + | |
- | **E então, as conclusões se mantém? | + | |
- | </ | + | |
- | + | ||
- | + | ||
- | ====ANALISANDO DADOS BIVARIADOS==== | + | |
- | + | ||
- | Muitas vezes não estamos interessados em analisar a distribuição de uma variável //per se//, mas sim em analisar se existe alguma relação entre duas variáveis numéricas ordenadas. | + | |
- | + | ||
- | Alguns pontos que queremos analisar quando testamos uma relação entre variáveis são: | + | |
- | * 1 - Qual a direção da relação (positiva ou negativa)? | + | |
- | * 2 - A relação é linear (i.e. para cada aumento na variável X, a variável Y aumenta a uma taxa constante)? | + | |
- | * 3 - Como os valores da variável do eixo Y variam em relação aos valores da variável do eixo X (muita ou pouca variação nos valores de Y para valores similares de X)? | + | |
- | * 4 - A variação de Y é similar ao longo de todo o eixo X? | + | |
- | + | ||
- | Para analisarmos isso visualmente, | + | |
- | + | ||
- | Usaremos um conjunto de dados diferente para essas análises. | + | |
- | - Copie e descompacte o arquivo abaixo no seu diretório | + | |
- | * {{ :planeco: | + | |
- | + | ||
- | -Importe o arquivo para o R | + | |
< | < | ||
Linha 454: | Linha 245: | ||
summary (bivar) | summary (bivar) | ||
</ | </ | ||
- | |||
- | Faça um gráfico de dispersão (ou //Gráfico XY//) e descreva sua primeira impressão sobre a relação entre as variáveis. | ||
< | < | ||
Linha 461: | Linha 250: | ||
</ | </ | ||
- | <WRAP center round box 80%> | + | {{section>planeco: |
- | **Analisando esses gráficos, você conseguiria responderia às 4 questões colocadas no início dessa seção para cada um deles?** | + | |
- | </ | + | |
- | Para tentar captar a tendência da relação, você poderia ir traçando pequenas linhas que buscassem a melhor relação entre os dados da variável y.l e da variável x.l ao longo de pequenos trechos da variável x.l, como se estivesse desenhando "à mão" | ||
- | Existe uma função que faz isso. Ela se chama //lowess// e pode ser aplicada da seguinte forma: | ||
< | < | ||
plot(bivar$y.l ~ bivar$x.l) | plot(bivar$y.l ~ bivar$x.l) | ||
Linha 473: | Linha 257: | ||
</ | </ | ||
- | <WRAP center round box 80%> | + | {{section>planeco: |
- | **E agora, suas respostas às 4 questões colocadas no início dessa seção mudariam? | + | |
- | </ | + | |
- | Agora vamos fazer o gráfico de dispersão para outras duas variáveis y.n (resposta) e x.n (preditora): | ||
< | < | ||
plot(bivar$y.n ~ bivar$x.n) | plot(bivar$y.n ~ bivar$x.n) | ||
Linha 484: | Linha 264: | ||
</ | </ | ||
- | <WRAP center round box 80%> | + | {{section>planeco: |
- | **Analisando esse gráfico, como você responderia às 4 questões colocadas no início dessa seção? | + | |
- | </ | + | |
- | + | ||
- | + | ||
- | Existe um gráfico no pacote //car// que nos mostra várias informações de uma relação entre duas variáveis e pode ajudar bastante no entendimento da relação. | + | |
< | < | ||
+ | #grafico do pacote car | ||
scatterplot (bivar$y.l ~ bivar$x.l) | scatterplot (bivar$y.l ~ bivar$x.l) | ||
</ | </ | ||
Linha 500: | Linha 275: | ||
</ | </ | ||
+ | ==== Transformando os dados ==== | ||
+ | {{section> | ||
- | ====Transformando os dados:==== | ||
- | |||
- | Algumas vezes, a relação que observamos entre duas variáveis não é linear, mas gostaríamos de analisar essa relação dentro do escopo de uma Análise de Regressão Linear, em função das facilidades de trabalhar com esse tipo de análise. Para isso, precisamos recorrer aos recursos de **transformação dos dados**. | ||
- | |||
- | Esses recursos podem ser utilizados para fazer com que a distribuição dos dados de uma variável (ou de ambas) seja mais similar a uma distribuição normal. | ||
- | |||
- | ATENÇÃO: Atualmente, existem muitas formas alternativas de realizar as análises sem que haja necessidade de transformação dos dados (ver o tópico //Modelos Lineares Generalizados// | ||
- | |||
- | ==Logaritmo natural (ln)== | ||
- | Vamos analisar a relação entre as variáveis COMPRIMENTO_BICO e BIOMASSA_AVE e verificar se a relação parece linear. Para isso vamos utilizar o gráfico síntese produzido pelo pacote //car//: | ||
< | < | ||
scatterplot(univar1$COMPRIMENTO_BICO ~ univar1$BIOMASSA_AVE) | scatterplot(univar1$COMPRIMENTO_BICO ~ univar1$BIOMASSA_AVE) | ||
Linha 522: | Linha 289: | ||
</ | </ | ||
- | <WRAP center round box 80%> | ||
- | **E agora, a relação parece mais linear? | ||
- | E os dados de log(univar1$COMPRIMENTO_BICO), | ||
- | </ | ||
- | |||
- | <WRAP center round important 90%> | ||
- | **Cuidado! Agora a relação linear é entre " | ||
- | </ | ||
- | |||
- | Outras transformações que podem ser utilizadas: | ||
- | ) logaritmo base 10 (também para variáveis contínuas) | ||
- | ) logaritmo natural de x+1 (quando a variável tem muitos zeros) | ||
- | ) raiz quadrada (para variáveis que representam contagens, p.ex.: número de indivíduos) | ||
- | ) arco seno (para variáveis que representam proporções/ | ||
- | |||
- | |||
- | /* | ||
- | ====ANALISANDO DADOS BIVARIADOS==== | ||
- | |||
- | Muitas vezes não estamos interessados em analisar a distribuição de uma variável //per se//, mas sim em analisar se existe alguma relação entre duas variáveis numéricas ordenadas. | ||
- | |||
- | Alguns pontos que queremos analisar quando testamos uma relação entre variáveis são: | ||
- | * 1 - Qual a direção da relação (positiva ou negativa)? | ||
- | * 2 - A relação é linear (i.e. para cada aumento na variável X, a variável Y aumenta a uma taxa constante)? | ||
- | * 3 - Como os valores da variável do eixo Y variam em relação aos valores da variável do eixo X (muita ou pouca variação nos valores de Y para valores similares de X)? | ||
- | * 4 - A variação de Y é similar ao longo de todo o eixo X? | ||
- | |||
- | Para analisarmos isso visualmente, | ||
- | |||
- | Por meio deste gráfico de dispersão (ou //Gráfico XY//), é possível obter uma primeira impressão sobre a relação entre as variáveis. | ||
- | */ | ||
- | |||
- | /* | ||
- | |||
- | TUDO ABAIXO DAQUI ESTÁ OCULTO!!!!!!!!!!!!!! | ||
- | < | ||
- | plot(univar1$COMPRIMENTO_BICO ~ univar1$TAMANHO_SEMENTES) | ||
- | </ | ||
- | |||
- | < | ||
- | plot(univar1$BIOMASSA_AVE ~ univar1$BIOMASSA_INSETOS) | ||
- | </ | ||
- | |||
- | Analisando esses gráficos, você conseguiria responderia às 4 questões colocadas no início dessa seção para cada um deles? | ||
- | |||
- | Se você pudesse ir traçando linhas buscando entender a tendência dos dados da variável Y ao longo da variação de X ajudaria na compreensão dos resultados? Existe uma função que faz isso. Ela se chama //lowess// e pode ser aplicada da seguinte forma: | ||
- | |||
- | |||
- | lines(lowess(bivar$yyyyy ~ bivar$xxxxx)) | ||
- | |||
- | E agora, como você responderia às 4 questões colocadas no início dessa seção? | ||
- | |||
- | Agora vamos fazer o gráfico de dispersão para outras duas variáveis z (resposta) e w (preditora): | ||
- | plot (bivar$zzzzzz ~ bivar$wwwww) | ||
- | lines(lowess(bivar$zzzzzz ~ bivar$wwwww)) | ||
- | Analisando esse gráfico, como você responderia às 4 questões colocadas no início dessa seção? | ||
- | |||
- | |||
- | Existe um gráfico no pacote //car// que nos mostra várias informações de uma relação entre duas variáveis e pode ajudar bastante no entendimento da relação. | ||
- | |||
- | scatterplot (bivar$yyyyy ~ bivar$xxxxx) | ||
- | scatterplot (bivar$zzzzzz ~ bivar$wwwww) | ||
- | |||
- | ====Transformando os dados:==== | ||
- | |||
- | Algumas vezes, a relação que observamos entre duas variáveis não é linear, mas gostaríamos de analisar essa relação dentro do escopo de uma Análise de Regressão Linear, em função das facilidades de trabalhar com esse tipo de análise. Para isso, precisamos recorrer aos recursos de **transformação dos dados**. | ||
- | Esses recursos podem ser utilizados para fazer com que a distribuição dos dados de uma variável (ou de ambas) seja mais similar a uma distribuição normal. | ||
- | |||
- | ATENÇÃO: Atualmente, existem muitas formas alternativas de realizar as análises sem que haja necessidade de transformação dos dados (ver tópico XXXX). Porém, para esse tutorial, vamos analisar o que acontece quando usamos algumas transformações básicas. | ||
- | |||
- | ) logaritmo natural | ||
- | Vamos analisar a relação entre essas duas variáveis BLA e BLE e verificar se a relação parece linear. Para isso vamos utilizar o gráfico síntese produzido pelo pacote //car//: | ||
- | |||
- | scatterplot (bivar$BLA ~bivar$BLE) | ||
- | |||
- | Como podemos observar pelos boxplots laterais, nesse caso, aparentemente são os dados da variável Y que parecem estar afetando a linearidade da relação. Então, vamos transformar os dados de Y pelo ln e ver se o ajuste melhora. | ||
- | |||
- | scatterplot (ln(bivar$BLA) ~bivar$BLE) | ||
- | |||
- | E agora, a relação parece mais linear? | ||
- | |||
- | E os dados de ln(BLA), estão distribuídos de forma mais similar a uma distribuição normal? | ||
- | |||
- | ATENÇÃO: Cuidado! Agora a relação linear é entre ln(BLA) e BLE, então é ln(BLA) que aumenta a uma taxa constante em relação a BLE e não mais BLA. | ||
- | |||
- | Outras transformações que podem ser utilizadas: | ||
- | ) logaritmo base 10 (também para variáveis contínuas) | ||
- | ) logaritmo natural de x+1 (quando a variável tem muitos zeros) | ||
- | ) raiz quadrada (para variáveis que representam contagens, p.ex.: número de indivíduos) | ||
- | ) arco seno (para variáveis que representam proporções/ | ||
- | |||
- | Existe uma forma genérica de transformar os dados denominada **Transformação Box-Cox** | ||
- | Essa transformação segue a seguinte equação: | ||
- | |||
- | COLAR EQUAÇÃO BOX-COX | ||
- | |||
- | |||
- | Onde y é um valor da variável resposta, e lambda é o parâmetro de transformação. Quando lambda é igual a zero, usa-se ln(y). | ||
- | |||
- | Como é calculado o lambda? | ||
- | Considerando-se que o objetivo é conseguir uma transformação que melhor ajuste os dados a uma distribuição normal, podemos seguir os seguintes passos: | ||
- | 1) Comparar, por meio de um gráfico quantil-quantil (colocar link para gráfico acima) os dados reais com os valores esperados para uma distribuição normal. É possível obter um valor do ajuste dessas distribuições, | ||
- | |||
- | 2) Transformar os dados para um determinado valor de lambda (por exemplo lambda = -3); comparar esses dados transformados, | ||
- | |||
- | 3) Transformar os dados para um determinado valor de lambda (por exemplo lambda = +2); comparar esses dados transformados, | ||
- | |||
- | 4) Repetir o mesmo procedimento (2 e 3) para muitos valores de lambda (negativos e positivos) | ||
- | |||
- | 5) Elabora um gráfico que tenha no eixo X os valores de lambda pelos quais os dados foram transformados e no eixo Y o valor do coeficiente de correlação obtido na relação dos dados transformados com a distribuição normal. | ||
- | |||
- | 6) encontra o maior coeficiente de correlação observado e usa na Análise de Regressão Linear a variável y transformada pelo valor de lambda correspondente. | ||
- | |||
- | Veja abaixo um exemplo de aplicação da transformação de Box-Cox. Nesse exemplo, o maior coeficiente de correlação observado foi quando os dados foram transformados por **lambda=-0, | ||
- | |||
- | FIGURINHA DE MÁGICA | ||
- | Parece mágica, não? | ||
- | Mas novamente cuidado com a interpretação dos resultados, pois ao analisar a relação entre Y transformada e X, a taxa de mudança no valor de Y não é mais sobre os dados reais, e muitas vezes é difícil interpretar biologicamente o que significa Y transformado por lambda= -0,3 | ||
- | |||
- | ATÉ AQUI!!!!!!!!!!! | ||
- | */ | ||
- | |||
- | |||
- | |||
- | /* | ||
- | |||
- | Se houver tempo: | ||
- | **Analise as outras variáveis numéricas (tanto preditoras quanto resposta) do outro conjunto de dados (univar2)** | ||
- | |||
- | Para isso, basta usar os mesmos comandos, mas precisa substituir o nome do conjunto de dados, que vem imediatamente antes do símbolo ' | ||
- | |||
- | CHECAR NOMES | ||
- | Exemplo: | ||
- | ao invés de hist(univar$biomass) use hist(univar$nitrogen) ou hist(bivar$hormonio) | ||
- | |||
- | ------------- | ||
- | |||
- | Por fim, podemos analisar visualmente a relação entre todas as variáveis que foram coletadas em um determinado estudo. | ||
- | |||
- | ) matrizes de correlação | ||
- | |||
- | Se eu conseguir, pretendo incluir a Power Analysis nessa aula, como uma forma de checar se as amostras são suficientes. Mas não sei se vai dar tempo, principalmente de estudar isso. | ||
- | |||
- | */ | ||
+ | {{section> | ||
+ | |||
planeco/roteiro/05-descr.1514027317.txt.gz · Última modificação em: 2024/01/09 18:38 (edição externa)