* [[planeco:roteiro:05-descrcmdr|{{:planeco:logorcmdr01.png?20|}}]] * [[planeco:roteiro:05-descr|{{:planeco:rlogo.png?20|}}]] =====ANÁLISES EXPLORATÓRIAS DE DADOS===== {{section>planeco:roteiro:05-descr_base#analises_exploratorias_de_dados}} ===== Preparação dos dados e programa ===== Neste roteiro iremos utilizar o Rcommander (se você nunca o utilizou veja [[planeco:roteiro:00-rcmdr|aqui]]. 1) Crie um diretório (pasta), copie os arquivos de dados abaixo para esse diretório e faça a descompactação no mesmo diretório: * {{ :planeco:roteiro:univar1.csv.zip |univar.zip}} * {{ :planeco:roteiro:autocorr.csv.zip|autocorr.zip}} 2) Abra o Rcommander. ===== ANALISANDO DADOS UNIVARIADOS ===== * 1) Importe o conjunto de dados para o Rcommander através dos menus: "Dados > Importar arquivos de dados > de arquivo texto, clipboard, URL". Vai aparecer a janela abaixo, na qual você irá digitar o nome dos dados e especificar o separador de campo (que para um arquivo .csv deve ser vírgula. As outras opções para estes dados são desnecessárias. {{ :planeco:roteiro:importar_dados_rcmdr.png?400 |}} * 2) Use o botão "ver conjunto de dados" que vai aparecer acima ao lado do nome do conjunto de dados. Observe como são os dados. * 3) Inspecione o resumo dos dados pelo menu: "Estatísticas > Resumos > Conjunto de dados ativo". === Conhecendo os dados: === {{section>planeco:roteiro:05-descr_base#conhecendo_os_dados}} ==== Análises gráficas ==== {{section>planeco:roteiro:05-descr_base#analises_graficas}} No, Rcommander vá ao menu **Gráficos > Histograma...** e faça os histogramas para as variáveis BIOMASSA_AVE, BIOMASSA_INSETO, COMPRIMENTO_BICO, TAMANHO_SEMENTE. Por enquanto, não modifique nenhum parâmetro. {{section>planeco:roteiro:05-descr_base#histograma}} Para modificar o número de classes vá na aba **Opções** e defina o número de classes. {{section>planeco:roteiro:05-descr_base#densidade}} No mesmo menu para fazer os histogramas, vá na aba **Opções** e defina **Escala do eixo** como **Densidades**. Todas essas informações nos auxiliam para identificarmos a quais distribuições teóricas nossos dados se ajustam. {{section>planeco:roteiro:05-descr_base#boxplot}} Vá no menu **Dados > Conjunto de dados ativo > Sort active dataset...**. Na janela aberta, escolha a variável a ser usada para ordenar os dados e, de preferência renomeie os dados para não alterar os dados originais. Agora, os dados ativos no Rcommander serão os dados ordenados. Dê uma olhada novamente na planilha de dados (aperte o botão **Ver conjunto de dados**). {{section>planeco:roteiro:05-descr_base#boxplot2}} Novamente, vá no menu **Gráficos > Boxplot**, selecione a variável COMPRIMENTO_BICO e aperte OK. Você vai perceber que aparecerá o texto abaixo do comando do gráfico na janela "R Script" do seu Rcommander: Boxplot( ~ COMPRIMENTO_BICO, data=univar2) Esse não é o box-plot que queremos (mas vamos falar dele logo abaixo), então modifique o comando com a inclusão descrita abaixo, na mesma janela "R Script" e aperte **Submeter** para fazer o box-plot desejado: Boxplot( ~ COMPRIMENTO_BICO, data=univar2, id.method="none") {{section>planeco:roteiro:05-descr_base#outliers}} O box-plot padrão do Rcommander é exatamente este modificado. Então, basta voltarmos ao menu de gráficos e selecionarmos **Boxplot**. {{section>planeco:roteiro:05-descr_base#boxplot3}} Volte ao menu de gráficos e clique no boxplot. Na janela aberta, clique no botão **Gráfico por grupos...**, e escolha o grupo NIVEL_DISTURBIO. {{section>planeco:roteiro:05-descr_base#boxplot4}} Então vamos voltar à janela R Script do Rcommander e colar o comando abaixo: boxplot(univar1$BIOMASSA_INSETOS ~ univar1$NIVEL_DISTURBIO, notch=TRUE) **E agora, você está mais seguro(a) para afirmar se a biomassa de insetos difere ou não entre os dois níveis de distúrbio?** ==== CHECANDO O AJUSTE DOS DADOS A UMA DISTRIBUIÇÃO ==== {{section>planeco:roteiro:05-descr_base#checando_o_ajuste_dos_dados_a_uma_distribuicao}} Vamos então aplicar isso no Rcommander: vá no menu **Gráficos > Gráfico de comparação de quantis...**. Faça os gráficos para cada variável quantitativa. {{section>planeco:roteiro:05-descr_base#qqplot2}} ==== AVALIANDO AUTOCORRELAÇÃO ==== Para essa parte do tutorial, importe o conjunto de dados "autocorr.csv" para o R e inspecione os dados (repita os passos utilizados anteriormente para esta importação). {{section>planeco:roteiro:05-descr_base#avaliando_autocorrelacao}} No Rcommander não existe menu para fazer os gráficos de autocorrelação espacial, portanto nós vamos copia e colar os comandos abaixo (uma linha por vez para não nos confundirmos) para a janela **R Script** e clique em submeter. lag.plot(autocorr$x1, do.lines = FALSE, diag=FALSE) lag.plot(autocorr$x2, do.lines = FALSE, diag=FALSE) {{section>planeco:roteiro:05-descr_base#autocorr2}} ===== ANALISANDO DADOS BIVARIADOS ===== {{section>planeco:roteiro:05-descr_base#analisando_dados_bivariados}} Para importar os dados, siga os passos já descritos anteriormente. Para o gráfico de dispersão vá para o menu **Gráficos > Diagrama de dispersão**. Na janela aberta, escolha como variável-x a variável x.I e y a y.I. {{section>planeco:roteiro:05-descr_base#bivariado2}} Vá no menu **Gráficos > Diagrama de dispersão** e clique na aba opções depois de selecionar as variáveis X e Y. Para a curva lowess, marque a opção **smooth line**. {{section>planeco:roteiro:05-descr_base#bivariado3}} Volte ao menu de Gráficos de Dispersão e faça os gráficos com estas novas variáveis. {{section>planeco:roteiro:05-descr_base#bivariado4}} Vamos usar algumas opções na janela de Gráficos de Dispersão. Marque as opções **Boxplots marginais**, **Smooth line** e **Mostre espelhamento (spread)**. ==== Transformando os dados ==== {{section>planeco:roteiro:05-descr_base#transformando_os_dados}} Vamos voltar aos dados _univar_. Você não precisa importar novamente os dados, para o Rcommander, basta clicar no botão com o nome do conjunto de dados na janela do Rcommander e selecionar os dados já importados anteriormente. Depois disso, faça os gráficos de dispersão apresentado acima (inclua as opções de boxplots marginais, lowess e espelhamento) com as variáveis COMPRIMENTO_BICO no eixo Y e BIOMASSA_AVE no eixo X. Como podemos observar pelos boxplots laterais, nesse caso, aparentemente são os dados da variável Y que parecem estar afetando a linearidade da relação. Então, vamos transformar os dados de Y pelo logaritmo natural e ver se o ajuste melhora. Então, clique na opção **log eixo-y** da janela do gráfico de dispersão. {{section>planeco:roteiro:05-descr_base#transforma2}}