Rede Agronomia

Rede dos Engenheiros Agrônomos do Brasil

Por motivo do Dia Mundial do Meio Ambiente, comemorado hoje, dia 5 de Junho, eu abro este tópico para reunir algumas soluções matemáticas de problemas ligados ao meio ambiente. São extratos das minhas leituras e anotações, e visam servir de 'formulário' para quando se fizer necessário. Convido os colegas a colaborar com outros exemplos, que poderão nos ajudar em diversas áreas da Agronomia, estando o Licenciamento Ambiental na cabeça da lista. Por motivos óbvios, darei destaque nas soluções ao software (gratuito) R, ao qual já me referi em vários momentos e ocasiões aqui na Rede Agronomia.  

Mãos à obra.

Exibições: 66

Comentar

Você precisa ser um membro de Rede Agronomia para adicionar comentários!

Entrar em Rede Agronomia

Comentário de JOSÉ LUIZ VIANA DO COUTO 13 horas atrás

TESTE DE POLUIÇÃO

Uma empresa produtora de papel tomou medidas para reduzir a descarga de poluentes em um córrego. Antes dessas providências, a média da poluição era de 400 ppm. Para testar se a média baixou, a empresa recolheu amostras de água durante 25 dias consecutivos. Nessas observações, a média de poluentes foi de 208,8 ppm e o desvio padrão 115,5 ppm. Testar, com 99% de probabilidade, que a poluição baixou.

A Hipótese nula é que a poluição não baixou, ou seja, Ho: μ = 400 ppm; a hipótese alternativa é que baixou, ou seja, Ha: μ < 400 ppm.

Solução: considerando que a variância é desconhecida e que a amostra é pequena (n < 30 variáveis), a distribuição estatística recomendada é o Teste t de Student, com G.L.=n-1=25-1=24 (graus de liberdade). A Figura abaixo mostra os cálculos no R e a fórmula usada de t.

Conclusão: como t (-8,3) < α (-2,5), rejeitamos Ho e aceitamos Ha (μ < 400 ppm), comprovando que a empresa conseguiu reduzir a poluição do córrego.

A Figura abaixo mostra a Tabela com a distribuição t de Student, para quem não usar o R nos cálculos.

A Figura abaixo não faz parte do problema aventado lá no início deste exercício, mas mostra 3 detalhes importantes:

1) a distribuição t se parece muito com a distribuição Normal (simetria, ponto máximo com média = mediana = moda) e área sob a curva igual à unidade;

2) a equação para o cálculo de t: (média da amostra - média da população) ÷ (desvio padrão / raiz do número de variáveis); e

3) quanto menor o número de variáveis da amostra (e, consequentemente dos graus de liberdade), mais achatada verticalmente será a curva.

Comentário de JOSÉ LUIZ VIANA DO COUTO 19 horas atrás

ESCOLHA DO TESTE IDEAL

Comentário de JOSÉ LUIZ VIANA DO COUTO ontem

POISSON EM BORBOLETAS

Suponha que um pesquisador registrou o número de visitas à flor de uma planta durante um período de 15 minutos. O número médio de borboletas que visitam no período de 15 minutos é 10 (λ). Determine a probabilidade de que cinco borboletas visitem a flor em 15 minutos. A probabilidade de uma borboleta visitar é a mesma para quaisquer dois períodos de tempo de igual comprimento. Trace um histograma dessa distribuição de probabilidade.

Respostas, com mais resultados:

  1. a) Probabilidade de 5 borboletas visitarem uma flor:

dpois(5,lambda=10) : 3,8%

  1. b) Probabilidade de 8 borboletas visitarem uma flor:

dpois(8,lambda=10) : 11,2%

  1. c) Probabilidade (cumulativa) de 2 ou menos visitas:

ppois(2,lambda=10) : 0,3%

  1. d) Probabilidade de 5 ou menos visitas:

ppois(5,lambda=10) : 6,7%

  1. e) Qual o valor de X (núm. de visitas) associado à probabilidade de 0,8 ?

qpois(0.8,lambda=10) : 13 visitas

  1. f) Quantas visitas na probabilidade de 0,1 ?

qpois(0.1,lambda=10) : 6

  1. g) Gerar 10 números aleatórios de uma distribuição de Poisson com média (λ) 10.

rpois(10,lambda=10) : 13, 11, 13, 8, 11, 13, 6, 5, 12 e 10.

 

Gráfico da Distribuição de Probabilidade Acumulada.

Comentário de JOSÉ LUIZ VIANA DO COUTO terça-feira

TAMANHO DA AMOSTRA

Em Estatística, População é o conjunto dos elementos que se deseja estudar; Amostra é um subconjunto dessa população; e Tamanho da amostra é o número de indivíduos da amostra. Em geral o tamanho da amostra é representado por n e o da população por N (inicial de número), sendo n obtido por amostragem.

O tamanho da amostra (n) é um parâmetro muito importante em qualquer estudo estatístico, pois dele dependerão a escolha e os resultados dos testes a serem realizados. No trabalho Métodos Estatísticos - Amostragem, do Prof. Pedro A. Barbetta, UFSC, 2002 (www.inf.ufsc.br/) é apresentado um gráfico que resume o comportamento do número da amostra com o da população, mostrando que após determinado tamanho, por mais que cresça o tamanho da amostra (n) o seu resultado permanecerá praticamente igual ao da população.

Assim, no exemplo numérico apresentado abaixo do gráfico, se a população tivesse 200.000 habitantes, o resultado seria 623 famílias a serem amostradas, o que representaria apenas 0,3% do total e não 76% como no primeiro caso.

A determinação do tamanho de uma amostra é problema de grande importância, porque:

  • Amostras desnecessariamente grandes acarretam desperdício de tempo e de dinheiro;
  • Amostras excessivamente pequenas podem levar a resultados não confiáveis.

O tamanho da amostra também interfere na escolha que faremos do teste estatístico, tendo o número 30 (trinta) como limite para amostra pequena. A Figura abaixo mostra o fluxograma do estudo inicial, lembrando que, segundo a fonte, nos casos que n > 30 devemos usar um método não paramétrico ou bootstrap.

A consequência mais importante é o erro a que estamos sujeitos nas amostras pequenas. A Figura abaixo destaca que, quanto maior o tamanho da amostra, menor será o erro, e vice versa.

Esse erro pode ser calculado pela equação mostrada na Figura abaixo.

No Roteiro para a Escolha de um Teste Estatístico, mostrado acima, tanto a Distribuição Normal (teste z) como aquela em que a população não é normalmente distribuída (teste t de Student), usam o cálculo das áreas sob a curva para a tomada de decisões, como mostra a Figura abaixo.

O valor crítico de z mostrado na Figura acima está indexado em α/2 e a Figura abaixo mostra o que isso significa.

Uma população normalmente distribuída é aquela cuja distribuição segue a Curva Normal ou Curva de Gauss, onde a média, a moda e a mediana se encontram no pico mais alto. Vide Figura.

Para amostras pequenas, com menos de 30 casos, o método correspondente ao de estimativa de médias é a distribuição t de Student. A forma exata da distribuição t, que se assemelha muito com a normal, depende de um parâmetro chamado de graus de liberdade, que nada mais é do que o número de casos menos 1 (n-1). A distribuição t é uma distribuição de probabilidade teórica. É simétrica e semelhante à curva normal padrão. Difere da curva normal, porém, pois tem um parâmetro adicional, os chamados graus de liberdade que mudam sua forma. Veja a Figura abaixo.

 Tomando por base os dados do menor mamífero do mundo (com que iniciamos este tópico), que tinha uma amostra pequena (n = 15 < 30 variáveis), considerando-se que a média da população seja μ = 1,8 g/morcego, desejamos um erro amostral (E) de apenas 0,3 g/morcego, com um grau de confiança (G.C.) de 95%. O número ideal da amostra seria:

n = (z*μ/E)² = (1,96*1,8/0,3)² = 138 morcegos.

O cálculo de t é o seguinte:

t = (x - μ)/(σ/√n) = (1,7 - 1,8)/(0,26/√15) = - 1,30

Esses cálculos efetuados no console do R são mostrados na Figura abaixo. Observe na Figura acima que os valores de t são simétricos, levando o sinal negativo apenas no lado esquerdo da Curva e, também, que esses valores diminuem de valor progressivamente, na medida em que a curva deixa de ser achatada e sobe em altura. Se a nossa distribuição fosse Normal, o valor crítico de t seria 1,96 mas, no nosso caso, como a distribuição não é Normal, t = -1,30 e menos achatada ainda que a curva de cor preta da Figura.

Nesta Figura (PrtScn do console do R), incluímos também o teste t e a fórmula do erro máximo da estimativa que, conforme foi estipulado, foi de 0,05 ou 5%.

Em Estatística, um parâmetro importantíssimo que está presente na maioria dos testes, é o chamado valor-p ou p-value (em inglês), que indica a probabilidade de retirar aquela amostra que saiu, se a hipótese nula (Ho) é verdadeira. A Regra de decisão é a seguinte: se p < α (em geral tomado como 5% ou 0,05), rejeita-se Ho e, em consequência, admite-se como verdadeira a Hipótese alternativa (alternative hypothesis, em inglês). No caso da Figura acima, p.ex., como p (0,21) > α (0,05) aceita-se Ho, ou seja, a média verdadeira não é igual a 1,8 g/morcego.

Comentário de JOSÉ LUIZ VIANA DO COUTO segunda-feira

MICOS

Uma grande indústria pretende se instalar na zona rural. Nos estudos de Impacto Ambiental, a equipe de Zoologia pesquisou o número e a espécie de pequenos mamíferos da região. Seja 'y' o número de micos capturados com armadilha em 24 horas. Suponha que a amostra tenha uma distribuição de Poisson com μ = 2,3 ou seja, o número médio de animais capturados com armadilha. Qual seria a probabilidade de se encontrar exatamente 4 micos numa área dada selecionada aleatoriamente ? Qual a probabilidade de pelo menos 4 ? E de mais de 4 ?

A Figura abaixo mostra os cálculos elaborados com o software R, cujos resultados foram:

  1. a) 4 micos: 12% (ou 0,1169 de p4);
  2. b) pelo menos 4: 92% (ou 0,9162 de pme); e
  3. c) mais de 4 micos: 8% (ou 0,0838 de pma).
  4. Fonte: An Introduction to Statistical Methods and Data Analysis, Ott R.Lyman e aux., 6a.ed.,                 Texas University, 2010, pág.167/1296.

Comentário de JOSÉ LUIZ VIANA DO COUTO em 13 junho 2018 às 9:30

MAIS UMA AJUDA DO R

A Figura abaixo mostra o boxplot  ou gráfico de caixa com os pesos de uma amostra de morceguinhos (os menores mamíferos do mundo), onde enxertei uma explicação do seu significado, lembrando que Median em inglês é Mediana (o valor que divide ao meio a distribuição) e não Média (que é a soma de todos os valores, dividido pelo número de variáveis), que é o traço em vermelho, medida que não aparece no gráfico normal. O gráfico explicativo não faz referência aos pontos fora da curva (outliers, em inglês), que só aparecem no desenho maior.

A Figura abaixo mostra o que seria a Curva Normal se os dados fossem normalmente distribuídos.

TUTORIAL ESTATÍSTICA:

http://www.statstutor.ac.uk/resources/uploaded/tutorsquickguidetost...

Comentário de JOSÉ LUIZ VIANA DO COUTO em 12 junho 2018 às 8:20

ANTES DE EFETUAR OS TESTES

Vários são os testes estatísticos disponíveis, e o Quadro abaixo apresenta alguns deles. Vejam na Figura abaixo.

Antes de efetuar os testes estatísticos devemos observar a distribuição dos dados da amostra, para verificar a sua normalidade ou não. Isso pode ser feito por meio de gráficos como o histograma e o boxplot. No caso do histograma, a união do topo das barras verticais com uma linha contínua, nos dá uma ideia do tipo da distribuição. Se a curva não tiver a forma de um sino, teremos uma distribuição assimétrica. Nesse caso, através de uma transformação matemática dos dados, podemos nos aproximar da distribuição normal.

Isso pode ser visto na Figura abaixo, onde reunimos a programação em R com os dados do menor mamífero do mundo (que iniciou este tópico), as 4 curvas que ilustram a Assimetria e Curtose, o traçado do histograma antes e depois da transformação logarítmica e a fórmula e interpretação das medidas de achatamento da curva ou Curtose. Como resultado da programação, a Assimetria deu positiva (1,087) e o Achatamento (0,121). Como a Curtose deu menor que 0,263, a distribuição de frequência é leptocúrtica, ou seja, é menos achatada que a Curva Normal.

As transformações dos dados originais para obter dados normalmente distribuídos, para posterior análise estatística, depende do tipo de dados e de sua distribuição. Assim, no caso do morceguinho, usamos a transformação logarítmica (log(x) = loge(x) = log neperiano).

O bloxplot (que em Portugal é chamado Caixa de bigodes) com as variáveis iniciais revela o seguinte:

  1. a) O menor valor da amostra (min(x)) mede 1,4 g/animal e é o 'bigode' da esquerda;
  2. b) O lado esquerdo da caixa representa o 1o. Quartil (q1=quantile(x,0.25)) e vale 1,6;
  3. c) O traço vertical mais grosso, que coincide com o 1o. Quartil é a mediana (median(x)) = 1,6;
  4. d) O lado direito da caixa é o 3o. Quartil (q3=quantile(x,0.75)) e vale 1,75;
  5. e) O 'bigode' da direita ou 1,8 é o maior valor considerado como sendo da população;
  6. f) Os três valores da direita são 'pontos fora da curva' (outliers, em inglês);
  7. g) O maior valor da amostra fica no extremo do eixo horizontal (max(x)) e mede 2,3; e
  8. h) Finalmente, como a mediana (item c) não se encontra exatamente no centro da caixa e dada a existência de pontos fora da curva (item f), a distribuição, definitivamente, não pode ser considerada Normal.

Comentário de JOSÉ LUIZ VIANA DO COUTO em 10 junho 2018 às 9:47

ESTATÍSTICA DE DADOS AMBIENTAIS

A primeira coisa que se faz com um novo conjunto de dados é calcular as suas estatísticas: média, mediana, desvio padrão, coeficiente de assimetria e intervalo. Esses parâmetros resumem o ponto médio dos dados, a dispersão em torno dele, a simetria da distribuição e a diferença entre o maior e o menor valor.

Tomemos como exemplo 60 amostras de chumbo no solo do livro "Environmental Monitoring and Characterization".

Esses cálculos, feitos no software R mostram os seguintes resultados: média = 48,9 mg/kg; mediana = 31,6; desvio padrão = 56,9; coef.assimetria = 0,91; e intervalo = 301,5 mgChumbo/kgSolo.

Usando o pacote fBasics (do R) fica ainda mais fácil pois, com uma única linha de comando são calculadas todas as estatísticas básicas da série de dados. Veja na Figura abaixo:

Quando os dados são altamente assimétricos (média >> mediana), então os logaritmos dos dados podem resumir melhor as suas características. A plotagem dos dados sob a forma de gráfico de dispersão (conhecido como gráfico X Y) e o histograma (gráfico de coluna vertical 2D) também pode facilitar a interpretação da assimetria, como podemos constatar nos cálculos e desenhos da Figura abaixo. Os 2 primeiros gráficos usaram os dados normais e os outros, depois de transformados em logaritmo neperiano (LN ou log no R).

No Excel, podemos usar a janela Inserir função, da aba Fórmulas e o menu Inserir Função (fx). Ou clicar no ícone Mais Funções > Estatística, para fazer o mesmo.

Quando os pontos médios das barras verticais do Histograma são unidos entre si, formam uma Curva, como pode ser visto nas duas últimas da direita da Figura abaixo. Aliás, a Lognormal que, ao contrário da Normal, é assimétrica, se assemelha ao último gráfico da Figura acima, com a diferença que o pico da curva fica à direita e não à esquerda. Confira.

Um outro tipo de gráfico muito útil em estudos de dados ambientais é o Boxplot, visto na vertical e na horizontal da Figura abaixo. Aliás, é o único que detecta os pontos fora da curva. A média dos valores, representada pela linha grossa dentro da caixa (que contem os Quartis), quando não está no seu centro, identifica uma distribuição assimétrica, como no nosso caso.

Comentário de JOSÉ LUIZ VIANA DO COUTO em 9 junho 2018 às 10:14

ÁREA SOB A CURVA NORMAL

Esta área é formada pelos dados de uma população, dispostos verticalmente num histograma unidos por uma curva e apresenta como características principais: ter a forma de um sino e os valores máximos serem a média e a mediana, além de valerem a unidade ou 100% de probabilidade.

A distribuição de probabilidades é uma função matemática usada para descrever o padrão de variação de uma variável contínua. A função matemática que representa a distribuição normal envolve dois parâmetros (média e variância), a curva que a descreve tem forma de “sino” e sua principal propriedade é a simetria em torno da média. A Distribuição Normal ou Curva de Gauss é a mais importante em Estatística.

A normalidade dos dados pode ser analisada descritivamente por meio de histogramas, box-plots, análise da distância entre média e mediana e coeficientes de assimetria e curtose, que medem, respectivamente, o grau de desvio ou afastamento da simetria e do achatamento da distribuição. Além dos métodos descritivos, existem testes de hipóteses que avaliam a normalidade, como por exemplo, os testes de Kolmogorov-Smirnov e de Shapiro-Wilks.

Após a análise preliminar, podem ser usados testes não-paramétricos; os mais conhecidos são o Mann Whitney como alternativa ao teste t de Student, Wilcoxon como alternativa ao teste t pareado e Kruskall-Wallis como alternativa à ANOVA com um fator.

Para dados de contagem é comum usar a Distribuição de Poisson e não a Distribuição Normal. Para variáveis contínuas positivas (por exemplo, dados relacionados a medidas de tempo), podemos utilizar uma distribuição exponencial, gama ou Weibull.

A Figura abaixo mostra algumas Distribuições Estatísticas mais comuns, começando pela Distribuição Normal, da qual mostraremos algumas aplicações.

A Distribuição Normal é um dos mais importantes exemplos de distribuição contínua de probabilidade, que tem a forma de um sino e apresenta como propriedades:

  1. a) a curva é suave, unimodal e simétrica em relação à média;
  2. b) a curva tende a se aproximar do eixo horizontal à medida que x se afasta da média;
  3. c) a área total sob qualquer curva normal representa 100% de probabilidade; e
  4. d) por causa da simetria, a probabilidade de se observar um valor inferior à média é 50%, como é também a probabilidade de se observar um valor superior à média.

A Distribuição normal, com algumas variantes em seus parâmetros (μ = média e σ² = variância = desvio padrão ao quadrado) é mostrada na Figura baixo.

A chamada regra 68-95-99,7 da Curva Normal é mostrada na Figura abaixo. Significa que quando tomamos no eixo horizontal a distância equivalente à média da distribuição mais o desvio padrão (μ + σ), a área (cinza clara) sob a curva será de 68%; se considerarmos a média mais 2 desvios padrão (área cinza média), a área será de 95%; e se for média + 3 desvios (área cinza mais escuro), a área será de 99,7% de probabilidade de ocorrência.

A Distribuição Normal Reduzida ou Padronizada foi criada para facilitar os cálculos de probabilidades. Ela adota no eixo dos x valores de z obtidos da equação z = (x - μ)/σ onde z é a variável reduzida, x é a variável aleatória, μ é a média da distribuição e σ é o desvio padrão.

Estes conceitos e os exemplos abaixo constam do trabalho Estatística II, A Distribuição Normal, da Escola Superior de Administração, Marketing e Comunicação - ESAMC, que foram enxertados com a solução com o software R, para substituir o uso de Tabelas.

Exemplo 1: queremos determinar a área entre 0 e z = 1,25 ou P(0 < z < 1,25) sendo P a probabilidade de ocorrência. A Figura abaixo mostra a solução.

Como se vê, o comando pnorm(z)-0.5 do R calcula o valor sob a curva entre 0 e z (cor cinza) e que é o mesmo da Tabela da Curva Normal, à direita. Esse valor ( Área = A = 0,3944) significa que a probabilidade de ser obtido nessa distribuição é de 39%.

Exemplo 2: achar a área da curva entre z = -1 e z =1. Vide a Figura abaixo.

O valor encontrado no R e na Tabela (A = 0,3413) só vale de 0 a 1 ou do centro para a direita mas, como a curva é simétrica, o valor procurado (área cinza total) é o dobro, ou 0,6827.

Exemplo 3: achar a área entre z = 1 e z = 2. Vide Figura.

Como feito anteriormente, acha-se a área para z = 2 (chamada de Am) e para z =1 (AM), subtraindo-se depois os resultados. Assim, a área cinza vale 0,1359 ou P = 14%.

Exemplo 4: achar a área para z => 2,25 (maior ou igual). Na Figura abaixo, a área pesquisada é a cinza clara, da extrema direita da curva.

Adotando z = 2,25 basta determinar um único valor de área, entre 0 e z (0,4878) para resolver o problema, pois sabe-se que a área da metade da curva vale sempre 0,50. Logo, A = 0,50 - 0,4878 = 0,0122 = 1,2%.

Bibliografia:

http://unesav.com.br/ckfinder/userfiles/files/Apostila%20de%20Estat...

http://apps.einstein.br/revista/arquivos/PDF/1173-ECv7n1_3-4.pdf

Comentário de JOSÉ LUIZ VIANA DO COUTO em 5 junho 2018 às 15:33

O MENOR MAMÍFERO DO MUNDO

É um morcego do tamanho de uma abelha grande, conhecido como 'gatinho nariz-de-porco'. Seu nome científico é Craseonycteris thonglongyai e vive na Tailândia. Foram coletados 15 desses animais, cuja população apresenta um peso médio de 1,8 g por indivíduo. Usando o Teste t e o software R, testar a hipótese desses morcegos (cujos pesos são listados na variável x) pertencerem à mesma população.

A Figura abaixo apresenta a programação (letras vermelhas), o gráfico Boxplot (para mostrar que 3 dos 15 animais da amostra fogem do padrão estatístico), a foto do bichinho, a Curva Normal, a Tabela (que está aí só para comprovar o cálculo feito no R), as Hipóteses e a Conclusão.

(*)https://mundoestranho.abril.com.br/mundo-animal/qual-e-o-menor-mami...

© 2018   Criado por Gilberto Fugimoto.   Ativado por

Badges  |  Relatar um incidente  |  Termos de serviço

Offline

Vídeo ao vivo