Rede Agronomia

Rede dos Engenheiros Agrônomos do Brasil

Por motivo do Dia Mundial do Meio Ambiente, comemorado hoje, dia 5 de Junho, eu abro este tópico para reunir algumas soluções matemáticas de problemas ligados ao meio ambiente. São extratos das minhas leituras e anotações, e visam servir de 'formulário' para quando se fizer necessário. Convido os colegas a colaborar com outros exemplos, que poderão nos ajudar em diversas áreas da Agronomia, estando o Licenciamento Ambiental na cabeça da lista. Por motivos óbvios, darei destaque nas soluções ao software (gratuito) R, ao qual já me referi em vários momentos e ocasiões aqui na Rede Agronomia.  

Mãos à obra.

Exibições: 418

Comentar

Você precisa ser um membro de Rede Agronomia para adicionar comentários!

Entrar em Rede Agronomia

Comentário de JOSÉ LUIZ VIANA DO COUTO em 25 junho 2018 às 9:50

DISTRIBUIÇÃO t DE STUDENT

Comentário de JOSÉ LUIZ VIANA DO COUTO em 24 junho 2018 às 11:08

CONSUMO DE OXIGÊNIO

Em indivíduos sadios, o consumo renal de Oxigênio distribui-se normalmente em torno de 12 cm³/min. Deseja-se investigar, com base em 9 indivíduos portadores de uma doença, se esta tem influência no consumo renal de Oxigênio. Os dados são: 12.3, 13.1, 11.9, 11.2, 11.6, 11.9, 11.6, 11.0 e 10.5. O consumo médio para os 9 pacientes foi 11.68 cm³/min e o desvio padrão s = 0.76 cm³/min. As hipóteses formuladas são: Ho: μ = 12 e Ha: μ dif. 12 (afirmação).

Solução:  como a variância é desconhecida e são poucas as variáveis (n < 30 indivíduos), usamos a distribuição t de Student, com n - 1 = 9 - 1 = 8 graus de liberdade e α = 0,05.

A Figura abaixo mostra a curva da distribuição t de Student e a área crítica para α = 0.05 e G.L. = 8 (porção cinza sob a curva), cujo valor é obtido na Tabela mostrada ao final deste post.

A estatística do teste é:

Como t = - 1.28 < - 2.306, caímos na área cinza, que significa rejeição. Portanto, não há evidências para apoiar a afirmação que a doença tem influência no consumo renal de Oxigênio.

A Figura abaixo mostra a solução feita no R, com os cálculos estatísticos, o valor de t tabelado, o teste t e o desenho do boxplot. Neste teste, como p (5*10^-11) < α (0.05), rejeita-se Ho e aceita-se Ha que afirma que a média da população não é igual à média.

A Tabela da distribuição t de Student utilizada (por quem não aderiu ao R ) é:

Comentário de JOSÉ LUIZ VIANA DO COUTO em 23 junho 2018 às 11:16

BOXPLOT

O boxplot (caixa de plotagem ou caixa de bigodes, em Portugal) é um gráfico muito útil na interpretação de dados estatísticos, pois mostra a distribuição das variáveis como elas se apresentam na amostra. Aliás, é o único gráfico que consegue destacar os pontos fora da curva (outliers, em inglês).

Na Figura abaixo, p. ex., a caixa cinza delimita o primeiro (Q1) e o terceiro (Q3) quartis (a distribuição dividida em 4 partes iguais), cuja diferença é chamada Intervalo Inter Quartil (IQR); o traço vertical no meio é a Mediana (valor que divide a distribuição em duas partes iguais). Os segmentos de linha que partem da caixa (Q1 - 1,5*IQR e Q3 + 1,5*IQR), delimitam os valores que, estatisticamente, pertencem à distribuição, ou seja, se houver algum valor antes ou depois dos limites, eles são pontos fora da curva. Observe ainda que o IQR equivale à metade da área sob a Curva Normal, e os valores mínimo e máximo não atingem 3 desvios padrão. 

A Figura abaixo mostra a relação entre o Histograma e o Boxplot. Na parte esquerda, o histograma tem a forma de um sino, característica da Curva Normal ou Curva de Gauss (dados dispostos simetricamente em torno do máximo, que reúne a média, a moda e a mediana num ponto só). No boxplot correspondente, a linha grossa da caixa, que representa a Mediana, tem de ficar bem no centro; os pontinhos depois dos valores mínimo e máximo são os pontos fora da curva. Na porção direita desta mesma Figura, o histograma nem se assemelha à uma Curva Normal  e o boxplot apresenta na parte de cima os pontos fora da curva e a Mediana descentralizada.

A Figura abaixo mostra a programação (em R) dos cinco pontos notáveis (fivenum, em inglês): mínimo, 1o. quartil (Q1), mediana, 3o. quartil (Q3) e máximo. A média não aparece normalmente, a menos que seja enxertada com o comando abline. Os  extremos (-3 e 5) são pontos 'f'ora da curva' (ouliers, em inglês); se eles fossem retirados da amostra, a sua localização seriam as extensões da caixa ou "bigodes" (pontos 1 e 7).

Comentário de JOSÉ LUIZ VIANA DO COUTO em 21 junho 2018 às 15:36

TESTE DE POLUIÇÃO

Uma empresa produtora de papel tomou medidas para reduzir a descarga de poluentes em um córrego. Antes dessas providências, a média da poluição era de 400 ppm. Para testar se a média baixou, a empresa recolheu amostras de água durante 25 dias consecutivos. Nessas observações, a média de poluentes foi de 208,8 ppm e o desvio padrão 115,5 ppm. Testar, com 99% de probabilidade, que a poluição baixou.

A Hipótese nula é que a poluição não baixou, ou seja, Ho: μ = 400 ppm; a hipótese alternativa é que baixou, ou seja, Ha: μ < 400 ppm.

Solução: considerando que a variância é desconhecida e que a amostra é pequena (n < 30 variáveis), a distribuição estatística recomendada é o Teste t de Student, com G.L.=n-1=25-1=24 (graus de liberdade). A Figura abaixo mostra os cálculos no R e a fórmula usada de t.

Conclusão: como t (-8,3) < α (-2,5), rejeitamos Ho e aceitamos Ha (μ < 400 ppm), comprovando que a empresa conseguiu reduzir a poluição do córrego.

A Figura abaixo mostra a Tabela com a distribuição t de Student, para quem não usar o R nos cálculos.

A Figura abaixo não faz parte do problema aventado lá no início deste exercício, mas mostra 3 detalhes importantes:

1) a distribuição t se parece muito com a distribuição Normal (simetria, ponto máximo com média = mediana = moda) e área sob a curva igual à unidade;

2) a equação para o cálculo de t: (média da amostra - média da população) ÷ (desvio padrão / raiz do número de variáveis); e

3) quanto menor o número de variáveis da amostra (e, consequentemente dos graus de liberdade), mais achatada verticalmente será a curva.

Comentário de JOSÉ LUIZ VIANA DO COUTO em 21 junho 2018 às 9:28

ESCOLHA DO TESTE IDEAL

Comentário de JOSÉ LUIZ VIANA DO COUTO em 20 junho 2018 às 10:28

POISSON EM BORBOLETAS

Suponha que um pesquisador registrou o número de visitas à flor de uma planta durante um período de 15 minutos. O número médio de borboletas que visitam no período de 15 minutos é 10 (λ). Determine a probabilidade de que cinco borboletas visitem a flor em 15 minutos. A probabilidade de uma borboleta visitar é a mesma para quaisquer dois períodos de tempo de igual comprimento. Trace um histograma dessa distribuição de probabilidade.

Respostas, com mais resultados:

  1. a) Probabilidade de 5 borboletas visitarem uma flor:

dpois(5,lambda=10) : 3,8%

  1. b) Probabilidade de 8 borboletas visitarem uma flor:

dpois(8,lambda=10) : 11,2%

  1. c) Probabilidade (cumulativa) de 2 ou menos visitas:

ppois(2,lambda=10) : 0,3%

  1. d) Probabilidade de 5 ou menos visitas:

ppois(5,lambda=10) : 6,7%

  1. e) Qual o valor de X (núm. de visitas) associado à probabilidade de 0,8 ?

qpois(0.8,lambda=10) : 13 visitas

  1. f) Quantas visitas na probabilidade de 0,1 ?

qpois(0.1,lambda=10) : 6

  1. g) Gerar 10 números aleatórios de uma distribuição de Poisson com média (λ) 10.

rpois(10,lambda=10) : 13, 11, 13, 8, 11, 13, 6, 5, 12 e 10.

 

Gráfico da Distribuição de Probabilidade Acumulada.

Comentário de JOSÉ LUIZ VIANA DO COUTO em 19 junho 2018 às 15:32

TAMANHO DA AMOSTRA

Em Estatística, População é o conjunto dos elementos que se deseja estudar; Amostra é um subconjunto dessa população; e Tamanho da amostra é o número de indivíduos da amostra. Em geral o tamanho da amostra é representado por n e o da população por N (inicial de número), sendo n obtido por amostragem.

O tamanho da amostra (n) é um parâmetro muito importante em qualquer estudo estatístico, pois dele dependerão a escolha e os resultados dos testes a serem realizados. No trabalho Métodos Estatísticos - Amostragem, do Prof. Pedro A. Barbetta, UFSC, 2002 (www.inf.ufsc.br/) é apresentado um gráfico que resume o comportamento do número da amostra com o da população, mostrando que após determinado tamanho, por mais que cresça o tamanho da amostra (n) o seu resultado permanecerá praticamente igual ao da população.

Assim, no exemplo numérico apresentado abaixo do gráfico, se a população tivesse 200.000 habitantes, o resultado seria 623 famílias a serem amostradas, o que representaria apenas 0,3% do total e não 76% como no primeiro caso.

A determinação do tamanho de uma amostra é problema de grande importância, porque:

  • Amostras desnecessariamente grandes acarretam desperdício de tempo e de dinheiro;
  • Amostras excessivamente pequenas podem levar a resultados não confiáveis.

O tamanho da amostra também interfere na escolha que faremos do teste estatístico, tendo o número 30 (trinta) como limite para amostra pequena. A Figura abaixo mostra o fluxograma do estudo inicial, lembrando que, segundo a fonte, nos casos que n > 30 devemos usar um método não paramétrico ou bootstrap.

A consequência mais importante é o erro a que estamos sujeitos nas amostras pequenas. A Figura abaixo destaca que, quanto maior o tamanho da amostra, menor será o erro, e vice versa.

Esse erro pode ser calculado pela equação mostrada na Figura abaixo.

No Roteiro para a Escolha de um Teste Estatístico, mostrado acima, tanto a Distribuição Normal (teste z) como aquela em que a população não é normalmente distribuída (teste t de Student), usam o cálculo das áreas sob a curva para a tomada de decisões, como mostra a Figura abaixo.

O valor crítico de z mostrado na Figura acima está indexado em α/2 e a Figura abaixo mostra o que isso significa.

Uma população normalmente distribuída é aquela cuja distribuição segue a Curva Normal ou Curva de Gauss, onde a média, a moda e a mediana se encontram no pico mais alto. Vide Figura.

Para amostras pequenas, com menos de 30 casos, o método correspondente ao de estimativa de médias é a distribuição t de Student. A forma exata da distribuição t, que se assemelha muito com a normal, depende de um parâmetro chamado de graus de liberdade, que nada mais é do que o número de casos menos 1 (n-1). A distribuição t é uma distribuição de probabilidade teórica. É simétrica e semelhante à curva normal padrão. Difere da curva normal, porém, pois tem um parâmetro adicional, os chamados graus de liberdade que mudam sua forma. Veja a Figura abaixo.

 Tomando por base os dados do menor mamífero do mundo (com que iniciamos este tópico), que tinha uma amostra pequena (n = 15 < 30 variáveis), considerando-se que a média da população seja μ = 1,8 g/morcego, desejamos um erro amostral (E) de apenas 0,3 g/morcego, com um grau de confiança (G.C.) de 95%. O número ideal da amostra seria:

n = (z*μ/E)² = (1,96*1,8/0,3)² = 138 morcegos.

O cálculo de t é o seguinte:

t = (x - μ)/(σ/√n) = (1,7 - 1,8)/(0,26/√15) = - 1,30

Esses cálculos efetuados no console do R são mostrados na Figura abaixo. Observe na Figura acima que os valores de t são simétricos, levando o sinal negativo apenas no lado esquerdo da Curva e, também, que esses valores diminuem de valor progressivamente, na medida em que a curva deixa de ser achatada e sobe em altura. Se a nossa distribuição fosse Normal, o valor crítico de t seria 1,96 mas, no nosso caso, como a distribuição não é Normal, t = -1,30 e menos achatada ainda que a curva de cor preta da Figura.

Nesta Figura (PrtScn do console do R), incluímos também o teste t e a fórmula do erro máximo da estimativa que, conforme foi estipulado, foi de 0,05 ou 5%.

Em Estatística, um parâmetro importantíssimo que está presente na maioria dos testes, é o chamado valor-p ou p-value (em inglês), que indica a probabilidade de retirar aquela amostra que saiu, se a hipótese nula (Ho) é verdadeira. A Regra de decisão é a seguinte: se p < α (em geral tomado como 5% ou 0,05), rejeita-se Ho e, em consequência, admite-se como verdadeira a Hipótese alternativa (alternative hypothesis, em inglês). No caso da Figura acima, p.ex., como p (0,21) > α (0,05) aceita-se Ho, ou seja, a média verdadeira não é igual a 1,8 g/morcego.

Comentário de JOSÉ LUIZ VIANA DO COUTO em 18 junho 2018 às 10:11

MICOS

Uma grande indústria pretende se instalar na zona rural. Nos estudos de Impacto Ambiental, a equipe de Zoologia pesquisou o número e a espécie de pequenos mamíferos da região. Seja 'y' o número de micos capturados com armadilha em 24 horas. Suponha que a amostra tenha uma distribuição de Poisson com μ = 2,3 ou seja, o número médio de animais capturados com armadilha. Qual seria a probabilidade de se encontrar exatamente 4 micos numa área dada selecionada aleatoriamente ? Qual a probabilidade de pelo menos 4 ? E de mais de 4 ?

A Figura abaixo mostra os cálculos elaborados com o software R, cujos resultados foram:

  1. a) 4 micos: 12% (ou 0,1169 de p4);
  2. b) pelo menos 4: 92% (ou 0,9162 de pme); e
  3. c) mais de 4 micos: 8% (ou 0,0838 de pma).
  4. Fonte: An Introduction to Statistical Methods and Data Analysis, Ott R.Lyman e aux., 6a.ed.,                 Texas University, 2010, pág.167/1296.

Comentário de JOSÉ LUIZ VIANA DO COUTO em 13 junho 2018 às 9:30

MAIS UMA AJUDA DO R

A Figura abaixo mostra o boxplot  ou gráfico de caixa com os pesos de uma amostra de morceguinhos (os menores mamíferos do mundo), onde enxertei uma explicação do seu significado, lembrando que Median em inglês é Mediana (o valor que divide ao meio a distribuição) e não Média (que é a soma de todos os valores, dividido pelo número de variáveis), que é o traço em vermelho, medida que não aparece no gráfico normal. O gráfico explicativo não faz referência aos pontos fora da curva (outliers, em inglês), que só aparecem no desenho maior.

A Figura abaixo mostra o que seria a Curva Normal se os dados fossem normalmente distribuídos.

TUTORIAL ESTATÍSTICA:

http://www.statstutor.ac.uk/resources/uploaded/tutorsquickguidetost...

Comentário de JOSÉ LUIZ VIANA DO COUTO em 12 junho 2018 às 8:20

ANTES DE EFETUAR OS TESTES

Vários são os testes estatísticos disponíveis, e o Quadro abaixo apresenta alguns deles. Vejam na Figura abaixo.

Antes de efetuar os testes estatísticos devemos observar a distribuição dos dados da amostra, para verificar a sua normalidade ou não. Isso pode ser feito por meio de gráficos como o histograma e o boxplot. No caso do histograma, a união do topo das barras verticais com uma linha contínua, nos dá uma ideia do tipo da distribuição. Se a curva não tiver a forma de um sino, teremos uma distribuição assimétrica. Nesse caso, através de uma transformação matemática dos dados, podemos nos aproximar da distribuição normal.

Isso pode ser visto na Figura abaixo, onde reunimos a programação em R com os dados do menor mamífero do mundo (que iniciou este tópico), as 4 curvas que ilustram a Assimetria e Curtose, o traçado do histograma antes e depois da transformação logarítmica e a fórmula e interpretação das medidas de achatamento da curva ou Curtose. Como resultado da programação, a Assimetria deu positiva (1,087) e o Achatamento (0,121). Como a Curtose deu menor que 0,263, a distribuição de frequência é leptocúrtica, ou seja, é menos achatada que a Curva Normal.

As transformações dos dados originais para obter dados normalmente distribuídos, para posterior análise estatística, depende do tipo de dados e de sua distribuição. Assim, no caso do morceguinho, usamos a transformação logarítmica (log(x) = loge(x) = log neperiano).

O bloxplot (que em Portugal é chamado Caixa de bigodes) com as variáveis iniciais revela o seguinte:

  1. a) O menor valor da amostra (min(x)) mede 1,4 g/animal e é o 'bigode' da esquerda;
  2. b) O lado esquerdo da caixa representa o 1o. Quartil (q1=quantile(x,0.25)) e vale 1,6;
  3. c) O traço vertical mais grosso, que coincide com o 1o. Quartil é a mediana (median(x)) = 1,6;
  4. d) O lado direito da caixa é o 3o. Quartil (q3=quantile(x,0.75)) e vale 1,75;
  5. e) O 'bigode' da direita ou 1,8 é o maior valor considerado como sendo da população;
  6. f) Os três valores da direita são 'pontos fora da curva' (outliers, em inglês);
  7. g) O maior valor da amostra fica no extremo do eixo horizontal (max(x)) e mede 2,3; e
  8. h) Finalmente, como a mediana (item c) não se encontra exatamente no centro da caixa e dada a existência de pontos fora da curva (item f), a distribuição, definitivamente, não pode ser considerada Normal.

© 2018   Criado por Gilberto Fugimoto.   Ativado por

Badges  |  Relatar um incidente  |  Termos de serviço

Offline

Vídeo ao vivo