Ao analisar uma seqüência de números, freqüentemente nos deparamos com o seguinte problema: temos uma relação de valores, por exemplo a média de produção de leite, que variam em determinado grau ao longo do tempo e precisamos decidir se aquela variação representa de fato uma mudança para melhor ou para pior. Como assim ?
Esta dúvida vem do fato de que uma seqüência de dados apresenta por si só uma variação que pode ser considerada normal, ou seja, os valores vão variar sem que necessariamente tenha havido uma alteração no curso dos acontecimentos. Isto ocorre porque toda série de valores tem uma variação que é inerente ao processo que a gerou e não necessariamente representa uma tendência de melhora ou piora.
E como detectar se determinado valor, como por exemplo um aumento na produção de leite, representa de fato uma mudança ou apenas uma variação normal a ser esperada em função dos dados analisados ?
O primeiro ponto é evitar a comparação de 2 valores, como por exemplo a produção de leite de 1 mês com a produção do outro mês. Tal comparação é limitada, visto que qualquer dado deve ser avaliado dentro de um contexto e, quando mais longa a série analisada, mais rica é a informação embutida nela. Além disto, como há uma variação natural, torna-se difícil detectar quanto da diferença entre um mês e outro é devido à esta variação inerente aos dados e quanto de fato é a diferença entre os números. É provável que, embora exista uma diferença numérica e que representa uma remuneração maior ou menor ao produtor, nem sempre esta diferença representa evolução ou retrocesso na atividade produtiva.
Desta forma, ao avaliar determinado índice, como por exemplo a produção de leite, é fundamental ter uma série de dados e não comparar simplesmente um valor ao outro, especialmente para dados temporais (que pertencem a uma seqüência no tempo). Estes conceitos estão relacionados ao que se denomina controle estatístico de processos.
O segundo ponto fundamental é que a visualização gráfica é mais atraente à mente humana do que a visualização em tabelas. Veja o exemplo abaixo, no qual a tabela 1 e o gráfico 1 indicam produções corrigidas para 150 dias de lactação. Em qual situação absorvemos mais facilmente a informação do que ocorre com o rebanho ?


Outro conceito importante é o de média. Ao passo que a média de uma seqüência de dados é sem dúvida importante, temos que lembrar que nem todos os valores serão iguais à média. É o velho exemplo do prato de comida: se um indivíduo comeu 2 pratos e o outro nenhum, a média foi 1 para cada. Logo, ao analisar um dado médio, é preciso sempre ter uma idéia da dispersão dos valores, ou seja, o quão dispersos ao redor da média eles estão.

Vamos agora supor que temos uma relação de dados de 1 ano, como por exemplo a produção de leite corrigida para 150 dias de lactação a cada mês (tabela 2). Será que há uma tendência nestes dados ? Será que de fato a média está aumentando ? A resposta está na aplicação de alguns conceitos estatísticos simples, cujo objetivo principal é calcular para cada série de dados, os limites máximo e mínimo a partir dos quais se considera qualquer valor como sendo anormal e representativo de mudanças. Em termos simplificados, por mais variação que haja em uma série de dados, se estes estiverem contidos dentro deste intervalo definido pelos valores mínimo e máximo, estatisticamente se considera que nenhum valor da série representa de fato uma mudança em curso.
No exemplo da produção de leite a seguir, se nenhum valor cair fora dos limites calculados, quer dizer que não houve uma diferença significativa ao longo dos meses.
Como então calcular os limites de cada processo, isto é, de cada seqüência de dados ? O primeiro passo é calcular a média dos dados e a média da variação de um mês para o outro (sem considerar o sinal negativo). Exemplo da tabela: do primeiro mês para o segundo, a variação foi de 20,67 - 20,23 = 0,44. Fazendo isto até o 12º mês, teremos condição de calcular a média desta variação, que no caso é 0,69 litros.
A partir daí calcularemos os limites superior e inferior desta seqüência, limites estes que podem ser entendidos como a faixa dentro da qual a variação é considerada normal, aplicando as fórmulas abaixo:
Limite superior = média + (2,66 * média da variação mensal) = 22,27 + (2,66 * 0,69) = 24,10
Limite inferior = média - (2,66 * média da variação mensal) = 22,27 - (2,66 * 0,69) = 20,43
O gráfico 2 abaixo mostra o resultado da análise.

As linhas vermelhas mostram os limites superior, inferior e a média. Nota-se que, considerando esta seqüência de dados, os valores dos meses 1 e 3 ficaram abaixo do limite inferior e o valor do mês 12 ficou acima do limite superior. Deve ter ocorrido alguma modificação significativa, como a adoção da terceira ordenha diária, a aplicação de BST ou uma mudança no clima ou alimentação. O fato é que tratam-se de valores que não pertencem à série, e portanto, devem ser analisados separadamente. Indicam que algo de fato mudou.
Os demais valores se encontram dentro da variação normal esperada para esta série de dados. É importante colocar alguns pontos:
Primeiro, quanto mais dispersos os dados, maior será a amplitude entre o limite inferior e o superior, ou seja, menos informações vamos obter da seqüência estudada, pois quase qualquer variação será considerada "normal". Assim, se analisarmos séries muito longas, com o tempo podemos ter dados muito dispersos. Também, se houver variação significativa entre verão e inverno, pode-se por exemplo calcular a média e os limites a partir dos dados do verão e aplicar os valores obtidos aos dados do ano inteiro, visando saber se os dados de inverno realmente diferem dos dados de verão. Se utilizarmos os dados anuais para cálculo da média e dos limites, vamos ter uma amplitude muito alta e não detectaremos mudanças entre as estações.
Se você não estiver satisfeito com a amplitude encontrada, como por exemplo se as variações forem muito altas em períodos curtos, será necessário rever o processo que resulta na produção de leite visando reduzir a variação diária. Isto vale para qualquer processo. Se a variação for muito elevada para qualquer série, talvez seja o caso de atuar no processo, visando diminuir a variação.
Por fim, há outros indicativos de dados que representam mudanças. Se, de cada 4 valores consecutivos, tivermos 3 valores mais perto do limite superior do que da linha média, é um indicativo de mudança nos dados. Também, 8 ou mais valores sucessivos no mesmo lado entre a linha média e um dos limites é interpretado como um sinal de mudança no processo.
É evidente que este artigo é apenas introdutório e que dificilmente com base apenas nele alguém poderá aplicar os conceitos de forma plena. Porém, é importante que saibamos que há formas de analisar os dados de modo a conhecer melhor a variação de qualquer parâmetro na fazenda, possibilitando que se avalie o que realmente é importante.
fonte: Understanding variation - the key to managing chaos, Donald Wheeler