Estatística Prática para Docentes e Pós-Graduandos
de Geraldo Maia Campos

9. Os valores de média e do desvio-padrão

O que significa uma mudança no valor da média?

    Na representação gráfica da curva normal, a variação do valor da média, em termos práticos, corresponde a um deslocamento da figura ao longo do eixo horizontal das coordenadas cartesianas: para a esquerda, se a média for negativa; ou para a direita, se o seu valor for positivo. Porém a figura apenas se desloca para um ou outro lado, sem todavia provocar qualquer alteração na sua configuração geral.

E uma mudança no valor do desvio-padrão?

    Entretanto, o mesmo não ocorre quando se altera o valor do desvio-padrão, ou seja, dos pontos de inflexão da curva. De fato, mudanças no valor do desvio-padrão tendem a provocar deformações na configuração gráfica da curva normal. A esse fenômeno, dá-se o nome de curtose (palavra de origem grega, que significa curvatura ou convexidade) que, em Estatística, vem a ser uma espécie de medida que avalia o grau de achatamento da curva normal.

Os três tipos de curtose.

    Quando a curva normal tem desvio-padrão igual a 1, tal como ocorre na curva matemática teórica, ela é chamada de mesocúrtica (do grego mesos = médio) + cúrtica.
    Todavia, quando o desvio-padrão tem valores entre 0 e -1, ou entre 0 e +1, a curva torna-se espigada, alta e estreita, porque os dados tendem a aglomerar-se junto à média, sendo exatamente esse pormenor que determina o pequeno valor do desvio-padrão. Quando ocorre esse alongamento vertical no centro da curva normal, e ao mesmo tempo o seu estreitamento no sentido horizontal, a curva é dita leptocúrtica, do grego (leptós = delgado, fino) + cúrtica.
    Por seu turno, se os dados apresentarem valores muito afastados do valor da média, esse detalhe faz aumentar por sua vez o valor do desvio-padrão, provocando ao mesmo tempo o alongamento horizontal da curva normal e o seu achatamento no sentido vertical. A curva normal é então dita platicúrtica, palavra igualmente derivada do grego ( platys = largo, amplo) + cúrtica.
    Essas deformações tendem a dificultar, ou mesmo a impedir, comparações entre os efeitos dos fatores de variação sobre a variável estudada, de tal forma que muito comumente é preciso realizar transformações dos dados, para tornar factível a sua análise estatística.

A transformação dos dados em “valores de z”.

    Uma dessas transformações, chamada “em valores de z”, tem a propriedade de transformar os parâmetros de qualquer distribuição de dados, de tal modo a que a média se torne igual a zero e o desvio-padrão igual a 1 (tal como na normal matemática), o que corresponde, em termos gráficos, a arrastar a curva ao longo do eixo horizontal, de modo a centralizá-la no ponto x = 0 das coordenadas cartesianas. Essa transformação em valores de z se faz pela relação: zi = (xi - m) / s, onde zi é o novo valor do dado, xi é o seu valor original, m é a média da amostra, e s o seu desvio-padrão. Essa transformação é particularmente útil quando se realizam testes para verificar se a distribuição dos erros experimentais é normal, uma vez que, após subtraída a média geral de todos os dados amostrais, o que sobra são as diferenças entre os dados originais (xi) e a média (m) ou, em outras palavras, os erros experimentais, cuja distribuição e normalidade se deseja estudar e verificar.
    Como há dados maiores e dados menores que a média, os novos valores serão negativos quando os dados forem menores que a média, e positivos quando maiores que ela. Em conseqüência, a soma dos dados zi positivos será igual a soma dos dados zi negativos, o que produz uma soma de dados igual a zero, soma essa que, dividida pelo número de dados (n), leva a uma média também igual a zero: 0 / n = 0.
    Por sua vez, como todas as diferenças (xi - m) são divididas pelo desvio-padrão (s), quando essa diferença (ou erro experimental) for igual ao próprio desvio-padrão (s), o resultado será um valor de zi = 1, ou seja, s / s = 1, exatamente como na curva normal padrão.
    Em suma: a transformação dos dados em valores de z faz com que eles passem a representar diretamente os erros experimentais, o que torna possível o estudo de sua distribuição em torno da média, possibilitando calcular a probabilidade de essa distribuição ser normal. Isso se faz pela avaliação do grau de aderência, ou de ajuste, entre as duas distribuições: a experimental e a normal matemática padrão (ou distribuição teórica de Gauss).

Item especial para quem gosta de matemática.

    Em páginas anteriores, foram feitas duas assertivas, a respeito da curva normal, que são muito importantes:

  1. que a média é o ponto onde a função atinge o seu valor máximo, ou seja, onde a freqüência da distribuição atinge o seu ponto mais elevado; e
  2. que o desvio-padrão marca o lugar onde a curva normal muda de côncava para convexa, ou seja, onde sofre uma inflexão.
    Essas assertivas não são afirmações vazias, mas podem ser facilmente demonstradas matematicamente.
    Embora eu tenha prometido, tanto aos senhores leitores como a mim mesmo, que não falaria em Matemática neste texto, pus-me a pensar que pode haver um ou outro curioso que poderia interessar-se por esses detalhes. Por isso, resolvi incluir no Apêndice que há no final deste texto, a demonstração matemática dessas afirmativas. Para entendê-las é preciso conhecer alguma coisa de cálculo diferencial.
    O processo é simples: para comprovar que a média é o valor máximo da função normal, basta derivar a função (derivada primeira), igualar a derivada a zero, e isolar o valor de x. O resultado mostra que isso ocorre quando x = m, ou seja, quando x é igual à média.
    Por sua vez, para comprovar que o desvio-padrão marca os pontos de inflexão da curva normal, basta por sua vez derivar novamente a própria derivada, e igualar esta segunda derivada também a zero, isolando-se o valor de x. O resultado demonstra que os pontos de inflexão da curva ocorrem quando x = m ± s, ou seja, quando x é igual à média ± o desvio-padrão. Aos que duvidarem, convido-os a consultar a demonstração matemática, no capítulo aqui referido como Apêndice.

O roteiro, passo a passo, até este ponto.

    Retomando, porém, o nosso curso prático de Estatística, vamos recapitular os passos do roteiro que vimos traçando, capítulo após capítulo. Esses passos, até agora, foram:

1 º Passo - Identificar a variável;
2º Passo - Identificar os fatores de variação;
3º Passo - Identificar o tipo de variável utilizado;
4º Passo - Estabelecer o número de repetições;
5º Passo - Construir uma tabela vazia para os dados (ainda não obtidos);
6º Passo - Preencher essa tabela vazia com os dados já obtidos;
7º Passo - Completa a tabela, testar a normalidade da distribuição.

Qual seria o antônimo de “curva normal”?

    Em geral, os testes utilizados para a finalidade de verificar a normalidade (ou não-normalidade) da distribuição dos dados experimentais apenas esclarecem qual a probabilidade de a distribuição testada ser normal, mas quem decide se essa probabilidade é aceitável ou não é o próprio pesquisador. Comumente, adota-se o limite de 5 por cento para a aceitação da normalidade, mas quanto maior for essa probabilidade, tanto melhor. O que não se pode fazer de modo algum é aceitar probabilidades menores que 5 por cento, pois isso indicaria que a diferença entre a distribuição experimental é significantemente diferente da distribuição normal padrão, ao nível de 5 por cento de probabilidade.
    Observem os meus leitores que o oposto de curva normal não é curva anormal, mas sim curva não-normal, e o mesmo se pode dizer em relação à distribuição normal.

Condições complementares à normalidade.

    Realizados os testes para julgar da normalidade (ou não-normalidade) da distribuição dos erros amostrais, se essa normalidade for comprovada, ficaria autorizado o uso dos testes chamados paramétricos. Ficaria sim, assim mesmo no condicional, porque há ainda uma condição, talvez até duas ou três, que devem ser preenchidas, antes da decisão final. Essas condições complementares são a homogeneidade das variâncias, a aditividade dos efeitos provocados pelos fatores de variação sobre a variável, e a independência dos erros.
    Fica pois aqui mais uma pergunta: o que fazer, se a distribuição não for normal, se não houver homogeneidade das variâncias, ou se os efeitos não forem aditivos? Há duas alternativas: 1) ou tentar uma transformação dos dados originais; ou então 2) utilizar testes que não levam em conta os parâmetros amostrais (média e desvio-padrão), ou seja, usar a estatística por isso mesmo chamada não-paramétrica.

Esta página foi elaborada com apoio do Programa Incentivo à Produção de Material Didático do SIAE, Pró-Reitorias de Graduação e Pós-Graduação da USP.