Estatística Prática para Docentes e Pós-Graduandos
de Geraldo Maia Campos

11. Aditividade e homogeneidade

Aditividade dos efeitos dos fatores de variação, e homogeneidade das variâncias.

    O termo variância já apareceu diversas vezes neste texto. O que seria variância, afinal de contas? Eu poderia dizer que variância é o quadrado do desvio-padrão. Contudo ressalvaria que essa afirmativa, ainda que matematicamente correta, é todavia estatisticamente incorreta. Isto porque, na verdade, o que se calcula primeiro é a variância da amostra. Só depois é que se extrai a sua raiz quadrada, para conhecer o desvio-padrão, o qual, por isso mesmo, tem duplo sinal: + ou - (±s).

Variância e graus de liberdade.

    Tecnicamente, a variância vem a ser a soma de todos os desvios dos dados amostrais, em relação à média, elevados ao quadrado, soma essa que depois é dividida por (n-1), ou seja, pelo número de graus de liberdade da amostra. Graus de liberdade, por sua vez, não é mais que o número total de dados da amostra, menos 1. Por que esses desvios são elevados ao quadrado? E por que se divide por (n-1), e não simplesmente por n? As respostas a essas duas perguntas parecem-me simples:

  1. elevam-se os desvios ao quadrado porque, em relação à média, muitos deles são negativos e outros positivos, de modo que se fossem simplesmente somados, o resultado seria zero, tal como ocorre com a média desses mesmos desvios. Elevando-se cada um deles ao quadrado, porém, todos se tornam positivos, inclusive os negativos.
  2. os graus de liberdade indicam os espaços entre os dados; e são iguais a (n-1) porque os espaços entre eles estão sempre uma unidade abaixo do número dos próprios dados. Para comprovar essa afirmativa, basta contar os dedos de uma das mãos e depois os espaços existentes entre eles. O mesmo ocorre em qualquer conjunto de dados amostrais.
    Isso compreendido, percebe-se que dividir pelo número de graus de liberdade significa dividir pelo número de espaços entre os dados, e não pelo número de dados. A razão de se fazer isso em Estatística é que os estudiosos da Ciência Estatística descobriram que essa operação conduzia a resultados mais coerentes do que a divisão por n, pura e simplesmente.

Variância e desvio-padrão.

    Finalmente, torna-se compreensível também a razão da expressão desvio-padrão: é que a extração da raiz quadrada da variância — que, por ser um quadrado, representa uma grandeza em duas dimensões — transforma o quadrado dos desvios em uma grandeza unidimensional, ou seja, em um comprimento, uma espécie de média geométrica dos desvios, a qual pode ser encarada como um desvio realmente padrão. Ou, em outras palavras, um desvio médio em relação à média do conjunto de dados. Quanto a própria variância da amostra, antes da divisão por (n-1) seria uma grandeza representativa da variabilidade total dos dados amostrais em relação a essa mesma média amostral. Após a divisão, seria uma variância média.
    Uma vez conhecidos e entendidos esses conceitos básicos, estamos finalmente aptos a entender também o que sejam homogeneidade das variâncias e aditividade dos efeitos causados pelos fatores de variação sobre essas mesmas variâncias. Quanto à independência dos erros, ficará para mais adiante.

Aditividade dos efeitos dos fatores de variação.

    Como já foi dito em capítulos anteriores, a aplicação dos testes paramétricos exige, além da normalidade da distribuição dos erros amostrais, que as variâncias sejam homogêneas e que os efeitos dos fatores de variação sejam aditivos; ou, em outras palavras, que sejam passíveis de serem somados uns aos outros, tal como indicam os sinais (+), presentes na expressão matemática transcrita no capítulo anterior. Esses efeitos não devem ser, por exemplo, multiplicativos. Sim, mas quando esses efeitos poderiam ser multiplicativos?
    A resposta também nesse caso é simples, como ademais são simples todas as respostas, uma vez que sejam conhecidas, o que nem sempre é possível e nem sempre acontece, um fato igualmente simples, que aliás constitui a própria razão de existir da pesquisa científica.
    Os efeitos de dois ou mais fatores de variação são ditos não-aditivos quando, na associação de um ou mais desses fatores, em vez de se somarem, esses efeitos se multiplicam, de tal forma que o efeito resultante pode ser ampliado (quando o fator multiplicativo é maior que 1), ou reduzido (quando esse fator é menor que 1). É o que comumente ocorre nas chamadas interações entre dois ou mais fatores de variação.

Importância da aditividade.

    A aditividade talvez seja a menos rigorosa das restrições que se fazem, quando do emprego da estatística paramétrica, porque se referem às interações entre os fatores de variação, e não aos próprios fatores em si mesmos. Mas não pode ser negligenciada, uma vez que a não-aditividade pode modificar o valor do erro não-controlado, inflando-o ou reduzindo-o, dependendo essa alternativa de suas dimensões, ou de sua significância. Esse inconveniente deve ter ocorrido muitas vezes no passado, quando o efeito das interações era sistematicamente incorporado ao erro não-controlado do experimento.
    A importância de um erro inflado ou reduzido será comentada mais adiante, quando se abordar o tema da significância estatística. Por enquanto, basta saber que os efeitos das interações só podem ser incorporados ao chamado erro residual (ou não-controlado), quando a interação for estatisticamente não-significante. Caso seja significante, a sua variância deve ser isolada, e tratada como se fosse um fator de variação, pois se torna tão relevante na análise estatística quanto qualquer dos fatores de variação principais.

Homogeneidade das variâncias.

    O bom desempenho dos testes paramétricos exige que as variâncias nele envolvidas sejam homogêneas. Isso não implica, porém, que elas devam ser idênticas, porque nada é exatamente igual em Estatística, havendo sempre uma faixa de tolerância em torno de qualquer suposta igualdade. O que os testes exigem é que elas não sejam discrepantes a ponto de ultrapassarem determinados limites de tolerância.
    Para entender as razões dessa exigência, basta imaginar o que aconteceria se alguém tentasse comparar a variação do crescimento de melancias com a variação do crescimento de jabuticabas. As variâncias nesse caso seriam heterogêneas, ou seja, tão diferentes que tornariam impossível qualquer comparação direta.
    Todavia, mesmo nesse caso, aparentemente absurdo, a comparação estatística não é de todo impossível, bastando para isso que se encontre um denominador comum, capaz de permitir o confronto entre esses dois tipos de crescimento tão diferentes.
    Por exemplo, a variável adequada nesse caso poderia perfeitamente ser algo como a taxa de crescimento de cada fruto em relação ao seu próprio peso, ou ao seu próprio volume, taxa essa considerada a intervalos regulares, ao longo do período de tempo estabelecido para as observações.
    Em resumo: embora as variações (ou variâncias), nos dois tipos de crescimento considerados em nossa hipótese, pudessem ser heterogêneas e desproporcionais, as variações das taxas de crescimento relativo poderiam ser homogêneas, e portanto compatíveis e passíveis de comparação.

Teste de Cochran para a homogeneidade das variâncias.

    Um teste muito simples e de fácil execução, para verificar a homogeneidade das variâncias, é o teste de Cochran — que consiste em calcular todas as variâncias envolvidas no experimento e dividir a maior delas pela soma de todas. O valor resultante da divisão é então comparado com os valores críticos de uma tabela estatística apropriada, que leva em conta o número de variâncias envolvidas (k) e o número de graus de liberdade (*) utilizado nos cálculos, número esse que evidentemente deve ser o mesmo para todas, pois a tabela é construída dessa forma.
    Talvez a única dificuldade na execução desse teste seja decidir quais variâncias testar. A experiência de muitos anos acabou me ensinando que as variâncias que melhor se prestam a essa finalidade são as que se referem à interação maior envolvida no plano geral do experimento (binárias ou ternárias, conforme o experimento fatorial tenha dois ou três fatores de variação). Em última análise, essas variâncias da interação maior — que poderíamos chamar de interação de maior grau — referem-se à variação entre as repetições. Assim, se o experimento tiver, digamos, 120 dados numéricos, correspondentes ao produto fatorial de 4 colunas, 3 linhas, 2 blocos e 5 repetições, (4 x 3 x 2 x 5 = 120), o teste de Cochran será realizado com 24 variâncias (k = 24), cada qual com 4 graus de liberdade (*=5–1, *=4). O * é a letra n, no alfabeto grego.

Interpretação do resultado do teste de Cochran.

    O teste de Cochran é um teste curioso porque nele é de interesse que o valor calculado seja menor do que o valor crítico da tabela, e não maior como ocorre na maioria dos testes estatísticos, pois é exatamente isso que indica que as variâncias são homogêneas. De fato, se o valor calculado fosse maior, o resultado seria significante, o que negaria a hipótese de igualdade (ou de homogeneidade) das variâncias envolvidas no experimento.
    Dessa forma, a essa altura de nossas considerações, já sabemos se a distribuição dos erros de nosso experimento é ou não normal e se as variâncias são ou não homogêneas. Se a distribuição for normal e as variâncias homogêneas, estamos autorizados a usar os testes paramétricos.
    Mas... o que fazer, na hipótese de a distribuição não ser normal, ou as variâncias não serem homogêneas...? Voltamos a insistir que só há duas alternativas: ou tentamos uma transformação dos dados, ou usamos testes não-paramétricos.
    Antes disso, porém, sobrou ainda um último detalhe, que até agora não foi resolvido: o problema da independência dos erros...

Esta página foi elaborada com apoio do Programa Incentivo à Produção de Material Didático do SIAE, Pró-Reitorias de Graduação e Pós-Graduação da USP.