Estatística Prática para Docentes e Pós-Graduandos
de Geraldo Maia Campos

16. Variância e covariância

    Foi dito, em algum lugar deste texto, que, nos testes estatísticos, a variável é sempre única, ao passo que os fatores de variação podem ser múltiplos.
    Todavia, há uma circunstância em que tal unicidade da variável pode não ocorrer: é quando a finalidade de um experimento é precisamente confrontar duas ou mais variáveis, a fim de verificar se existe algum tipo de variação proporcional entre elas, seja esta direta ou inversa. Dá-se o nome de covariação a esse tipo de variação simultânea entre duas ou mais variáveis, e de covariância à grandeza estatística que serve para medi-la.
    Por sua vez, os testes utilizados para detectar essa covariância entre variáveis independentes envolvem duas operações importantes:

1) uma delas é quase gráfica, embora utilize cálculos matemáticos para realizá-la. É a operação chamada regressão, que pode ser linear (ou reta), ou curvilínea;
2) e a outra, calculada a partir da primeira, é a correlação, que tem como unidade convencional de medida uma grandeza chamada coeficiente de correlação, em geral indicada pela letra grega r, que se lê "rô" (ou rho).

    O coeficiente de variação é uma grandeza que varia de –1 a +1, valores estes que traduzem a correlação perfeita entre a variação de uma variável em relação à variação da outra. Por seu turno, a ausência completa de correlação entre as variáveis confrontadas é indicada pelo valor zero do coeficiente de correlação (r = 0). Os valores positivos do coeficente de correlação (0 < r £ +1), indicam a existência de uma relação diretamente proporcional entre as variáveis, enquanto que os valores negativos (–1 £ r < 0) traduzem uma relação inversamente proporcional entre as variáveis em estudo. Por sua vez, o valor numérico de r traduz o grau de correlação entre elas, sendo tanto mais significante quanto mais próximo de +1 (correlação direta), ou de –1 (correlação inversa). Hoje em dia, por uma questão de comodidade, costuma-se usar a letra r (erre minúsculo), em lugar de r, para o coeficiente de correlação.

Diferença matemática entre variância e covariância.

    Basicamente não existe esse tipo de diferença, mas isso só pode ser percebido pela comparação das equações matemáticas que definem essas duas grandezas. Por isso, embora não seja objetivo deste texto falar nos fundamentos matemáticos da Estatística, essas duas equações serão transcritas a seguir, apenas para frisar suas diferenças e semelhanças. Mas, naturalmente, apenas aqueles que tenham alguma noção de álgebra e de somatórios poderão entendê-las.
    A equação usada para calcular a variância de uma amostra é esta:

s2x = åx2 – (åx)2/ n (Equação 1)

    Essa expressão pode ser transformada em outra eqüivalente, substituindo-se o seu x2 pelo produto x . x, , assim como o seu (*x)2 por *x . *x , escrevendo-se então:

s2x = åx . x – å x . å x / n (Equação 2)

    No caso da covariância, a única diferença é que as variáveis são duas (x e y), e não apenas uma (x), como no caso acima. Assim, quando se introduz a segunda variável (y), basta substituir um dos dois x por y para se ter a equação da covariância:

s2xy = åx.y – åx . åy / n (Equação 3)

    Por sua vez, a variância de y seria dada pela relação:

s2y = åy2 – (åy)2 / n (Equação 4)

    A regressão linear consiste em determinar qual a linha reta que passa, ao mesmo tempo, o mais perto possível de todos os pontos determinados no sistema cartesiano pelos pares x-y disponíveis.

Esta página foi elaborada com apoio do Programa Incentivo à Produção de Material Didático do SIAE, Pró-Reitorias de Graduação e Pós-Graduação da USP.