Estatística Prática para Docentes e Pós-Graduandos
de Geraldo Maia Campos

13. Transformação dos dados amostrais

Razões para a transformação dos dados.

    Quando algum dos requisitos para o emprego da estatística paramétrica — normalidade da distribuição dos erros, homogeneidade das variâncias, e aditividade dos efeitos dos fatores de variação — não puder ser preenchido pelos dados da sua amostra experimental, o pesquisador pode ainda tentar o recurso da transformação dos dados, antes de optar pela aplicação da estatística não-paramétrica. É um recurso que sempre vale a pena tentar, porque a estatística paramétrica é evidentemente mais poderosa que a não-paramétrica. De fato, esta somente foi desenvolvida como um recurso complementar, destinado a suprir a necessidade de testes estatísticos nos casos em que alguma restrição desaconselhava o uso da estatística paramétrica, ou quando a própria natureza dos dados, muitas vezes não exatamente numéricos, vedava a aplicação desta.

As transformações mais comumente utilizadas.

    As transformações diretas dos dados mais comumente utilizadas são: a logarítmica, a logarítmica dos (dados+1), a raíz quadrada dos dados , a raíz quadrada dos (dados + 1, ou mais 1/2), a raíz cúbica dos dados, a transformação angular, a transformação hiperbólica de primeiro grau (ou o inverso dos dados) ou hiperbólica de segundo grau, a transformação percentual, e a transformação em valores de z, já referida quando se comentaram os testes para verificar a normalidade da distribuição dos erros amostrais.

A transformação mais indicada.

    Há sempre uma razão objetiva, em geral bem definida matematicamente, para se optar por uma ou outra dessas transformações, tudo dependendo de como ou por que a distribuição amostral está se deformando e fugindo à normalidade. Só a prática, entretanto, acaba ensinando o pesquisador a entrever qual a transformação mais indicada. Todavia, com o advento da informática, essas transformações se tornaram algo tão corriqueiro e tão rápido de realizar, que o estaticista, ou o pesquisador, pode tentar todas elas em seqüência, para ver qual a que produz o melhor resultado, gastando para isso não mais do que alguns poucos minutos de seu precioso tempo.
    Na verdade, a transformação mais indicada geralmente coincide com aquela que apresentar a probabilidade mais elevada de a distribuição ser normal, de modo que se torna supérfluo saber a sua justificativa matemática. Se a transformação não for adequada, a probabilidade de normalidade tende a piorar, em vez de melhorar.
    Eu próprio elaborei um programa para computador (GMC-software, hoje em sua versão 7.3), que executa todos os testes até aqui mencionados neste texto, bem como os testes mais importantes e mais comumente utilizados em Estatística, e por isso posso assegurar aos meus leitores que não estou argumentando em vão, e que sei perfeitamente do que é que estou afirmando.

Interpretação dos resultados (em dados transformados).

    O único cuidado que se deve ter, após transformar os dados experimentais, é passar a raciocinar em termos da natureza dos novos dados, por ocasião da discussão e da interpretação dos resultados. Por exemplo: algumas transformações invertem os valores dos dados, como é o caso da própria transformação inversa (ou hiperbólica de primeiro grau), na qual Xi = 1/xi, e da hiperbólica de segundo grau, em que Xi = 1 / xi2.

A transformação logarítmica.

    Não se deve esquecer portanto que, uma vez transformados os dados em logaritmos, a soma de dados logarítmicos não tem o mesmo valor que a soma de seus antilogaritmos, mas representa o produto destes, de modo que a média dos logaritmos não corresponde ao logaritmo da média de seus antilogaritmos. Na verdade, o antilogaritmo da média dos logaritmos corresponde à média geométrica dos nados originais, e não à média aritmética destes.
    Por isso, no cálculo das médias, após a transformação logarítmica, não se pode esquecer de que os logaritmos passaram a ser tratados como simples dados numéricos, e não mais como logaritmos. Para fazer a conversão para os valores originais, as médias correspondentes às médias dos dados logarítmicos têm de ser calculadas a partir dos dados originais. A única coisa que é mantida nesses casos é a hierarquia dos dados, pois quando um dado original é maior do que outro, os seus logaritmos mantêm essa mesma ordenação hierárquica, ainda que os próprios valores numéricos passem a ser diferentes.
    Uma vez normalizada e homogeneizada a distribuição dos dados amostrais, por intermédio da transformação que se comprovar mais conveniente, o pesquisador estará autorizado a utilizar os testes paramétricos. Contudo, se mesmo tendo tentado todos os recursos disponíveis ainda assim a distribuição continua se demonstrando não-normal, ou não-homogênea, ou até mesmo não-aditiva, não há outra alternativa senão utilizar a estatística não-paramétrica.

Esta página foi elaborada com apoio do Programa Incentivo à Produção de Material Didático do SIAE, Pró-Reitorias de Graduação e Pós-Graduação da USP.