Estatística Prática para Docentes e Pós-Graduandos
de Geraldo Maia Campos

18. Mudança de variável (exemplos reais)

    Neste texto, já foram comentados, em capítulos anteriores, as transformações simples a que se podem submeter os dados experimentais, visando a normalizar a distribuição dos erros amostrais e a homogeneizar as variâncias, com a finalidade de tornar possível a aplicação da estatística paramétrica.
    Todavia, o que, no presente capítulo, é chamado de mudança de variável, são transformações mais profundas e mais complexas, que não têm quaisquer regras, fórmulas ou modelos fixos de transformação, como seria o caso, se a transformação fosse logarítmica, raiz quadrada, angular, ou qualquer das já comentadas anteriormente neste texto.
    Na verdade, a mudança de variável é um recurso que se aplica a cada caso, individualmente, variando conforme a natureza de cada experimento. São artifícios técnicos da mesma natureza dos célebres artifícios de cálculo usados em Matemática para resolver certos problemas, os quais só valem para aquele determinado problema em pauta, ou, quando muito, para problemas semelhantes.
    Os exemplos que seguem não são hipóteses, mas são todos recursos já empregados de fato pelo autor destas páginas, para resolver problemas específicos e reais, de pesquisadores diversos, que o procuraram em busca de auxílio.

Exemplo no.1: retas diferentes, como variável.

    Um desses artifícios já foi citado no capítulo anterior, quando se comentou o emprego dos parâmetros da linha reta como variáveis. Já utilizei esse tipo de mudança de variável, quando fiz o tratamento estatístico de uma tese em que os dados experimentais eram medidas de densidade óptica feitas em radiografias tomadas de um penetrômetro de alumínio apoiado sobre o filme radiográfico.
    Esse dispositivo (penetrômetro) tem forma de escada, na qual os degraus tem espessuras crescentes, aumentando dois milímetros em cada degrau ascendente. A imagem radiográfica dessa escada de alumínio é uma série de faixas com radiopacidade proporcional à espessura de cada degrau, cuja densidade óptica é então medida em aparelho adequado a essa finalidade.
    A dificuldade, nesse tipo de trabalho, é que uma radiografia não mostrava apenas um valor numérico, mas vários, cada qual correspondente à densidade óptica de um degrau do dispositivo. Parecia impossível tratar estatisticamente os dados numéricos obtidos.
    O artifício que tornou possível a análise estatística envolveu algumas etapas, que passarei a comentar, apenas para ilustrar a maneira como funcionou o raciocínio do estaticista num caso como esse.
    O primeiro passo foi realizar um teste de regressão para múltiplas curvas, a fim de determinar qual a curva matemática capaz de descrever a variação da densidade óptica nos oito ou nove degraus do penetrômetro utilizado nos experimentos.
    Ficou esclarecido assim que, naquele caso específico, a curva era uma hipérbole de primeiro ou segundo grau (já não me lembro), traduzida pela equação matemática y = 1 / (a + bx) (hipérbole de primeiro grau), ou então y = 1 / (a + bx)² (hipérbole de segundo grau). O segundo passo foi realizar uma transformação hiperbólica dos dados, que consistia em utilizar o inverso do valor dos dados experimentais (1/y, no caso da hipérbole de primeiro grau, ou então 1/*y, no caso da hipérbole de segundo grau), e não o valor original (y).
    Após essa transformação, um novo teste de regressão mostrou que a relação entre x e y era agora uma linha reta crescente da esquerda para a direita, o que já era matematicamente de se esperar.
    De fato, considerem a relação que traduz a transformação hiperbólica de primeiro grau: y = 1/(a+bx).
    Se invertermos a posição de y e (a+bx), o que resulta é sem dúvida uma linha reta: a+bx (linha reta) = 1/y.
    No caso da hipérbole de segundo grau, ocorre o mesmo: y = 1/(a+bx)².
    Invertendo-se as posições de y e (a+bx)², tem-se: (a+bx)² (parábola) = 1/y
    Finalmente, extraindo-se a raiz quadrada de ambos os membros da equação, tem-se:

    Essas operações algébricas mostram claramente que, se for utilizado o inverso do valor do dado, em lugar do dado original, a linha de regressão será indubitavelmente uma reta, e não mais uma hipérbole de primeiro grau. Da mesma forma, o uso do inverso da raiz quadrada do dado original transforma uma hipérbole de segundo grau numa linha reta.
    Mas qual seria a importância disso no caso das radiografias? A importância está em que se pode mudar a variável original (densidade óptica) e utilizar os dois parâmetros (a e b) que definem a reta de regressão de cada radiografia como duas novas variáveis.
    A primeira delas, o parâmetro a da equação da reta, traduz a densidade óptica de fundo da radiografia, ou seja a densidade óptica do filme na região não interceptada pela presença do penetrômetro. Graficamente, seria o ponto onde a reta corta o eixo das ordenadas das coordenadas cartesianas, onde x (espessura do degrau da escada de alumínio) é igual a zero. E o parâmetro b nada mais é do que a tangente do ângulo de inclinação da reta, ângulo esse que traduz radiograficamente o grau de contraste do filme exposto.
    De fato, se fizermos a = 0, o gráfico da reta passará pela origem das coordenadas cartesianas, onde x e y são iguais a 0 (zero). Essa reta, inclinada, formará com o eixo horizontal um ângulo q, cuja tangente será: tang q = y / x. Chamando a tang q de b, ter-se-ia: b = y / x. Ou seja, a tangente do ângulo de inclinação da reta é realmente o b da equação da reta. Isolando-se o y, a equação ficaria assim: y = bx, sem o a, porque estamos considerando que a reta passa por y = 0. Se y > 0, então a equação terá de incluir o a, ficando assim: y = a + bx.
    Essas duas novas variáveis, a e b permitiram, portanto, estudar os filmes sob dois aspectos importantes em qualquer radiografia: a densidade óptica geral e o contraste radiográfico dos filmes (vencidos, não-vencidos, conservados ou não em geladeira, armazenados ou não em estufas a 37/38 graus, para simular condições ambientais favoráveis ou adversas à sua conservação.
    Sem o artifício da mudança de variável, de densidade óptica para os parâmetros a e b das diversas retas de regressão, correspondentes a cada filme exposto, a análise estatística dos resultados da pesquisa teria sido impraticável.

Exemplo no.2: associação de variáveis.

    Contudo, a mudança de variável muitas vezes pode ser utilizada também para diminuir o número de variáveis de um trabalho de pesquisa, o que se consegue quando duas ou mais dessas variáveis podem ser combinadas para dar origem a uma outra variável, única, resultante dessa associação entre duas ou mais delas.
    Por exemplo, imagine-se um experimento em que se desejasse saber qual, dentre uma série de soluções solventes, seria a mais eficaz para dissolver uma determinada massa de uma substância qualquer. O pesquisador poderia determinar a massa (m) de cada corpo-de-prova (variável 1), medir o tempo (t) gasto para a dissolução completa da massa correspondente a cada um deles (variável 2), e calcular a velocidade de dissolução (v), fornecida pela quociente massa dividida pelo seu correspondente tempo de dissolução 
— v = m / t (variável 3).
    No entanto, essas três variáveis, que exigiriam testes isolados para cada uma, poderiam ser associadas, resultando numa variável única a ser analisada, que combinaria os efeitos de todas as três.
    Realmente, há na Física uma grandeza que associa essas três variáveis: é a chamada Força de Impulsão, definida pela expressão:F = m . v / t.
    Mas o raciocínio matemático e físico pode ir mais além.
    De fato, partindo de três equações da Física: uma que define a 
Força (F = m . a), outra que define a velocidade de um móvel (v = a . t), e finalmente a que define o Trabalho (T = F . e), nas quais F = força, a = aceleração, m = massa, t = tempo, v = velocidade, T = trabalho (ou energia despendida) e e = espaço percorrido.
    Podem fazer-se diversas transformações algébricas simples: Se v = a . t, então a = v / t; e se a = v / t e F = m . a, então F = m . v / t.
    Contudo, m / t = v, e a equação ficaria assim F = v . v, ou F = v².
    Considerando, porém a equação do trabalho (T = F . e), e tendo em mente que, no caso da dissolução do tecido, o espaço percorrido (e) corresponde à massa dissolvida (m), pode-se fazer a substituição do espaço pela massa na equação do trabalho, uma vez que, nesse caso, e = m. Conseqüentemente, T = F . m.
    Substituindo agora, na equação T=Fm, o valor de F, tem-se: T =m . v².
    Como Trabalho e Energia são grandezas da mesma natureza, uma vez que são avaliadas pela mesma unidade física (Joule, erg), pode-se dizer indiferentemente: T=m . v², ou 
E = m . v².
    Finalmente, se a velocidade v fosse a velocidade da luz (c), cairíamos na velha equação da liberação da energia, descoberta por Einstein: E = m . c²!
    Portanto, a nova variável de trabalho, calculada a partir de variáveis medidas nos experimentos, seria agora a energia (E) consumida na dissolução do tecido da polpa bovina, energia essa que difere de uma para outra das soluções utilizadas nos experimentos. 
    Exemplo: um massa de uma substância qualquer com peso = 2,33g, dissolvida pela solução A em 53 segundos teria uma velocidade de dissolução 2,33 / 53 = 0,044 g / seg. A energia despendida, ou o trabalho realizado, nessa dissolução seria 
0,044² x 2,33 = 0,0045 ergs, ou, pelo SI (MKF) 45 x 10-7 Joules.
    Em termos de Força, teríamos F = m . v², ou F = 0,044², igual a 0,0019 dinas no sistema CGS, que corresponde a 19 x 10-5 Newtons, aproximadamente, no sistema SI (MKF). Ter-se-ia de multiplicar o resultado da operação por 9,80665, mas a diferença é irrelevante para a análise estatística, porque todos os dados seriam então multiplicados pelo mesmo valor escalar.
    Uma observação importante: após a mudança das variáveis, a discussão dos resultados da análise estatística terá forçosamente de ser feita em termos da nova variável.

Exemplo no.3: a variável área (produto de 2 variáveis).

    Imaginemos um trabalho de pesquisa em que se estuda a velocidade de resfriamento de corpos-de-prova, deixados expostos ao meio ambiente, após terem sido previamente aquecidos a temperaturas diferentes. Para avaliar esse resfriamento, sua temperatura seria medida de minuto em minuto, variando de um para outro corpo-de-prova.
    Este tipo de pesquisa é um exemplo típico de como se pode usar áreas como variável, em vez das duas realmente utilizadas no decorrer do trabalho experimental, variáveis essas que seriam o tempo gasto no resfriamento até a volta à temperatura ambiente, e as medidas de temperatura do corpo-de-prova minuto após minuto.
    Lançadas em gráfico essas duas variáveis, associadas como pares de tempo/temperatura, nos quais o tempo seria marcado no eixo das abscissas (eixo de x), e as temperaturas nas ordenadas (eixo de y), o resultado seria uma área fechada, limitada por três linhas: duas retas (os eixos de x e y) e uma curva (curva de decrescimento da temperatura ao longo do tempo).
    As áreas determinadas por essas linhas podem ser usadas como a variável do experimento, com a vantagem de associar as duas variáveis utilizadas simultaneamente, e não isoladamente. Essa nova variável traduziria numericamente a quantidade total de calor perdido durante todo o tempo gasto no resfriamento dos corpo-de-prova.
    Não se trata de uma sugestão puramente teórica. Já usei pessoalmente esse recurso em um trabalho de tese, para o qual os meus préstimos foram solicitados. No caso real, registravam-se as temperaturas no interior de canais radiculares, após a aplicação de irrigações com soda clorada, e media-se, por meio de um par termoelétrico, a queda de temperatura da solução, dentro do conduto, minuto a minuto, durante o tempo decorrido até que a temperatura voltasse àquela que o canal apresentava no início do experimento.
    Às vezes, quando os erros experimentais relativos às áreas, não apresentam distribuição normal, torna-se necessária a transformação dos dados pela raíz quadrada dos valores numéricos dos dados realmente obtidos.
    Nessa transformação, o que se faz de fato é encarar todas áreas calculadas como se fossem quadrados eqüivalentes ¾ ou seja, com a mesma área da figura de contorno irregular projetada em gráfico, figura essa já comentada em parágrafo anterior ¾ de tal forma que a raiz quadrada desses quadrados transformaria uma grandeza bidimensional (área dos quadrados) em uma grandeza unidimensional, que seria o comprimento dos lados desses quadrados. Esse tipo de transformação costuma tornar normal uma distribuição e erros antes não-normal, porque tende a reduzir a amplitude da variação dos dados amostrais originais.

Exemplo no.4: variável área (métodos estereológicos).

    Um recurso muito prático para calcular áreas, principalmente de figuras fechadas e de contorno irregular, é o uso da Estereologia, que basicamente consiste em utilizar uma grade de pontos com dimensões conhecidas, para calcular a superfície contida no interior de uma linha de contorno qualquer, a partir do número de pontos que incidem sobre a superfície fechada que está sendo avaliada.
    É evidente que, quanto maior for a área da figura, tanto maior será a probabilidade de um número maior de pontos da grade caírem dentro dela. Na verdade, há uma proporcionalidade matemática entre o número de pontos que recaem no interior da figura e a sua área real. Assim, esta pode ser calculada por comparação com a superfície total da grade de pontos utilizada, que é uma área conhecida e representa, em termos de dimensão real, 100 % da área da grade de pontos, traduzidos pelo número total de pontos nela contidos.
    A grade de pontos pode ser adaptada à ocular de um microscópio, ou opcionalmente traçada em papel, projetando-se sobre este a imagem microscópica da área que se quer medir, por meio de uma câmara clara. Este segundo método tem a vantagem de possibilitar a contagem de pontos posteriormente, abreviando o tempo em que o pesquisador fica preso ao microscópio, um processo muitas vezes cansativo para os olhos.
    Um terceiro método consiste em obter slides das áreas a serem medidas (ou cópias transparentes dessas áreas), as quais poderão ser aumentadas, pela projeção das transparências sobre um anteparo, o que permite o emprego de grades com maior número de pontos, dando maior precisão à avaliação das áreas, e maior comodidade visual na contagem de pontos.
    Os métodos estereológicos podem ser empregados também na contagem diferencial de elementos componentes de uma estrutura qualquer, sejam eles elementos tissulares simples, tais como células num processo inflamatório ou neoplásico, sejam estruturas mais complexas, como vasos sanguíneos, trabéculas ósseas ou fibras colágenas, num processo de cicatrização de uma ferida qualquer.
    Com auxílio dos métodos estereológicos, caso seja levada em consideração a espessura dos cortes histológicos, por exemplo, é possível avaliar também o volume das estruturas estudadas, aparentemente a partir de imagens tomadas em duas dimensões. São portanto métodos extremamente úteis, porque permitem ao pesquisador transformar em valores numéricos algo que é basicamente de natureza qualitativa, e não quantitativa, como é o caso dos cortes histológicos. Esse mesmo recurso estereológico foi utilizado no artifício técnico descrito a seguir.

Exemplo no.5: transformação de áreas em vetores.

    Além dos quadros histológicos, as radiografias são também exemplos de quadros cuja natureza é basicamente qualitativa. O autor destas linhas já teve em mãos um caso em que os resultados do trabalho de pesquisa de um pós-graduando consistiam numa série de radiografias da articulação temporomandibular (ATM). Quando me procurou, travamos o seguinte diálogo:

    ¾ E agora, professor, o que faço com os resultados da minha pesquisa?!, perguntou-me, completamente desarvorado. 
    Examinei uma das radiografias contra a luz, e perguntei, por meu turno:
    ¾ Você se lembra de uma coisa que aprendeu no colegial (ou mesmo no cursinho para o vestibular) chamada números complexos?
    ¾ Não me lembro, confessou-me ele, sem saber aonde eu queria chegar.
    ¾ Mas eu me lembro, repliquei, e é exatamente o fato de me lembrar que vai resolver o seu problema...
    ¾ O que vem a ser número complexo, professor?
    ¾ Talvez você o conheça pelo nome de número imaginário, representado por aquele i usado em equações de segundo grau quando, após a aplicação da fórmula de Bhaskara, resultam raízes quadradas de números negativos. Por exemplo, a raiz de – 4, que é transcrita como ±2i. O número é dito imaginário porque não há raíz quadrada de números negativos, uma vez que qualquer número positivo ou negativo, quando elevado ao quadrado produz apenas números positivos.
    ¾ E como posso reconhecer um número complexo?
    ¾ A forma geral de um número complexo é n = a + bi, onde n é um número complexo qualquer, a e b são números reais, e i é a raiz quadrada de –1 , ou seja:

    ¾ Mas o que tem isso a ver com as minhas radiografias?!
    ¾ Tem tudo a ver. Se você aplicar o teorema de Pitágoras, usando os valores de a e b, terá a amplitude do deslocamento do côndilo de sua posição central; e se dividir b por a, terá a tangente do ângulo em que esse deslocamento se deu. Para saber que ângulo é esse, basta consultar uma tabela da função tangente.
    ¾ E como consigo esses valores de a e b?
    ¾ Precisamos criar um método para obter esses valores, e nada melhor do que criar dois vetores para representá-los.
    Eu julgava estar esclarecendo o assunto, mas ele parecia cada vez mais confuso. Na verdade, eu ainda não imaginara o método, mas já estava pensando nele exatamente naquele momento ¾ e ele me surgiu por inteiro, de um instante para o outro: bastaria criar dois índices estereológicos, um horizontal e um vertical, e usá-los à guisa de vetores, como se fossem um sistema vetorial com dois deslocamentos ortogonais, do qual se determinaria a resultante, calculando-lhe o módulo e o ângulo de inclinação correspondentes.
    A maneira como isso foi feito é bastante simples: 
    Primeiramente, selecionaram-se dois pontos de referência anatômicos cuja posição fosse relativamente estável nas radiografias da ATM, ou seja, que variasse pouco, em função de pequenas variações decorrentes do ângulo de incidência dos raios-x. Os pontos de referência escolhidos foram a imagem do meato auditivo externo e a crista anterior da cavidade articular da ATM.
    Em seguida, por meio de um projetor comum de slides, projetava-se a imagem da radiografia sobre uma folha de papel presa a um anteparo vertical plano, colocado sempre à mesma distância do projetor, para que a ampliação fosse sempre a mesma em todas as radiografias, e traçava-se a lápis o contorno do côndilo, da cavidade articular e do conduto auditivo.
    Uma vez obtido o desenho ampliado da ATM (com os pontos de referência citados nos itens anteriores), traçavam-se seis linhas retas sobre esse desenho, sendo três verticais e três horizontais.
    A linha básica horizontal era uma reta que tangenciava ao mesmo tempo a crista da parede anterior da cavidade articular da ATM e a borda inferior do meato auditivo. As outras duas retas horizontais eram paralelas a essa linha básica, e tangenciavam respectivamente o contorno superior da cabeça do côndilo e o contorno da cavidade articular em seu ponto mais elevado.
    A linha básica vertical era uma perpendicular à linha básica horizontal, e passava sobre o ponto em que esta tangenciava o contorno do côndilo. As outras retas verticais eram paralelas a essa vertical básica e passavam sobre os ponto de interseção da linha básica horizontal com o contorno da cavidade articular, sendo portanto um anterior e outro posterior a essa linha vertical básica.
    Desse modo, as seis linhas assim traçadas delimitavam uma área retangular subdividida em quadrantes, sendo dois destes superiores e dois inferiores, e ao mesmo tempo dois anteriores e dois posteriores, conforme considerados no sentido vertical ou horizontal do desenho.
    Sobre esse esboço da ATM era colocada uma grade de pontos, e contados os pontos que incidiam em cada um dos quadrantes. A soma do número de pontos contidos nos dois quadrantes superiores, dividida pela soma do número de pontos incidentes sobre os dois quadrantes inferiores, fornecia o valor do vetor vertical do sistema vetorial buscado. 
    Da mesma forma, a soma dos pontos contidos nos dois quadrantes anteriores, dividida pela soma dos pontos referentes aos dois quadrantes posteriores, fornecia o valor do vetor vertical desse sistema vetorial. Esses dois valores numéricos eram, em suma, o a e o b procurados para definir o número complexo que caracterizava cada uma das radiografias da ATM, que eram assim transformadas em valores núméricos, o que as tornava passíveis de uma análise estatística coerente, que antes parecia uma tarefa tecnicamente irrealizável. E assim foi feito...
    Uma observação interessante sobre o método acima descrito é que, quando o número de pontos contidos nos quatro quadrantes é exatamente o mesmo em todos eles, isso resulta em dois vetores iguais a 1, que teoricamente deveria representar a posição centrada do côndilo no interior da cavidade articular. Entretanto, o cálculo do módulo do vetor resultante revela que essa posição, dada pela raiz quadrada de 1² + 1² (Ö2), é igual a 1,4241356, e não 1 ou 0, como se poderia pensar. Da mesma forma, o ângulo cuja tangente é igual a 1 é o de 45°, e não 0°... Assim, todos os deslocamentos do côndilo deverão ser estudados em relação a esses valores referenciais teóricos, a fim de se avaliarem corretamente os valores reais desses desvios de posição (extensão e angulagem).

Exemplo no.6: a probabilidade binomial como variável.

    Outro caso curioso envolvia o emprego do teste bacteológico conhecido como BANA. A pós-graduanda, autora do trabalho, dividia cada arcada dentária em três regiões, sendo duas posteriores e uma anterior, o que resultava na divisão das duas arcadas em seis sextantes. De um dente pertencente a cada um desses sextantes, colhia-se uma amostra do conteúdo de bolsas periodontais ali existentes, e com esse material realizadvam-se os testes bacteriológicos, que poderiam dar resultados exclusivamente positivos (+) ou negativos (-).
    O projeto inicial de trabalho previa a contagem e a comparação do número de resultados positivos nos dois grupos estudados, que reuniam pacientes diabéticos do tipo I (insulino-dependentes) e do tipo II (não-insulino-dependentes). Tudo estaria bem, não fossem dois detalhes, dos quais a autora do trabalho aparentemente não se dera conta ao planejar sua pesquisa. 

a) O primeiro desses detalhes dizia respeito ao fato de nem sempre os seis sextantes estarem presentes, uma vez que muitos pacientes eram parcialmente desdentados, o que fazia variar o número de sextantes, e conseqüentemente o número de testes, por paciente. Essa variabilidade do número total de testes por paciente desaconselhava a contagem pura e simples do número de resultados positivos do teste BANA, uma vez que dois casos positivos em três testes realizados, por exemplo, não significam a mesma coisa que quatro, cinco ou seis casos positivos obtidos em seis testes realizados.

    Para resolver o problema, sugeri um artifício estatístico que não me consta ter sido usado jamais por alguém anteriormente: adotar a probabilidade binomial de, em n testes realizados, serem obtidas m respostas positivas (+); ou afirmativas, caso a variável inicial consistisse em respostas afirmativas (sim), ou negativas (não).
    Com essa mudança de variável, os dados numéricos deixavam de ser valores discretos, que podiam ser apenas contados, produzindo freqüências que variavam de 0 a 6, para se transformarem em grandezas contínuas, que variavam de 0 a 1, que é a variação da probabilidade, ou de 0 a 100, se essas probabilidades fossem transformadas em probabilidades percentuais, uma escolha que, em termos estatísticos, é totalmente indiferente.
    E assim foi feito, com o mais absoluto sucesso.
    Para aqueles que possam algum dia ter diante de si o mesmo problema, transcrevemos abaixo a equação utilizada para efetuar a transformação das freqüências de respostas + e - (ou sim e não) em probabilidades de ocorrência dessas freqüências em n número de casos:

onde q = número de respostas negativas (-), e p = número de respostas positivas (+).

b) O segundo detalhe acima mencionado, que entrevi logo de início no plano de pesquisa ora comentado, envolvia um problema talvez bastante comum entre os pesquisadores: a escolha do grupo controle, principalmente quando, como no caso focalizado, duas condições patológicas estão simultaneamente presentes no mesmo paciente, e se deseja estudar uma delas exatamente em função da presença concomitante da outra.

    Nesse caso, convém que o grupo controle não seja formado por indivíduos sadios, mas sim por pessoas portadoras de apenas uma das condições patológicas estudadas, para que se possam avaliar convenientemente os efeitos da outra sobre esta, que os pacientes controles também apresentam. No caso da associação diabetes/doença periodontal, é evidente que o interesse maior concentra-se nesta última, e que aquilo que se quer verificar é de que maneira os dois tipos diferentes de diabetes poderiam influir no desenvolvimento, ou no agravamento, da condição periodontal.
    Assim, o ponto de referência (grupo controle) seria representado por pacientes não-diabéticos, porém igualmente portadores de doença periodontal, mesmo porque já está perfeitamente estabelecido que os pacientes diabéticos tendem a desenvolver doença periodontal, mais cedo ou mais tarde, de modo que é sempre mais fácil encontrar pacientes não-diabéticos com doença periodontal, do que achar pacientes diabéticos sem doença periodontal.

Exemplo no.7: escores, uma variável que se deve evitar (sempre que possível).

    Tenho tanta fé nos escores, como variável capaz de avaliar um fenômeno qualquer, como tenho nas notas de avaliação como meio eficaz para julgar o desempenho de um aluno na escola. Tanto aqueles como estas implicam um grau de subjetividade que é sempre grande demais para o gosto de um estaticista. Os estaticistas, de um modo geral, preferem tratar com variáveis que sejam mais objetivas do que uma simples opinião pessoal, a qual nunca possui a imparcialidade fria de um instrumento de medida.
    De fato, a opinião humana, por melhor que seja o avaliador, é sempre mais sujeita a falhas de interpretação do que um instrumento de medida, seja este qual for e seja qual for o seu grau de precisão. Em termos puramente estatísticos, isso quer dizer que a variabilidade da opinião humana tende a aumentar o valor do erro experimental, o que conduz fatalmente a uma redução na capacidade de julgamento de pequenas diferenças entre as grandezas comparadas.
    Realmente, é preciso ter sempre em mente que a significância estatística é a conseqüência direta de uma divisão de variâncias; ou seja, uma fração ordinária na qual o numerador (ou o dividendo) é a variância observada entre as grandezas comparadas, e o denominador (ou o divisor) é a variância entre as repetições (ou seja, a variância do erro experimental). Ora, se o denominador da fração for demasiadamente grande, o quociente da divisão será pequeno demais: e se for pequeno demais, o quociente será demasiadamente grande. Em qualquer das alternativas, o resultado estará prejudicado, produzindo falsas não-significâncias no primeiro caso, e falsas significâncias no segundo. Por isso, o erro tem de ser razoável, nem exageradamente pequeno, nem desmesuradamente grande. Os escores tendem a produzir erros experimentais grandes demais, no caso de avaliadores determinados aleatoriamente; e pequenos demais, no caso dos avaliadores ditos calibrados.
    Do ponto de vista estatístico, um resultado significante, no caso de erros experimentais grandes demais, seria altamente confiável, uma vez que revelou significância mesmo com o tamanho do erro experimental trabalhando contra. Todavia, o mesmo não se poderia dizer com relação aos resultados não-significantes, que poderiam caracterizar aquilo que se convencionou chamar de falsos negativos. Neste caso, a diferença entre os grupos comparados estaria sendo mascarada pelas diferenças muito grandes encontradas entre as próprias repetições realizadas dentro de cada grupo. Tecnicamente, em jargão estatístico, se diria que a variação entre grupos seria mais ou menos igual à variação intra-grupo ¾ e é exatamente essa quase-igualdade que caracteriza a não-significância estatística.
    O raciocínio expresso no parágrafo anterior vale também para o caso de resultados não-significantes, em caso de erros experimentais demasiadamente pequenos. Neste caso, os resultados seriam válidos para a não-significância, mas poderiam acarretar erros nos casos de significância (falsos positivos).
    A razão é basicamente a mesma já exposta no parágrafo referido: a significância aparente correria por conta apenas da divisão de uma variância relativamente grande entre grupos por uma variância intra-grupo inadequada exatamente por ser pequena demais. Seria como querer avaliar a variação do tamanho de melancias tomando como base a variação do tamanho de jabuticabas. Haveria, nesse caso, incompatibilidade entre o objeto medido e a unidade de medida utilizada É por esse motivo, exatamente, que se mede tecido em metros, estrada em quilômetros, e célula em micrometros.
    Contudo, por uma questão de coerência, devo observar que aquilo que foi dito acima traduz também apenas uma opinião pessoal do autor destas linhas, com tudo que uma opinião pessoal possa implicar, de acordo com o próprio texto em que essa opinião foi exposta. Aliás, o próprio Cristo já prevenia seus apóstolos contra o perigo do julgamento humano, quando sabiamente ensinou: "Não julgueis, para não serdes julgados, pois com o julgamento com que julgais sereis julgados, e com a medida com que medis sereis medidos" (Mateus, 7:1-2). 
    Apesar do risco, todavia, não posso deixar de expressar minha opinião, e estou disposto a agüentar o tranco que disso advier. Mesmo porque o ensinamento do Mestre apenas confirma essa opinião: aquele que usa escores deve estar também preparado para enfentar as conseqüências dos erros de julgamento de seus avaliadores.
    O diabo (como provavelmente diria o próprio Criador) é que às vezes não há como evitar usá-los, porque a natureza do experimento pode tornar incontornável o seu emprego na avaliação experimental... Mas, pelo amor de Deus!, se o uso de escores for inevitável, jamais calibrem os seus avaliadores, porque isso tornaria a coisa ainda pior!
    Uma observação final sobre os escores: evitem o escore 0 (zero). Procurem começar com o escore 1 para indicar a ausência seja lá do que for. Como a gradação é uma classificação meramente convencional, isso pode ser feito sem nenhum problema. O grau 0 não esclarece coisa alguma, mas pode acarretar alguma dificuldade, em caso de divisão por 0, ou se houver necessidade de transformação logarítimica dos dados.
    Aproveitando o ensejo, deve-se, tanto quanto possivel, evitar dados com valores negativos, porque eles poderiam complicar as coisas em caso de ser necessário extrair a raiz quadrada desses valores negativos. Os zeros e os valores negaivos não são dificuldades incontornáveis, quando presentes, mas a sua inexistência pode poupar tempo ao investigador, quando do tratamento estatístico dos dados obtidos em sua pesquisa. 

Exemplo no 8: uso e abuso.

Da variável porcentagem.

    O principal, e provavelmente o mais comum dos abusos e das liberdades que se tomam com a variável porcentagem, talvez consista em usá-la para números de dados inferiores a 100. De fato, esse procedimento raia pelos domínios da profecia, ou da adivinhação, uma vez que, a partir de um número reduzido de dados, pretende-se extrapolar freqüências e achados, observados em amostras reduzidas, para amostras de tamanho igual ou maior que 100, amostras estas não existentes, e que podem não vir a apresentar as mesmas características dos dados que já foram obtidos até aquele momento, podendo na verdade fugir completamente a essas características, uma vez que porcentagens atuais não garantem porcentagens iguais no futuro.
    Porcentagens são portanto dados que falam de fatos passados, e não de fatos que ainda não aconteceram. Quando se diz tantos por cento, o que se quer dizer é que para cada grupo de cem dos dados (que já se tem em mãos) uma certa parte tem uma determinada característica, dentre as que se estão estudando. Nada garante que o dobro do número desses dados virá a apresentar o dobro dessa freqüência.
    Em caso de amostras pequenas, é preferível falar em proporção, e não em porcentagem. Por exemplo: 6 casos em 36 estudados (6 / 36 = 0,167). A porcentagem seria essa mesma proporção multiplicada por 100 (16,67%), mas só teria sentido se se tratasse de 60 em 360 dados, ou, na pior das hipóteses, de 17 em 100 para a mesma porcentagem.

(Falta escrever) A transformação angular.

Exemplo no10: as variáveis multidimensionais.

    Raciocínio idêntico ao apresentado no Exemplo no4 pode ser feito em relação a variáveis tridimensionais, das quais o volume é o exemplo representativo mais simples. A raiz cúbica dos dados transforma essa grandeza tridimensional e uma grandeza unidimensional, que seria o comprimento da aresta de um cubo, mesmo que o volume inicial não seja exatamente um cubo, mas uma esfera, um elipsóide, ou um sólido sem forma definida, mas cujo volume pode ser medido. Qualquer que seja o sólido, o valor do seu volume pode ser transformado numericamente em um valor equivalente ao de um cubo com uma aresta de comprimento x, aresta essa que, elevada ao cubo, reproduz o volume tanto do próprio cubo como do volume do sólido inicialmente considerado. Nesse caso, o tratamento estatístico pode ser feito considerando as arestas dos diversos cubos de volumes equivalentes aos dos sólidos originais, independentemente da forma real destes.

(Abaixo estão os itens que faltam ainda para escrever:)

Resumos dos testes que constam no software GMC

Exemplo no. 9: o denominador comum nas comparações.

Número suficiente de dados da amostra. Como calcular?

Esta página foi elaborada com apoio do Programa Incentivo à Produção de Material Didático do SIAE, Pró-Reitorias de Graduação e Pós-Graduação da USP.