Estatística Prática para Docentes e Pós-Graduandos
de Geraldo Maia Campos

19. Filosofia de alguns testes estatísticos

A. Testes paramétricos, para duas amostras (independentes ou vinculadas).

1. Filosofia do teste t de Student.

    Uma população é definida por dois parâmetros: a média e o desvio-padrão, que são únicos para essa população como um todo. Entretanto, a Estatística não lida com populações inteiras, mas utiliza subconjuntos dessas populações, aos quais chama amostras.
    Como as amostras envolvem um número reduzido de elementos representativos da população da qual fazem parte, é natural que a sua média e o seu desvio-padrão difiram alguma coisa em relação aos parâmetros da população considerada em seu todo.
    Os métodos estatísticos visam a possibilitar que se possam tirar conclusões sobre os parâmetros populacionais, partindo de informações obtidas a partir de amostras dela retiradas.
    Como a média e o desvio-padrão das amostras, mesmo pertencendo estas à mesma população, sempre divergem alguma coisa em relação aos parâmetros reais da população, é compreensível que, se forem traçados os gráficos das distribuições amostrais e da população original, por certo haverá alguma discrepância entre todos eles.
    Como as amostras pertencem todas à mesma população, e mesmo assim há diferenças, é natural que a variação decorrente da própria variabilidade casual da amostragem deva ser considerada, ao se avaliar a igualdade entre os parâmetros da amostra e os da população original, ou mesmo entre os de duas amostras entre si.
    Em resumo: é preciso respeitar uma certa faixa de variação, dentro da qual as amostras são consideradas como provindas de uma mesma população, ou como iguais entre si.
    Os testes estatísticos em geral, e entre eles o teste t, visam a estabelecer precisamente os limites além dos quais duas amostras já não devam ser consideradas como retiradas de uma mesma população, e sim como pertencentes a populações diferentes.
    Quando as amostras comparadas são independentes, o teste t destina-se a verificar se mesmo assim pertencem à mesma população, apenas com variações casuais de amostragem. Quando são vinculadas, visam a verificar se algum tratamento realizado teve o dom de modificar os parâmetros amostrais, fazendo nascer assim uma nova população, com parâmetros típicos diferentes da inicial.

B. Testes paramétricos, comparações múltiplas.

2. Filosofia da análise de variância (fatores de variação independentes).

    Para entender a análise de variância, é preciso distinguir dois conceitos fundamentais: a) variável e b) fator de variação.
    Variável: é a medida pela qual alguma coisa é avaliada, tal como o peso, a altura, a área, o volume, o teor de alguma substância, etc.
    Fator de variação: é tudo aquilo que faz a variável realmente variar. Por exemplo, um tratamento que faça variar o peso, a altura, o volume, o teor de glicose no sangue, etc.
    A variável é sempre uma só, mas o fator de variação pode ser múltiplo. De fato, fatores diversos podem atuar ao mesmo tempo, influindo todos sobre uma característica qualquer da amostra.
    A filosofia do teste admite que o efeito final dos múltiplos fatores de variação que atuam ao mesmo tempo sobre uma variável pode ser decomposto e analisado por partes (daí o termo análise aplicada ao teste).
    Esses efeitos parciais referem-se a três tipos de variação:

a) a variação causada pelos fatores intencionalmente introduzidos no experimento, até certo ponto controlada pelo pesquisador;
b) a variação determinada pelas possíveis interações entre alguns ou entre todos esses fatores experimentais controlados; e
c) a variação ocasional, não-controlada, decorrente de causas estranhas, muitas vezes desconhecidas, que em conjunto constituem o erro experimental, presente em qualquer ensaio.

    O erro experimental — chamado de variação residual, ou simplesmente resíduo — é importantíssimo, porque é por ele que se mede a significância estatística de um experimento. A significância estatística não é mais do que uma comparação entre a variação experimental controlada e a variação não-controlada (erro).
    A filosofia geral do teste é muito simples: ela admite que, se um fator de variação é realmente ativo num experimento, os seus efeitos aparecem e podem ser isolados, mesmo quando diversos fatores atuam simultaneamente. A variância final do experimento seria, assim, uma adição de três variâncias separáveis: a dos fatores principais, a de suas interações, e a do erro.
    Na análise de variância com múltiplos fatores, chamados estes de critérios de variação, ou de classificação, cada fator (ou interação) é analisado separadamente, ignorando-se os demais, considerados estes, para todos os efeitos, como simples repetições.
    Por exemplo: se forem estudadas duas drogas (A e B), administradas em duas circunstâncias diferentes (C e D), ao se analisarem os efeitos das drogas A e B, o dados de C e D são classificados apenas em relação a A ou a B. O efeito conjugado droga/circunstância seria analisado também, é claro, mas como um fator secundário denominado interação.
    O número de fatores de variação estudados deve limitar-se a 3 no máximo, porque o número de interações possíveis aumenta consideravelmente com números maiores, uma vez que a quantidade de variâncias a serem analisadas é dada pela equação: N = 2n - 1, onde N é o número de variâncias, e n é o número de fatores de variação. Um excesso de variâncias (principalmente de interações) leva a um emaranhado de interligações, quase sempre de difícil interpretação. Num ensaio com 5 variáveis, por exemplo, o número de variâncias a serem estudadas seria: 25 - 1, ou seja, 32 - 1 = 31 variâncias!

3. Filosofia da análise de variância (fatores de variação vinculados).

    Imagine-se uma pesquisa feita para comparar a dureza da dentina em cortes transversais de raízes dentais, nos terços cervical, médio e apical, nas regiões junto ao canal radicular, perto do cemento e a meia distância entre elas, após tratamento das secções com diversas soluções auxiliares da instrumentação dos canais radiculares, aplicadas durante tempos diferentes.
    Esse é um exemplo de um experimento em que os fatores de variação estão todos vinculados, com exceção das repetições (que seriam as diversas raízes usadas para repetir o ensaio).
    A experiência mostra que, quando existe vinculação, há também uma certa hierarquia na dependência entre os fatores vinculados. Por exemplo: no caso citado, os três terços referem-se à mesma raiz dental, as três regiões da dentina ao mesmo terço da raíz, e as soluções irrigantes atuam durante tempos diferentes, porém sobre as mesmas regiões de cada corte dental. Neste caso, começando com o mais dependente, a hierarquia da vinculação seria: tempos de ação, regiões da dentina e terços da raiz.
    O modelo matemático-estatístico e a forma de programação no computador (GMC Software) exigem que os dados sejam introduzidos obedecendo a essa hierarquia. Assim, o fator mais dependente deve ser sempre colocado nos blocos da tabela de dados, seguindo-se as linhas e as colunas (a organização da tabela pode ser vista no progama estatístico GMC, onde se explica como os dados devem ser introduzidos no computador, para que a programação funcione corretamente).
    O progama estatístico GMC abrange modelos estatísticos com dois ou com três fatores de variação, podendo o primeiro ter um ou dois fatores vinculados, e o segundo um, dois ou três fatores mutuamente vinculados. Quando todos os fatores são interdependentes, o único fator que sempre permanece independente são as repetições, cuja variação pode ser isolada e o seu efeito avaliado.
    Organize corretamente a sua tabela de dados, de modo a introduzir os valores numéricos na ordem adequada, caso contrário o programa fornecerá resultados incorretos, uma vez que os dados estarão misturados.

4. Filosofia da análise de variância (1 fator de variação com repetições).

    A análise de variância geralmente envolve uma amostra populacional equilibrada, na qual os grupos estudados têm um número igual de repetições, principalmente quando há diversos fatores de variação (ou critérios de classificação dos dados) envolvidos.
    Todavia, quando há apenas um fator de variação, ou seja, quando o conjunto de dados consiste de vários grupos que devem ser comparados entre si, é possível realizar uma análise de variância desse conjunto de dados, mesmo que cada um dos grupos tenha um número diferente de repetições, o que ocorre freqüentemente.
    Esses grupos poderiam ser comparados dois a dois, pelo teste t de Student, por exemplo, mas isso às vezes envolve a realização de um grande número de testes, dependendo do número de grupos a serem comparados. A análise de variância tem a vantagem de comparar todos os grupos com um único teste.
    Quando uma pesquisa envolve mais de um fator de variação, ainda que a análise de variância não seja de todo impossível, ela seria muito complicada. Mais prático será então usar amostras equilibradas, onde todos os grupos tenham o mesmo número de repetições.

Testes não-paramétricos, amostras independentes (uma só variável, duas amostras comparadas).

5. Filosofia do teste de Mann-Whitney.

    Se duas amostras forem retiradas ao acaso de uma mesma população, a ordenação crescente e conjunta dos dados das duas amostras tende a misturá-los uniformemente. Isso faz com que os dados se encaixem de maneira eqüitativa, tal como se intercalam os números pares e ímpares na seqüência natural dos números reais.
    À medida em que os valores ordenados das duas amostras se separam e se afastam, a probabilidade de elas pertencerem à mesma população vai se tornando cada vez mais remota. Os valores de U calculados pelo teste avaliam o grau de entrelaçamento dos dois conjuntos de valores numéricos confrontados.
    O caso extremo ocorre quando as duas amostras já não se intercalam — isto é, são disjuntas — o que indica tratar-se de amostras provindas de populações diferentes. A disjunção dos dados traduz a significância estatística máxima do teste, e ocorre quando o U menor é igual a 0 (zero).

6. Filosofia do teste da mediana (para 2 amostras).

    O teste da mediana visa a verificar se duas amostras diferem em relação às suas tendências centrais, uma vez que a mediana e o valor que marca o centro da distribuição amostral.
    Assim, o teste exige que as amostras possam ser pelo menos passíveis de uma ordenação por valores ascendentes dos dados, para que se possa calcular o valor que divide o conjunto de dados das amostras reunidas exatamente ao meio, ou seja, com 50% dos dados acima e 50% abaixo desse valor. Esse valor é a mediana.
    A filosofia do teste admite que, se duas amostras provêm de uma mesma população (isto é, se são estatisticamente iguais), a mediana do conjunto de dados reunidos não difere significantemente da mediana de cada uma delas considerada isoladamente.
    O teste é, no final, um teste de c² (qui-quadrado) em que as freqüências comparadas se referem ao número de dados — em cada uma das amostras comparadas — que se encontram acima ou abaixo da mediana comum, calculada para o conjunto das amostras reunidas.

7. Filosofia do teste do c2 (qui-quadrado), 2 x 2.

    O teste do c2 (qui-quadrado) é um teste que compara freqüências obtidas experimentalmente com freqüências teóricas, calculadas matematicamente para o mesmo número de dados da amostra.
    Os dados devem portanto ser grandezas discretas, isto é, alguma coisa que possa ser contada e reduzida a uma tabela de freqüências, tabela essa denominada tabela de contingência.
    A tabela de contingência é formada de duas linhas e duas colunas. O grau de liberdade é dado pelo produto de (2-1) x (2-1) = 1 x 1 = 1.
    O teste calcula a relação: quadrado da diferença entre as freqüências obtida e esperada em cada uma das quatro células da tabela de contingência, dividido pela freqüência esperada, e soma esses quadrados.
    O teste é considerado significante quando essa soma ultrapassa determinados valores, relacionados em tabelas apropriadas, valores esses que dependem do grau de liberdade da amostra.
    Os testes não são exatamente iguais para tabelas com apenas 1 ou mais de 1 grau de liberdade, e por isso essas duas possibilidades são focalizadas separadamente neste programa estatístico (para 2 x 2 ou para m x n freqüências).
    Além disso, há uma série de restrições:

A. Para 1 grau de liberdade:
a) pode ser aplicado para n maior que 40 (n = número total de dados);
b) para n entre 20 e 40, o teste só pode ser aplicado se todas as freqüências esperadas forem maiores ou iguais a 5;
c) se a menor freqüência for menor que 5, ou se n for menor que 20, será preferível usar o teste exato de Fisher.

B. Para mais de 1 grau de liberdade:
a) nenhuma casela pode ter valor menor que 1;
b) o número de caselas com valores esperados menores do que 5 não pode ultrapassar 20 % do número total de caselas; e
c) se isso ocorrer, reformule a tabela (somando caselas vizinhas).

8. Filosofia do teste de igualdade entre proporções.

    Esse teste é praticamente igual ao teste do c² (qui-quadrado), com a diferença de que as freqüências são transformadas em proporções, dividindo-se as freqüências obtidas em cada uma de duas amostras pelo respectivo número total de dados dessa amostra.
    A finalidade do teste é verificar se duas proporções podem ser consideradas iguais, quando resultantes de amostragens com números diferentes de dados. Por exemplo: será que as proporções de 34 dados numa amostra com 147 dados, e de 167 dados em outra com 985 dados, seriam iguais? As duas proporções são respectivamente 0,23129 e 0,16954. Seriam elas estatisticamente eqüivalentes?
    Nesse caso, a resposta poderia ser dada tanto por este teste como por um simples teste de c². numa tabela 2 x 2.
    Pode ocorrer, entretanto, que numa ou outra circunstância não se possa usar o teste do c². Nesse caso, o teste da diferença entre duas proporções poderia ser utilizado, como uma alternativa para o teste do c².
    Este teste, todavia, tem também as suas restrições, tal como as tem o próprio teste do c².
    Assim, como ocorre no c², convém que as amostras sejam grandes, de tal modo que as freqüências obtidas (Fn), ou os seus complementos (N–Fn), sejam todas maiores que 5.
    O teste do c² também faz o mesmo tipo de exigência. A única diferença é que o teste entre proporções não tem a correção de Yates.
    Diante disso, toda vez em que for possível, é preferível usar o teste do c² ou, se as freqüências forem muito pequenas, o teste exato de Fisher.
    Outra opção é usar a distribuição de Poisson (para eventos raros). Um evento é considerado raro quando sua probabilidade de ocorrência está próxima de 0 (zero). Praticamente, considera-se raro o evento cuja ocorrência é de 5 vezes (ou menos) em 50 (ou mais) tentativas (p £ 0,1). Isto é, quando a probabilidade de 1 evento x o número de tentativas (n) é igual a 5, ou menor que 5 (p.n £ 5).

9. Filosofia do teste de Fisher.

    O teste exato de Fisher testa diferenças entre dois grupos independentes (G1 e G2), em relação a uma variável qualquer que só admita duas alternativas como resposta: Sim/Não, Positivo/Negativo, ou +/–. Isso leva à construção de uma tabela de contingência 2 x 2.
    O teste é basicamente um c² (qui-quadrado), porém o teste de Fisher é particularmente adequado para pequenas amostras (com 20 dados ou menos), caso em que o teste do c² estaria contra-indicado.
    Em compensação quando o número de dados da amostra é grande, o teste de Fisher é que não deve ser usado, porque envolve o cálculo de fatoriais, o que pode conduzir a números excessivamente elevados. Nesses casos, a opção deve ser pelo teste do c².

Testes não-paramétricos, amostras vinculadas (uma só variável, duas amostras comparadas).

10. Filosofia do teste de Wilcoxon.

    Uma amostra A1‚ submetida a um tratamento T1, e o seu efeito medido. Posteriormente, essa mesma amostra, chamada agora de A2, é submetida a um segundo tratamento T2, medindo-se o seu efeito pela mesma variável usada no primeiro tratamento.
    Comparando-se o efeito dos dois tratamentos em cada elemento da amostra, podem ocorrer 3 alternativas:

a) O efeito aumentou (+);
b) O efeito diminuiu (–); e
c) O efeito permaneceu o mesmo (=).

    Até este ponto, o teste seria idêntico ao chamado teste dos sinais. A diferença porém é que, no teste de Wilcoxon, leva-se em conta a magnitude do aumento ou da diminuição, e não apenas a direção da variação para mais ou para menos.
    Assim, para cada par vinculado A1/A2, calcula-se a diferença numérica T1 – T2. Essa diferença poderá ser positiva, negativa, ou igual a zero (quando não houver variação, sendo T1 = T2).
    Uma vez calculadas todas as diferenças entre os valores obtidos para cada par de dados, essas diferenças são ordenadas pelo seu valor absoluto (sem considerar o sinal), substituindo-se então os valores originais pelo posto que ocupam na escala ordenada.
    Feito isso, atribui-se a cada um desses novos valores dos dados o mesmo sinal que eles tinham antes da transformação em postos.
    A filosofia do teste presume que, se os tratamentos forem idênticos, a soma dos postos com sinais positivos será equivalente à soma dos postos com sinais negativos.
    O teste de Wilcoxon calcula um valor z, ao qual está associada um valor de probabilidade. Essa probabilidade traduz o grau de possibilidade de ocorrência desse valor de z por mero acaso, e não por efeito dos tratamentos efetuados (T1 = T2). No caso do GMC software, o programa já faz automaticamente o cálculo da probabilidade do z obtido pelo teste, não havendo necessidade de consultar qualquer tabela.

11. Filosofia do teste dos sinais.

    Uma amostra A1‚ submetida a um tratamento T1, e o seu efeito medido. Posteriormente, essa mesma amostra, chamada agora de A2, é submetida a um segundo tratamento T2, medindo-se o seu efeito pela mesma variável usada no primeiro ratamento.
    Comparando-se o efeito dos dois tratamentos em cada elemento da amostra, podem ocorrer 3 alternativas:

a) O efeito aumentou (+);
b) O efeito diminuiu (–); e
c) O efeito permaneceu o mesmo (=).

    Os dados serão codificados apenas como 1 ou 0, para os valores maior e menor de cada par. O valor real do dado não afeta o teste.
    Calculando-se a freqüência em cada uma das duas primeiras alternativas e desprezando-se a terceira, em que não houve alteração, pode-se estimar se as freqüências dos sinais + e – devem ser consideradas estatisticamente diferentes ou não.
    A decisão estatística envolve o cálculo binomial da probabilidade de os sinais + e – terem aquelas freqüências por mero acaso.
    Quando os pares vinculados puderem ser medidos quantitativamen-te, de forma que seja possível estabelecer não só a hierarquia, mas também o quanto um membro do par é maior ou menor do que o outro, o teste mais preciso seria o de Wilcoxon, e não este.

12. Filosofia do teste de McNemar.

    Uma amostra A1‚ submetida a um tratamento T1, e o seu efeito medido. Posteriormente, essa mesma amostra, chamada agora de A2, é submetida a um segundo tratamento T2, medindo-se o seu efeito pela mesma variável usada no primeiro tratamento.
    Comparando-se o efeito dos dois tratamentos em cada elemento da amostra, podem ocorrer 4 alternativas:

a) Foi positivo em A1 e A2 : T1+ e T2+ ;
b) Foi negativo em A1 e A2 : T1– e T2– ; e
c) Foi negativo em A1 e positivo em A2 : T1– e T2+ .
d) Foi positivo em A2 e negativo em A1 : T1+ e T2–

    Calculando-se a freqüência em cada uma das 4 alternativas, constrói-se uma tabela de contingência 2 x 2.
    A decisão estatística é dada por um teste de *² (qui-quadrado), cujo resultado dirá se a distribuição de freqüências encontrada pode ser considerada puramente casual, ou se as diferenças de freqüência devem ser atribuídas realmente ao tratamento realizado.

13. Filosofia do teste binomial.

    O teste binomial é particularmente útil em experimentos que apenas admitem duas alternativas como resposta, tais como certo ou errado, sim ou não, verdadeiro ou falso, masculino ou feminino, positivo ou negativo, e assim por diante.
    O teste utiliza o desenvolvimento matemático binomial de duas freqüências relativas complementares p e q (sendo p + q = 1) para avaliar a probabilidade de elas poderem ser consideradas estatisticamente não-diferentes, ainda que desiguais em termos puramente numéricos.
    Assim, os dados experimentais utilizados pelo teste são as freqüências relativas p e q, referentes às duas alternativas possíveis naquele determinado experimento. A freqüência esperada para p e q, em caso de igualdade perfeita, seria ½ para ambos.
    Como, num experimento, dificilmente p é igual a q, o teste avalia, em última análise, até que ponto os valores de p e q podem diferir, sem deixarem de ser estatisticamente iguais.

Testes não-paramétricos, amostras independentes (uma só variável, comparações múltiplas).

14. Filosofia do teste de Kruskal-Wallis.

    O teste de Kruskal-Wallis é uma espécie de análise de variância a um critério de variação, para dados amostrais independentes.
    Por exemplo: a superfície de n corpos-de-prova construídos com k marcas comerciais de gesso para modelos seria igualmente lisa?
    A variável testada, nesse caso, é o grau de lisura da superfície dos corpos-de-prova, e o único fator que faz essa variável alterar os seus valores é a marca comercial dos gessos.
    O erro experimental é dado pela variação casual determinada por diferenças eventuais ocorridas durante a confecção dos diversos corpos-de-prova (repetições) que constituem a amostra referente a cada um dos materiais envolvidos.
    A filosofia do teste considera que, se os materiais forem todos igualmente lisos, a única variação será aquela decorrente dessa variabilidade natural, que sempre existe, mesmo entre elementos de uma mesma população.
    O teste não utiliza os valores numéricos diretamente, mas sim os postos que eles ocupam numa série de dados ordenados por valores crescentes, série essa que reúne num só conjunto os dados de todas as amostras que vão ser comparadas. Os dados são introduzidos amostra após amostra.
    Ainda segundo a filosofia do teste, se as k amostras comparadas provierem da mesma população (amostras iguais), a média dos postos correspondentes a cada amostra será aproximadamente igual.
    Se isso não ocorrer, as amostras pertencerão provavelmente a populações diferentes * ou seja, serão diferentes entre si.
    Embora o teste tenha sido idealizado para testar um único fator de variação, parece viável utilizá-lo também em casos de mais de um critério de variação, desde que se faça a análise de um deles de cada vez, reunindo em grupos todos os dados que tenham em comum esse fator, considerando os demais como simples repetições.

15. Filosofia do teste da mediana (para k amostras).

    O teste da mediana visa a verificar se duas ou mais (k) amostras diferem em relação às suas tendências centrais, uma vez que a mediana e o valor que marca o centro da distribuição amostral.
    Assim, o teste exige que as amostras possam ser pelo menos passíveis de uma ordenação por valores ascendentes dos dados, para que se possa calcular o valor que divide o conjunto de dados das amostras reunidas exatamente ao meio, ou seja, com 50 % dos dados acima e 50 % abaixo desse valor. Esse valor é a mediana.
    A filosofia do teste admite que, se duas ou mais amostras provêm de uma mesma população (isto é, se são estatisticamente iguais), a mediana do conjunto de dados reunidos não difere significantemente da mediana de cada uma delas considerada isoladamente.
    O teste é, no final, um teste de c² (qui-quadrado) em que as freqüências comparadas se referem ao número de dados — em cada uma das amostras comparadas — que se encontram acima ou abaixo da mediana comum, calculada para o conjunto das amostras reunidas.

16. Filosofia do teste do c² (qui-quadrado), m x n.

    O teste do c² (qui-quadrado) é um teste que compara freqüências obtidas experimentalmente com freqüências teóricas, calculadas matematicamente para o mesmo número de dados da amostra.
    Os dados devem portanto ser grandezas discretas, isto é, alguma coisa que possa ser contada e reduzida a uma tabela de freqüências, tabela essa denominada tabela de contingência.
    A tabela de contingência é formada de (m) linhas e (n) colunas, sendo que a menor tabela que se pode formar seria uma tabela com 1 linha x 2 colunas, ou 2 linhas x 1 coluna.
    O grau de liberdade é dado pelo produto de (m-1) x (n-1), quando m e n são iguais ou maiores do que 2; e por (m-1) ou (n-1), caso um deles (n ou m) for igual a 1.
    O teste calcula a relação: quadrado da diferença entre as freqüências obtida e esperada em cada casa da tabela de contingência, dividido pela freqüência esperada, e soma esses quadrados.
    O teste é considerado significante quando essa soma ultrapassa determinados valores, relacionados em tabelas apropriadas, valores esses que dependem do grau de liberdade da amostra.
    Os testes não são exatamente iguais para tabelas com apenas 1 ou mais de 1 grau de liberdade, e por isso essas duas possibilidades são focalizadas separadamente neste programa estatístico.
    Além disso, há uma série de restrições:

A. Para 1 grau de liberdade:
a) pode ser aplicado para n maior que 40 (n = número total de dados);
b) para n entre 20 e 40, o teste só pode ser aplicado se todas as freqüências esperadas forem maiores ou iguais a 5;
c) se a menor freqüência for menor que 5, ou se n for menor que 20, será preferível usar o teste exato de Fisher.

B. Para mais de 1 grau de liberdade:
a) nenhuma casela pode ter valor menor que 1;
b) o número de caselas com valores esperados menores do que 5 não pode ultrapassar 20 % do número total de caselas;
c) se isso ocorrer, reformule a tabela (somando caselas vizinhas).

17. Filosofia do teste de Nemenyi.

    O teste de Nemenyi é uma espécie de análise de variância não-paramétrica, para um fator único de variação, que faz comparações entre várias amostras independentes.
    O fator de variação estudado é colocado nas colunas, com as repetições dispostas verticalmente, ao longo das colunas. Os dados são introduzidos no computador seguindo o sentido vertical da tabela, repetição após repetição, e não no sentido horizontal.
    Os dados de todas as amostras são ordenados por valores crescentes, sendo os valores originais substituídos pelo número de ordem ocupado por eles na série do conjunto ordenado. Em caso de empates, faz-se a média dos postos correspondentes, e se atribui esse mesmo valor a todos os dados empatados.
    Se as amostras pertencerem à mesma população — isto é, se forem iguais — as médias dos seus postos serão mais ou menos iguais. A avaliação estatística é feita pela comparação dessas médias.

Testes não-paramétricos, amostras vinculadas (uma só variável, comparações múltiplas).

18. Filosofia do teste de Cochran.

    Os (n) elementos de uma mesma amostra (A) são julgados segundo (k) padrões ou métodos diferentes de avaliação (P1,P2,P3,...Pk).
    Os dados experimentais devem apresentar-se como respostas do tipo (+/–), (Sim/Não), ou (Positivo/Negativo).
    A aplicação do teste, porém, exige que essas respostas, seja como for que se apresentem, sejam convertidas em valores numéricos 1 (um) para os Sim, Positivo ou (+), e em 0 (zero) para os Não, Negativo, ou (–).
    O teste procura responder a perguntas do tipo: Os resultados dos diversos métodos de julgamento testados seriam equivalentes?
    A filosofia do teste considera que, se os diversos métodos produzem efeitos semelhantes sobre os elementos que compõem a amostra, a distribuição dos 1 e 0 nos vários métodos comparados será aproximadamente igual (a não ser, é claro, pelas variações casuais, presentes em qualquer experimento).
    Os dados amostrais (reduzidos a 0 e 1) devem ser reunidos em uma tabela com (n) linhas e (k) colunas.
    Torna-se possível, assim, definir se a proporção (ou freqüência) de respostas é a mesma em cada uma das (k) colunas comparadas, ou se, pelo contrário, houve influência sobre ela dos métodos ou dos padrões de julgamento utilizados para avaliá-las.
    O teste aplica-se a uma grande variedade de situações, bastando para isso que os dados possam ser reduzidos a valores 0 e 1, e possam ser reunidos em tabelas desse tipo (n x k).
    O teste é, no fundo, um teste de c² (qui-quadrado), para (k-1) graus de liberdade.
    O programa já calcula automaticamente qual a probabilidade de haver igualdade entre as amostras comparadas. Indica também o nível de significância estatística, quando forem detectadas diferenças entre as amostras.

19. Filosofia do teste de Friedman.

    O teste de Friedman é uma espécie de análise de variância a dois critérios de variação, para dados amostrais vinculados.
    Por exemplo: a superfície de corpos-de-prova construídos com diversos tipos de materiais poderia ser avaliada sucessivamente por dois ou mais métodos diferentes.
    Nesse caso, os dois critérios de variação seriam: 1) os métodos de avaliação; e 2) os materiais utilizados. As amostras são vinculadas porque as avaliações se fazem na mesma superfície de cada corpo-de-prova.
    O teste responde a este tipo de pergunta: seria idêntica a avaliação da superfície pelos vários métodos, em relação aos diversos materiais? Ou então: responderiam os materiais igualmente aos diversos métodos de avaliação? Ou ainda: haveria concordância entre os diversos métodos em relação à avaliação da superfície dos corpos-de-prova?
    A resposta do teste depende de qual dos fatores esteja colocado nas colunas de uma tabela de dados com k colunas e n linhas.
    Desse modo, a organização da tabela de dados é muito importante, uma vez que depende dela a interpretação do resultado do teste. O fator comparado principal deve ser colocado nas colunas, e os dados serão introduzidos no sentido das linhas da tabela.
    O teste de Friedman não utiliza os dados numéricos diretamente, mas sim os postos ocupados por eles, após a ordenação por valores ascendentes desses dados. A ordenação numérica é feita separadamente em cada uma das amostras, e não em conjunto.
    A filosofia do teste considera que, se as diversas amostras provêm de uma mesma população, isto é, se elas são estatisticamente iguais (hipótese de nulidade, ou de (H0), a distribuição dos postos nas diversas colunas será mais ou menos eqüivalente, de modo que a soma dos postos em cada coluna será aproximadamente igual.
    A hipótese alternativa (H1) seria de que as amostras não pertenceriam à mesma população — isto é, seriam diferentes — e nesse caso haveria diferenças entre as somas das diversas colunas.

Teste para mais de uma variável (regressão e correlação).

20. Filosofia dos testes de regressão e correlação.

    O teste de regressão linear ¾ e seu complemento natural, que é o teste de correlação ¾ são testes estatísticos extremamente úteis porque permitem estudar o comportamento de duas (ou mais) variáveis ao mesmo tempo, buscando detectar uma possível relação proporcional coerente entre a variação de uma em função da variação da outra (ou das outras, quando mais de duas).
    As variáveis podem ser as mais heterogêneas, ao contrário de outros testes que, para que duas ou mais amostras possam ser comparadas, exigem que a variável seja única. Assim, esse teste de regressão e correlação pode reunir variáveis tão heterogêneas quanto o tamanho das melancias de uma plantação e o teor de cálcio ou de potássio do adubo utilizado para fertilizar a terra onde elas crescem.
    O teste é também particularmente útil quando se deseja avaliar ou comparar tendências, tais como o comportamento da inflação ao longo do ano, ou a tendência da queda ou do aumento da inflação num determinado ano, em relação ao de outro ano qualquer.
    A regressão linear refere-se sempre à linha reta. Contudo, nem sempre a equação matemática que traduz um fenômeno científico se traduz por uma linha reta. Porém muitas delas podem ser reduzidas a uma reta, por meio de transformações algébricas adequadas.
    Por exemplo: um determinado fenômeno natural pode ser representado por uma hipérbole, cuja equação matemática é y = 1 / a + bx. Caso se faça a inversão dos termos (y) e (a + bx), obter-se-á uma nova expressão algébrica para a mesma igualdade: 
1 / y = a + bx. Chamando y' ao termo 1 / y, tem-se: y' = a + bx, que é a expressão algébrica da linha reta. Assim, a transformação y' = 1 / y tende a retificar uma linha originalmente curva, como é o caso da hipérbole.
    Essas transformações, que tornam possível a regressão linear de algumas curvas comumente encontradas em pesquisa científica, é o objeto do presente teste. A correlação entre duas variáveis é expressa por r, cujo valor varia de +1 (correlação direta) a -1 (correlação inversa). O valor r = 0 indica ausência de correlação.

Esta página foi elaborada com apoio do Programa Incentivo à Produção de Material Didático do SIAE, Pró-Reitorias de Graduação e Pós-Graduação da USP.