Pular para conteúdo

O que é?

Testes paramétricos

Os testes paramétricos são métodos estatísticos que assumem uma distribuição específica dos dados, geralmente a distribuição normal. Eles também pressupõem outras condições, como homogeneidade de variâncias e a relação linear entre variáveis.
Como mencionado anteriormente, a distribuição precisa ser conhecida, já que requerem que os dados sigam certas distribuições (frequentemente normal). Requerem também homocedasticidade, uma vez que pressupõem que as variâncias dos grupos são iguais; e demandam apresentar relações lineares, para as quais são mais eficazes em analisar. Alguns exemplos conhecidos:

• Teste t (incluindo t de Student para amostras independentes ou pareadas);
• ANOVA (Análise de Variância);
• Regressão Linear.

Testes paramétricos são uteis quando os dados são aproximadamente normais e as outras suposições são atendidas. E pode ser utilizado em dados com amostras grandes, onde o Teorema do Limite Central pode justificar a aplicação de testes paramétricos, ou seja, em contextos de Big Data possuem muita aplicabilidade.

Porque Teorema do Limite Central dialoga tanto com Big Data?

Em Big Data, frequentemente lidamos com conjuntos de dados muito grandes para serem processados ou analisados integralmente. O Teorema do Limite Central permite que analistas e cientistas de dados tirem amostras representativas desses grandes conjuntos e façam inferências estatísticas confiáveis.

Testes não paramétricos

Já os testes não paramétricos não assumem uma distribuição específica dos dados. São métodos mais flexíveis usados quando as suposições dos testes paramétricos não são atendidas. Como mencionado, os testes não paramétricos não requerem a suposição de uma distribuição normal, isso os torna testes mais flexíveis e adequados para dados ordinais, de classificação ou altamente não normais. E outro ponto positivo é o fato dele ser menos sensíveis a outliers, ou seja, tendem a ser mais robustos em relação a dados com outliers. Alguns exemplos de testes não paramétricos:

• Teste de Mann-Whitney U (comparação de duas amostras independentes);
• Teste de Wilcoxon (comparação de duas amostras pareadas);
• Teste de Kruskal-Wallis (equivalente não paramétrico da ANOVA);
• Teste de Chi-Quadrado (para independência em tabelas de contingência).

Esses testes são uma boa pedida para quando os dados não atendem às suposições dos testes paramétricos, como a normalidade. Em amostras pequenas, onde a validade das suposições paramétricas não pode ser estabelecida, o teste de Exato de Fisher é ótimo, ou com dados ordinais ou de classificação.

Qual tipo de teste devo escolher?

Devemos começar a pergunta com qual é o tipo do meu dado, isso afeta diretamente qual vai ser o teste aplicado, por exemplo:
Variável Teste
Nominal Teste de McNemar's
Ordinal (Categorias ordenadas) Wilcoxon
Quantitativa (Discreta ou não normal) Wilcoxon
Quantitativa (Normal) Teste t-pareado
Abaixo temos uma tabela que auxilia qual teste devemos adotar diante do problema, tendo em vista a variável de entrada e a variável de desfecho.
Variável de Entrada Variável Desfecho Nominal Categórico Ordinal QD QNN QN
Nominal Chi-2 ou Fisher's Chi2 Chi2-trend ou Mann Whitney Mann Whitney Mann Whitney ou log-rank Test t de Student
Categórico Chi2 Chi2 Kruskal-Wallis Kruskal-Wallis Kruskal-Wallis ANOVA
Ordinal Chi2-trend ou Mann Whitney * Spearman Rank Spearman Rank Spearman Rank Spearman Rank ou Regressão Linear
Quantitativo Discreto (QD) Regressão Logística * * Spearman Rank Spearman Rank Spearman Rank ou Regressão Linear
Quantitativo Não Normal (QNN) Regressão Logística * * * Plot dos dados e Pearson ou Spearman Rank Regressão Linear
Quantitativo Normal (QN) Regressão Logística * * * Regressão Linear Pearson e Regressão Linear
QD (Quantitativo Discreto): Variáveis quantitativas discretas são aquelas que assumem valores contáveis. Por exemplo, o número de filhos em uma família, a quantidade de carros passando por um pedágio ou o número de clientes entrando em uma loja, são todos exemplos de variáveis discretas.

QNN (Quantitativo Não Normal): Refere-se a variáveis quantitativas que não seguem uma distribuição normal. A distribuição normal é uma distribuição simétrica, onde a maioria das observações se agrupa em torno da média, diminuindo em frequência à medida que se afastam dela. Se os dados estão inclinados ou têm uma distribuição com múltiplos picos, eles seriam considerados não normais.

QN (Quantitativo Normal): São variáveis quantitativas que seguem uma distribuição normal. Em muitos contextos estatísticos, assume-se que os dados são normalmente distribuídos, o que permite o uso de vários testes estatísticos paramétricos.

Por fim, existem alguns testes paramétricos que possuem seu equivalente no não paramétrico:
Teste Paramétrico Teste Não-Paramétrico Equivalente
Teste-t Pareado Teste da soma de Wilcoxon Rank
Teste-t Não Pareado Teste de Mann-Whitney
Correlação de Pearson Correlação de Spearman
ANOVA Teste de Kruskal Wallis

Conclusão

A escolha entre um teste paramétrico e um não paramétrico depende da natureza dos seus dados e das suposições que você pode razoavelmente fazer sobre eles. Em geral, testes paramétricos têm maior poder estatístico e são preferíveis se suas suposições forem atendidas. No entanto, quando essas suposições são violadas, os testes não paramétricos oferecem uma alternativa valiosa e muitas vezes necessária.

Aplicações do testes paramétricos e não paramétricos

☑ Estimar quantidades populacionais
☑ Testar hipóteses
☑ Comparar grupos
☑ Estimar distribuições
☑ Estimar curvas

Referências