O que é?
Testes paramétricos
Os testes paramétricos são métodos estatísticos que assumem uma distribuição específica dos dados, geralmente a distribuição normal. Eles também pressupõem outras condições, como homogeneidade de variâncias e a relação linear entre variáveis.
Como mencionado anteriormente, a distribuição precisa ser conhecida, já que requerem que os dados sigam certas distribuições (frequentemente normal). Requerem também homocedasticidade, uma vez que pressupõem que as variâncias dos grupos são iguais; e demandam apresentar relações lineares, para as quais são mais eficazes em analisar. Alguns exemplos conhecidos:
• Teste t (incluindo t de Student para amostras independentes ou pareadas);
• ANOVA (Análise de Variância);
• Regressão Linear.
Testes paramétricos são uteis quando os dados são aproximadamente normais e as outras suposições são atendidas. E pode ser utilizado em dados com amostras grandes, onde o Teorema do Limite Central pode justificar a aplicação de testes paramétricos, ou seja, em contextos de Big Data possuem muita aplicabilidade.
Como mencionado anteriormente, a distribuição precisa ser conhecida, já que requerem que os dados sigam certas distribuições (frequentemente normal). Requerem também homocedasticidade, uma vez que pressupõem que as variâncias dos grupos são iguais; e demandam apresentar relações lineares, para as quais são mais eficazes em analisar. Alguns exemplos conhecidos:
• Teste t (incluindo t de Student para amostras independentes ou pareadas);
• ANOVA (Análise de Variância);
• Regressão Linear.
Testes paramétricos são uteis quando os dados são aproximadamente normais e as outras suposições são atendidas. E pode ser utilizado em dados com amostras grandes, onde o Teorema do Limite Central pode justificar a aplicação de testes paramétricos, ou seja, em contextos de Big Data possuem muita aplicabilidade.
Porque Teorema do Limite Central dialoga tanto com Big Data?
Em Big Data, frequentemente lidamos com conjuntos de dados muito grandes para serem processados ou analisados integralmente. O Teorema do Limite Central permite que analistas e cientistas de dados tirem amostras representativas desses grandes conjuntos e façam inferências estatísticas confiáveis.
Testes não paramétricos
Já os testes não paramétricos não assumem uma distribuição específica dos dados. São métodos mais flexíveis usados quando as suposições dos testes paramétricos não são atendidas.
Como mencionado, os testes não paramétricos não requerem a suposição de uma distribuição normal, isso os torna testes mais flexíveis e adequados para dados ordinais, de classificação ou altamente não normais. E outro ponto positivo é o fato dele ser menos sensíveis a outliers, ou seja, tendem a ser mais robustos em relação a dados com outliers. Alguns exemplos de testes não paramétricos:
• Teste de Mann-Whitney U (comparação de duas amostras independentes);
• Teste de Wilcoxon (comparação de duas amostras pareadas);
• Teste de Kruskal-Wallis (equivalente não paramétrico da ANOVA);
• Teste de Chi-Quadrado (para independência em tabelas de contingência).
Esses testes são uma boa pedida para quando os dados não atendem às suposições dos testes paramétricos, como a normalidade. Em amostras pequenas, onde a validade das suposições paramétricas não pode ser estabelecida, o teste de Exato de Fisher é ótimo, ou com dados ordinais ou de classificação.
• Teste de Mann-Whitney U (comparação de duas amostras independentes);
• Teste de Wilcoxon (comparação de duas amostras pareadas);
• Teste de Kruskal-Wallis (equivalente não paramétrico da ANOVA);
• Teste de Chi-Quadrado (para independência em tabelas de contingência).
Esses testes são uma boa pedida para quando os dados não atendem às suposições dos testes paramétricos, como a normalidade. Em amostras pequenas, onde a validade das suposições paramétricas não pode ser estabelecida, o teste de Exato de Fisher é ótimo, ou com dados ordinais ou de classificação.
Qual tipo de teste devo escolher?
Devemos começar a pergunta com qual é o tipo do meu dado, isso afeta diretamente qual vai ser o teste aplicado, por exemplo:
| Variável | Teste |
|---|---|
| Nominal | Teste de McNemar's |
| Ordinal (Categorias ordenadas) | Wilcoxon |
| Quantitativa (Discreta ou não normal) | Wilcoxon |
| Quantitativa (Normal) | Teste t-pareado |
Abaixo temos uma tabela que auxilia qual teste devemos adotar diante do problema, tendo em vista a variável de entrada e a variável de desfecho.
| Variável de Entrada Variável Desfecho | Nominal | Categórico | Ordinal | QD | QNN | QN |
|---|---|---|---|---|---|---|
| Nominal | Chi-2 ou Fisher's | Chi2 | Chi2-trend ou Mann Whitney | Mann Whitney | Mann Whitney ou log-rank | Test t de Student |
| Categórico | Chi2 | Chi2 | Kruskal-Wallis | Kruskal-Wallis | Kruskal-Wallis | ANOVA |
| Ordinal | Chi2-trend ou Mann Whitney | * | Spearman Rank | Spearman Rank | Spearman Rank | Spearman Rank ou Regressão Linear |
| Quantitativo Discreto (QD) | Regressão Logística | * | * | Spearman Rank | Spearman Rank | Spearman Rank ou Regressão Linear |
| Quantitativo Não Normal (QNN) | Regressão Logística | * | * | * | Plot dos dados e Pearson ou Spearman Rank | Regressão Linear |
| Quantitativo Normal (QN) | Regressão Logística | * | * | * | Regressão Linear | Pearson e Regressão Linear |
QD (Quantitativo Discreto): Variáveis quantitativas discretas são aquelas que assumem valores contáveis. Por exemplo, o número de filhos em uma família, a quantidade de carros passando por um pedágio ou o número de clientes entrando em uma loja, são todos exemplos de variáveis discretas.
QNN (Quantitativo Não Normal): Refere-se a variáveis quantitativas que não seguem uma distribuição normal. A distribuição normal é uma distribuição simétrica, onde a maioria das observações se agrupa em torno da média, diminuindo em frequência à medida que se afastam dela. Se os dados estão inclinados ou têm uma distribuição com múltiplos picos, eles seriam considerados não normais.
QN (Quantitativo Normal): São variáveis quantitativas que seguem uma distribuição normal. Em muitos contextos estatísticos, assume-se que os dados são normalmente distribuídos, o que permite o uso de vários testes estatísticos paramétricos.
Por fim, existem alguns testes paramétricos que possuem seu equivalente no não paramétrico:
QNN (Quantitativo Não Normal): Refere-se a variáveis quantitativas que não seguem uma distribuição normal. A distribuição normal é uma distribuição simétrica, onde a maioria das observações se agrupa em torno da média, diminuindo em frequência à medida que se afastam dela. Se os dados estão inclinados ou têm uma distribuição com múltiplos picos, eles seriam considerados não normais.
QN (Quantitativo Normal): São variáveis quantitativas que seguem uma distribuição normal. Em muitos contextos estatísticos, assume-se que os dados são normalmente distribuídos, o que permite o uso de vários testes estatísticos paramétricos.
Por fim, existem alguns testes paramétricos que possuem seu equivalente no não paramétrico:
| Teste Paramétrico | Teste Não-Paramétrico Equivalente |
|---|---|
| Teste-t Pareado | Teste da soma de Wilcoxon Rank |
| Teste-t Não Pareado | Teste de Mann-Whitney |
| Correlação de Pearson | Correlação de Spearman |
| ANOVA | Teste de Kruskal Wallis |
Conclusão
A escolha entre um teste paramétrico e um não paramétrico depende da natureza dos seus dados e das suposições que você pode razoavelmente fazer sobre eles. Em geral, testes paramétricos têm maior poder estatístico e são preferíveis se suas suposições forem atendidas. No entanto, quando essas suposições são violadas, os testes não paramétricos oferecem uma alternativa valiosa e muitas vezes necessária.
Aplicações do testes paramétricos e não paramétricos
Estimar quantidades populacionais
Testar hipóteses
Comparar grupos
Estimar distribuições
Estimar curvas
Referências
- UFBA - Aula sobre Estatística Não Paramétrica (PDF)
- UFMG - Relatório Técnico sobre Estatística Não Paramétrica (PDF)
- Wikipedia - Estatística Não Paramétrica
- UFPR - Resumo sobre Estatística Não Paramétrica (PDF)
- FGV - Teste dos Sinais, Wilcoxon e Mann-Whitney (PDF)
- Minitab Blog - Como escolher entre um teste não paramétrico e um teste paramétrico
- Parametric and Non-parametric tests for comparing two or more groups