O que é?

Testes paramétricos

Os testes paramétricos são métodos estatísticos que assumem uma distribuição específica dos dados, geralmente a distribuição normal. Eles também pressupõem outras condições, como homogeneidade de variâncias e a relação linear entre variáveis.
Como mencionado anteriormente, a distribuição precisa ser conhecida, já que requerem que os dados sigam certas distribuições (frequentemente normal). Requerem também homocedasticidade, uma vez que pressupõem que as variâncias dos grupos são iguais; e demandam apresentar relações lineares, para as quais são mais eficazes em analisar. Alguns exemplos conhecidos:

• Teste t (incluindo t de Student para amostras independentes ou pareadas);
• ANOVA (Análise de Variância);
• Regressão Linear.

Testes paramétricos são uteis quando os dados são aproximadamente normais e as outras suposições são atendidas. E pode ser utilizado em dados com amostras grandes, onde o Teorema do Limite Central pode justificar a aplicação de testes paramétricos, ou seja, em contextos de Big Data possuem muita aplicabilidade.

Porque Teorema do Limite Central dialoga tanto com Big Data?

Em Big Data, frequentemente lidamos com conjuntos de dados muito grandes para serem processados ou analisados integralmente. O Teorema do Limite Central permite que analistas e cientistas de dados tirem amostras representativas desses grandes conjuntos e façam inferências estatísticas confiáveis.

Testes não paramétricos

Já os testes não paramétricos não assumem uma distribuição específica dos dados. São métodos mais flexíveis usados quando as suposições dos testes paramétricos não são atendidas. Como mencionado, os testes não paramétricos não requerem a suposição de uma distribuição normal, isso os torna testes mais flexíveis e adequados para dados ordinais, de classificação ou altamente não normais. E outro ponto positivo é o fato dele ser menos sensíveis a outliers, ou seja, tendem a ser mais robustos em relação a dados com outliers. Alguns exemplos de testes não paramétricos:

• Teste de Mann-Whitney U (comparação de duas amostras independentes);
• Teste de Wilcoxon (comparação de duas amostras pareadas);
• Teste de Kruskal-Wallis (equivalente não paramétrico da ANOVA);
• Teste de Chi-Quadrado (para independência em tabelas de contingência).

Esses testes são uma boa pedida para quando os dados não atendem às suposições dos testes paramétricos, como a normalidade. Em amostras pequenas, onde a validade das suposições paramétricas não pode ser estabelecida, o teste de Exato de Fisher é ótimo, ou com dados ordinais ou de classificação.

Qual tipo de teste devo escolher?

Devemos começar a pergunta com qual é o tipo do meu dado, isso afeta diretamente qual vai ser o teste aplicado, por exemplo:

Variável	Teste
Nominal	Teste de McNemar's
Ordinal (Categorias ordenadas)	Wilcoxon
Quantitativa (Discreta ou não normal)	Wilcoxon
Quantitativa (Normal)	Teste t-pareado

Abaixo temos uma tabela que auxilia qual teste devemos adotar diante do problema, tendo em vista a variável de entrada e a variável de desfecho.

Variável de Entrada Variável Desfecho	Nominal	Categórico	Ordinal	QD	QNN	QN
Nominal	Chi-2 ou Fisher's	Chi2	Chi2-trend ou Mann Whitney	Mann Whitney	Mann Whitney ou log-rank	Test t de Student
Categórico	Chi2	Chi2	Kruskal-Wallis	Kruskal-Wallis	Kruskal-Wallis	ANOVA
Ordinal	Chi2-trend ou Mann Whitney	*	Spearman Rank	Spearman Rank	Spearman Rank	Spearman Rank ou Regressão Linear
Quantitativo Discreto (QD)	Regressão Logística	*	*	Spearman Rank	Spearman Rank	Spearman Rank ou Regressão Linear
Quantitativo Não Normal (QNN)	Regressão Logística	*	*	*	Plot dos dados e Pearson ou Spearman Rank	Regressão Linear
Quantitativo Normal (QN)	Regressão Logística	*	*	*	Regressão Linear	Pearson e Regressão Linear

QD (Quantitativo Discreto): Variáveis quantitativas discretas são aquelas que assumem valores contáveis. Por exemplo, o número de filhos em uma família, a quantidade de carros passando por um pedágio ou o número de clientes entrando em uma loja, são todos exemplos de variáveis discretas.

QNN (Quantitativo Não Normal): Refere-se a variáveis quantitativas que não seguem uma distribuição normal. A distribuição normal é uma distribuição simétrica, onde a maioria das observações se agrupa em torno da média, diminuindo em frequência à medida que se afastam dela. Se os dados estão inclinados ou têm uma distribuição com múltiplos picos, eles seriam considerados não normais.

QN (Quantitativo Normal): São variáveis quantitativas que seguem uma distribuição normal. Em muitos contextos estatísticos, assume-se que os dados são normalmente distribuídos, o que permite o uso de vários testes estatísticos paramétricos.

Por fim, existem alguns testes paramétricos que possuem seu equivalente no não paramétrico:

Teste Paramétrico	Teste Não-Paramétrico Equivalente
Teste-t Pareado	Teste da soma de Wilcoxon Rank
Teste-t Não Pareado	Teste de Mann-Whitney
Correlação de Pearson	Correlação de Spearman
ANOVA	Teste de Kruskal Wallis

Conclusão

A escolha entre um teste paramétrico e um não paramétrico depende da natureza dos seus dados e das suposições que você pode razoavelmente fazer sobre eles. Em geral, testes paramétricos têm maior poder estatístico e são preferíveis se suas suposições forem atendidas. No entanto, quando essas suposições são violadas, os testes não paramétricos oferecem uma alternativa valiosa e muitas vezes necessária.

Aplicações do testes paramétricos e não paramétricos

Estimar quantidades populacionais
Testar hipóteses
Comparar grupos
Estimar distribuições
Estimar curvas

O que é?

Testes paramétricos

Testes não paramétricos

Qual tipo de teste devo escolher?

Conclusão

Referências