Teste de Chi-Quadrado
O que é Teste de Chi-Quadrado (χ²)
O teste de Chi-Quadrado é uma técnica estatística usada para determinar se existe uma associação significativa entre duas variáveis categóricas. É frequentemente usado na seleção de recursos para identificar quais características são relevantes para a variável alvo. As hipóteses testadas pelo chi-quadrado é:
H0: As variáveis categóricas são independentes
Ha: As variáveis categóricas são dependentes
Utilizado em variáveis categóricas para testar a independência entre elas.
O teste compara a distribuição observada das variáveis com a distribuição esperada, se não houver relação entre elas (independência). O teste calcula um valor de χ² que quantifica a discrepância entre as frequências observadas e esperadas. Quanto maior o valor de χ², maior a evidência contra a hipótese de independência entre as variáveis. É aplicado em tabelas de contingência para avaliar se a distribuição de uma variável é afetada pela presença de outra.
Cuidados
• Um valor de χ² alto sugere que as variáveis não são independentes, ou seja, existe uma relação entre elas.
• O valor p associado ao teste indica a probabilidade de observar um valor de χ² tão extremo quanto o calculado, assumindo que as variáveis são independentes.
• É importante usar um teste de χ² corrigido (como o de Yates) para tabelas de contingência 2x2 ou quando as frequências esperadas são muito baixas.
• Existem variações do teste de χ², como o Teste de Fisher, que pode ser mais adequado para pequenos tamanhos de amostra.
• Gráficos de barras ou de mosaico podem ser úteis para visualizar a relação entre variáveis categóricas antes e após realizar o teste de χ².
Resumo
O teste de chi-quadrado é simples e fácil de aplicar em dados categóricos, ele pode ser usado mesmo quando os dados não seguem uma distribuição normal e é muito útil para identificar relações entre características que podem ser importantes para a classificação ou previsão (feature selection). Em contrapartida, só é aplicável a variáveis categóricas. Não é adequado para pequenos tamanhos de amostra, pois as estimativas podem ser imprecisas. E por fim vale mencionar que não identifica o tipo de relação entre as variáveis, apenas a existência de uma associação.
No Case
No case foram utilizadas as variaveis categóricas independentes relacionadas aos voos, por exemplo, cidade de origem, cidade destino, UF de origem e destino, aeroporto de origem e destino, e a variável categórica dependente foi o status do voo (pontual/atrasado).
Aplicação do Chi-Quadrado (χ²) no Case