Correlação
O que é Análise de Correlação?
O coeficiente de correlação (Pearson, Spearman ou Kendall) é calculado entre cada característica e a variável alvo. Os resultados de alta correlação (positiva ou negativa) com a variável alvo são consideradas importantes. A técnica pode ser utilizada para identificar multicolinearidade, se há redundância nas caractéristicas, se são relevantes; além disso, é uma técnica simples e fácil de ser utilizada.
Existem limitações na correlação, como o fato dela só captar relações lineares entre as variáveis, outros padrões ela não é capaz de identificar. Abaixo, temos um gráfico entre duas variáveis X e Y, existe uma correlação entre elas, porém não linear, isso não seria captado.
Cuidados
• Pode levar à exclusão de características importantes em relações não lineares.
• Deve-se considerar o tipo de correlação a ser usado baseado na natureza dos dados.
• Não descartar automaticamente características com baixa correlação, pois podem ser úteis em combinação com outras.
• Avaliar a presença de outliers é essencial, pois eles podem ter um impacto significativo no coeficiente de correlação.
Teste de Correlação de Pearson
Como Funciona o Teste de Correlação de Pearson
Fórmula: O coeficiente de Pearson é calculado como a covariância das variáveis dividida pelo produto dos seus desvios padrão.
Significância Estatística: Testes estatísticos podem ser usados para avaliar se o coeficiente de correlação é significativamente diferente de zero, indicando uma relação linear significativa.
Dicas
• rXY é uma estatística adimensional (sem unidade de medida);
• rXY é a propriado quando X e Y são variáveis quantitativas;
• rXY é o mesmoquer YX (rótulosX e Y intercambiáveis);
• Pode ser influenciado por valores atípicos.
Cuidados
Correlação não implica causalidade. Uma correlação significativa entre duas variáveis não significa que uma causa a outra.

Fonte: Material da pós graduação da UFMG.
Quando utilizar?
- Utilizado quando se suspeita que a relação entre as variáveis é linear.
- Comumente usado na análise exploratória de dados para identificar relações potenciais entre variáveis.
No case
Aplicação da correlação de pearson no Case
