Pular para conteúdo

Correlação

O que é Análise de Correlação?

A Análise de Correlação é uma técnica estatística que avalia como as variáveis estão relacionadas entre si. Em termos de seleção de recursos, ela é usada para identificar características que têm forte correlação com a variável alvo. O coeficiente de correlação (Pearson, Spearman ou Kendall) é calculado entre cada característica e a variável alvo. Os resultados de alta correlação (positiva ou negativa) com a variável alvo são consideradas importantes. A técnica pode ser utilizada para identificar multicolinearidade, se há redundância nas caractéristicas, se são relevantes; além disso, é uma técnica simples e fácil de ser utilizada.

Existem limitações na correlação, como o fato dela só captar relações lineares entre as variáveis, outros padrões ela não é capaz de identificar. Abaixo, temos um gráfico entre duas variáveis X e Y, existe uma correlação entre elas, porém não linear, isso não seria captado.

Image title

Cuidados

• Pode levar à exclusão de características importantes em relações não lineares.
• Deve-se considerar o tipo de correlação a ser usado baseado na natureza dos dados.
• Não descartar automaticamente características com baixa correlação, pois podem ser úteis em combinação com outras.
• Avaliar a presença de outliers é essencial, pois eles podem ter um impacto significativo no coeficiente de correlação.

Teste de Correlação de Pearson

O coeficiente de correlação de Pearson é uma medida estatística que quantifica a relação linear entre duas variáveis quantitativas. É um dos métodos mais comuns para avaliar a força e a direção da associação linear entre variáveis contínuas.

Como Funciona o Teste de Correlação de Pearson

Cálculo do Coeficiente: O coeficiente de Pearson (denotado como r) varia entre -1 e 1. Um valor de r = 1 indica uma correlação positiva perfeita, r = -1 indica uma correlação negativa perfeita, e r = 0 significa que não há correlação linear.

Fórmula: O coeficiente de Pearson é calculado como a covariância das variáveis dividida pelo produto dos seus desvios padrão.

Significância Estatística: Testes estatísticos podem ser usados para avaliar se o coeficiente de correlação é significativamente diferente de zero, indicando uma relação linear significativa.

Dicas

• rXY é uma estatística adimensional (sem unidade de medida);
• rXY é a propriado quando X e Y são variáveis quantitativas;
• rXY é o mesmoquer YX (rótulosX e Y intercambiáveis);
• Pode ser influenciado por valores atípicos.

O sinal do coeficiente de correlação linear de Pearson afeta diretamente o desenho do gráfico. Abaixo, um exemplo dos sinais e de qual é a sua localização no plano cartesiano de X e Y.

Cuidados

Correlação não implica causalidade. Uma correlação significativa entre duas variáveis não significa que uma causa a outra.

Image title
Fonte: Material da pós graduação da UFMG.

Quando utilizar?

- Adequado para dados quantitativos contínuos.

- Utilizado quando se suspeita que a relação entre as variáveis é linear.

- Comumente usado na análise exploratória de dados para identificar relações potenciais entre variáveis.

Dicas

Image title
Fonte: Material da pós graduação da UFMG.

No case

Foi utilizada a Correlação de Pearson na etapa da análise explortatória. Nesse primeiro momento, ela foi utilizada com a finalidade de visualizar potenciais correlações entre as colunas.

Aplicação da correlação de pearson no Case

          

Referências