Análise de Componentes Principais (PCA)

A Análise de Componentes Principais (PCA) é uma técnica de redução de dimensionalidade que transforma os dados originais em um novo conjunto de variáveis, denominadas componentes principais. Os elementos que compõem uma componente são ortogonais (não correlacionados e independentes). Estas componentes são obtidas de forma que a primeira capture a maior variação possível nos dados, e cada componente subsequente tenha a maior variação possível sob a restrição de ser ortogonal às componentes anteriores.

O PCA segue os seguintes passos:
1. Padronizar os dados (média zero e variação unitária).
2. Calcular a matriz de covariância dos dados padronizados.
3. Calcular os autovalores e autovetores da matriz de covariância.
4. Ordenar os autovetores pelo seu autovalor correspondente, em ordem decrescente.
5. Selecionar os N primeiros autovetores para formar o conjunto de componentes principais, onde N é o número de componentes desejado.
6. Transformar os dados originais usando este conjunto de autovetores para obter os dados projetados sobre os componentes principais.

Aplicabilidades

• Quando existe a necessidade de reduzir a quantidade de variáveis, mas manter a maior parte da informação.
• Quando há dados com muitas variáveis correlacionadas (multicolinearidade).
• Quando se deseja visualizar a estrutura de alta dimensão dos dados em um espaço de menor dimensão.
• Quando se deseja criar um índice.
• Para realizar feature selection (aspecto considerado polêmico).

O PCA tem a capacidade de reduzir a dimensionalidade, diminuindo o espaço de armazenamento e o tempo de computação. Ele pode reduzir a multicolinearidade, ou seja, variáveis que possuem uma grande correlação e medem coisas semelhantes podem ser reduzidas a um vetor numérico que represente essas variáveis. No caso aplicado, a técnica do PCA é usada nos elementos meteorológicos de vento e umidade, onde cada um desses elementos possui três métricas relacionadas a eles no dataset. Uma redução é aplicada, criando uma nova coluna chamada componente_umidade e componente_vento, cujos valores desses vetores passam a ser os valores referentes aos elementos meteorológicos de vento e umidade.

A análise de componentes realiza combinações lineares das variáveis originais, o que pode dificultar a interpretabilidade das componentes. No entanto, temos os pesos de cada variável para aquela componente. Assim, ao pegarmos a componente com a maior variância (explicabilidade), geralmente a primeira, podemos observar a carga de cada variável para a componente (component loadings). Apesar de auxiliar no processo de feature selection, o PCA não é adequado para ser utilizado sozinho.

Cuidados que se deve ter ao interpretar os resultados do PCA.

• Considerar a variação total explicada pelas componentes selecionadas.
• A análise de carga dos componentes pode ajudar a entender como as variáveis originais contribuem para cada componente.
• O PCA é sensível a outliers, que podem distorcer a direção dos componentes principais.
• A escolha do número de componentes a serem mantidos deve ser feita com base na quantidade de variação que se deseja capturar.
• Em contextos supervisionados, é importante usar o PCA de maneira que não incorpore informações do conjunto de teste durante o treinamento.
• A proporção de variação explicada por cada componente principal é uma peça-chave para decidir quantos componentes reter.
• A perda de informação pode ocorrer se um número muito limitado de componentes for selecionado.

No case

No case, o PCA foi utilizado para reduzir as dimensões de vento e umidade, sendo também aplicado como técnica de feature selection.

Aplicação do PCA no Case

Análise de Componentes Principais (PCA)

No case

Referências