Análise de Componentes Principais (PCA)
O PCA segue os seguintes passos:
1. Padronizar os dados (média zero e variação unitária).
2. Calcular a matriz de covariância dos dados padronizados.
3. Calcular os autovalores e autovetores da matriz de covariância.
4. Ordenar os autovetores pelo seu autovalor correspondente, em ordem decrescente.
5. Selecionar os N primeiros autovetores para formar o conjunto de componentes principais, onde N é o número de componentes desejado.
6. Transformar os dados originais usando este conjunto de autovetores para obter os dados projetados sobre os componentes principais.
Aplicabilidades
• Quando existe a necessidade de reduzir a quantidade de variáveis, mas manter a maior parte da informação.
• Quando há dados com muitas variáveis correlacionadas (multicolinearidade).
• Quando se deseja visualizar a estrutura de alta dimensão dos dados em um espaço de menor dimensão.
• Quando se deseja criar um índice.
• Para realizar feature selection (aspecto considerado polêmico).
A análise de componentes realiza combinações lineares das variáveis originais, o que pode dificultar a interpretabilidade das componentes. No entanto, temos os pesos de cada variável para aquela componente. Assim, ao pegarmos a componente com a maior variância (explicabilidade), geralmente a primeira, podemos observar a carga de cada variável para a componente (component loadings). Apesar de auxiliar no processo de feature selection, o PCA não é adequado para ser utilizado sozinho.
Cuidados que se deve ter ao interpretar os resultados do PCA.
• Considerar a variação total explicada pelas componentes selecionadas.
• A análise de carga dos componentes pode ajudar a entender como as variáveis originais contribuem para cada componente.
• O PCA é sensível a outliers, que podem distorcer a direção dos componentes principais.
• A escolha do número de componentes a serem mantidos deve ser feita com base na quantidade de variação que se deseja capturar.
• Em contextos supervisionados, é importante usar o PCA de maneira que não incorpore informações do conjunto de teste durante o treinamento.
• A proporção de variação explicada por cada componente principal é uma peça-chave para decidir quantos componentes reter.
• A perda de informação pode ocorrer se um número muito limitado de componentes for selecionado.
No case
No case, o PCA foi utilizado para reduzir as dimensões de vento e umidade, sendo também aplicado como técnica de feature selection.
Referências
- Stack Exchange - Usando Análise de Componentes Principais (PCA) para seleção de recursos
- Towards Data Science - PCA não é seleção de recursos
- Hastie et al. - Artigo sobre Análise Espectral de Componentes Principais (PDF)
- UTSA - Análise de Componentes Principais: Uma Abordagem para a Engenharia de Recursos (PDF)
- Medium - Análise de Componentes Principais: Técnica de Extração de Recursos
- Medium - Análise de Componentes Principais (PCA) na Engenharia de Recursos
- Material da especialização da UFMG