Aba Storage
Storage na Spark UI
A aba "Storage" da Spark UI é um recurso valioso que fornece insights detalhados sobre o armazenamento e gerenciamento dos RDDs (Resilient Distributed Datasets) e DataFrames durante a execução de uma aplicação Spark. Esta aba é especialmente útil para monitorar a eficácia do armazenamento em cache e para otimizar o desempenho do aplicativo, ajustando as estratégias de armazenamento em cache conforme necessário.
Aqui está uma visão geral das informações chave que você encontrará na aba "Storage":
Aqui está uma visão geral das informações chave que você encontrará na aba "Storage":
- RDD Name / DataFrame Name: Serve como identificador, mostrando o nome ou ID do RDD ou DataFrame. É possível clicar no nome para acessar detalhes mais específicos sobre o dataset em questão.
- Storage Level: Mostra o nível de armazenamento definido para o RDD ou DataFrame. Isso pode variar de MEMORY_ONLY a MEMORY_AND_DISK, entre outras opções.
- Cached Partitions: Indica quantas partições de um RDD ou DataFrame estão armazenadas em cache.
- Fraction Cached: Apresenta uma representação percentual, ilustrando a porção das partições que foram armazenadas em cache.
- Size in Memory: Destaca o espaço total em memória que o RDD ou DataFrame ocupa.
- Size on Disk: Se relevante, mostra o espaço total no disco usado pelo RDD ou DataFrame.
- Executors: Fornece detalhes sobre quais executores mantêm partes do RDD ou DataFrame e o espaço consumido por cada um.
Esta aba é um componente vital da Spark UI, auxiliando desenvolvedores e administradores a monitorar o armazenamento, identificar gargalos e tomar decisões informadas para otimizar a eficiência do armazenamento em cache.
Referências
The Internals of Spark Core UI - Guia de um Mestre
Documentação Oficial da Spark UI