Pular para conteúdo

Aba Storage

Storage na Spark UI

spark-webui-storage

A aba "Storage" da Spark UI é um recurso valioso que fornece insights detalhados sobre o armazenamento e gerenciamento dos RDDs (Resilient Distributed Datasets) e DataFrames durante a execução de uma aplicação Spark. Esta aba é especialmente útil para monitorar a eficácia do armazenamento em cache e para otimizar o desempenho do aplicativo, ajustando as estratégias de armazenamento em cache conforme necessário.

Aqui está uma visão geral das informações chave que você encontrará na aba "Storage":
  • RDD Name / DataFrame Name: Serve como identificador, mostrando o nome ou ID do RDD ou DataFrame. É possível clicar no nome para acessar detalhes mais específicos sobre o dataset em questão.
  • Storage Level: Mostra o nível de armazenamento definido para o RDD ou DataFrame. Isso pode variar de MEMORY_ONLY a MEMORY_AND_DISK, entre outras opções.
  • Cached Partitions: Indica quantas partições de um RDD ou DataFrame estão armazenadas em cache.
  • Fraction Cached: Apresenta uma representação percentual, ilustrando a porção das partições que foram armazenadas em cache.
  • Size in Memory: Destaca o espaço total em memória que o RDD ou DataFrame ocupa.
  • Size on Disk: Se relevante, mostra o espaço total no disco usado pelo RDD ou DataFrame.
  • Executors: Fornece detalhes sobre quais executores mantêm partes do RDD ou DataFrame e o espaço consumido por cada um.
Esta aba é um componente vital da Spark UI, auxiliando desenvolvedores e administradores a monitorar o armazenamento, identificar gargalos e tomar decisões informadas para otimizar a eficiência do armazenamento em cache.

Referências

The Internals of Spark Core UI - Guia de um Mestre
Documentação Oficial da Spark UI