Apache Spark

O Apache Spark é um framework de código aberto destinado à computação distribuída. Originou-se no AMPLab da Universidade da Califórnia e, posteriormente, foi transferido para a Apache Software Foundation, que tem gerenciado o projeto desde então. O Spark oferece uma interface para programação de clusters, garantindo paralelismo e tolerância a falhas.

Componentes do Spark:

- Spark Core: Base do framework, responsável pelo agendamento de tarefas, gerenciamento de memória e interações com sistemas de armazenamento.
- Spark SQL: Facilita a execução de consultas SQL em dados distribuídos e é compatível com diversas fontes de dados, como Hive, Avro, Parquet e JSON.
- Spark Streaming: Dedicado ao processamento de dados em tempo real.
- MLlib: Biblioteca para aprendizado de máquina.
- GraphX: Voltada para o processamento de gráficos distribuídos e computação paralela.

Características do Spark:

- Funciona tanto em ambientes locais quanto em nuvem.
- Processa dados de forma distribuída.
- Apresenta uma interface intuitiva e fácil de usar.
- Baseia-se no Resilient Distributed Dataset (RDD).
- Otimizado para alta performance, sendo ideal para análises em big data.
- Modular e extensível.
- Software de código aberto.
- Integra-se com várias bibliotecas, abrangendo Machine Learning, processamento de streaming, SQL, GraphX e outras.
- Suporta variados formatos de dados, incluindo CSV, JSON, parquet e Avro.
- Adota o conceito de Lazy Evaluation.
- Utiliza a convenção de nomenclatura camelCase.
- Compatível com linguagens de programação como Scala, Python, Java e R.

Referências

Wikipedia Apache Spark
O que é Apache Spark Google