Skip to content

Apache Spark

Estevam edited this page May 3, 2023 · 1 revision

Instalação e Execução do Apache Spark no Ubuntu

Pré-requisitos

Antes de começar, certifique-se de que seu sistema atenda aos seguintes requisitos:

  • Linux (Ubuntu ou outra distribuição)
  • Java 8 ou superior
  • Python 2.7 ou 3.x
  • Acesso à Internet

Instalação por gerenciador de pacotes

  1. Abra o terminal e execute o seguinte comando para instalar o Apache Spark:

    bash

    sudo apt-get update
    sudo apt-get install spark
  2. Acesse a pasta /opt:

    bash

    cd /opt
  3. Baixe na raiz do projeto o arquivo spark-3.4.0-bin-hadoop3.tgz, mova o arquivo para a pasta /opt e descompacte o arquivo:

    bash

    sudo mv spark-3.4.0-bin-hadoop3.tgz /opt
    sudo tar -xvzf spark-3.4.0-bin-hadoop3.tgz
  4. Configure as variáveis de ambiente:

    bash

    sudo nano /etc/profile

    Adicione as seguintes linhas no final do arquivo:

    bash

    export SPARK_HOME=/opt/spark-3.4.0-bin-hadoop3
    export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

    Salve o arquivo e saia do editor de texto.

  5. Verifique se o PySpark está funcionando:

    bash

    pyspark
  6. Inicie o servidor Apache Spark:

    bash

    sudo /opt/spark-3.4.0-bin-hadoop3/sbin/start-master.sh
  7. Acesse o endereço http://localhost:8080/ para verificar se o servidor está funcionando.

    OBS: caso o servidor não esteja funcionando, verifique se a porta 8080 está liberada no firewall.

Utilizando o Apache Spark

  1. Importe as bibliotecas do PySpark e crie uma sessão Spark em seu projeto Python:

    python

    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder.appName("myApp").getOrCreate()
  2. Crie as funções que usam os serviços do Spark para realizar as tarefas desejadas.

  3. Execute seu aplicativo a partir do terminal com o comando:

    bash

    streamlit run app.py

A partir daí, é possível utilizar as funcionalidades e algoritmos implementados em seu projeto que utilizam o Apache Spark como processador de dados. Lembre-se que o Apache Spark funciona como um motor de processamento de dados distribuído, capaz de processar grandes conjuntos de dados de forma eficiente, o que pode ser particularmente útil em projetos que lidam com dados em escala.

Wiki Sidebar

Este arquivo descreve o conteúdo da barra lateral da Wiki do projeto. A barra lateral da Wiki ajuda a navegar pelo conteúdo da Wiki e a acessar informações importantes rapidamente.

Barra Lateral da Wiki

Índice

Recursos

Suporte e Comunidade

Sobre

A barra lateral da Wiki é composta por várias seções que incluem links para as principais páginas da Wiki. A seção "Índice" lista todas as páginas principais, como introdução, arquitetura, roadmap, guias de instalação e uso, entre outras. A seção "Recursos" inclui links para recursos úteis, como glossário, tutoriais e ferramentas. A seção "Suporte e Comunidade" fornece links para fóruns de discussão, chats do projeto e issue trackers. Por fim, a seção "Sobre" inclui informações sobre a equipe, agradecimentos e outros detalhes relacionados ao projeto.

Clone this wiki locally