Criar um cluster do Dataproc usando a CLI gcloud

Nesta página, mostramos como usar a Google Cloud CLI gcloud para criar um cluster do Google Cloud cluster do Dataproc, execute um job do Apache Spark no cluster e modificar o número de workers no cluster.

Saiba como fazer as mesmas tarefas ou tarefas semelhantes com os Guias de início rápido sobre como usar o APIs Explorer, console do Google Cloud Criar um cluster do Dataproc usando o console do Google Cloud, e usar as bibliotecas de cliente Criar um cluster do Dataproc usando bibliotecas de cliente.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Enable the Dataproc API.

    Enable the API

Criar um cluster

Execute o seguinte comando para criar um cluster chamado example-cluster. Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list para ver uma lista de regiões disponíveis). Consulte também Endpoints regionais para aprender sobre endpoints regionais.

gcloud dataproc clusters create example-cluster --region=region

A criação do cluster é confirmada na saída do comando:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envie um job

Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica:

  • Você quer executar um job spark no cluster example-cluster na região especificada
  • O class que contém o método principal do aplicativo de cálculo de pi do job
  • O local do arquivo jar contendo o código do job
  • todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

A execução do job e os resultados finais são exibidos na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Os detalhes do cluster são exibidos na saída do comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  • Execute clusters delete para excluir seu cluster de exemplo.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Você precisará confirmar a exclusão do cluster. Digite y para concluir a exclusão.

A seguir