Componente Jupyter opcional do Dataproc

É possível instalar outros componentes, como o Jupyter, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você conhecerá o componente Jupyter.

O componente Jupyter é um notebook de usuário único baseado na Web para análise de dados interativos e compatível com JupyterLab IU da Web. A interface da Web do Jupyter está disponível na porta 8123 do primeiro nó mestre do cluster.

Abrir notebooks para vários usuários. Você pode criar uma instância Instância do Vertex AI Workbench ou instale o plug-in do Dataproc JupyterLab em uma VM para exibir notebooks a vários usuários.

Configure o Jupyter. O Jupyter pode ser configurado fornecendo propriedades do cluster dataproc:jupyter. Reduzir o risco da execução remota de código em um servidor de notebook não seguro APIs, a propriedade de cluster dataproc:jupyter.listen.all.interfaces padrão configuração é false, o que restringe as conexões a localhost (127.0.0.1) quando o Gateway de Componentes está ativado (a ativação do Gateway de componentes é necessária ao instalar o componente Jupyter).

O notebook do Jupyter fornece um kernel em Python para executar o código Spark (link em inglês) e uma Kernel do PySpark. Por padrão, os notebooks são salvos no Cloud Storage no bucket de preparação do Dataproc, que é especificado pelo usuário ou criado automaticamente na criação do cluster. O local pode ser alterado no momento da criação do cluster usando a propriedade dataproc:jupyter.notebook.gcs.dir.

Trabalhar com arquivos de dados. É possível usar um notebook do Jupyter para trabalhar com arquivos de dados que foram carregados no Cloud Storage. Como o conector do Cloud Storage pré-instalado em um cluster do Dataproc, poderá consultar o arquivos diretamente no seu notebook. Aqui está um exemplo que acessa arquivos CSV em Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Consulte Funções genéricas de carregar e salvar para conferir exemplos do PySpark.

Instalar o Jupyter

Instale o componente ao criar um cluster do Dataproc. O componente Jupyter requer a ativação do Dataproc Gateway de componentes.

Console

  1. Ativar o componente.
    • No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel Configurar cluster está selecionado.
    • Na seção Componentes:

CLI da gcloud

Para criar um cluster do Dataproc que inclua o componente Jupyter, use o método O comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

Exemplo da versão de imagem padrão mais recente

O exemplo a seguir instala o componente Jupyter em um cluster que usa a versão de imagem padrão mais recente.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

O componente Jupyter podem ser instalados pela API Dataproc usando SoftwareConfig.Component como parte de um clusters.create solicitação.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos links do Gateway de componentes do console do Google Cloud para abrir no navegador local a IU do Jupyter Notebook ou do JupyterLab em execução no nó mestre do cluster.

Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em um local ou em outro.

Anexar GPUs a nós mestres e de trabalho

É possível adicionar GPUs aos nós mestre e de trabalho do cluster ao usar um notebook do Jupyter para:

  1. Pré-processar dados no Spark e, em seguida, coletar um DataFrame no mestre e executar TensorFlow
  2. Usar o Spark para orquestrar execuções do TensorFlow em paralelo
  3. Execute Tensorflow-on-YARN
  4. Usar com outros cenários de machine learning que usam GPUs