Componente Jupyter facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.

Il componente Jupyter è un blocco note basato sul web per utente singolo per l'analisi interattiva dei dati e supporta JupyterLab UI web. L'interfaccia utente web di Jupyter è disponibile sulla porta 8123 sul primo nodo master del cluster.

Avvia blocchi note per più utenti. Puoi creare un cluster abilitato per Dataproc Istanza Vertex AI Workbench o installa il plug-in JupyterLab di Dataproc su una VM per distribuire i blocchi note a più utenti.

Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter proprietà del cluster. Per ridurre il rischio di esecuzione di codice remoto tramite un server di blocchi note non protetto API, la proprietà predefinita del cluster dataproc:jupyter.listen.all.interfaces è false, che limita le connessioni a localhost (127.0.0.1) quando il gateway dei componenti abilitato (l'attivazione del gateway dei componenti è necessaria quando si installa il componente Jupyter).

Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un del kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket temporaneo Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La località può essere modificata al momento della creazione del cluster utilizzando Proprietà del cluster dataproc:jupyter.notebook.gcs.dir.

Lavorare con i file di dati. Puoi usare un blocco note Jupyter per lavorare con i file di dati che sono stati caricate su Cloud Storage. Poiché il connettore Cloud Storage è preinstallata su un cluster Dataproc, puoi fare riferimento i file direttamente nel blocco note. Ecco un esempio che accede ai file CSV in Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Per esempi di PySpark, consulta Funzioni generiche di caricamento e salvataggio.

Installa Jupyter

Installa il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione di Dataproc Gateway dei componenti.

Console

  1. Attiva il componente.

Interfaccia a riga di comando gcloud

Per creare un cluster Dataproc che includa il componente Jupyter, utilizza la Comando cluster-name gcloud dataproc clusters create con il flag --optional-components.

Esempio di versione dell'immagine predefinita più recente

Il seguente esempio installa il componente Jupyter su un cluster che utilizza la versione dell'immagine predefinita più recente.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di un clusters.create richiesta.

Apri le UI di Jupyter e JupyterLab

Fai clic sui link al gateway dei componenti della console Google Cloud. per aprire nel browser locale il blocco note Jupyter o la UI JupyterLab in esecuzione il nodo master del cluster.

Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in entrambe le località.

Collega le GPU ai nodi master e worker

Puoi aggiungere GPU ai nodi master e worker del tuo cluster quando utilizzi un Jupyter Notebook per:

  1. Pre-elabora i dati in Spark, quindi raccogli un DataFrame sul master ed eseguirlo TensorFlow
  2. Utilizza Spark per orchestrare le esecuzioni di TensorFlow in parallelo
  3. Esegui Tensorflow-on-YARN
  4. Da utilizzare con altri scenari di machine learning che impiegano GPU