Puoi installare componenti aggiuntivi come Jupyter quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto il componente Jupyter.
Il componente Jupyter
è un blocco note basato sul web per utente singolo per l'analisi interattiva dei dati e supporta
JupyterLab
UI web. L'interfaccia utente web di Jupyter è disponibile sulla porta 8123
sul primo nodo master del cluster.
Avvia blocchi note per più utenti. Puoi creare un cluster abilitato per Dataproc Istanza Vertex AI Workbench o installa il plug-in JupyterLab di Dataproc su una VM per distribuire i blocchi note a più utenti.
Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter
proprietà del cluster.
Per ridurre il rischio di esecuzione di codice remoto tramite un server di blocchi note non protetto
API, la proprietà predefinita del cluster dataproc:jupyter.listen.all.interfaces
è false
, che limita le connessioni a localhost (127.0.0.1)
quando
il gateway dei componenti
abilitato (l'attivazione del gateway dei componenti è necessaria quando si installa il componente Jupyter).
Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un
del kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket temporaneo Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La località può essere modificata al momento della creazione del cluster utilizzando
Proprietà del cluster dataproc:jupyter.notebook.gcs.dir
.
Lavorare con i file di dati. Puoi usare un blocco note Jupyter per lavorare con i file di dati che sono stati caricate su Cloud Storage. Poiché il connettore Cloud Storage è preinstallata su un cluster Dataproc, puoi fare riferimento i file direttamente nel blocco note. Ecco un esempio che accede ai file CSV in Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Per esempi di PySpark, consulta Funzioni generiche di caricamento e salvataggio.
Installa Jupyter
Installa il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione di Dataproc Gateway dei componenti.
Console
- Attiva il componente.
- Nella console Google Cloud, apri Dataproc Crea un cluster . Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona Jupyter.
- In Gateway dei componenti, seleziona Attiva gateway dei componenti (vedi Visualizzazione e accesso agli URL del gateway dei componenti).
Interfaccia a riga di comando gcloud
Per creare un cluster Dataproc che includa il componente Jupyter,
utilizza la
Comando cluster-name gcloud dataproc clusters create con il flag --optional-components
.
Esempio di versione dell'immagine predefinita più recente
Il seguente esempio installa il componente Jupyter su un cluster che utilizza la versione dell'immagine predefinita più recente.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
Il componente Jupyter
può essere installato tramite l'API Dataproc utilizzando
SoftwareConfig.Component
nell'ambito di un
clusters.create
richiesta.
- Imposta EndpointConfig.enableHttpPortAccess
proprietà a
true
nell'ambito diclusters.create
per abilitare la connessione all'interfaccia utente web del blocco note Jupyter utilizzando Gateway dei componenti.
Apri le UI di Jupyter e JupyterLab
Fai clic sui link al gateway dei componenti della console Google Cloud. per aprire nel browser locale il blocco note Jupyter o la UI JupyterLab in esecuzione il nodo master del cluster.
Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in entrambe le località.
Collega le GPU ai nodi master e worker
Puoi aggiungere GPU ai nodi master e worker del tuo cluster quando utilizzi un Jupyter Notebook per:
- Pre-elabora i dati in Spark, quindi raccogli un DataFrame sul master ed eseguirlo TensorFlow
- Utilizza Spark per orchestrare le esecuzioni di TensorFlow in parallelo
- Esegui Tensorflow-on-YARN
- Da utilizzare con altri scenari di machine learning che impiegano GPU