Componente opcional Trino do Dataproc

É possível instalar componentes adicionais, como o Trino, ao criar um Dataproc cluster usando o Componentes opcionais . Esta página descreve como instalar opcionalmente o componente Trino em um cluster do Dataproc.

O Trino é uma plataforma de origem e de origem distribuída do consulta SQL. O servidor e a IU da Web do Trino estão disponíveis por padrão na porta 8060 (ou 7778, se o Kerberos estiver ativado) no primeiro nó mestre do cluster.

Por padrão, o Trino no Dataproc é configurado para funcionar com os conectores Hive, BigQuery, Memory, TPCH e TPCDS.

Depois de criar um cluster com o componente Trino, você pode executar consultas:

Instalar o componente

Instale o componente ao criar um cluster do Dataproc.

Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.

Comando gcloud

Para criar um cluster do Dataproc que inclua o componente Trino, use o método gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Como configurar propriedades

Adicione a flag --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração trino, trino-jvm e trino-catalog.

  • Propriedades do aplicativo: use as propriedades do cluster com o prefixo trino: para configurar as propriedades do aplicativo Trino, por exemplo, --properties="trino:join-distribution-type=AUTOMATIC".
  • Propriedades de configuração da JVM: use propriedades do cluster com o Prefixo trino-jvm: para configurar propriedades da JVM para o Trino coordenador e workers de processos Java, por exemplo, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Como criar novos catálogos e adicionar propriedades de catálogo: use trino-catalog:catalog-name.property-name para configurar catálogos do Trino.

    Exemplo:a flag "properties" a seguir pode ser usada usando o comando "gcloud dataproc clusters create" para criar um cluster do Trino com um "prodhive" catálogo do Hive. Um arquivo prodhive.properties será criado em /usr/lib/trino/etc/catalog/ para ativar o catálogo do prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

Especifique o componente Trino pela API Dataproc usando SoftwareConfig.Component como parte de um clusters.create solicitação.

Console

    1. Ative o componente e o gateway de componentes.
      • No console do Google Cloud, abra o Dataproc Criar um cluster página. O painel "Configurar cluster" está selecionado.
      • Na seção "Componentes:"