Visão geral do Dataplex

O Dataplex é uma malha de dados que unifica dados distribuídos e automatiza o gerenciamento e a governança de dados.

O Dataplex permite fazer o seguinte:

  • Crie uma malha de dados específica do domínio entre os dados armazenados em vários projetos do Google Cloud, sem qualquer movimentação de dados.
  • Controlar e monitorar os dados de forma consistente com um único conjunto de permissões.
  • Descubra e selecione metadados em vários silos usando os recursos de catálogo. Para mais informações, consulte Visão geral do Dataplex Catalog.
  • Consulte metadados com segurança usando o BigQuery e ferramentas de código aberto, como SparkSQL, Presto e HiveQL.
  • Executar tarefas de qualidade de dados e de gerenciamento do ciclo de vida dos dados, inclusive sem servidor Tarefas do Spark.
  • Analise dados usando ambientes do Spark totalmente gerenciados e sem servidor com a notebooks e consultas SparkSQL.

Por que usar o Dataplex?

As empresas têm dados distribuídos entre data lakes, data warehouses e data marts. Com o Dataplex, é possível fazer o seguinte:

  • Descobrir dados
  • Selecionar dados
  • Unificar dados sem mover dados
  • Organizar dados com base nas necessidades da sua empresa
  • Gerenciar, monitorar e controlar dados de maneira centralizada

Com o Dataplex, você pode padronizar e unificar metadados, políticas de segurança, governança, classificação e gerenciamento do ciclo de vida dos dados nesses dados distribuídos.

imagem

Como o Dataplex funciona

O Dataplex gerencia dados de uma maneira que não exige movimentação de dados ou duplicação. À medida que você identifica novas fontes de dados, o Dataplex coleta os metadados de dados estruturados e não estruturados, usando verificações de qualidade de dados para melhorar a integridade.

O Dataplex registra automaticamente todos os metadados em um metastore unificado. É possível acessar dados e metadados usando vários serviços e ferramentas incluindo o seguinte:

  • Serviços do Google Cloud, como BigQuery, Dataproc Metastore e Data Catalog.
  • Ferramentas de código aberto, como Apache Spark e Presto.

Terminologia

O Dataplex abstrai os sistemas de armazenamento de dados subjacentes, usando as seguintes construções:

  • Lake: um modelo lógico que representa um domínio de dados ou uma unidade de negócios. Por exemplo, para organizar dados com base no uso do grupo, é possível configurar um lake para cada departamento (por exemplo, varejo, vendas, finanças).

  • Zona: um subdomínio em um lake, que é útil para categorizar dados por:

    • Fase: por exemplo, página de destino, dados brutos, análise de dados selecionados e ciência de dados selecionados.
    • Uso: por exemplo, contrato de dados.
    • Restrições: por exemplo, controles de segurança e níveis de acesso dos usuários.

    Há dois tipos de zonas: brutas e selecionadas.

    • Zona bruta: contém dados no formato bruto e não está sujeita a verificações de tipo rigorosas.

    • Zona selecionada: contém dados limpos, formatados e prontos para análise. Os dados são particionados em colunas, particionados do Hive e armazenados em Parquet, Avro, arquivos Orc ou tabelas do BigQuery. Os dados passam por verificação de tipo, por exemplo, para proibir o uso de arquivos CSV porque eles não têm um bom desempenho para acesso SQL.

  • Recurso: é mapeado para dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos separados do Google Cloud como recursos em um em uma única zona.

  • Entidade: representa metadados de dados estruturados e semiestruturados (tabela) e dados não estruturados (arquivo).

Casos de uso comuns

Esta seção descreve casos de uso comuns do Dataplex.

Uma malha de dados centrada no domínio

Com esse tipo de malha, os dados são organizados em vários domínios em uma empresa, por exemplo, "Vendas", "Clientes" e "Produtos". A propriedade dos dados pode ser descentralizada. Você pode assinar dados de diferentes domínios. Por exemplo, cientistas e analistas de dados podem extrair dados de diferentes domínios para atingir objetivos de negócios, como aprendizado de máquina e Business Intelligence.

No diagrama a seguir, os domínios são representados pelo Dataplex data lakes e pertencem a produtores de dados. Os produtores de dados são os proprietários da criação, da curadoria e do controle de acesso nos domínios. Os consumidores de dados podem solicitar acesso aos lagos (domínios) ou zonas (subdomínios) para análise.

Criar uma malha de dados

Nesse caso, os gestores de dados precisam manter uma visão holística de todos os dados cenário.

Este diagrama inclui os seguintes elementos:

  • Dataplex: uma malha de vários domínios de dados.
  • Domínio: lakes para dados de vendas, clientes e produtos.
  • Zona em um domínio: para equipes individuais ou para fornecer contratos de dados gerenciados.
  • Recursos: dados armazenados em um bucket do Cloud Storage ou em um conjunto de dados do BigQuery, que podem existir em um projeto do Google Cloud separado da malha do Dataplex.

É possível estender esse cenário dividindo os dados que estão dentro das zonas em brutos e camadas selecionadas. Você pode realizar essa abordagem criando zonas para cada permutação de um domínio e dados brutos ou selecionados:

  • Vendas brutas
  • Vendas selecionadas
  • Dados brutos dos clientes
  • Selecionados pelos clientes
  • Produtos brutos
  • Produtos selecionados

Classificação de dados com base na prontidão

Outro caso de uso comum é quando seus dados são acessíveis apenas para engenheiros de dados, e depois são refinados e disponibilizados para cientistas e analistas de dados. Em Nesse caso, é possível configurar um lake para ter:

  • Uma zona bruta para os dados que os engenheiros podem acessar.
  • Uma zona selecionada para os dados que está disponível para cientistas e analistas de dados.

Lakes e zonas

A seguir