Dataplex – Übersicht

Dataplex ist eine Datenstruktur, die verteilte Daten zusammenführt und die Datenverwaltung und Governance für diese Daten automatisiert.

Dataplex bietet Ihnen folgende Möglichkeiten:

  • Erstellen Sie ein domainspezifisches Data Mesh über Daten hinweg, die in mehreren Google Cloud-Projekten gespeichert sind, ohne Daten zu verschieben.
  • Daten mit nur einem Satz von Berechtigungen einheitlich steuern und überwachen
  • Mit Katalogfunktionen können Sie Metadaten in verschiedenen Silos finden und kuratieren. Weitere Informationen finden Sie in der Übersicht zu Dataplex-Katalog.
  • Metadaten mit BigQuery und Open-Source-Tools sicher abfragen, wie SparkSQL, Presto und HiveQL.
  • Aufgaben zur Verwaltung der Datenqualität und des Datenlebenszyklus ausführen, einschließlich serverloser Lösungen Spark-Aufgaben.
  • Daten in vollständig verwalteten, serverlosen Spark-Umgebungen mit einfachen auf Notebooks und SparkSQL-Abfragen zugreifen.

Vorteile von Dataplex

Die Daten sind in Unternehmen auf Data Lakes, Data Warehouses Data-Marts. Mit Dataplex haben Sie folgende Möglichkeiten:

  • Daten erkennen
  • Daten auswählen
  • Daten ohne jegliche Datenverschiebung vereinheitlichen
  • Daten basierend auf Ihren Geschäftsanforderungen organisieren
  • Daten zentral verwalten, überwachen und steuern

Mit Dataplex können Sie Metadaten standardisieren und vereinheitlichen, Sicherheitsrichtlinien, Governance, Klassifizierung und Verwaltung des Datenlebenszyklus in diesen verteilten Daten verwendet werden.

Image

Funktionsweise von Dataplex

Dataplex verwaltet Daten so, dass keine Datenverschiebung erforderlich ist oder Vervielfältigung. Wenn Sie neue Datenquellen ermitteln, erfasst die Metadaten sowohl für strukturierte als auch für unstrukturierte Daten mithilfe von Datenqualitätsprüfungen zur Verbesserung der Integrität.

Dataplex registriert alle Metadaten automatisch in einem einheitlichen Metastore. Sie können über verschiedene Dienste und Tools auf Daten und Metadaten zugreifen, darunter:

  • Google Cloud-Dienste wie BigQuery, Dataproc Metastore, Data Catalog
  • Open-Source-Tools wie Apache Spark und Presto

Terminologie

Dataplex abstrahiert die zugrunde liegenden Datenspeichersysteme mithilfe der folgenden Konstrukte:

  • Lake: Ein logisches Konstrukt, das eine Datendomain oder Geschäftseinheit darstellt. Wenn Sie Daten beispielsweise nach Gruppennutzung organisieren möchten, können Sie einen Data Lake für jede Abteilung einrichten (z. B. Einzelhandel, Vertrieb, Finanzen).

  • Zone: Eine Subdomain in einem Lake, die nützlich ist, um Daten zu kategorisieren, Folgendes:

    • Phase: Beispielsweise Landingpage, Rohdaten, kuratierte Datenanalyse und kuratierte Datenwissenschaft.
    • Verwendung: z. B. Datenvertrag.
    • Einschränkungen, z. B. Sicherheitskontrollen und Nutzerzugriffsebenen.

    Es gibt zwei Arten von Zonen: RAW- und kuratierte Zonen.

    • Raw-Zone: Enthält Daten im Rohformat, die keiner strengen Typprüfung unterliegen.

    • Ausgewählte Zone: Enthält Daten, die bereinigt, formatiert und einsatzbereit sind. Analytics. Die Daten sind spaltenbasiert, mit Hive partitioniert und in Parquet-, Avro-, Orc-Dateien oder BigQuery-Tabellen gespeichert. Daten durchlaufen Typprüfung, z. B. um die Verwendung von CSV-Dateien zu verbieten, für SQL-Zugriffe weniger gut funktionieren.

  • Asset: Zuordnung zu Daten, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud-Projekten gespeichert sind, einem in einer einzelnen Zone.

  • Entität: Stellt Metadaten für strukturierte und semistrukturierte Daten (Tabelle) und unstrukturierte Daten (Dateisatz) dar.

Gängige Anwendungsfälle

In diesem Abschnitt werden häufige Anwendungsfälle für die Verwendung von Dataplex beschrieben.

Ein domainzentriertes Daten-Mesh

Bei dieser Art von Data Mesh sind Daten in mehreren Domains innerhalb eines Enterprise, z. B. Vertrieb, Kunden und Produkte. Eigentum an den Daten dezentralisiert werden. Sie können Daten von verschiedenen Domains abonnieren. Für Datenwissenschaftler und Datenanalysten können Daten aus verschiedenen Bereichen abrufen, Geschäftsziele wie Machine Learning und Business Intelligence zu erreichen.

Im folgenden Diagramm werden Domains durch Dataplex dargestellt Data Lakes und separaten Datenerstellern. Datenproduzenten sind selbst Auswahl und Zugriffssteuerung in ihren Domains. Datenkonsumenten können dann Zugriff auf die Lakes (Domains) oder Zonen (Subdomains) für ihre Analyse.

Data Mesh erstellen

In diesem Fall müssen die Datenverwaltungen eine ganzheitliche Sicht auf die gesamten Daten zu verbessern.

Dieses Diagramm enthält die folgenden Elemente:

  • Dataplex: Ein Mesh-Netzwerk aus mehreren Datendomains.
  • Domain: Lakes für Vertrieb, Kunden und Produktdaten.
  • Zone innerhalb einer Domain: für einzelne Teams oder zur Bereitstellung verwalteter Daten Verträge.
  • Assets: Daten, die entweder in einem Cloud Storage-Bucket oder in einem BigQuery-Dataset gespeichert sind. Sie können sich in einem separaten Google Cloud-Projekt von Ihrem Dataplex-Mesh befinden.

Sie können dieses Szenario erweitern, indem Sie Daten innerhalb der Zonen in Rohdaten untergliedern. und ausgewählte Ebenen. Dazu können Sie Zonen für jede Permutation einer Domain und Roh- oder kuratierte Daten erstellen:

  • Rohumsatz
  • Ausgewählte Verkäufe
  • Kunden (roh)
  • Von Nutzern zusammengestellt
  • Rohprodukte
  • Ausgewählte Produkte

Data Tiering basierend auf der Bereitschaft

Ein weiterer häufiger Anwendungsfall ist, wenn Ihre Daten nur für Data Engineers zugänglich sind, und wird später optimiert und für Data Scientists und Analysten verfügbar gemacht. In In diesem Fall können Sie einen Lake so einrichten, dass Folgendes möglich ist:

  • Eine Rohzone für die Daten, auf die die Entwickler zugreifen können.
  • Eine ausgewählte Zone für die Daten, die den Data Scientists zur Verfügung stehen Analysefachkräften.

Lakes und Zonen

Nächste Schritte