Dataplex-Glossar

Dataplex vereinheitlicht die End-to-End-Reise von Analysen mit einem zentralisierte Verwaltung von Daten und Diensten. In diesem Glossar werden Begriffe die im Managementsystem verwendet werden.

Glossarliste

Aktion

Von den Nutzern umsetzbare Probleme. Beispiel:

  • Die Weitergabe der Sicherheitsrichtlinie ist aufgrund einer nicht vorhandenen Sicherheitsgruppe fehlgeschlagen die vom Nutzer bereitgestellt werden.
  • Dataplex kann nicht auf eine verwaltete Ressource zugreifen.
  • Der Erkennungsjob ist aus verschiedenen Gründen fehlgeschlagen (die vom Nutzer behoben werden können). Das kann an Problemen mit Nutzerdaten liegen, z. B. an ungültigen Datenformaten, inkompatiblen ein partitionsübergreifendes Schema, eine inkonsistente Partitionsbenennung usw.

Aktionen werden automatisch von Dataplex generiert. Einige Aktionen sind automatisch von Dataplex gelöscht, wenn das zugrunde liegende Problem als vom Nutzer gelöst wurden. Andere Aktionen müssen explizit als vom Nutzer gelöst markiert.

Zum Beispiel, nachdem Erkennungsaktionen ausgeführt wurden. Nutzer muss die Dataplex API aufrufen, um die behoben werden, sodass das Erkennungssystem die Pausierung aufheben und eine zur sofortigen Erkennung.

Asset

Asset stellt eine einzelne verwaltete Ressource (Bucket/Dataset) in Dataplex. Er ist auch ein Platzhalter für verschiedene Konfigurationen von den verwalteten Ressourcen und Subsystemen (Erkennung, Richtlinienverwaltung usw.) die darauf reagieren.

BigQuery

BigQuery ist die vollständig verwaltete und vollständig verwaltete Kostengünstiges Data Warehouse für Analysen, mit dem Sie umfangreiche Analysen große Datenmengen nahezu in Echtzeit.

Mit BigQuery gibt es keine Infrastruktur einrichten oder verwalten, sodass Sie sich auf die Suche nach sinnvollen mit Standard-SQL Informationen gewinnen und flexible Preismodelle nutzen für On-Demand- und Pauschalpreise. Weitere Informationen

Daten

Nutzerdaten in einer verwalteten Ressource. Zum Beispiel können Cloud Storage-Objekte in einem Bucket oder BigQuery-Tabellenzeilen in einem Dataset. Im Fall von Cloud Storage -Objekte sind unveränderliche Einheiten von Nutzerdaten. Im Fall einer BigQuery- Dataset enthält, werden die Zeilen in den untergeordneten Tabellen als Nutzerdaten betrachtet.

Data Catalog

Data Catalog ist eine vollständig verwaltete, skalierbare Metadatenverwaltung. Dienst, der es Organisationen ermöglicht, schnell Daten zu finden, all ihre Daten in Google Cloud. Weitere Informationen

Dataplex-Dienstkonto

Steht für einen Dienst-Agent, einen Dienstkontotyp, der verschiedene Aktionen im Auftrag von Dataplex. Das Erkennungssystem und die Richtlinie auf den Dienst-Agent.

Verschiedene IAM-Berechtigungen für vom Nutzer verwaltete Ressourcen und Projekte sind der Dienst-Agent benötigt, um seine Aufgabe auszuführen. Einige werden automatisch gewährt beim Aktivieren von Dataplex in einem Projekt. Andere (z. B. Anhängen eines Buckets aus einem anderen Projekt) müssen manuell vom Nutzer.

Dataproc Metastore

Dataproc Metastore ist eine vollständig verwaltete, hochverfügbare, automatisch skalierte automatische Reparatur, OSS-nativer Metastore-Dienst, der die technische Metadatenmanagement. Der Dataproc Metastore-Dienst basiert auf Der Apache Hive-Metastore ist eine wichtige Komponente für Unternehmen. Data Lakes. Weitere Informationen

Discovery

Subsystem, das für das Crawlen von Nutzerdaten und das Extrahieren von Metadaten verantwortlich ist.

Eintragsgruppe

Eine Eintragsgruppe enthält Einträge. Eine Eintragsgruppe ist ein Satz logisch zusammengehöriger Einträge sowie Identity and Access Management-Richtlinien, die festlegen, welche Nutzer innerhalb einer Eintragsgruppe Einträge erstellen, bearbeiten und ansehen dürfen.

Dateisatz

Ein Dateisatz ist ein Eintrag innerhalb einer vom Nutzer erstellten Eintragsgruppe. Ein Dateisatz ist definiert durch ein oder mehrere Dateimuster, die einen Satz von mindestens einem Cloud Storage angeben -Dateien. Dateisatzeinträge können zum Organisieren und Erkennen von Cloud Storage-Dateien, und Metadaten hinzufügen.

Lake

Ein Lake ist ein zentrales Repository für die Verwaltung von Unternehmensdaten im gesamten die auf viele Cloud-Projekte verteilt und in einer Vielzahl von wie Cloud Storage und BigQuery. Die an einen Lake angehängte Ressourcen werden als verwaltete Ressourcen bezeichnet. Daten innerhalb dieser Verwaltete Ressourcen können strukturiert oder unstrukturiert sein.

Ein Lake bietet Datenadministratoren Tools zum Organisieren, Schützen und Verwalten und bietet Data Scientists und Data Engineers ein integriertes Daten ganz einfach suchen, entdecken, analysieren und transformieren und zugehöriger Metadaten.

Logs

Von Dataplex bereitgestellte Stackdriver-Logs, mit denen Nutzer Informationen zur Funktionsweise des Lakes erhalten, Fehler beheben, Benachrichtigungen einrichten usw. Beispiele:

  • Aktionen einblenden, die Ihre Aufmerksamkeit erfordern
  • Änderungen an Oberflächenmetadaten
  • Zusammenfassung der Jobausführungen anzeigen
  • Aktionen für Erkennungsjobs (gelesene, geschriebene Dateien usw.)

Metadaten

Informationen, die vom Erkennungssystem aus den Nutzerdaten extrahiert wurden. Beispiel: Cloud Storage-Bucket-Name, BigQuery-Dataset-Attribute, Schema untergeordneter BigQuery-Tabellen usw.

Es gibt zwei Arten von Metadaten:

  • Technische Metadaten wie Schema
  • Operative Metadaten wie Datenstatistiken (Gesamtzahl der Objekte und Größe in Cloud Storage)

Messwerte

Messwerte stellen Stackdriver-Messwerte dar, die von Dataplex als öffentliche API bereitgestellt werden. mit denen Nutzer Stackdriver-Benachrichtigungen einrichten oder Grafiken. Siehe Dataplex Cloud Monitoring finden Sie weitere Informationen zu bestimmten Dataplex-Messwerten.

Weitergabe von Einstellungsänderungen

Durch das Ändern bestimmter Ressourcenkonfigurationen wird ein asynchroner Hintergrund ausgelöst. Prozess zum Abgleichen des Status verwalteter Ressourcen mit dem, was der Nutzer angegeben ist. Beispielsweise muss die für einen Lake angegebene Sicherheitskonfiguration an die IAM-Richtlinie von potenziell Tausenden verwalteten Ressourcen übertragen (Buckets/Datasets) unter diesem Lake. Es geschieht nicht sofort, wenn die API aufgerufen wird. Dieser Prozess wird als Verbreitung bezeichnet.

Der Status der Weitergabe wird vom entsprechenden Statusfelder und Fehler werden über Aktionen angezeigt.

Ressource

Dataplex-Ressource

Vom Dataplex-Dienst definierte Google Cloud-Ressourcen, z. B. Lake, „Data Zone“ und das Asset.

Untergeordnete Ressource

Untergeordnetes Element einer verwalteten Ressource. Beispiel: Cloud Storage-Objekte oder BigQuery Tabelle/Routine/Modelle. Die Verwaltung der untergeordneten Ressourcenrichtlinien erfolgt nicht direkt über Dataplex, aber die geltende Richtlinie wird von der übergeordneten Ebene übernommen.

Verwaltete Ressource

Google Cloud-Ressourcen, die über Dataplex verwaltet und erkannt werden können. Derzeit sind Cloud Storage-Buckets und BigQuery-Datasets verfügbar. A kann die verwaltete Ressource zu einem anderen Projekt als der Lake gehören. zur selben Organisation gehören.

Spezifikation

Vom Nutzer angegebene Spezifikation. Beispiel:

  • Die Sicherheitsspezifikation gibt die Sicherheitskonfiguration für den Lake/die Zone/das Asset an.
  • Die Ressourcenspezifikation für ein Asset gibt einen Verweis auf die verwaltete Ressource (Bucket/Dataset) an.
  • Die Erkennungsspezifikation gibt die Erkennungskonfiguration für ein Asset an.

Status

Der Status der vom Nutzer bereitgestellten Spezifikation. Hier einige Beispiele:

  • Der Sicherheitsstatus gibt den Status der Weitergabe der Sicherheitsrichtlinie an (z. B. eine Sicherheitsspezifikation) an die zugrunde liegenden Buckets/Datasets.
  • Der Ressourcenstatus gibt den Status der verwalteten Ressource an (ok / nicht gefunden). / Berechtigung verweigert usw.).
  • Der Erkennungsstatus gibt den Status des Erkennungsjobs an, der ausgeführt wird. durch Erkennungsspezifikationen.

Tabelle

Logische Tabelle (Zeilen und Spalten) mit einem klar definierten Schema (Spaltennamen und -typen) die durch Daten (oder eine Teilmenge davon) in einer verwalteten Ressource gestützt wird. Beispiel: Tabelle kann durch eine Teilmenge von Cloud Storage-Objekten in einem Cloud Storage- Bucket oder eine BigQuery-Tabelle im BigQuery-Dataset.

  • Tabellen als Konzept der ersten Klasse werden in Dataproc Metastore Data Catalog und BigQuery (Metadatenregistrierung). Tabellen werden nachgelagert nicht angezeigt, wenn Erkennung oder Veröffentlichung in der nachgelagertes System ist nicht aktiviert. Zum Beispiel vom Nutzer erkannte Tabellen werden Daten in Cloud Storage in BigQuery nicht angezeigt, Die Veröffentlichung in BigQuery ist nicht aktiviert.
  • Vom Erkennungssystem entdeckt. Kann nicht vom Nutzer erstellt werden.
  • Tabellennamen werden so generiert, dass sie kurz und aussagekräftig sind, sodass sie leicht zu verstehen sind. Abfrage. Der Name besteht aus drei Teilen: [Prefix_]table root path[_Sequence number].

Zone

Ein logischer Container mit einer oder mehreren Datenressourcen, die in einem Lake erstellt wurden. Eine Datenzone können verwendet werden, um die Geschäftseinheiten innerhalb eines Unternehmens zu modellieren (z. B. Vertrieb) im Vergleich zu Betriebsabläufen). Datenzonen modellieren auch die Datenreise oder die Bereitschaft für die Nutzung.

Rohdatenzone

Zone mit Daten, die vor der eigentlichen Verarbeitung weiterverarbeitet werden muss und sind allgemein bereit für die Nutzung und Analysearbeitslasten.

Ausgewählte Zone

Datenzone mit Daten, die für eine umfassendere Fülle von Daten bereitstehen Nutzungs- und Analysearbeitslasten. Ausgewählte strukturierte Daten gespeichert in Cloud Storage muss bestimmte Dateiformate (Parquet, Avro und ORC) und in einem Hive-kompatiblen Verzeichnislayout organisiert.

Nächste Schritte