Diese Seite wurde von der Cloud Translation API übersetzt.

Datenprofilerstellung

Mit der Dataplex-Datenprofilerstellung können Sie gängige statistische Merkmale der Spalten in BigQuery Tabellen. Diese Informationen helfen Ihnen, Ihre Daten zu verstehen und zu analysieren können.

Informationen wie typische Datenwerte, Datenverteilung und Nullwerte können die Analyse zu beschleunigen. In Kombination mit der Datenklassifizierung kann die Datenprofilerstellung Datenklassen oder vertrauliche Informationen erkennen, die wiederum den Zugriff Richtlinien zu steuern.

Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Konzeptmodell

Dataplex hilft Ihnen, das Profil Ihrer Daten besser zu verstehen, Erstellen eines Scans für die Datenprofilerstellung.

Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte darüber zu erstellen statistische Merkmale.

Ein Datenprofilerstellungsscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Datenprofilerstellung unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für die Ausführung verfügbar sind. Scans zur Datenprofilerstellung.

Planungsoptionen

Sie können einen Datenprofilerstellungsscan mit einer bestimmten Häufigkeit oder bei Bedarf planen über die API oder die Google Cloud Console.

Umfang

Im Rahmen der Spezifikation eines Datenprofilerstellungsscans können Sie den Bereich eines Jobs als eine der folgenden Optionen:

Vollständige Tabelle: Die gesamte Tabelle wird im Scan zur Datenprofilerstellung gescannt. Stichproben, Zeilen- und Spaltenfilter werden auf die gesamte Tabelle angewendet bevor Sie die Profiling-Statistik berechnen.
Inkrementell: Inkrementelle Daten, die Sie angeben, werden in den Daten gescannt. Profilscan. Geben Sie eine Date- oder Timestamp-Spalte in der Tabelle an, die als Inkrement verwendet. In der Regel ist dies die Spalte, auf der die Tabelle partitioniert sind. Stichproben sowie Zeilen- und Spaltenfilter werden auf die inkrementelle Daten, bevor Sie die Profiling-Statistik berechnen.

Daten filtern

Sie können Daten filtern, die für die Profilerstellung gescannt werden sollen, indem Sie Zeilenfilter verwenden und Spaltenfiltern. Mit Filtern können Sie Ausführungszeit und -kosten reduzieren, und sensible und unnützliche Daten ausschließen.

Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment (z. B. einer Region) konzentrieren. Beispielsweise können Sie mit einem Zeitstempel vor einem bestimmten Datum.
Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten aus der Tabelle, um den Scan zur Datenprofilerstellung auszuführen.

Beispieldaten

Mit Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben für die Ausführung eines Scans zur Datenprofilerstellung. Wenn Sie Datenprofilierungsscans für eine kleinere Datenstichprobe erstellen, können Sie die Ausführungszeit und die Kosten für das Abfragen des gesamten Datensatzes reduzieren.

Mehrere Scans zur Datenprofilerstellung

Mit Dataplex können Sie mit der Google Cloud Console mehrere Datenprofilierungsscans gleichzeitig erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und erstellen Sie für jedes Dataset einen Datenprofil-Scan. Weitere Informationen

Scanergebnisse in BigQuery-Tabelle exportieren

Sie können die Ergebnisse der Scanergebnisse für die Datenprofilerstellung in eine BigQuery-Tabelle exportieren. zur weiteren Analyse an. Um die Berichterstellung anzupassen, können Sie BigQuery-Tabellendaten in ein Looker-Dashboard übertragen. Sie können Erstellen Sie einen aggregierten Bericht, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:

Spaltentyp	Ergebnisse der Datenprofilerstellung
Numerische Spalte	Prozentsatz der Nullwerte. Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte. Die 10 häufigsten Werte in der Spalte. Er kann kleiner als 10 sein, wenn der Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist (Nullwerte sind nicht enthalten). Für jeden dieser häufigsten Werte wird der Prozentsatz der Häufigkeit in den Daten angezeigt, die im aktuellen Scan gescannt wurden. Durchschnitt, Standardabweichung, Minimum, annähernd unteres Quartil, Ungefährer Medianwert, ungefähres oberes Quartil und Maximalwerte.
Stringspalte	Prozentsatz der Nullwerte. Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte. Die 10 häufigsten Werte in der Spalte, die kleiner als 10 sein können, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist. Durchschnittliche, minimale und maximale Länge des Strings
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binär usw.)	Prozentsatz der Nullwerte. Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte. Die 10 häufigsten Werte in der Spalte, die kleiner als 10 sein können, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist.
Alle anderen verschachtelten oder komplexen Spalten des Datentyps (z. B. Record, Array, JSON) oder eine beliebige Spalte mit wiederkehrendem Modus.	Prozentsatz der Nullwerte.

Die Ergebnisse umfassen die Anzahl der bei jeder Ausführung gescannten Datensätze.

Berichterstellung und Überwachung

Sie können die Ergebnisse der Datenprofilerstellung folgendermaßen überwachen und analysieren: Berichten und Methoden:

Berichte, die mit der Quelltabelle auf den Seiten „BigQuery“ und „Data Catalog“ veröffentlicht wurden

Wenn Sie einen Datenprofilerstellungsscan konfiguriert haben, um die Ergebnisse im BigQuery- und Data Catalog-Seiten in der In der Google Cloud Console können Sie den neuesten Scan der Datenprofilerstellung ansehen. diesen Seiten auf dem Tab Datenprofil eines beliebigen Projekts angezeigt.
Bericht „Bisherige Daten“ pro Job in Dataplex

Auf der Dataplex-Seite Profil können Sie die detaillierten Berichte für die neuesten und bisherigen Jobs. Dazu gehört auch ein Profil auf Spaltenebene Informationen und die verwendete Konfiguration.
Tab „Analyse“

Auf der Dataplex-Seite Profil können Sie die Analyse verwenden können Sie die Trends für eine bestimmte Statistik einer Spalte über mehrere für Jobs zu erstellen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Mittelwert eines Werts im Zeitverlauf entwickelt hat.
Eigenes Dashboard oder eigene Analysen erstellen

Wenn Sie einen Datenprofilierungs-Scan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert oder gespeichert werden, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.

Beschränkungen

Ergebnisse der Datenprofilerstellung werden nicht in Data Catalog veröffentlicht als Tags.
Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spalten unterstützt Typen außer BIGNUMERIC. Scan für eine Tabelle mit einem BIGNUMERIC erstellt Spalte führt zu einem Validierungsfehler und kann nicht erfolgreich erstellt werden.
Die zu scannenden BigQuery-Tabellen müssen 300 Spalten haben oder weniger.

Preise

Dataplex verwendet die Premium-Verarbeitungs-SKU, um Gebühren für Daten zu erheben Profilerstellung. Weitere Informationen finden Sie unter Preise.
Veröffentlichen der Ergebnisse der Datenprofilerstellung in Data Catalog noch nicht verfügbar. Sobald er verfügbar ist, wird er zum gleichen Preis abgerechnet wie Preise für das Speichern von Katalogmetadaten. Weitere Informationen finden Sie unter Preise.
Die Abrechnung für die Dataplex-Premiumverarbeitung für die Datenprofilerstellung erfolgt pro bei einem Minimum von einer Minute.
Für fehlgeschlagene Profilierungsscans fallen keine Kosten an.
Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der die gescannten Daten, die Partitionierungs- und Clustering-Einstellungen der Tabelle sowie die Häufigkeit des Scans.
Es gibt mehrere Möglichkeiten, die Kosten von Scans zur Datenprofilerstellung zu reduzieren:
- Probenahme
- Inkrementelle Scans
- Spaltenfilterung
- Zeilenfilterung
Um die Gebühren für die Datenprofilerstellung von anderen Gebühren in Dataplex zu trennen Premium-Artikel zur Verarbeitung in der Cloud Billing-Bericht, verwenden Sie das Label goog-dataplex-workload-type mit dem Wert DATA_PROFILE.
Verwenden Sie die folgenden Labels, um zusammengefasste Gebühren zu filtern:
- goog-dataplex-datascan-data-source-dataplex-entity
- goog-dataplex-datascan-data-source-dataplex-lake
- goog-dataplex-datascan-data-source-dataplex-zone
- goog-dataplex-datascan-data-source-project
- goog-dataplex-datascan-data-source-region
- goog-dataplex-datascan-id
- goog-dataplex-datascan-job-id