Mit der Dataplex-Datenprofilerstellung können Sie gängige statistische Merkmale der Spalten in BigQuery Tabellen. Diese Informationen helfen Ihnen, Ihre Daten zu verstehen und zu analysieren können.
Informationen wie typische Datenwerte, Datenverteilung und Nullwerte können die Analyse zu beschleunigen. In Kombination mit der Datenklassifizierung kann die Datenprofilerstellung Datenklassen oder vertrauliche Informationen erkennen, die wiederum den Zugriff Richtlinien zu steuern.
Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.
Konzeptmodell
Dataplex hilft Ihnen, das Profil Ihrer Daten besser zu verstehen, Erstellen eines Scans für die Datenprofilerstellung.
Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte darüber zu erstellen statistische Merkmale.
Ein Datenprofilerstellungsscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Datenprofilerstellung unterstützt mehrere Konfigurationsoptionen.
Konfigurationsoptionen
In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für die Ausführung verfügbar sind. Scans zur Datenprofilerstellung.
Planungsoptionen
Sie können einen Datenprofilerstellungsscan mit einer bestimmten Häufigkeit oder bei Bedarf planen über die API oder die Google Cloud Console.
Umfang
Im Rahmen der Spezifikation eines Datenprofilerstellungsscans können Sie den Bereich eines Jobs als eine der folgenden Optionen:
Vollständige Tabelle: Die gesamte Tabelle wird im Scan zur Datenprofilerstellung gescannt. Stichproben, Zeilen- und Spaltenfilter werden auf die gesamte Tabelle angewendet bevor Sie die Profiling-Statistik berechnen.
Inkrementell: Inkrementelle Daten, die Sie angeben, werden in den Daten gescannt. Profilscan. Geben Sie eine
Date
- oderTimestamp
-Spalte in der Tabelle an, die als Inkrement verwendet. In der Regel ist dies die Spalte, auf der die Tabelle partitioniert sind. Stichproben sowie Zeilen- und Spaltenfilter werden auf die inkrementelle Daten, bevor Sie die Profiling-Statistik berechnen.
Daten filtern
Sie können Daten filtern, die für die Profilerstellung gescannt werden sollen, indem Sie Zeilenfilter verwenden und Spaltenfiltern. Mit Filtern können Sie Ausführungszeit und -kosten reduzieren, und sensible und unnützliche Daten ausschließen.
Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment (z. B. einer Region) konzentrieren. Beispielsweise können Sie mit einem Zeitstempel vor einem bestimmten Datum.
Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten aus der Tabelle, um den Scan zur Datenprofilerstellung auszuführen.
Beispieldaten
Mit Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben für die Ausführung eines Scans zur Datenprofilerstellung. Wenn Sie Datenprofilierungsscans für eine kleinere Datenstichprobe erstellen, können Sie die Ausführungszeit und die Kosten für das Abfragen des gesamten Datensatzes reduzieren.
Mehrere Scans zur Datenprofilerstellung
Mit Dataplex können Sie mit der Google Cloud Console mehrere Datenprofilierungsscans gleichzeitig erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und erstellen Sie für jedes Dataset einen Datenprofil-Scan. Weitere Informationen
Scanergebnisse in BigQuery-Tabelle exportieren
Sie können die Ergebnisse der Scanergebnisse für die Datenprofilerstellung in eine BigQuery-Tabelle exportieren. zur weiteren Analyse an. Um die Berichterstellung anzupassen, können Sie BigQuery-Tabellendaten in ein Looker-Dashboard übertragen. Sie können Erstellen Sie einen aggregierten Bericht, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.
Ergebnisse der Datenprofilerstellung
Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:
Spaltentyp | Ergebnisse der Datenprofilerstellung |
---|---|
Numerische Spalte |
|
Stringspalte |
|
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binär usw.) |
|
Alle anderen verschachtelten oder komplexen Spalten des Datentyps (z. B. Record, Array, JSON) oder eine beliebige Spalte mit wiederkehrendem Modus. |
|
Die Ergebnisse umfassen die Anzahl der bei jeder Ausführung gescannten Datensätze.
Berichterstellung und Überwachung
Sie können die Ergebnisse der Datenprofilerstellung folgendermaßen überwachen und analysieren: Berichten und Methoden:
Berichte, die mit der Quelltabelle auf den Seiten „BigQuery“ und „Data Catalog“ veröffentlicht wurden
Wenn Sie einen Datenprofilerstellungsscan konfiguriert haben, um die Ergebnisse im BigQuery- und Data Catalog-Seiten in der In der Google Cloud Console können Sie den neuesten Scan der Datenprofilerstellung ansehen. diesen Seiten auf dem Tab Datenprofil eines beliebigen Projekts angezeigt.
Bericht „Bisherige Daten“ pro Job in Dataplex
Auf der Dataplex-Seite Profil können Sie die detaillierten Berichte für die neuesten und bisherigen Jobs. Dazu gehört auch ein Profil auf Spaltenebene Informationen und die verwendete Konfiguration.
Tab „Analyse“
Auf der Dataplex-Seite Profil können Sie die Analyse verwenden können Sie die Trends für eine bestimmte Statistik einer Spalte über mehrere für Jobs zu erstellen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Mittelwert eines Werts im Zeitverlauf entwickelt hat.
Eigenes Dashboard oder eigene Analysen erstellen
Wenn Sie einen Datenprofilierungs-Scan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert oder gespeichert werden, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.
Beschränkungen
- Ergebnisse der Datenprofilerstellung werden nicht in Data Catalog veröffentlicht als Tags.
- Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spalten unterstützt
Typen außer
BIGNUMERIC
. Scan für eine Tabelle mit einemBIGNUMERIC
erstellt Spalte führt zu einem Validierungsfehler und kann nicht erfolgreich erstellt werden. - Die zu scannenden BigQuery-Tabellen müssen 300 Spalten haben oder weniger.
Preise
Dataplex verwendet die Premium-Verarbeitungs-SKU, um Gebühren für Daten zu erheben Profilerstellung. Weitere Informationen finden Sie unter Preise.
Veröffentlichen der Ergebnisse der Datenprofilerstellung in Data Catalog noch nicht verfügbar. Sobald er verfügbar ist, wird er zum gleichen Preis abgerechnet wie Preise für das Speichern von Katalogmetadaten. Weitere Informationen finden Sie unter Preise.
Die Abrechnung für die Dataplex-Premiumverarbeitung für die Datenprofilerstellung erfolgt pro bei einem Minimum von einer Minute.
Für fehlgeschlagene Profilierungsscans fallen keine Kosten an.
Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der die gescannten Daten, die Partitionierungs- und Clustering-Einstellungen der Tabelle sowie die Häufigkeit des Scans.
Es gibt mehrere Möglichkeiten, die Kosten von Scans zur Datenprofilerstellung zu reduzieren:
- Probenahme
- Inkrementelle Scans
- Spaltenfilterung
- Zeilenfilterung
Um die Gebühren für die Datenprofilerstellung von anderen Gebühren in Dataplex zu trennen Premium-Artikel zur Verarbeitung in der Cloud Billing-Bericht, verwenden Sie das Label
goog-dataplex-workload-type
mit dem WertDATA_PROFILE
.Verwenden Sie die folgenden Labels, um zusammengefasste Gebühren zu filtern:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Nächste Schritte
- Datenprofilerstellung verwenden
- Weitere Informationen zur automatischen Datenqualität
- Weitere Informationen zur Verwendung der automatischen Datenqualität