数据沿袭简介

数据沿袭是 Dataplex 功能,您可以跟踪数据在系统中是如何移动的: 数据来源、将其传递到哪里以及对数据应用了哪些转换。

为什么需要数据谱系?

处理大数据集通常涉及将数据转换为量身定制的实体 来满足特定项目的需求:文本文件、表格、报告、信息中心、模型。

例如,假设您有一家网店, 记录下 单个 SQL 表。为了让分析人员更轻松地处理数据, 您开始运行从这个表中提取信息的作业 并按区域、品牌或促销价生成较小的表格。您的分析师 它们会执行进一步的转换,将这些较小的 将多个表与其他数据源结合使用,以生成更多表。

这可能会成为利益相关方的一大挑战:

  • 数据使用方无法使用自助工具了解数据是否来自权威来源。
  • 由于缺乏可靠的方法,数据工程师无法找出问题的根本原因 来跟踪所有数据转换。
  • 数据工程师和分析人员无法 修改或删除表。
  • 数据管理员无法理解敏感数据在整个过程中的使用情况 并确保遵守法规要求。

数据源流是提供以下实用方法的解决方案:

  • 了解如何借助沿袭数据获取和转换数据 以及图形可视化。
  • 将与条目和数据操作相关的错误追溯到其根 原因。
  • 通过影响分析实现更好的变更管理:避免停机或 意外错误、了解相关条目并与 相关负责人。

数据沿袭信息模型

在基本形式下,谱系是指数据从来源转换为目标的记录。Data Lineage API 会收集这些信息 并使用流程、 运行和事件。

流程

流程是对特定系统支持的数据转换操作的定义。在 BigQuery 沿袭中 process支持的作业类型之一。

运行

运行是指进程的执行。一个进程可以有多次运行。 运行作业包含开始时间、结束时间、状态或其他属性等详细信息。 如需了解详情,请参阅 run 资源参考文档

事件

事件表示数据转换操作发生的时间点,该操作会导致数据在源实体和目标实体之间移动。

事件包含一个链接列表,用于定义特定事件中的哪个条目是来源,哪个条目是目标。事件用于计算 沿袭可视化图,它们不会直接显示在 Google Cloud 控制台上。 您可以使用 Data Lineage API 创建、读取和删除(但不能更新)这些数据。

示例

请考虑以下示例,其中数据在 BigQuery 之间复制 表:

示例从名为 customer_year 和 customer 的表中提取数据,
  并创建一个名为 top_customer 的表
图 1.显示表格数据来源的图表示例。

数据如何在表之间移动由沿袭过程描述 (在图表上以 BigQuery 沿袭过程图标。 图标):可能是 SQL CREATE TABLE AS SELECT 查询或 INSERT 语句。

该 SQL 语句的每次执行都将构成一次单独的运行。 运行包含事件,这些事件会记录哪些表用作源表,哪些表用作目标表。在本示例中,表 customer_yearcustomers 都是源代码 (针对目标 top_customer 表)。

沿袭可视化图

沿袭图表示 Data Lineage API 收集的信息 特定 Data Catalog 条目的数据库。是指 的沿袭。

示例图表显示了两个表中的数据经过转换后合并到一个新表中,底部停靠着一个显示 SQL 代码的详情面板。
图 2:Dataplex 界面中的沿袭可视化图示例。

Dataplex 与 Data Lineage API 搭配使用,来识别 完全限定名称与数据沿袭识别的实体匹配。 对于匹配的 Dataplex 条目,您可以访问沿袭 标签,然后查看图表。

沿袭图显示两种类型的元素:

  • 宽矩形按钮,表示构建谱系信息的相关实体,即谱系事件的来源或目标

  • 较小的方形按钮,表示负责创建或 更新源实体或目标实体。流程按钮使用了向 Data Lineage API 报告它们的来源系统专有的图标。例如,BigQuery 作业使用 BigQuery 谱系进程图标。 图标。

沿袭列表视图

沿袭列表视图显示 单个表。

与沿袭可视化图(更适合查看相对较小的沿袭图)相比,沿袭列表视图可让您查看具有许多连接的实体的沿袭信息。

下图显示了 Google Cloud 控制台中的沿袭列表视图示例。后面的列表以更详尽的方式介绍了这张图片 。

Google Cloud 控制台中的沿袭列表视图示例。
图 3. 以下界面中的沿袭列表视图示例: Google Cloud 控制台。
  • 表中的每一行都表示两个条目之间的一个沿袭链接。 在图中,这些名称显示为两个条目之间的谱系链接,包括中间的所有进程节点。例如,SourceTarget 是资源节点,中间可以有多个进程节点。

  • Direction 选项指定要在 与根资源相关联:

    • 上游:显示作为数据源的条目的沿袭信息 。在沿袭图上,这些条目是 。

    • 下游:显示使用所选条目或从所选条目派生的条目的谱系信息。在沿袭图上,这些条目是 条目右侧。

  • 深度是指距离根资源、来源或 衍生资源。列表视图最多可显示 1,000 个沿袭链接, 从根部到最大深度的 10 个沿袭链接。如果存在任何沿袭 则会收到通知。您可以看到超出此范围的沿袭 方法是在列表视图中选择其他实体的名称。

  • 详细信息面板会显示关联的来源、目标以及创建此关联的所有进程的信息。

  • 您可以自定义表格中显示的列, 结果。您还可以将结果导出为 CSV 文件。

自动数据沿袭跟踪

启用 Data Lineage API 后,支持数据源流的 Google Cloud 系统会开始报告其数据移动情况。每个集成系统都可以提交沿袭信息, 一系列不同数据源如需详细了解每款受支持的产品,请参阅以下部分。

BigQuery

在 BigQuery 项目中启用数据沿袭会导致 用于自动记录以下沿袭信息的 Dataplex:

BigQuery 复制、查询和加载作业显示为进程(点击谱系可视化图表上的放大镜图标 可查看进程详情)。每个进程都包含 BigQuery job_id属性 最近的 BigQuery 作业的列表。

其他服务

数据沿袭支持与以下产品集成 Google Cloud 服务:

自定义数据源的数据沿袭

您可以使用 Data Lineage API 来手动记录任何数据源的沿袭信息 集成系统所不支持的功能

Dataplex 可以创建可视化图表,用于手动记录 如果使用 fullyQualifiedNames(与 现有 Data Catalog 条目的限定名称。录制 为自定义数据源创建沿袭,请先创建一个 自定义 Data Catalog 条目

自定义数据源的每个进程都可以在属性中包含 sql 键 列表。此类键的值将用于在数据谱系图的详细信息面板中呈现代码突出显示。SQL 语句将按提供的形式显示。用户负责滤除敏感信息。通过 键名 sql 区分大小写。

OpenLineage

如果您已在使用 OpenLineage 从其他 数据源,您可以将 OpenLineage 事件导入 Dataplex, 在 Google Cloud 控制台中显示这些事件。如需了解详情,请参阅与 OpenLineage 集成

限制

  • 所有沿袭信息在系统中保留 30 天。
  • 您移除沿袭信息的相关数据源后,系统会保留这些信息。 也就是说,如果您移除 BigQuery 表及其 Data Catalog 您仍然可以使用 API 读取该表的沿袭 30 天

访问数据沿袭

您可以使用以下方式访问数据沿袭功能:

  • Google Cloud 控制台的 Dataplex 界面中的条目详情页面。 请参阅查看沿袭图
  • Google Cloud 控制台中 BigQuery 界面中的表详情页面。 请参阅查看沿袭图
  • Google Cloud 控制台的 Vertex AI 界面中的“数据集和模型注册表”页面。 请参阅查看沿袭图
  • Data Lineage API

价格

  • Dataplex 使用高级处理 SKU 来 数据沿袭。如需了解详情,请参阅价格

  • 如需在 Dataplex 高级处理 SKU 中将数据谱系费用与其他费用分开,请在 Cloud Billing 报告中使用标签 goog-dataplex-workload-type 和值 LINEAGE

后续步骤