SAP ODP 批处理来源

本页面提供有关在 Cloud Data Fusion 中配置 SAP ODP 插件的指导。

SAP ODP 插件支持将 SAP 应用与 BigQuery 或其他使用 Cloud Data Fusion 的其他受支持的目标系统进行批量数据集成。该插件具有以下主要功能：

使用 SAP ECC、SAP S4/HANA 或 SAP BW 作为源系统
使用 SAP CDC（变更数据捕获）跟踪和提取数据源中的新数据和增量数据
使用批量提取模式
支持 SAP DataSources 和 ABAP CDS 视图作为数据源

支持的软件版本

软件	版本
SAP S4/HANA	SAP S4/HANA 1909 及更高版本
SAP ECC	SAP ERP6 NW 7.31 SP16 及更高版本
SAP JCo	SAP JCo 版本 3.0.20 及更高版本
Cloud Data Fusion	6.3 及更高版本

如需详细了解 Google Cloud 上的 SAP，请参阅 Google Cloud 上的 SAP 概览。

准备工作

设置 SAP ODP 插件使用的以下系统和服务：

配置 SAP ERP 系统。此过程包括以下步骤：
- 安装 SAP 传输文件。
- 设置所需的 SAP 授权和角色。
- 设置 SAP Java Connector。
在 Cloud Data Fusion 中部署 ODP 插件。
- 重要提示：请选择与 Cloud Data Fusion 版本兼容的插件版本。
- 如果升级 Cloud Data Fusion 实例或插件的版本，请评估所做更改对流水线功能范围和性能的影响。
在 Cloud Data Fusion 和 SAP 之间建立 RFC 连接。
- 确保已启用 Cloud Data Fusion 实例与 SAP 服务器之间的通信。
- 对于专用实例，请设置 VPC 网络对等互连。
- SAP 系统和 Cloud Data Fusion 实例必须位于同一项目中。

配置插件

转到 Cloud Data Fusion 网页界面，然后点击 Studio。
检查是否已选择 Data Pipeline - Batch（而非实时）。
在来源菜单中，点击 SapODP。SAP ODP 节点会显示在您的流水线中。
如需配置来源，请转到 SAP ODP 节点，然后点击属性。
输入以下属性。如需查看完整列表，请参阅属性。
1. 为 SAP ODP 节点输入标签，例如 SAP ODP tables。
2. 输入连接详情。您可以设置新的一次性连接，也可以设置可重复使用的现有连接。
  新增关联项
  如需添加与 SAP 的一次性连接，请按以下步骤操作：
  1. 使使用连接保持关闭状态。
  2. 在连接部分的以下字段中输入来自 SAP 帐号的以下信息：
    
    在引用名称字段中，输入用于标识此沿袭来源的连接的名称。
    
    在 SAP 客户端字段中，输入 SAP 中特定实例或环境的客户端名称。SAP 管理员可以提供客户端名称。
    
    在 SAP 语言字段中，输入 SAP 登录语言。默认值为 EN（英语）。
    
    选择以下连接类型之一。
    
    注意：建议使用负载均衡（通过 SAP Message Server）。
    
    直接（通过 SAP 应用服务器）。如果您选择此默认类型，请在以下字段中输入信息：SAP 应用服务器主机、SAP 系统编号和 SAP 路由器。
    
    负载均衡（通过 SAP Message Server）。如果您选择此类型，请在以下字段中输入信息：SAP Message Server host、SAP Message Server service 或端口号、SAP System ID (SID) 和 SAP 登录组名称。
    
    在上下文字段中，选择您所使用的数据源类型。
    
    在 SAP ODP 来源名称字段中，输入您正在使用的数据源的名称。
    
    在提取类型字段中，选择数据提取类型。默认值为完整（所有数据）。
    
    提供 SAP 凭据：向 SAP 管理员询问 SAP 登录用户名和密码。
    
    在 JCo Library Cloud Storage 路径字段中，输入 Cloud Storage 中包含您上传的 SAP JCo 库文件的 SAP Java 连接器 (SAP JCo) 路径。
    
    如需根据来自 SAP 的元数据生成架构，以便将 SAP 数据类型映射到相应的 Cloud Data Fusion 数据类型，请点击获取架构。如需了解详情，请参阅数据类型映射。
    
    可选：如需优化从 SAP 注入的负载，请在以下字段中输入信息：
    
    在 SAP ODP 订阅者名称字段中，标识从有效数据源中提取数据的订阅者。
    
    使用过滤条件选项，您可以根据选择条件提取记录。
    
    在 Number of splits 字段中，您可以创建分区以并行提取数据记录，从而提高性能。分块数量可能会影响 SAP 工作流，因此必须谨慎选择。
    
    在软件包大小字段中，指定要在单个 SAP 网络调用中提取的记录数。软件包大小会影响性能和可用资源，因此必须谨慎选择。
  可重复使用的连接
  要重复使用现有连接，请按以下步骤操作：
  1. 开启使用网络连接。
  2. 点击浏览连接。
  3. 点击连接名称。
    
    注意：如需详细了解如何添加、导入和修改在浏览连接时显示的连接，请参阅管理连接。
  如果连接不存在，请按以下步骤创建可重复使用的连接：
  1. 依次点击添加连接 > SapOdp。
  2. 在打开的创建 SapOdp 连接页面上，输入连接名称和说明。
  3. 在 SAP 客户端字段中，输入 SAP 中特定实例或环境的客户端名称。SAP 管理员可以提供客户端名称。
  4. 在 SAP 语言字段中，输入 SAP 登录语言。默认值为 EN（英语）。
  5. 选择以下连接类型之一。
    
    注意：建议使用负载均衡（通过 SAP Message Server）。
    
    直接（通过 SAP 应用服务器）。如果您选择此默认类型，请在以下字段中输入信息：SAP 应用服务器主机、SAP 系统编号和 SAP 路由器。
    
    负载均衡（通过 SAP Message Server）。如果您选择此类型，请在以下字段中输入信息：SAP Message Server host、SAP Message Server service or port number、SAP System ID (SID) 和 SAP 登录组名称。
  6. 在 SAP ODP 来源名称中，输入 SAP 的 ODP 数据源名称。
  7. 提供 SAP 凭据：向 SAP 管理员索要 SAP 登录用户名和密码值。
  8. 在 JCo Library Cloud Storage 路径字段中，输入 Cloud Storage 中包含您上传的 SAP JCo 库文件的 SAP Java Connector (SAP JCo) 路径。
  9. 在等待时间字段中，输入下次重试前需要等待的时间（以秒为单位），例如 60。
  10. 在重试计数字段中，输入重试尝试次数上限，例如 3。
  11. 可选：在其他 SAP 连接属性字段中，输入必须替换 SAP JCo 默认值的键值对。
  12. 点击创建。

属性

属性	已启用宏	必需属性	说明
标签	否	是	数据流水线中节点的名称。
使用连接	否	否	使用可重复使用的连接。如果使用连接，您无需提供凭据。如需了解详情，请参阅管理连接。
名称	否	是	可重复使用的连接的名称。
SAP 客户端	是	是	SAP 系统中的特定实例或环境。
SAP 语言	是	是	显示和处理 SAP 界面和数据时使用的语言。
网络连接类型	否	是	SAP 连接类型：直接或负载均衡。
SAP 应用服务器主机	是	否	仅对于直接连接类型，此主机名来自 SAP 应用服务器，后者充当 SAP 客户端（例如 SAP 网页界面、网络浏览器或移动应用）和底层数据库之间的中间件层。
SAP 系统编号	是	否	此编号是分配给每个 SAP 系统的唯一标识符（仅适用于直接连接类型）。例如 `00`。
SAP 路由器	是	否	（仅适用于直接连接类型）这是代理服务器的路由器字符串，为 SAP 系统与外部客户端或合作伙伴之间的通信提供安全通道。
SAP 消息服务器主机	是	否	（仅适用于负载均衡连接类型）这是主机的名称，有助于在 SAP 中的多个应用服务器之间实现负载均衡。
SAP Message Server 服务或端口号	是	否	（仅适用于负载均衡连接类型）这是 SAP Message Server 在该网络端口中监听来自 SAP 内 SAP 客户端和应用服务器的传入连接。
SAP 系统 ID (SID)	是	否	仅针对负载均衡连接类型将此 ID 分配给每个 SAP 系统。
SAP 登录组名称	是	否	多个 SAP 应用服务器的逻辑分组或配置的名称。默认值为 `PUBLIC`。
对象类型	不适用	不适用	支持的对象类型：DataSources/Extractors 或 ABAP Core Data Services。
SAP ODP 来源名称	是	是	SAP DataSources 或 CDS 视图名称（例如 `2LIS_02_ITM`）。
提取类型	是	是	该插件支持以下两种数据提取方式：完整（所有数据）：提取所有可用数据。同步（基于先前的执行自动选择）：根据 SAP 中的先前执行类型和状态，确定应运行完整、增量（增量）还是恢复（从上次执行恢复的数据）模式。它会在初始流水线执行（ODP 模式 F）中提取完整数据，并在后续流水线执行（ODP 模式 D、R）中更改数据。
SAP 登录用户名	是	是	SAP 的用户名推荐：如果用户名会定期更改，请使用宏。
SAP 登录密码	是	是	SAP 密码。推荐：使用安全宏。
GCP 项目 ID	是	是	Google Cloud 项目 ID。
SAP JCo 库 GCS 路径	是	是	您向其中上传了 SAP JCo 库文件的 Cloud Storage 的路径。
获取架构	不适用	不适用	该插件会根据来自 SAP 的元数据生成架构，以将 SAP 数据类型映射到相应的 Cloud Data Fusion 数据类型。请参阅数据类型映射。
SAP ODP 订阅者名称	是	是	用于从有效 SAP DataSource 或 CDS 视图中提取数据的 ODP 订阅者。该应用必须包含以下各项：最多 32 个字符，不包含空格仅包含 `a` 到 `z`、`A` 到 `Z`、`0` 到 `9`、`_` 或 `/` 对于从同一 SAP DataSource 提取数据的不同流水线来说是唯一的如果此字段留空，Cloud Data Fusion 将使用项目 ID、命名空间和流水线名称的组合来生成 ID。您可以重复使用以前的订阅，例如第三方工具创建的订阅。
等待时间	是	否	此属性可让数据工程师在每次从 Cloud Data Fusion 到 SAP 的网络调用后选择适当的等待时间。
重试次数	是	否	等待网络调用完成时的重试次数。
过滤选项（等于）	是	否	必须读取的字段值。过滤条件选项是元数据字段名称及其值对的列表。它们定义从 SAP DataSource 读取数据时要应用的过滤条件。系统只会提取符合条件的记录。过滤条件键对应于架构中的一个字段。它必须是简单类型（而非 `ARRAY`、`RECORD` 或 `UNION`）。用法示例：字段名称：`MTART` 值：`FERT`
过滤选项（范围）	是	否	字段必须读取的值的上下限。过滤条件选项是元数据字段名称及其值对的列表。它们定义从 SAP DataSource 读取数据时要应用的过滤条件。系统只会提取符合条件的记录。过滤条件键对应于架构中的一个字段。格式为“低和高”。用法示例：字段名称：`ERDAT` 低值：`2023-11-01` 高值：`2023-11-30`
过滤条件选项（不太等于）	是	否	字段必须小于或等于的值。过滤条件选项是元数据字段名称及其值对的列表。它们定义从 SAP DataSource 读取数据时要应用的过滤条件。系统只会提取符合条件的记录。过滤条件键对应于架构中的一个字段。它必须是简单类型（而非 `ARRAY`、`RECORD` 或 `UNION`）。用法示例：字段名称：`MATNR` 值：`10008`
过滤选项（大于等于）	是	否	字段必须大于才能读取的值。过滤条件选项是元数据字段名称及其值对的列表。它们定义从 SAP DataSource 读取数据时要应用的过滤条件。系统只会提取符合条件的记录。过滤条件键对应于架构中的一个字段。它必须是简单类型（而非 `ARRAY`、`RECORD` 或 `UNION`）。用法示例：字段名称：`MATNR` 值：`10008`
过滤选项（不等于）	是	否	定义要读取的字段不得等于的值。过滤条件选项是元数据字段名称及其值对的列表。它们定义从 SAP DataSource 读取数据时要应用的过滤条件。系统只会提取符合条件的记录。过滤条件键对应于架构中的一个字段。它必须是简单类型（而非 `ARRAY`、`RECORD` 或 `UNION`）。用法示例：字段名称：`MTART` 值：`FERT`
要生成的拆分数量	是	否	创建分区以并行提取记录。运行时引擎会在提取记录时创建指定数量的分区（和 SAP 连接）。请谨慎提高此值，因为它会增加与 SAP 的并发连接数。建议：为每个流水线规划 SAP 连接以及并发运行的流水线总数。如果值为 0 或留空，Cloud Data Fusion 会根据可用执行程序的数量、要提取的记录以及软件包大小选择适当的值。
软件包大小（以 KB 为单位）	是	否	要在单个 SAP 网络调用中提取的记录数。它是指每次网络提取调用期间 SAP 在内存中缓冲的记录数。请谨慎设置此属性。多个数据流水线提取数据可能会使内存用量达到峰值，因 `Out of memory` 错误而导致失败。请输入正整数。如果为 0 或留空，插件将使用标准值 70000 或经过适当计算的值。如果数据流水线因 `Out of memory` 错误而失败，请减小软件包大小或增加 SAP 工作进程的可用内存。
其他 SAP 连接属性	是	否	设置其他 SAP JCo 属性以替换 SAP JCo 默认值。例如，设置 `jco.destination.pool_capacity = 10` 会替换默认连接池容量。

数据类型映射

下表列出了具有相应 Cloud Data Fusion 类型的 SAP 数据类型。

SAP 数据类型	ABAP 类型	SAP description	Cloud Data Fusion 数据类型
`INT1`（数字）	b	1 个字节的整数	int
`INT2`（数字）	秒	2 个字节的整数	int
`INT4`（数字）	i	4 个字节的整数	int
`INT8`（数字）	8	8 个字节的整数	长整型
`DEC`（数字）	p	打包成采用 BCD 格式的数字 (DEC)	decimal
`DF16_DEC`、`DF16_RAW`（数字）	a	十进制浮点 8 字节 IEEE 754r	双精度
`DF34_DEC`、`DF34_RAW`（数字）	e	十进制浮点 16 字节 IEEE 754r	双精度
`FLTP`（数字）	f	二进制浮点数	双精度
`CHAR`、`LCHR`（字符）	c	字符串	字符串
`SSTRING`、`GEOM_EWKB`（字符）	字符串	字符串	字符串
`STRING`（字符）	字符串	字符串 CLOB	字节
`NUMC`、`ACCP`（字符）	n	数字文本	字符串
`RAW`、`LRAW`（字节）	x	二进制数据	字节
`RAWSTRING`（字节）	xstring	字节字符串 BLOB	字节
`DATS`（日期/时间）	d	日期	日期
`TIMS`（日期/时间）	t	时间	时间
`TIMS`（日期/时间）	utcl	Utclong)、TimeStamp	时间戳

限制

为了确保正确定义和执行流水线，请查看以下插件限制：

不支持超过 50k 的打包大小。
不支持增量提取的数据源会在同步模式下失败。
在自定义数据源中，如果未处理软件包大小，则流水线在提取大量数据时会失败。

使用场景

支持两种提取上下文：

数据源或提取器 (SAPI)
ODP 上下文 ABAP CDS (ABAP_CDS)

对于这两种情境，ODP 插件都支持下列标准和自定义数据源：

ODP 数据源	上下文	完全提取	增量提取
已预交付 SAP Standard	沙特阿拉伯	受支持	受支持
自定义 (Z*)	沙特阿拉伯	受支持	受支持
SAP Standard 预交付	ABAP_CDS	受支持	受支持
自定义 (Z*)	ABAP_CDS	受支持	受支持

版本说明

后续步骤

详细了解 Cloud Data Fusion。
详细了解 SAP on Google Cloud。