此页面由 Cloud Translation API 翻译。

Dataproc 集群配置

在 Cloud Data Fusion 中，集群配置是指定义您的数据处理流水线在运行 Spark 时会利用计算资源 Dataproc 上的作业。本页面介绍了集群配置。

默认临时集群（推荐）

推荐使用默认集群 Cloud Data Fusion 流水线。

Cloud Data Fusion 会自动预配和管理临时存储 Dataproc 集群。它会创建一个集群，然后在流水线运行完成之后将其删除，流水线运行完成。
使用临时集群的好处：
- 简单：您无需手动配置或管理集群。
- 高性价比：您只需为在运行期间使用的资源付费流水线执行。

。

如需调整集群和调整性能，请参阅集群大小调整。

静态集群（适用于特定场景）

在以下情况下，您可以使用静态集群：

长时间运行的流水线：适用于连续运行的流水线或因此静态集群的成本效益可能高于需要反复创建和拆除临时集群
集中式集群管理：如果您的组织需要集中控制集群创建和管理政策、静态可以与 Terraform 等工具搭配使用
集群创建时间：创建新集群所需的时间对您的应用场景来说会过于拥挤。

但是，静态集群需要更多的手动配置，并且涉及管理集群生命周期

如需使用静态集群，您必须设置以下内容媒体资源在 Dataproc 集群上执行下列操作：

dataproc:dataproc.conscrypt.provider.enable=false

静态集群的集群配置选项

如果您选择使用静态集群，Cloud Data Fusion 会提供配置选项：

工作器机器类型：指定工作器的虚拟机类型节点这决定了可以使用的 vCPU 和内存。
工作器数量：定义您的集群。Dataproc 可能仍会根据情况自动扩缩此数量，工作负载
可用区：选择集群的 Google Cloud 可用区。位置可能会影响数据位置和网络性能。
其他配置：您可以为静态集群配置高级选项，例如抢占设置、网络设置和初始化操作。

最佳做法

为流水线创建静态集群时，请使用以下配置。

参数	说明
`yarn.nodemanager.delete.debug-delay-sec`	保留 YARN 日志。建议值：`86400`（相当于一天）
`yarn.nodemanager.pmem-check-enabled`	启用 YARN，以检查物理内存限制，并在容器超出物理内存时终止容器。推荐值：`false`
`yarn.nodemanager.vmem-check-enabled`	启用 YARN 以检查虚拟内存限制，并在出现以下情况时终止容器：不局限于物理内存推荐值：`false`。

如需了解详情，请参阅针对现有 Dataproc 集群运行流水线。

重复使用集群

您可以在两次运行之间重复使用 Dataproc 集群处理时间。集群重用是在类似于连接的模型中实现的即线程池化任何集群都会按指定的时间间隔。新运行开始后，它会尝试找到与计算配置文件的配置匹配的可用集群。如果存在集群，则系统会使用该集群，否则将启动新集群。

重复使用集群的注意事项

集群未共享。类似于常规临时集群预配模型，则集群一次运行一条流水线。答只有当集群处于空闲状态时，系统才会重复使用该集群
如果为所有运行启用集群重用用于处理所有运行作业的集群。类似于临时 Dataproc 预配工具，无法直接控制创建的集群数量您仍然可以使用 Google Cloud 报价来管理资源例如，如果您运行 100 次，最多 7 次因此在给定时间点最多可以有 7 个集群。
在这些流水线之间，集群会立即在不同流水线之间重复使用使用相同的配置文件并共享相同的配置文件设置。如果是个人资料自定义，集群仍可以重复使用，但前提是完全相同，包括诸如进行微调。
启用集群重用后，有两个主要的费用注意事项：
- 用于集群启动和初始化的资源较少。
- 集群会使用更多资源在流水线之间空闲和上次流水线运行之后的状态。

虽然很难预测集群重复使用的成本影响，但您可以使用以最大限度地提高成本节省。我们的策略是确定链式流水线，并为此关键路径实现集群重用。这将确保集群立即重复使用，不会浪费任何空闲时间，并实现最大性能优势。

启用集群重复使用

在已部署流水线配置的“计算配置”部分或创建新的计算配置文件时：

启用跳过集群删除。
最大空闲时间是指集群等待下一个流水线的最长时间以便重复使用默认最长空闲时间为 30 分钟。对于最长空闲时间：考虑重复使用的费用与集群可用性“空闲时间上限”值越高，处于空闲状态且准备运行的集群就越多。

问题排查：版本兼容性

问题：Cloud Data Fusion 环境的版本可能与 Dataproc 集群的版本不兼容。

建议：升级到最新的 Cloud Data Fusion 版本并请使用某个受支持的 Dataproc 版本。

早期版本的 Cloud Data Fusion 仅与不受支持的 Dataproc 版本。 Dataproc 不会为使用这些版本创建的集群提供更新和支持。虽然你可以继续运行使用不受支持的版本创建，建议您将其替换为使用支持的版本。

Cloud Data Fusion 版本	Dataproc 版本
6.10 及更高版本	2.1、2.0^*
6.9	2.1、2.0、1.5^*
6.7-6.8	2.0、1.5^*
6.4-6.6	2.0 ^、1.3 ^*
6.1-6.3	1.3^**

^* Cloud Data Fusion 6.4 版及更高版本兼容受支持的 Dataproc 版本。除非有特定的操作系统功能但建议的做法是指定 major.minor 映像版本。
要指定 Dataproc 集群中使用的操作系统版本，操作系统版本必须与某个受支持的 Dataproc Cloud Data Fusion 的 Cloud Data Fusion 版本。

^** Cloud Data Fusion 6.1 至 6.6 版兼容不支持的 Dataproc 版本 1.3。

问题排查：退出容器但出现非零退出代码 3

问题：未使用自动扩缩政策，并且 Dataproc 集群正面临内存压力，导致显示在日志中的内存不足异常：Container exited with a non-zero exit code 3。

建议：增加执行器内存。

通过添加 task.executor.system.resources.memory 运行时来增加内存传递给流水线。以下示例运行时参数用于设置至 4096 MB：

"task.executor.system.resources.memory": 4096

如需了解详情，请参阅集群大小调整。

后续步骤

请参阅如何更改 Dataproc 映像版本。