automatic_HudiCleaning操作说明

Automatic Hudi Cleaning操作说明

创新互联专注于企业成都全网营销推广、网站重做改版、建始网站定制设计、自适应品牌网站建设、H5场景定制商城开发、集团公司官网建设、成都外贸网站建设公司、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为建始等各大城市提供网站开发制作服务。

自动Hudi清理是Apache Hudi的一个功能,用于自动删除旧的、不再需要的数据集版本,这种清理基于配置的策略,可以定期或在数据写入时执行。

1. 配置Hudi清理策略

要配置Hudi清理策略,您需要在Hudi表的Spark SQL创建语句中指定HudiTableSink选项,以下是一个示例:

CREATE TABLE hudi_table (
  ...
)
USING org.apache.hudi.spark.HoodieSparkSqlQueryableDataSource
OPTIONS (
  'hoodie.data.publisher'='org.apache.hudi.spark.datasource.write.DataWriterFactory',
  'hoodie.cleaner.commits.retained.time'='1d',
  'hoodie.cleaner.min.commits'='5',
  'hoodie.cleaner.enable'='true',
  'hoodie.cleaner.schedule'='10 mins',
  'hoodie.cleaner.policy'='COMPACTION'
);

在这个例子中,我们配置了以下策略:

hoodie.cleaner.commits.retained.time: 保留最近1天的所有提交(即不会删除这些提交)。

hoodie.cleaner.min.commits: 至少保留5个提交,即使它们的时间戳比hoodie.cleaner.commits.retained.time更老。

hoodie.cleaner.enable: 启用自动清理。

hoodie.cleaner.schedule: 每10分钟进行一次清理。

hoodie.cleaner.policy: 使用COMPACTION策略进行清理。

2. 启动Hudi清理

一旦配置了清理策略,Hudi将在后台自动执行清理任务,如果您想手动触发清理,可以使用以下命令:

CALL system.hudi_clean('hudi_table');

这将立即执行清理操作,而不是等待下一个计划的清理周期。

3. 监控和调试Hudi清理

要监控和调试Hudi清理,您可以查看Hudi表的提交历史和清理历史,以下是一些有用的查询:

查看所有提交:

SELECT * FROM hudi_table.hoodie_commits;

查看所有清理:

SELECT * FROM hudi_table.hoodie_cleans;

查看当前保留的提交:

SELECT * FROM hudi_table.hoodie_retained_commits;

通过这些查询,您可以了解Hudi清理是否按预期工作,以及是否需要调整清理策略。

新闻标题:automatic_HudiCleaning操作说明
新闻来源:http://www.shufengxianlan.com/qtweb/news31/503731.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联