云器Lakehouse2025年03月版本发布:打造更强大、更智能、更安全的数据管理新体验

导读

在本次云器Lakehouse产品3月的版本发布中,我们带来了数十项产品核心功能的演进和升级,覆盖数据同步、开发体验、智能运维、数据安全四大维度,助力企业轻松应对复杂数据加工和管理挑战!这是自2025年1月云器产品全面开放注册两个月后的一次产品更新。(GA发布会详情请查看文末链接)

本次Lakehouse Studio的版本发布带来了诸多亮点功能:

  • 数据同步对数据源读写的新增扩展,新增对阿里云 Polardb 和 AWS Aurora 数据源的支持,实时同步支持同步数据库的变更数据实时写入到Kafka。

  • 任务开发参数管理的大幅优化升级,优化了参数配置,新增参数取值预览、参数取值加密存储和展示等功能。

  • 智能调度和运维体系进阶,新增支持任务优先级、对补数任务的运维和数据质量监控等进行了增强。

  • 企业级安全管理体系功能全面升级,新增支持自定义角色、完善了基于角色的对数据访问和功能操作权限的细化控制,提供了全方位的操作审计日志能力。

本文选取了部分内容进行介绍。如果期望了解更完整更新内容,请前往**云器官网yunqi.tech**了解或者在产品内直接体验使用!

全域数据同步能力进化

云器Lakehouse Studio原生提供了丰富的**数据同步集成能力**(详情请查看文末链接),比如内置数据同步功能模块,支持通过页面的快速上传导入数据,以及通过Pipe任务导入Kafka和对象存储数据等。本次更新继续大幅升级了离线和实时数据同步能力,并新增了对多种数据源和数据格式的支持。

✨数据同步对数据源读写的新增扩展

Lakehouse Studio的同步任务,先前支持了数十种常用数据源的数据同步,比如MySQL、PostgresSQL、OSS、Kafka等。本次发布中新增了对阿里云 Polardb 和 AWS Aurora 数据源的离线同步和实时同步的能力支持,当前支持的数据源种类扩展到37种,覆盖常用数据库、对象存储、消息管道和API接口等多种类型。

‍Lakehouse Studio的多表实时同步功能,在先前版本中已支持将数据库的CDC变更日志实时同步写入到Lakehouse数据湖仓。本次发布,在实时同步的目标端新增支持了同步至Kafka,以便被更广泛的下游系统消费,确保高吞吐、低延迟数据流转,提升数据流转效率。我们也正在演进拓展更多的源端和目标端,在后续的版本会陆续提供出来。

✨数据同步对来源数据文件格式的兼容性提升

利用Lakehouse Studio的离线同步任务能力,可以便捷地把AWS S3、阿里云 OSS、腾讯云 COS等各类对象存储上的数据文件,通过完全白屏化、零代码化的方式,导入到Lakehouse数据湖仓中,或者同步到其它数据存储。

在先前的版本中,离线同步任务已经支持了读取AWS S3的TEXT、CSV和Parquet格式的文件。本次更新,支持了以 Snappy 等方式压缩的 Parquet 格式文件,并演进了以制表符作为分隔符的 CSV 文件(即TSV文件)的读取解析,提高了对更加广泛的源头数据格式的兼容性。

✨数据同步任务资源Serverless化并支持弹性伸缩

数据同步任务和 SQL 数据处理任务类似,都需要消耗机器的计算资源。而且,随着数据量、同时启动的同步任务数量、单个任务内的并发数等因素的变化,资源消耗会有比较明显的波动。云器 Lakehouse 中提供了统一"虚拟集群(Virtual Cluster)"概念体系,来集中管理Serverless化的机器资源。这次发布,在原有的"通用型"和"分析型"计算集群基础上,新增了"同步型"集群,支持把同步任务调度到这类集群上运行。

"同步型"集群和"通用型"集群相似,都提供固定资源规格和弹性伸缩规格两种模式选择。特别是弹性伸缩模式,支持用户根据任务数和并发数预估最接近的集群规格来匹配业务峰谷。系统能够按照集群负载情况,在用户设定的集群的上下限范围内,自动对集群规模进行扩大或缩小,以适应不同时段作业负载的高低峰变化,自动优化资源使用,既在高峰时减少任务堆积延迟,又能在低谷时避免资源闲置浪费,进而整体提高资源利用率。

数据同步任务资源Serverless化并支持弹性伸缩

开发者体验革新

为了提升开发者体验,云器Lakehouse Studio不断优化任务开发管理能力,提升平台易用性,本次升级主要体现在以下内容:

💻 任务开发参数管理的大幅优化升级

Lakehouse Studio提供了丰富的内置参数和表达式(详情请查看文末链接)来帮助在代码中动态获取所需的取值,比如业务日期(bizdate)、调度任务的计划时间(sys_plan_datetime)等。

在先前的版本中,临时查询(ad-hoc)和周期调度的配置里,参数和取值需要分别进行设定,这容易导致调度配置出现漏配置的问题。此次发布对此进行了大幅度的改进和优化,提供了一个同时兼顾两者的统一参数配置面板,能够统一管理参数配置设置,使操作更加便捷,还能有效预防配置遗漏情况的发生。此外,对于参数的取值设定和展示,本次更新演进了诸多新的功能特性。比如添加了对参数实际取值的预览能力,便于校验参数的赋值是否正确。也新增支持了对参数取值的加密展示功能,能对敏感取值进行保护,降低敏感信息泄露的风险。新增智能识别${}语法功能,支持选择性忽略:即可让用户决定某些变量是否被替换,保留自定义参数作为代码的一部分进行执行,通过更灵活的的配置,适应不同的使用场景。

任务开发参数管理

💻 Python任务支持直接消费数据源中的链接串信息

Lakehouse Studio中提供了Python任务类型,可以方便地通过Pythonl代码来编写处理逻辑,比如基于Lakehouse的SDK,编写Python代码来处理Lakehouse中的数据(详情请查看文末链接)。

本次的发布更新,面向数据源的访问,在代码中需要使用数据库的连接串、用户名、密码等信息的场景,将Python任务和数据源对象做了深度的集成打通,支持在任务中直接选定数据源、在代码中直接获取到数据源中的配置的信息进行连接,可彻底解决降低敏感信息在代码中明文编写、泄露的风险。

智能调度和运维体系进阶

🛠️ 任务调度的优先级

任务调度优先级是分布式计算环境中协调多任务执行顺序的核心机制,它通过量化指标来动态调控任务在资源分配、队列排序、异常处理等方面的系统权重。任务调度优先级机制构成了资源调度器的决策依据,直接影响着任务执行的时效性与稳定性。在本次发布中,新增了对 Lakehouse SQL 任务优先级调控能力的白屏化设定,可帮助用户更精细地划分任务优先级,确保关键任务能够优先执行,避免因资源争抢而导致的延迟,从而满足不同的业务需求。

任务调度优先级

🛠️ 运维监控的功能升级

Lakehouse Studio的补数任务(详情请查看文末链接),是对数据处理链路进行运维时高频使用的功能,支持通过补刷历史或未来一段时间的数据,将写入数据至对应时间分区。在本次发布更新中,补数任务整体进度和状态的可视化得到了显著增强,并支持非终态实例暂停,可以大幅提高补数任务操作的易用性、提升运维效率。

Lakehouse Studio的监控告警,基于告警策略(详情请查看文末链接),已经支持通过常用的企业协作工具如钉钉、飞书、企业微信等多种渠道推送告警。在本次更新中,新增支持了飞书圈人提醒,确保告警信息能够精准触达。

本次更新,同时也扩展支持了自定义Webhook推送,对接企业自建OA、运维平台、项目管理工具或者其他自动化处理系统、集成更多的处理流程,可丰富告警的感知方式,提升整体监控运维效率,保障数据链路的稳定性和可靠性。

Lakehouse Studio的数据质量规则,支持周期调度触发并和监控规则联动、在校验失败时触发告警。本次更新,新增拓展了在质量规则在手动试跑运行时,也支持测试校验结果和告警的联动,来验证整体链路是否工作正常,为质量规则周期调度触发运行提前做一个校验,防止配置错误而漏发告警。

企业级安全管理体系功能全面升级

企业日常协作中常因权限混乱引发数据安全问题,权限设置按部门划分,导致跨部门访问时能被用户看到不应访问的隐私数据,比如个人隐私和成本信息;对于数据平台的功能使用的权限控制混乱,容易出现影响生产环境数据的问题,比如错误地操作了生产任务的下线等。为了解决上述问题,云器Lakehouse在本版本中完善了权限管理功能,提供更完整的权限精细化管理 ,实现从功能权限到数据权限的全方位保护。

✨ 内置角色的权限管控优化和新增支持自定义角色

云器Lakehouse基于工作空间来管理任务和数据对象。为提供良好的开箱即用的操作体验,通过RBAC策略,产品默认提供了基于预置角色的权限控制,比如内置提供了workspace_admin、workspace_dev、workspace_sre等不同角色,并对不同的角色默认授予对应的权限,详见文档(详情请查看文末链接)的介绍。

本次更新,对内置角色功能权限点进行了大幅优化,在数据权限控制之外,也提供了更细粒度的功能权限控制,新增了对页面功能操作的权限点控制,例如任务开发、下载、监控报警配置等,更灵活适配企业内的安全管理诉求。

在通过预置角色来提升使用体验和减少过度授权风险的基础上,本次更新也新增支持了创建工作空间级别的自定义角色的能力,可以自由定义角色并授予页面功能权限和数据权限,从而提高使用的灵活度、确保安全性。

内置角色的权限管控

✨安全审计日志

安全审计日志关联用户完整操作轨迹,追踪用户的操作轨迹,便于审计和问题追溯。通过本次和近期的几次发布迭代演进,云器Lakehouse提供了全方位的安全审计功能,涵盖账户变更审计、页面功能操作审计、对象改动审计、数据访问审计等。

其他体验优化

本次的更新,在新功能之外,在产品操作使用和展示体验上也持续进行了诸多的优化改进,比如在界面上支持快速复制任务列表支持名称,将调度定时的Cron调度表达式解析调整为24小时制并提供清晰的表达展示便于理解、选择本地文件上传至新表时识别本地文件的名称后默认填充为新建表名,对实时同步残留任务实例和临时表增加自动清理机制来规避人工处置等。本次发布累计完成了70+项的优化改进,涉及诸多方面,虽琐碎且繁多,但我们坚信细节才能成就完美,我们会持续努力为用户提供一个功能强大、便捷易用的数据平台产品。

查看完整更新日志:

https://www.yunqi.tech/documents/RN_2025-03-05

文内相关文档地址:


访问云器官网,可直接试用体验https://www.yunqi.tech/?hmsr=CSDN&hmpl=&hmcu=&hmkw=&hmci=更多内容,欢迎关注「云器科技」官网!

云器科技-多云及一体化数据平台提供

相关推荐
雪兽软件4 小时前
您需要了解的顶级大数据技术
大数据
super_lzb4 小时前
mybatis拦截器ParameterHandler详解
java·数据库·spring boot·spring·mybatis
CV工程师的自我修养4 小时前
数据库出现死锁了。还不知道什么原因引起的?快来看看吧!
数据库
码界奇点5 小时前
灵活性与高性能兼得KingbaseES 对 JSON 数据的全面支持深度解析
数据库·json·es
2501_941871455 小时前
面向微服务链路追踪与全局上下文管理的互联网系统可观测性设计与多语言工程实践分享
大数据·数据库·python
XC131489082675 小时前
ToB获客破局:精准数据+AI外呼,重构效率新模式
大数据·人工智能·重构
·云扬·5 小时前
MySQL单机多实例部署两种实用方法详解
数据库·mysql·adb
odoo中国5 小时前
Pgpool-II 在 PostgreSQL 中的用例场景与优势
数据库·postgresql·中间件·pgpool
男孩李5 小时前
postgres数据库常用命令介绍
数据库·postgresql
小龙5 小时前
[Git 报错解决]本地分支落后于远程分支(`non-fast-forward`)
大数据·git·elasticsearch·github