写在前面
自《"数据要素x"三年行动计划》印发以来,各界积极投身于探索数据开发的新技术、新应用场景和新模式,力求通过挖掘数据要素的价值来推动新型生产力的蓬勃发展。在这个过程中,以大模型为核心的人工智能技术为数据开发工作带来了全新的动力,促使各方开始尝试利用大模型协助数据开发人员,旨在提高数据开发效率并降低操作门槛。
10月10日,大数据技术标准推进委员会成功举办了一场以"大模型时代数据开发新变革 "为主题的分享沙龙。数造科技产品研发总监鲍立飞先生受邀出席,并发表了题为《创变未来-大模型时代的数据开发创新探索》的演讲,详细介绍了数造科技在将DataOps理念与大模型技术相融合方面所取得的创新成果与实践经验。
鲍立飞
数造科技产品研发总监
中国信通院DataOps专家委员、资深DAMA数据治理专家,拥有十多年数据管理领域工作经验,曾成功主导多个世界五百强企业的数据中台和DataOps项目的咨询与建设工作。
一、大模型时代下的数据开发革新
在当前的数字化转型进程中,企业内部面临的数据供需矛盾愈发显著,诸如找数难、用数慢、门槛高、成本高等问题层出不穷。这些问题的具体表现包括数据交付团队难以迅速响应市场和运营部门提出的多样化且时效性强的数据需求。从业务角度看,从提出需求到最终实现往往需要1至2周的时间;而从技术角度看,开发和测试环境的不一致性、部署集成的低效率,以及缺乏有效的工具和流程支持,都成为了阻碍数据价值传递给客户的瓶颈。
在此背景下,DataOps作为一种将数据开发与运营紧密结合的新范式应运而生。DataOps强调研发与运营的一体化,通过自动化工具、持续集成/持续交付(CI/CD)等手段,将两者无缝对接,从而提升开发效率,减少错误,使数据产品能够更快、更稳定地进入生产环境。
随着大模型时代的到来,数据工程领域迎来了新的变革。大模型凭借其卓越的理解和生成能力 ,结合RAG和Agent技术,将传统的结构化数据分析方式转变为自然语言交互的数据分析范式。用户只需清晰表达意图,即可获得以多模态方式呈现的自然结果,从而降低了数据分析的门槛。数据开发工作也因此从传统的脚本编写和数据处理流程中解脱出来,转变为一种智能化 、自动化的创新实践。数据开发人员的角色也从执行者转变为创新者,他们利用大模型的能力,加速产品迭代,推动数据产品的创新。
传统数据开发模式VS大模型加持的开发模式
相比传统的数据开发模式,DataOps与大模型的结合带来了数据工程的新变化。
传统的数据开发模式工序繁琐,需要多个工具协同作业,但工具间的不互通增加了协作的复杂度。每个环节几乎都需要手动操作,流程复杂且交付周期长,容易因环境和参数配置不当而出错。相比之下,大模型加持的数据开发模式实现了开发流程的自动化和标准化,显著简化了操作复杂度,减少了人工干预,缩短了交付周期,同时还提升了数据开发的灵活性和效率。
因此,DataOps与大模型的结合有望大幅提升数据研发和数据分析的效能,为用户带来全新的体验,进一步推动数据的民主化进程,并为企业创造更多的商业价值和竞争优势。
二、 数造科技的创新之路:DataOps与大模型的融合探索
在DataOps理念框架与大模型技术的交汇点上,数造科技开展了一系列创新实践,特别是在需求管理、开发管理和测试管理等关键环节,展现了大模型技术的独特价值。
例如,大模型在需求管理中的创新应用,能够通过自然语言处理技术精准地解析业务需求,并将其高效地转化为数据模型和SQL代码。
具体过程如下:
-
业务分析人员只需以自然语言的方式提出数据需求,系统便能通过数据需求工单轻松记录,无需技术背景,操作简便。
-
数据架构师随后对这些需求进行深度剖析,明确其背后的数据目标、数据集或指标。在此过程中,大模型能够帮助数据架构师理解需求中的细微差别,识别合适的数据库表、字段和指标,从而实现对数据需求的精确解析。
-
接下来,大模型(LLM)会将这些需求转化为具体的代码或SQL语句。这一过程包括自然语言处理以解析需求、实体识别以提取数据库实体、字段或指标、生成DDL和数据处理的SQL语句,以及通过语句拼接、元数据提取和转换直接输出有效的代码。这一转变的核心在于,传统的手动编写SQL或代码的过程被大模型所替代,实现了根据自然语言需求自动生成代码,显著提升了开发效率。
-
数据工程师对大模型生成的代码进行人工审核和测试,以确保其符合业务需求且逻辑无误。
-
运维工程师则负责将生成的代码部署到生产环境,并根据业务用户的反馈进行持续调整和优化。部署后,系统还会根据实际运行情况进行持续优化,并将这些反馈传递给大模型进行学习,以进一步提升自动化生成代码的准确性。
我们可以看到,在数据需求转换的流程中,大模型能够加快需求转换的效率,快速响应业务的需求变化。
智能SQL开发助手
与此同时,数造科技还推出了智能SQL开发助手,它集成了代码生成、代码解释、数据建模、SQL改写、SQL优化及快速生成注释等能力,显著提升了企业数据开发的效率与质量。
具体功能包括:
✔代码生成:输入ETL开发需求及选择本地元数据,自动生成可执行的DDL和DML语句。
✔代码解释:选择代码片段,给出ETL代码的解释。
✔数据建模:按要求生成物理模型对应的建表语句。
✔改写SQL:对制定SQL按要求进行改写。
✔SQL优化:选择代码片段,给出ETL代码的优化建议。
✔生成注释:对选定的SQL生成注释。
此外,在数据开发领域,开发规范、最佳实践和技术经验的沉淀是确保数据项目高效交付和质量一致的重要基础。然而,随着项目规模和复杂性的增加,手动维护和传播这些知识变得愈加困难。而基于大模型构建的智能数据开发助手能够通过其学习能力帮助开发者在数据开发过程中实现规范化、自动化和知识沉淀,促进团队的协作与效率提升。
三、数造科技案例分享:助力某能源集团提升数据开发效能
某能源集团的数据开发工作主要依赖于供应商或者外包工程师,但由于工程师的技术水平参差不齐❌,为了快速满足业务需求,有时会忽视SQL开发的质量,经常导致SQL运行时间长或者大量资源被抢占的情况,严重影响了整体业务流程的顺畅。
为了应对这些挑战,数造科技为该能源集团搭建了一站式数据开发平台,旨在通过智能化工具提高开发效率、降低错误率、提升数据分析能力,并优化资源配置。
数造科技的智能SQL助手为该能源集团带来了以下关键功能:
✔智能代码生成:根据用户输入的自然语言需求,自动生成相应的SQL查询语句。
✔语法检查:对用户编写的SQL进行实时语法检查,并提供优化建议。
✔代码优化:通过给大模型输入SQL脚本、表结构及元数据描述、表统计信息、SQL执行计划、执行历史、数据库及执行资源、业务需求、SQL问题描述等信息,由大模型提供优化建议。
建设成效
通过引入数造科技的智能SQL助手,该能源集团不仅显著提升了数据开发的效率和质量,还优化了资源配置,实现了业务流程的高效运转:
👍开发效率大幅提升 :SQL编写时间预计减少了50% ,数据处理效率提高了30%。
👍错误率显著降低 :借助自动化和智能化手段,SQL错误率降低了70%。
👍数据分析周期缩短:数据分析所需时间大幅缩短,为业务决策提供了更加及时、准确的数据支持。
四、探索未来:DataBuilder引领数据智能新篇章
鲍立飞认为,随着大模型技术的快速发展,大模型在数据智能领域的应用前景广阔。未来的趋势将朝着以下几个方向发展:数据开发智能化、数据测试自动化、数据质量监控精细化以及数据分析民主化。
数造科技作为国内领先的数据开发与治理平台提供商,已率先在国内采用大模型重新定义数据开发管理工具。"我们坚持创新驱动发展的战略,聚焦于大数据处理和人工智能技术的研究与应用,积极推动各行业的数字化转型。"
数造科技自主研发的一站式数据开发管控平台DataBuilder是基于大模型的敏捷数据开发工具。该平台采用"DataOps +AI"双引擎驱动,结合了当前业界最先进的DataOps框架理念和标准,并高效融合了大模型能力(如支持代码生成、解释与审查工作等),开创数据开发与治理一体化,可以帮助企业快速构建从数据接入到数据分析的端到端数据平台,让数据价值快速赋能业务应用。
截至目前,DataBuilder已累计服务客户上百家,在金融、能源电力、制造、零售、政务及医疗等多个领域得到广泛应用,其中不乏招商银行、平安产险、南方电网、广汽集团和沃尔玛等行业龙头企业。该平台有效解决了客户面临的数据孤岛、数据质量及数据资产运营等难题,为推动相关行业的数字化升级与变革注入了强劲动力。
此外,DataBuilder还凭借卓越的技术创新能力与丰富的实践应用案例,斩获了多项权威奖项,如"中国数据智能最佳实践案例 "、"中国数据治理优秀产品"等,充分证明了其产品的优越性能和市场影响力。
展望未来,数造科技将继续探索DataOps与大模型的结合潜力,通过不断优化平台功能和提升服务质量,帮助更多企业实现数字化转型和智能化升级。