前言 首期畅聊云原生-作者光临如期举办,本期主题聚焦大家热议话题,大数据与AI。本次活动出品人特别邀请茄子科技(海外SHAREit Group)联合创始人&首席技术官陈少为,及其团队大数据平台负责人朱哲。海量的数据规模、快速发展的公司业务对大数据平台提出了复杂、苛刻的需求,茄子科技大数据团队自主研发的跨多云自助式大数据平台 DataCake,让大数据开箱即用,陈少为老师及朱哲老师将与创原会会员开展研讨和剖析,揭开 DataCake 平台背后的奥秘。
▍主题一:企业需要怎样的大数据平台
在工业化时代,四大核心生产要素分别是土地、劳动力、资本、技术。进入数字经济时代,数据要素成为了第五要素。数据作为生产要素分配,已经上升到国家的战略高度,数据的利用无疑将成为我国发展数字经济和建设数字中国的强大动力,同时也逐步成为企业核心竞争力所在,且数据分析市场潜力巨大,基于数据驱动的企业每年可以额外获得 30% 的数据增长。
大数据领域有着超过 20 年的发展历史,"大数据"含义的也与时俱进,首先大数据的规模从 PB 级数据到适应大中小数据,从当年谷歌所说的 PB 级数据分析,现在扩展到从 GB 到 PB 的通用数据处理方案,更加符合现代企业数字化的需求;其次数据的定义从仅仅指数据到围绕数据的工具平台及方法论扩张,比如常见句式,用大数据赋能;最后随着大数据定义及范畴的改变,数据平台架构的逐步演进,从数据库到数据仓库,再到数据湖,再到现在流行的 Data Lakehouse (湖仓一体)。
茄子科技大数据平台 DataCake 的负责人朱哲认为,符合现代企业数字化的大数据平台必须拥有如下三个特点:
而企业需要怎样的数据平台,我们聚焦了3点:
- Data Mesh 更低门槛自助化:从数据到洞察,从洞察到决策,可以一个角色/人完成;
- Data Lakehouse 更 Data & AI 统一架构:我们比较认同的是都是 Data-centric AI,data 和 AI 是紧密相连的,好的 data workflow 决定了 AI 的上限,好的 AI 才能更多释放 data 的价值;
- Cloud Native 更高性价比:大数据从诞生之处就不是昂贵方案,大数据的本质是通用廉价方案。云原生的含义不仅仅在于适配和云端部署,而是真正充分的利用公有云的特性,比如集群弹性扩缩,做到算力的灵活调度和充分利用。"
软通动力云原生研究中心主任马骏指出
架构可扩展性是数据平台一个很重要的维度,企业构建大数据平台之初以小规模项目起步,待业务规模增加后再考虑复杂的解决方案。这时架构的可扩展性就显得十分重要,确保业务数据规模上升后架构横向扩展的能力是关键。
华人运通云服务和信息安全总监赵旭也认同了云原生的重要性
指出华人运通在数据平台的构建在初期考虑私有云方案,但整体组件跟随不上开源平台的更新速度,最终逐步转移到公有云上。
▍主题二:数据平台该如何更好地拥抱 AI
IDC 提出,2023年有望成为 AI 领域最令人兴奋的一年,生成式 AI 引领的下一代人工智能对个人生活、工作以及每个企业都将产生深远影响,AI 极大扩展了数据处理的能力。
茄子科技朱哲认为 大数据平台首先是支撑 AI,data workflow 的效率对于AI的迭代和效果至关重要,通常一个算法工程师,70% 时间应该都是在搞数据,20% 时间做实验,10% 时间看 paper。因此做好 data & AI workflow 架构的一致性,用户体验的连贯性,因果链路的关联性,这是数据平台要实现的首要目标。其实是利用 AI,严格意义上更多是 ML/DL 在数据平台的应用,站在场景角度,数据平台每日调度几万到数十万实例,涉及几百到万台机器,本身就是一个业务系统。而如其他场景和业务系统一样,AI 利用的价值取决于投入产出比。而因为在公有云/多云环境的下,拥有了灵活算力,才衍生了更多精细化的策略,才让精细所能带来的收益 beat 了投入成本。我们在如下几个场景,获得了显著的收益,实时任务计算成本,引擎自动选择,智能算力分配,智能集群扩缩等。"
Smart 品牌全球公司 IT 技术开发总监刘克兴对于数据平台及 AI 也有自己的看法:
AI 中台是数据中台的未来发展的趋势,随着业务技术的发展,数据中台会向着 AI 中台演进,它围绕智能化服务为核心,它依赖于数据中台提供给它数据服务的能力,而智能化的技术开发能力,又能够提供给数据更便捷和快速的数据分析和预测,从而提供了更好的数据服务。因此它们之间又是相互依存、共同提升的关系。在当下主流的生成式AI模型更依赖于大数据底层模型了,底层模型的相当于大数据初期的预处理机制,包括去杂,降噪,整形等基本清洗,保障 AI 层模型的更加高效运算和迭代。构建可靠的数据中台会对 AI 有着至关重要的作用,数据中台也将继续下沉成为基础服务的一部分,与 AI 算法模型形成前后队形关系,逐渐迭代 AIGC 更成熟。"
软通动力云原生研究中心主任马骏点出
基于已有的 snowflake 商业案例阐述 AI 在大数据平台的落地现状:
● snowflake与英伟达合作,把用于训练与运行生成式AI的NeMo平台嵌入snowflake的data cloud 中。数据平台需要具备AI模型的训练能力,可以利用企业自己的数据来训练新的AI模型,不会面临失去对自家数据的控制的风险,同时在data cloud中扩展AI能力,使客户能够在其受治理数据已驻留的位置创建生成式AI应用,可显著降低成本和延迟。
● Snowflake宣布了与Nvidia合作的 Snowpark Container Services,旨在帮助企业用户管理和使用大型语言模型(LLM),新的容器服务将存储在Snowflake中的企业数据与LLM、模型训练接口、模型治理框架、第三方数据增强应用程序、机器学习模型、API和Snowflake 的原生应用框架连接起来。"
灵智能科技创始人王永海基于业务视角谈道 "数据平台和 AI 已经密不可分了。在数据平台中,上游任务对下游任务提供支持,传统手段很难满足多变的任务需求,这是就需要 Al 的介入有效的完成下游任务支撑。另外,Al 的任务模型训练也需要大数据的支持,数据平台提升数据机器可读性的能力,以满足任务模型的训练需要,也是数据平台很关键的考量指标。所以,在现有的业务场景下,数据平台与 AI已经是互为融合、互为成就的关系,这是数据平台建设的关键。
于此同时,顺丰科技大数据领域技术总监 蔡适择基于目前大模型的安全合规问题也提出了自己的担忧:
他认为随着大模型的发展,大数据平台 AI 化是必然的趋势,但当前大模型幻觉、数据安全问题,依然困扰着我们把它进行大规模落地,这块也想看看各位同行专家的建议。在我这边的团队,目前也已经把大模型的能力整合进了大数据平台,重点解决的是从需求智能分析、开发智能辅助、作业智能运维、数据智能诊断、数据智能洞察四大环节五大内容,但确实也仅仅是个辅助的 Copilot,无法形成面向真正业务而非研发用户的交互式对话体验,因为它没法确保自己是准确的。"
探真科技安全运营总监何诣莘补充到
目前 LLM 如此受欢迎我觉得就是在一定程度上降低了大家对于专业知识的认知门槛,但是对于一些企业自身的"特定问题",通用大模型在很多时候还是无法精准覆盖。所以,这种能降低门槛的专有模型或者私有模型还是有很多可能性,目前的一个障碍可能是如何来降低这种私有化部署的门槛。"
▍主题三:大数据平台的未来趋势预测
茄子科技朱哲提出了自己的看法,未来大数据平台将在云原生及成本管理、多云、 SaaS 化三个方面发展:
(1)云原生+ FinOps
现在国内用云,在大数据场景,大多数还都是 IDC 的传统 Hadoop方案,固定集群。如果用云不用云原生,不做弹性扩缩,还不如回 IDC。我们自己的方案,在弹性扩缩这边已经做出了不少成绩,在我们 DataCake Serverless 某集群下,承载近 800 台机器峰值算力需求的成本,只够搭建80台机器的传统 hadoop 集群。而且,我们通过实时任务级成本,智能计算和存储治理等手段,也实现了精细化的大数据成本度量与管控。
(2)多云
多云有三个层次,一是数据平台在多个云之间快速迁移,二是同时管理多云多区域的计算和存储,三是跨多云统一灵活的算力调度。其中第三个目前业界还不成熟,主要是云商间的出网流量费用问题,茄子科技已经可以做到第一、二个层次,为充分利用多云多区域优势,满足各国多业务合规要求,业务方和数据用户始终使用一个 DataCake 界面,管理多云多区域的任务和元数据,方便做到多云多区域的数据分析,数仓开发和数据挖掘工作。同时也具备了随时跨云迁移的能力。
(3)SaaS
茄子科技有接触一个创业公司,每天总共云成本 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1000 ,对于创业公司而言也很贵,但业务又非常依赖各种数据分析,也想做数据挖掘。如果让他们使用我们 S a a S 版的 D a t a C a k e 数据平台,他不需要招大数据开发,运维,数仓等动辄百万的人力,只需要利用现有会写 S Q L 的运营,外加按用量付费,每天花费不足 1000,对于创业公司而言也很贵,但业务又非常依赖各种数据分析,也想做数据挖掘。如果让他们使用我们 SaaS 版的 DataCake 数据平台,他不需要招大数据开发,运维,数仓等动辄百万的人力,只需要利用现有会写 SQL 的运营,外加按用量付费,每天花费不足 </math>1000,对于创业公司而言也很贵,但业务又非常依赖各种数据分析,也想做数据挖掘。如果让他们使用我们SaaS版的DataCake数据平台,他不需要招大数据开发,运维,数仓等动辄百万的人力,只需要利用现有会写SQL的运营,外加按用量付费,每天花费不足100 的计算成本,他就拥有了比肩行业大厂的 Infra 能力。这对生产力的释放是巨大的,所以我们还是坚信大数据 SaaS 化是正确且必然的路线。"
福佑卡车大数据算法负责人刘尉良认为
多云和混合云是未来的趋势,同时也有不少的问题需要来解决。首先大数据平台复杂度的提升,管理多个云环境会增加架构和运营的复杂性,可能需要不同的工具和技能来管理不同的云环境、其次是网络延迟和数据传输成本,数据在不同云环境之间的传输可能会遇到网络延迟问题,同时数据传输也可能产生额外的成本。特别是对于实时平台;最后,安全与合规方面每个云平台可能有其自己的安全和合规要求,满足多个平台的安全和合规要求可能会成为一个挑战。这些是大数据平台发展必须要面临和解决的问题。"
在科技日新月异的今天,大数据平台、AI 和云原生等技术的融合与发展,正引领着新一轮的科技革命。大数据平台以其强大的数据管理和分析能力,为我们提供了巨大的信息价值。AI 技术的快速发展,使得我们能够更好地解决复杂的实际问题。而云原生技术的普及,则使得应用能够更好地适应分布式环境,提高应用性能和可靠性。在未来的发展中,我们期待看到大数据平台、AI 和云原生技术的更深度融合,以实现更高效、更智能的应用和服务。