AI大语言模型时代构建全新数据平台

在大语言模型的引领下,数据平台领军企业 Databricks 和 Snowflake 的未来重置,探讨了 Databricks 和 Snowflake 等知名平台,

存储领域的 Delta、udi、Iceberg,还是实时化数据处理领域的 Databricks、Snowflake

1、LLM 给大数据企业带来改变

大模型给企业带来的改变范围很广。它可以帮助企业取代许多人的工作,例如数据开发、数据调优、数据库管理员(DBA)等,大模型的成功依赖于三个要素:模型、数据和算力,Bloomberg 公司发布了一款名为"BloombergGPT"的大模型,专注于新闻和财经领域。由于在这个领域积累了丰富的数据,其生成的大模型在知识深度和逻辑结构方面更为优越

2、LLM 并发挥出数据的价值

AI 作为核心功能融入数据平台,目前 AI 链路还在快速演进中,变化很多。企业基础设施需要能保持灵活性。插件化体系本身可以通过 UDF、FunctionCompute 或者专门的 PipelineManagement 系统来解决,LLM 应用的组件已有很多,比如 LangChain、向量数据库、LLM runtime,这些组合可以很容易搭建起来一个端到端 LLM 服务链路。很多新兴的更易用的 LLMOps 组件都在涌现,比如 Lepton.ai, XInference

3、开源产品 Spark/Flink/Clickhouse、以及 SaaS 化的 Snowflake 相比

第四种新的计算方式,即增量计算。我们希望通过增量计算来统一这三种传统计算模式,最终形成一个一体化的引擎。

Flink 是比较早去尝试做一体化的解决方案,并且提出过"流批一体"的口号,目前看落地案例并不太多

4、BI 和 AI/ML 正在逐渐融合

系统解耦 / 开放与高性能的平衡,两种计算模式的联动。数据分析领域 SQL 是主流语言,AI 领域 Python 最流行,如何方便地编程两种系统,是关键挑战。SQLML、SQL+UDF 内嵌 Python、Python 的 SQLAlchemy 库、原生 Python 接口等都是选择

5、BI+AI/ML,甚至是 LLM,数据平台也需要逐渐支持 OLAP、OLTP、流、Graph、向量

数据领域分成 OLTP、OLAP、AI 三个大方向,OLAP 数据分析领域内的典型场景基本固定,Lambda 架构问题业界有明确共识,一体化架构统一所有分析类的 Workload 是未来方向。

OLAP+AI 一体化是目前的热点,这两类数据的重合度以及交互的诉求都够强。Databricks 一直主打这个方向,它一直坚持 Data+AI 的战略。Snowflake 从 OLAP 领域出发,最近也在加速同时支持 AI 的布局,比如一直在发力的 SnowPark。

支持数据分析和其它计算范式 。SQL 引擎和 AI 引擎都能支持好,数据分析的架构将趋于统一。在数据分析领域,大家最终可能都会向着增量计算的方向发展,从而逐渐打破 Lambda 架构的限制,一体化的架构会成为未来。跟我们前两年预测湖仓一体会成为未来一样,希望一体化架构两年后也会真正落地

大语言模型带来了半结构化和非结构化数据处理能力的显著增强。以前处理这些数据几乎是很困难的,但现在已经变得相对容易。以前阅读一个 PDF 文件,很难理清其中的内容,而现在这方面的处理变得更加简便。在这个层面上,如果以前我们只能处理结构化数据,现在又多了两类,半结构化和非结构化数据。处理这些数据能力的显著增强,势必会带来存储和计算的需求显著增长。

大语言模型到来,数据交换 / 隐私保护会得到更多投资。数据的安全和隐私的要求进一步提升了,数据共享的需求变得更加迫切。因为数据本质上就是知识。

BI+AI 成为数据平台必选项,数据平台需要内置或插件化支持异构数据、finetune、向量检索等 AIOps 技术。AI 让所有的平台智能化,数据平台的智能化也成为必然。大幅降低使用门槛的数据平台会被更多人所使用

《2023 中国人工智能成熟度模型报告》

相关推荐
大写-凌祁1 天前
零基础入门深度学习:从理论到实战,GitHub+开源资源全指南(2025最新版)
人工智能·深度学习·开源·github
焦耳加热1 天前
阿德莱德大学Nat. Commun.:盐模板策略实现废弃塑料到单原子催化剂的高值转化,推动环境与能源催化应用
人工智能·算法·机器学习·能源·材料工程
深空数字孪生1 天前
储能调峰新实践:智慧能源平台如何保障风电消纳与电网稳定?
大数据·人工智能·物联网
wan5555cn1 天前
多张图片生成视频模型技术深度解析
人工智能·笔记·深度学习·算法·音视频
格林威1 天前
机器视觉检测的光源基础知识及光源选型
人工智能·深度学习·数码相机·yolo·计算机视觉·视觉检测
今天也要学习吖1 天前
谷歌nano banana官方Prompt模板发布,解锁六大图像生成风格
人工智能·学习·ai·prompt·nano banana·谷歌ai
Hello123网站1 天前
glean-企业级AI搜索和知识发现平台
人工智能·产品运营·ai工具
AKAMAI1 天前
Queue-it 为数十亿用户增强在线体验
人工智能·云原生·云计算
索迪迈科技1 天前
INDEMIND亮相2025科技创变者大会,以机器人空间智能技术解锁具身智能新边界
人工智能·机器人·扫地机器人·空间智能·陪伴机器人
栒U1 天前
一文从零部署vLLM+qwen0.5b(mac本地版,不可以实操GPU单元)
人工智能·macos·vllm