数栈 V7.0 多模态数据智能平台：打造 AI-Ready 的企业数据底座

2026 袋鼠云春季数智发布会上，袋鼠云正式发布数栈 V7.0。作为数栈面向 AI 时代的一次重要大版本升级，V7.0 将产品定位从 "大数据开发与治理平台" 进一步升级为 AI-Ready 的多模态数据智能平台，围绕结构化、半结构化、非结构化数据的统一采集、存储、开发、治理、检索、服务与智能调用，帮助企业构建面向 AI 应用规模化落地的新一代数据智能基础设施。

这次升级也不只面向国内企业的 AI 转型需求。随着越来越多中国企业加速出海，数据平台还需要适配跨区域部署、海外云环境、本地化合规、多语言操作和全球化经营分析等新要求。数栈 V7.0 所强调的 AI-Ready，也正在进一步延伸为企业 Global-Ready 全球化经营中的数据基础能力。

一、AI 落地真正的瓶颈，正在回到数据本身

从宏观趋势看，Data 与 AI 正在进入双轮驱动的新阶段。

一方面，国家围绕数据要素市场化、数据要素流通、可信数据空间、高质量数据集建设持续推进，底层逻辑非常清晰：AI 的规模化落地，需要高质量、可治理、可流通、可调用的数据基础。另一方面，技术演进也在加速这一判断。Transformer 架构、大模型、智能体、数据平台云化、多模态处理技术持续发展，AI 正在从能力展示走向产业应用。然而，很多企业的 AI 项目在 Demo 阶段看起来很亮眼，但真正进入实际业务时却跑不起来。原因往往并不在模型，而在于底层数据还没有达到 AI-Ready 状态。

具体来看，企业数据体系主要存在四类断点：

● 数据孤岛依然严重：结构化数据、非结构化数据、时序数据、日志数据分散在不同系统和存储中，标准不统一，链路不打通，AI 很难获得完整上下文。

● 高质量数据供给不足：很多企业数据量很大，但缺少标准化的清洗、标注、去重、分块、质量过滤和资产管理体系，真正能用于训练、推理、知识构建和智能分析的数据非常有限。

● 治理与安全能力不足：企业希望 AI 使用内部数据，但核心数据开放需要严格的权限、脱敏、审计、审批、数据分级分类和访问边界。一旦这些能力没有统一体系，AI 应用越深入，风险越不可控。

● 传统平台架构难以适配 AI：过去的数据平台主要面向数仓建设、报表分析和接口服务；AI 时代需要的是能支撑模型、知识库、智能体、业务流程协同运行的数据智能基础设施。因此，企业今天面临的关键问题已经变成：有没有一套真正能够支撑 AI 规模化运行的数据体系。

二、从传统数据中台到多模态数据智能平台，数栈 V7.0 完成关键升级

传统数据平台在结构化数据治理上已经积累了成熟能力，但进入多模态与 AI 场景后，新的割裂开始出现。

● 数据采存不统一：结构化数据往往存放在 Hadoop、MPP、湖仓平台中，非结构化数据则分散在对象存储、文件系统、业务系统和外部平台里，不同数据类型需要不同工具采集、存储和管理。

● 数据开发不统一：结构化数据开发依赖离线、实时和 SQL 开发平台，非结构化数据处理则依赖算法平台、NLP 工具、OCR 工具或外部脚本。多个平台之间靠接口、文件传输和中间件串联，开发链路长，调试复杂，问题难追溯。

● 元数据管理不统一：结构化表、文件、文档、图片、音视频、指标、API 分别在不同系统里管理，权限控制也分散在不同平台上，既增加操作成本，也带来安全漏洞。

数栈 V7.0 的升级，正是围绕这些断点展开。从 V7.0 开始，数栈将半结构化、非结构化数据纳入统一平台能力体系，与结构化数据一起完成融合采、存、管、用，支撑多模态高质量数据集建设、模型训推、知识库构建、智能问数、Agent 协同等 AI 应用场景。这意味着，数栈正在面向 AI 时代进一步成为企业多模态数据智能中台。

三、数栈 V7.0 核心能力：让多模态数据真正进入 AI 生产链路

围绕 AI-Ready 的企业多模态数据底座，数栈 V7.0 从计算存储、数据接入、低代码开发、资产检索、安全治理、智能体协同和国际化交付等多个层面，对数据平台能力进行系统升级。

1.统一多模态计算存储底座，让 AI 数据工程有稳定承载

AI 应用要稳定进入生产环境，首先需要解决底层资源与运行环境的问题。多模态数据处理不同于传统结构化数据开发。它不仅涉及 SQL、批处理、实时任务，也涉及文档解析、图片处理、音视频处理、向量化、模型调用和分布式 Python 任务。任务类型更复杂，资源消耗更不稳定，对计算、存储、调度和隔离能力提出了更高要求。数栈 V7.0 在底座层提供了统一的多模态计算与存储对接能力：

● 统一逻辑集群管理：支持在控制台创建多个逻辑集群，并在同一集群中配置 HDFS、MinIO 等存储组件，K8S、Yarn 等调度组件，以及 Doris、Spark、Ray 等计算组件，形成支撑结构化与非结构化数据统一处理的多模态数据集群。

● K8S 资源组精细化管控：支持创建资源组并绑定 namespace，将资源组授权给离线、实时等子产品项目；算子任务可基于授权结果选择可用资源组运行，并根据任务需要配置 CPU、GPU、内存等资源参数。

● 资源水位可视化：任务运行前可查看资源组 CPU、GPU、内存水位线，帮助用户判断当前资源负载，避免重点任务被普通任务挤占。

● Spark on K8S 能力增强：支持离线 SparkSQL、PySpark、Spark Jar 等任务在 K8S 集群上运行，让结构化计算任务也能进入云原生调度体系。

● Python on Ray 分布式运行：面向 Daft 算子和更复杂的非结构化数据处理场景，平台新增 Python on Ray 任务类型，使 Python 任务可以通过 Ray 运行在 K8S 集群之上，扩展分布式处理能力。

这类能力的价值在于，它让多模态数据处理不再依赖临时脚本、单机任务或孤立算法环境，而是进入企业级平台统一调度、统一授权、统一监控和统一运维的体系中。AI 应用背后的数据准备工作，具备了更强的可复制性和可持续性。

2. 多模态数据集成，让企业沉睡的数据进入 AI 链路

企业真正有价值的数据，并不只存在于数仓和数据库中。合同、报告、图纸、图片、音视频、设备日志、网页数据、IoT 数据、项目文档、客服记录、操作手册，这些长期沉淀在业务系统、文件服务器和对象存储中的数据，正在成为企业构建知识库、行业模型、智能体和高质量数据集的重要原料。数栈 V7.0 在数据集成层进一步增强了多模态数据接入能力：

● 结构化数据接入：支持关系型数据库、数据仓库、湖仓等结构化数据源接入，继续支撑传统数仓和数据分析场景。

● 非结构化文件接入：支持对象存储、文件系统、本地批量上传等方式，将 PDF、Word、图片、音视频等文件统一纳入平台管理。

● 半结构化与设备数据接入：支持网页、日志、JSON、IoT 设备等数据接入，为后续时序分析、设备运维、业务日志治理和 Agent 场景提供数据基础。

● 增量数据自动处理：新增数据进入平台后，可自动进行元数据构建、内容解析、文件拆分和向量化处理，支撑后续检索、编目、开发和智能应用调用。这一步的关键价值在于：企业过去 "存着但用不起来" 的非结构化数据，开始进入可治理、可检索、可加工、可供给 AI 的数据链路。只有这些文档、图片、音视频、日志和业务记录被统一接入、解析、编目和向量化，模型和智能体才有可能真正理解企业自己的业务上下文。

3. 低代码全景式数据开发，让多模态处理变成可编排流水线

多模态数据真正难的地方，不只是接入，而是处理。过去，企业处理结构化和非结构化数据，往往需要在数据库、ETL 工具、离线开发平台、算法平台、NLP 工具、OCR 工具之间来回切换。每一次跨平台交互，都会带来数据搬运、接口维护、任务调度和问题排查成本。数栈 V7.0 提供的是统一的低代码全景式开发体验：

● 在一个平台中完成多模态数据集成、清洗、处理和分层开发；

● 通过一个业务流程串联结构化与非结构化数据处理链路；

● 实现统一开发、统一调试、统一调度、统一追溯；

● 让所有节点状态、任务链路和异常问题更加清晰可见。

针对非结构化数据开发，数栈 V7.0 同时支持 0 代码算子任务和高代码 Python 任务。算子任务基于 Ray 计算框架，引入 Daft、DataJuicer 等算子框架，支持用户通过画布拖拽方式，对文档、图片、音视频等数据进行过滤、映射、去重、聚合、解析和清洗。在算子能力上，V7.0 已支持 50 多个算子，覆盖文本清洗、文本处理、图片清洗、图片解析等场景。其中，文档类数据支持 PDF、Word、Excel、PPT、TXT 等常见格式的解析与内容抽取；文本类数据支持清洗、切分、去重、质量过滤与关键词提取；图片类数据支持质量检测、重复过滤、OCR 识别等处理；音频类数据支持语音转写与内容整理；视频类数据支持抽帧、字幕提取与关键内容抽取。

同时，数栈 V7.0 对算子任务的工程化体验也做了增强：

● 算子广场分类优化：按算子来源、应用场景、使用方式进行分类，支持 Daft、DataJuicer、自定义算子等不同来源管理。

● 在线 / 离线算子区分：离线算子可在本地计算环境完成处理，在线算子可调用第三方 API 或外部模型服务。

● 模型依赖配置：部分 AI 算子可以配置依赖的离线或在线模型，便于将数据清洗与模型能力结合。

● 自定义算子扩展：企业可以上传自定义算子，沉淀自己的数据处理规则、行业经验和项目方法。

● 算子任务调试：支持算子任务调试，帮助开发人员在任务运行过程中更快定位问题，降低多模态数据处理的黑盒感。数栈 V7.0 把 AI 数据预处理、非结构化清洗、质量过滤、分块、向量化等工作，沉淀成可编排、可复用、可治理的数据流水线。随着算子资产不断积累，多模态数据开发将从一次性项目交付，走向可复制、可管理、可复用的工程能力。

4. 模型中心与镜像中心，让 AI 数据工程更可控、更稳定

多模态数据处理经常会依赖模型、镜像和复杂运行环境。比如某些文本处理、图片处理、OCR、Embedding 或质量评估任务，需要调用在线大模型，或在离线环境中加载本地模型；不同算子任务也可能依赖不同的 Python 环境、Ray 版本、Spark 环境和运行镜像。如果这些能力依赖开发人员手动配置，很容易带来环境不一致、任务启动慢、模型下载失败、镜像不可见等问题。数栈 V7.0 在这方面新增了模型中心与镜像中心能力：

● 模型中心：支持统一展示和管理在线大模型服务，目前支持 OpenAI 协议和 LLM 类型，并支持手动测试模型连通性，方便开发人员及时检查模型服务状态。

● 镜像中心：支持展示数栈内置镜像，包括镜像版本、大小、地址、框架和用途；后续算子任务可从镜像中心选择运行镜像，而不是手动在环境参数里填写镜像地址。数栈 V7.0 已经在补齐 AI 数据工程进入生产环境所需的模型管理、镜像管理和运行环境稳定性。

5. 多模态元数据管理与智能检索，让数据真正可找、可懂、可追溯

AI 要理解企业业务，不能只依赖原始数据，还需要理解数据的来源、含义、属性、标签、版本和血缘。数栈 V7.0 通过元数据资产模块，对结构化、半结构化、非结构化数据进行统一管理。平台支持构建不同模态的数据集，定义技术属性、业务属性和管理属性，并对数据进行统一编目、打标、检索和管理。

在非结构化资产管理上，V7.0 做了不少更贴近日常使用的增强：

● 编目字段高级查询：选中具体编目后，可基于编目字段进行精确查询，提高文件筛选准确性。

● 标签查询：支持选择一个或多个标签进行组合查询，适合项目资料、行业文档、知识库资料等场景。

● 结果高亮展示：文件名称、路径、标签、编目、全文命中内容等都可以高亮展示，提升检索体验。 ● 文件版本管理：新增初始版本展示，后续重命名、替换等操作可以形成版本记录，便于回溯。

● 文件夹打包下载与下载进度条：提升大文件、批量文件管理体验。

● 中断上传切片时效管理：针对中断上传文件已上传的切片数据设置默认保存时效，避免无效切片长期占用存储。

在检索方面，数栈 V7.0 支持元数据检索、全文检索、向量化检索的综合检索：

● 全文检索：适合精确查找文档正文中的具体内容。比如搜索 "数据安全管控"，系统会返回正文中包含该关键词的文件。

● 向量化检索：适合语义匹配。平台会对文件名称、文件大小、文件编目、文件标签等元数据信息进行向量化处理，用户搜索 "产品文档" 时，即使文件名和正文没有完全出现该词，也可以召回语义相近的文件。

● 综合检索：融合元数据检索、全文检索和向量化检索，按默认权重综合打分并排序。为了支撑这些检索能力，平台新增任务管理模块：

● 支持文件内容解析任务和文件元数据向量化任务管理；

● 内容解析支持 PDF、DOC 等格式；

● 向量化任务会对文件名称、文件路径、文件编目、文件标签等信息进行向量化；

● 当文件存在增量数据时，可定时自动触发解析任务；

● 也支持手动添加解析或向量化任务。数据不仅要存下来，还要能被解析、能被理解、能被检索、能被追溯，最终能被知识库、RAG、Agent 和业务系统调用。对于企业知识库、产品资料、合同文件、项目文档、研发资料、运维记录等非结构化资产而言，这类能力非常重要。过去很多资料不是没有，而是找不到、找不准、找出来也不知道是否可信。数栈 V7.0 让多模态数据从 "文件堆积" 走向 "资产可用"。

6. 企业级安全治理，让核心数据可控地供给

AI 企业级 AI 应用一定绕不开安全。数栈 V7.0 从产品架构层、数据层和功能层提供完整的数据安全能力：

● 产品架构层：支持环境、集群、租户、项目的分层管控。企业可以划分测试环境与生产环境，创建多套逻辑集群，也可以将集群绑定给多个租户共享计算和存储资源。多模态数据开发在项目中进行，项目之间彼此隔离；开发后的数据可以在租户范围内共享，而租户之间保持隔离。

● 数据安全层：通过统一权限策略管理多模态数据权限。结构化数据可以控制到表级、行列级，权限点包括 DDL、DML、DQL；半结构化和非结构化数据可以控制到文件和目录级，权限点包括读、写、增、删。平台也支持数据分级、动态脱敏，并可按用户和用户组授权。

● 审批与审计层：审批中心支持围绕数据开发、上线、应用流程中的关键操作设置审批流程。平台关键操作，包括任务提交发布、数据修改、代码执行、数据访问等，都可以形成细粒度审计记录。

针对非结构化文件管理，数栈 V7.0 也进一步强化了文件权限申请审批能力。没有文件权限的用户，如果需要预览、下载、删除文件，可以手动申请权限，并通过审批中心完成授权流程。申请人可在 "我的申请" 中查看记录和状态，审批人可在审批授权中处理审批单。未来企业要把文档、图片、合同、音视频、日志等数据供给给知识库和智能体，必须先解决 "谁能看、谁能用、谁能下载、谁能删除、谁调用过" 的问题。这套安全体系解决的是企业 AI 落地中的核心矛盾：AI 需要更多数据，企业又必须守住数据安全边界。只有当权限、脱敏、审批、审计、血缘形成闭环，企业才有可能放心把核心业务数据持续供给给模型、知识库和智能体。

7. 灵瞳智能体，让数据底座具备智能协同能力

数栈 V7.0 的升级，并不止于多模态数据管理。面向 AI 时代，数据平台本身也需要具备智能化能力。数栈 V7.0 中，灵瞳智能体作为常驻在页面右上角的 AI 助手，基于数据资产元数据库中的库表信息、血缘信息、数栈帮助文档以及客户自己的知识库，接入通义、DeepSeek 等模型能力，形成 3 个 Agent 和 1 个 Copilot 的能力组合。

● 数据开发 Agent：帮助用户生成数据同步任务，并在任务运行报错后，基于日志进行分析，给出修改方案。用户接受后，方案可以直接生效，帮助数据开发人员更快完成问题定位和修复。

● 数据治理 Agent：基于血缘关系分析 SQL 变更、表结构变更对下游任务和关联表的影响，也可以根据字段分析自动生成数据质量校验规则，降低治理工作的人工配置成本。

● 数据分析 Agent：支持基于自然语言和指标语义进行数据查找与 RAG 分析，并且每条回答都可以提供参考依据，减少大模型在企业数据场景中的幻觉风险。

● 产品操作 Copilot：面向新手用户，以图片和文字结合的方式提供产品操作答疑，也可以帮助用户完成任务创建、任务冻结等简单操作，降低平台上手门槛。灵瞳智能体的价值在于，它让数据平台从 "人操作系统" 进一步走向 "人与智能体协同操作系统"。

未来，随着更多数据开发、治理、分析和应用能力被封装为 AI Skills，数栈将进一步成为企业智能体调用数据、理解语义、执行任务的重要基础设施。

8. 面向出海，数栈具备国际化交付与全球落地能力

数栈 V7.0 的多模态数据底座能力，除了面向国内企业，也正在服务企业出海和海外本地化数字化建设。

随着中国企业走向全球市场，数据平台建设面对的环境变得更加复杂：

● 总部需要统一掌握全球业务经营视图；

● 海外区域需要满足本地部署和当地合规要求；

● 不同国家和地区的数据标准、权限边界、合规要求和业务系统架构存在差异；

● 企业希望将国内成熟的数据治理、AI 应用和经营分析能力快速复制到海外业务现场。数栈目前已支持中英文一键切换，整体操作逻辑和术语体系更加符合海外用户习惯。在底层能力上，数栈也完成了对海外主流云服务与存储计算体系的适配，包括 AWS 等云底座，并能够支持不同地区的数据合规与本地化部署要求。

在垂直行业场景上，数栈也具备针对海外复杂数据场景的解决能力。以 Web3 场景为例，客户往往面临链上、链下、多源异构数据融合治理的问题。数栈可以提供从数据接入、解析、治理到关联分析的一站式能力，帮助客户实现： ● 链上资产风控； ● 用户行为分析； ● 多源异构数据治理； ● 合规审计与风险追踪。

目前，数栈已在新加坡 Web3 数据平台迁移、中国香港高校数据中台与资产门户、立陶宛制造业多模态数据存算管、沙特本地化政企数字化建设等海外项目中积累落地经验。数栈 V7.0 的 AI-Ready 能力，正在进一步服务企业的 Global-Ready 需求。对于正在出海的企业来说，未来的数据平台既要支撑 AI 应用落地，也要支撑全球化运营、跨区域协同和海外合规部署。

四、客户实践：省级金融可信数据空间，验证多模态数据底座价值

在发布会上，数栈还分享了一个基于 V7.0 能力建设的区域金融数据可信空间案例。

该项目由一个省级金融监管机构牵头，联合银行、保险、证券、政务、征信等 19 家机构共同建设。项目要解决的核心问题，是各类金融与政务机构手中拥有大量高价值数据，但由于隐私保护、合规要求、权责边界和监管约束，长期存在 "不敢共享、不会融合、无法监管" 的问题，导致数据价值难以释放。

在建设过程中，数栈主要承担了三类关键能力支撑：

● 统一接入多模态数据：平台接入交易流水、征信记录、政务数据，以及图像、文档、音视频等非结构化数据，实现原始数据不出域、特征和统计指标可安全流通。

● 建立可信流通机制：通过 DID 身份认证、数字合约、权限审计等能力，保障数据在流通过程中可用不可见、全程可追溯。

● 支持跨机构联合建模：基于 MPC、联邦学习等技术，实现多机构之间在不暴露原始敏感数据的前提下开展安全协同计算和风控特征工程。

项目最终带来了显著成效：

● 普惠金融授信覆盖率从 65% 提升到 92%；

● 多模态数据复用率从 5% 提升到 82%；

● 客户身份核验效率从人工 3 分钟缩短到自动 10 秒以内。这个案例也说明，未来金融行业的数据竞争力，不只来自单个机构拥有多少数据，更来自能否在安全、可信、可监管的机制下，实现跨机构、多模态、可融合的数据协同。

五、未来规划：从统一底座，到行业算子，再到 AI 能力开放

面向未来，数栈将沿着三条主线持续演进，进一步打造面向 AI 时代的全链路多模态数据智能底座。

建设统一的 Lakehouse 数据底座数栈将进一步支持 Iceberg、Lance 等主流湖表格式的统一接入，支持基于湖表的多模态元数据统一建模，并打通 Flink、Spark、Doris 等多引擎协同读写能力。未来平台将继续增强： ● 小文件治理； ● 缓存加速； ● 版本管理； ● 湖表血缘； ● 可追溯管控； ● 多引擎协同读写。目标是让多模态数据从 "存得下"，走向 "管得好、用得稳"。
沉淀场景化算子解决方案低代码开发的核心，是把行业经验沉淀为可复用的积木。未来，数栈将把算子进一步资产化，建立版本记录和性能指标体系，让每一个算子都可管理、效果可衡量。同时，平台将持续沉淀行业场景化解决方案，例如： ● 零售场景中的商品理解、评论分析、营销内容生成； ● 金融场景中的风控特征工程； ● 制造场景中的设备日志分析、质量异常识别； ● 能源场景中的生产文档解析、巡检图像处理和风险识别。未来，业务人员只需要描述业务需求，平台就可以智能推荐算子，甚至自动生成算子编排任务，让多模态开发进一步走向低门槛、智能化和行业化复用。
推动 AI 能力深度集成与开放数栈将把数据集成、开发、治理、应用等全流程能力封装为可复用的 AI Skills，让专家经验可以快速复制落地。同时，通过约束系统、反馈闭环、监控审计等机制，建立完善的 AI 工程化能力，让 AI 在平台上安全、高效、规模化运行。另一方面，数栈也将通过 MCP 协议开放数据资产、指标、Text2SQL、鉴权等能力，让外部 Agent 可以更便捷地对接企业数据平台。从统一底座，到行业级解决方案算子，再到 AI 能力开放，数栈正在持续推动数据平台从 "支撑数据开发" 走向 "支撑智能运行"。

AI-Ready 的数据底座，将成为企业智能化与全球化的共同基础

AI 应用正在进入更加务实的阶段。从结构化数据平台到多模态数据智能平台，数栈 V7.0 承载的不只是一次版本升级，更是袋鼠云面向 AI 应用落地和企业全球化经营，对下一代数据底座能力的一次系统重构。未来，企业 AI 竞争的关键，在于能否构建一套持续供给智能的数据体系。数栈 V7.0 正持续致力于：打造 AI-Ready 的企业多模态数据底座，让数据真正成为企业智能化跃迁与全球化增长的长期基础。