景联文科技:提供通用多模态数据,助力AI多模态领域实现飞跃式发展

回顾2023年,以ChatGPT为代表的通用人工智能大模型在全球范围内掀起了新一轮人工智能产业发展浪潮,我国人工智能大模型市场呈现百"模"争鸣、日新月异的迅猛发展态势。

根据大模型之家、钛媒体数据,2023年中国大模型市场规模达到147亿人民币,同比增长110.0%,预计到2028年中国大模型市场规模将达到1179亿人民币。

其中,多模态大模型市场规模有望快速增长。第一财经数据显示,预计至2025年,中国多模态内容市场规模将达到832.7亿美元,2018-2025年复合增长率达65.02%。多模态大模型将主要应用于教育、医疗、游戏、商业定制和影视等领域。

不久前,OpenAI发布首个文生视频模型Sora,极大地推动了AI多模态领域飞速发展,AI创作等相关领域将迎来深度变革,AI赋能范围日益扩大。

高质量的多模态数据是构建和训练多模态大模型的基础,它决定了模型能否有效捕获和利用不同模态间复杂的语义关系,进而影响到模型的整体性能和应用价值。随着多模态技术的发展,多模态数据的需求和重要性日益增加,对于推动人工智能向着更深层次的通用智能方向迈进具有重要作用。

景联文科技是大模型数据供应商,致力于为不同阶段的模型算法匹配高质量多模态数据资源。

通用多模态数据集

音频数据:

  1. 普通话(人数 200 万以上,采样率 44.1Khz 及 以上,16bit) 100万小时
  2. 方言 2.7千小时

图片生成及隐式/显示推理多模态数据:

  1. 图文复杂描述 50万本
  2. 图文推理问答对 400万本
  3. 4K 高清图片 5000万张

视频生成及隐式/显示推理多模态数据:

  1. 视频简单描述
  2. 视频复杂描述
  3. 视频推理问答对

同时景联文科技提供大模型训练数据的标注服务,建立了数据分发、清洗、标注、质检、交付的标准化操作流程,为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的多模态大模型训练数据。

景联文科技|数据采集|数据标注|多模态大模型训练数据

助力人工智能技术,赋能传统产业智能转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

相关推荐
冬奇Lab10 小时前
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
人工智能·llm·agent
冬奇Lab10 小时前
每日一个开源项目(第135篇):codebase-memory-mcp - 给 AI Agent 一张代码库的知识图谱
人工智能·开源·llm
IT_陈寒13 小时前
JavaScript的闭包把我坑惨了,说好的内存会自动回收呢?
前端·人工智能·后端
jooloo16 小时前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户51914958484517 小时前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
用户51914958484518 小时前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户0183493016918 小时前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
这token有力气21 小时前
Function Calling 格式漂移
人工智能