两连发!文心大模型4.5及X1,上线千帆!

3月16日,文心大模型4.5文心大模型X1正式发布!

目前,两款模型已在文心一言官网上线,免费向用户开放。_(yiyan.baidu.com/)_同时,文心大模型4...

01 文心大模型4.5原生多模态基础大模型

文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。

多模态能力

文本能力

文心大模型4.5具备优秀的多模态理解能力,能对文字、图片、音频、视频等内容进行综合理解。例如,针对下面这道题,文心大模型4.5综合理解了图中的文字与图表内容,提取出题目考查的重点;并给出详细的解题步骤和细化的选项分析,最终得出正确答案。

不仅是"高智商",文心大模型4.5也拥有"高情商",网络梗图、讽刺漫画等等,理解起来都不在话下。例如,在下文中,这张梗图蕴含着"连续不一定可倒、可倒一定连续"的数学概念,文心大模型4.5不仅秒懂,点出梗图的巧妙和幽默;还能详细对其中蕴含的数学概念和画面逻辑进行解释。

文心大模型4.5能力显著增强,离不开这些关键技术:

FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;

多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力;

时空维度表征压缩技术:在时空维度对图片和视频的语义表征进行高效压缩,大幅提升多模态数据训练效率,增强了从长视频中吸取世界知识的能力;

基于知识点的大规模数据构建技术:基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术,构建高知识密度预训练数据,提升模型学习效率,大幅降低模型幻觉;

基于自反馈的Post-training技术:融合多种评价方式的自反馈迭代式后训练技术,全面提升强化学习稳定性和鲁棒性,大幅提升预训练模型对齐人类意图能力。

02 文心大模型X1能力更全面的深度思考模型

文心大模型X1具备更强的理解、规划、反思、进化能力,并支持多模态,是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型,文心大模型X1兼备准确、创意和文采,在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

作为能自主运用工具的大模型,文心大模型X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

例如,让文心大模型X1使用中国各朝代历史人物典故,替换《寒窑赋》原文中的事例,它展现出清晰的思维链:首先明确原文主旨→分析语言风格和句式特点→选择合适的朝代和人物案例→参考原文结构创作,最后生成了和原文立意、文风句式都基本一致的文本。

文心大模型X1能力的全面提升,得益于这些关键技术的支撑:

递进式强化学习训练方法:创新性地应用递进式强化学习方法,在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力;

基于思维链和行动链的端到端训练:针对深度搜索、工具调用等场景,根据结果反馈进行端到端的模型训练,显著提升训练效果;

多元统一的奖励系统:建立了统一的奖励系统,融合多种类型的奖励机制,为模型训练提供更加鲁棒的反馈。

在百度智能云千帆大模型平台,现可直接调用文心大模型4.5API,输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens;文心大模型X1也即将在千帆平台上线,输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。

百度智能云千帆大模型平台始终致力于为用户提供全流程、一站式的AI服务,以开放性、易用性、低成本的平台理念,开发者能够更高效地探索大模型应用,提升创新效率,加速各类AI应用从概念到落地的转化,为AI技术在更多领域的拓展与应用注入强大动力。

2025是大模型技术全面迭代的一年,我们将在人工智能芯片、数据中心、云基础设施上更大胆地投入,打造更好、更智能的下一代模型。

----------END----------

推荐阅读

百度百舸万卡集群的训练稳定性系统设计和实践

LLM增强语义嵌入的模型算法综述

持续推进"人工智能+"行动,百度智能云+DeepSeek为何成为国有企业首选?

GPU 云服务器的软件系统设计和实践

基于Flink的配置化实时反作弊系统

相关推荐
hzp6661 天前
基于大语言模型(LLM)的多智能体应用的新型服务框架——Tokencake
人工智能·语言模型·大模型·llm·智能体·tokencake
小禾青青1 天前
uniapp开发ai对话app,使用百度语音识别用户输入内容并展示到页面上
人工智能·百度·uni-app·uniapp
沛沛老爹1 天前
用Faiss实现高效文本抄袭检测
llm·vector·向量·faiss·抄袭检测
仙人掌_lz2 天前
Multi-Agent的编排模式总结/ Parlant和LangGraph差异对比
人工智能·ai·llm·原型模式·rag·智能体
陈思杰系统思考Jason2 天前
短期与长期利益平衡
百度·微信·微信公众平台·新浪微博·微信开放平台
saaaaaaaaam2 天前
简述RAG
llm
ApacheSeaTunnel2 天前
LLM 时代,DataAgent × WhaleTunnel 如何将数据库变更瞬时 “转译” 为洞察?
大数据·ai·开源·llm·数据同步·白鲸开源·whaletunnel
SEO_juper2 天前
AI SEO实战:利用人工智能提升网站排名与流量的完整策略
人工智能·搜索引擎·百度·ai·seo·数字营销
百度智能云技术站2 天前
昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地
百度
砖业林coco2 天前
go语言使用 zhinao-go 轻松调用 360智脑
llm·go