我自己的原文哦~https://blog.51cto.com/whaosoft/14180269
#SCRA-VQA
湖大等提出:给LLM一份"精装修"的图像描述,无需训练提升VQA性能
大家好!如今,大语言模型(LLM)已经成了AI领域的"万能钥匙",研究者们都想用它来解决各种任务,其中就包括视觉问答(VQA)。一个很自然的想法是:能不能直接"冻结"一个强大的LLM,不重新训练它,只把图像信息和问题"喂"给它,让它凭着自己渊博的知识来回答呢?
这个思路非常吸引人,因为它省去了昂贵的端到端训练。目前主流的做法是,先用一个图像描述模型(Captioning Model)把图片转成几句文字描述,然后把这些文字和问题一起打包发给LLM。但这里面有两个大坑:
- 信息太"毛坯":生成的图像描述里,常常包含大量与问题无关的"噪声"信息。
- LLM"不懂"VQA:LLM本身并不知道VQA任务的"游戏规则",可能会答非所问。
为了解决这些问题,来自湖北大学、广东工业职业技术大学和山东警察学院的研究者们,提出了一种全新的、无需训练的VQA框架------SCRA-VQA。
- 论文标题: SCRA-VQA: Summarized Caption-Rerank for Augmented Large Language Models in Visual Question Answering
- 作者: Yan Zhang, Jiaqing Lin, Miao Zhang, Kui Xiao, Xiaoju Hou, Yue Zhao, Zhifei Li
- 机构: 湖北大学, 广东轻工职业技术大学, 山东警察学院
- 会议: DASFAA 2025 Oral
- 论文地址: https://arxiv.org/abs/2509.20871
- 代码地址: https://github.com/HubuKG/SCRA-VQA
SCRA-VQA:给LLM的提示词做个"精装修"
SCRA-VQA的核心思想,就是不做"毛坯"交付,而是对输入给LLM的文本信息进行一番"精装修"。它通过一套精心设计的流程,对图像描述进行总结、重排和增强,让LLM能更好地理解图像和问题。
整个框架如下图所示,主要包含两个模块:图像到文本的转换,以及核心的图像描述精炼模块。
图像描述精炼:"精装修"三步走
这是SCRA-VQA的精髓所在,它通过三个步骤来处理原始的图像描述:
- **生成相似问题 (Similarity Question Generation)**在把问题抛给LLM之前,先给它看几个"样板题"。这一步会根据图像描述的内容,自动生成一些相关的问答对。这就像在考试前给学生看几道例题,让他熟悉题型和答题格式。通过这种"上下文学习",LLM能更好地理解VQA任务的要求。
- **摘要 (Summary)**多条图像描述可能信息冗余。这一步会调用一个小的语言模型(如Gemma2b),将所有的图像描述进行总结,提炼出最核心、最精炼的摘要信息。这相当于给LLM划重点,排除干扰项。
- 重排 (Rerank) 这是非常关键的一步。原始的图像描述是无序的,但并非所有描述都和问题同等相关。SCRA-VQA会计算每一条描述与当前问题的"相关性分数",然后按照分数从高到低重新排序。这样,最相关的信息会排在最前面,确保LLM第一时间就能看到最重要的线索。
经过这三步"精装修",原始的、杂乱的图像描述就变成了一份结构清晰、重点突出、附带"解题说明"的高质量上下文,LLM理解起来自然事半功倍。
实验结果:轻量级方法的出色表现
SCRA-VQA在一个67亿参数的OPT模型上进行了测试,在两个极具挑战性的知识型VQA数据集OK-VQA和A-OKVQA上,都取得了非常出色的成绩。
如下表所示,SCRA-VQA的性能优于其他同样无需端到端训练的Zero-shot方法(如PICa, Img2Prompt),尤其是在需要更复杂推理能力的A-OKVQA数据集上,优势更加明显。
作者还通过详尽的消融实验,证明了"精装修"每一步的有效性。从下表中可以看到,完整的SCRA-VQA(I+RC+S+QAP)效果最好,无论是去掉"重排(RC)"还是"摘要(S)",性能都会出现明显下降,证明了这套组合拳的威力。
下图的可视化结果也直观地展示了SCRA-VQA是如何工作的。对于"这个房间叫什么名字?"的问题,精炼后的提示词准确地包含了"浴室"、"水槽"、"毛巾"等关键信息,帮助LLM成功推理出正确答案"Bathroom"。
总结
SCRA-VQA是一个非常聪明且实用的工作。在大家都在追求更大模型、更多数据、更昂贵训练的时候,它反其道而行之,聚焦于如何更高效地利用现有的"冻结"大模型。它证明了,精巧的提示工程(Prompt Engineering)同样能带来显著的性能提升,为轻量化、低成本地部署VQA应用提供了一条极具吸引力的路径。
无需昂贵的端到端训练,只靠"提示词装修"就能提升性能,大家对这种轻量化的方法怎么看?欢迎在评论区留下你的看法!
...
#大模型能否 hold 住推理预测的现实「溢出」?
先验+后验加持
引言:近日,字节跳动等推出的 FutureX 动态评测基准,让大模型在答案未知、数据动态更新和闭环检验的情况下直面预测型「考卷」。这项工作在模型预测力和记忆力之间做了区分,也探究了模型在长程推理、执行稳健性和不确定性环境下的表现。此外,大模型在财务预测、疾病评估等场景的落地效果正在优化过程中,业内研究者也在寻找能填平推理和执行鸿沟的新机制。
目录
01.FutureX 「出世」,从长程推理到现实预测大模型「顶」住了吗?
静态考卷太简单,FutureX 能把「记忆型」模型拉到真正的未来考场吗?执行错误「积少成多」,大模型长程任务失效不能只让推理「背锅」?...
02. LLM 推理「养兵千日」,指挥官「用兵时刻」还不到位?
当推理「用兵」碰上财务预测等现实场景,模型能否稳定「指挥」从而落地?...
03. 模型推理预测哪家强,先验后验不同路径 「各显神通」?
过往的模型预测技术在往哪些方向发力?先验记忆与后验反思机制,未来能为模型预测带来新的突破吗?...
01 FutureX 「出世」,从长程推理到现实预测大模型「顶」住了吗?
1、目前,大多数用于评估大型语言模型的基准都依赖于预先存在的、固定不变的数据集。
2、这种评估方式在衡量模型的事实性知识或在已知数据集上的简单推理能力时表现较好,但在面对动态的真实世界进行预测时,则难以考察模型真实的推理实力。
① 静态基准通常处理的是在已有解决方案的情况下静态且定义明确的问题。这意味着,如果一个模型是在 2024 年的数据上训练的,并在源于同一时期的基准上进行了测试,那么其表现更多是对其记忆能力的衡量,而非对真正预测能力的考量。
② 且这种方法也容易受到数据污染的影响,无法有效测试模型在未知环境下真正的适应性推理能力。
3、基于此,字节跳动等发布了 FutureX 动态评测基准,将评估的重点从模型的记忆迁移到真正的动态预测能力。[2-1]
① 该基准每天自动抓取 195 个选自 2000 多个网站的高质量信息源,在事件发生前调度 23 个主流模型/智能体进行预测,事件发生后再抓取结果进行评分。这一闭环设计确保了模型在预测时对答案「未知」,杜绝了数据污染。
4、在该基准测试中,研究者将任务划分为基础、广泛搜索、深度搜索和超级智能体四个难度等级,实验发现在简单选择题上,不依赖工具的基础 LLM 表现较好,但在复杂任务上,能实时调用工具(联网搜索)的智能体开始显现出优势。[2-1]
① 基础类任务让模型从给定的少量选项中直接选择,广泛搜索类任务则是让穷举式地辨别并返回所有正确选项。
② 深度搜索类任务是指模型交互式搜索与信息整合,综合证据得出答案;超级智能体任务则让模型预测高波动、开放性事件,进行广域搜索和深度推理。
5、但模型的预测能力不仅局限于搜索,更多的是在充满不确定性的真实世界环境里进行高质量的推理。[2-2]
① FutureX 研究者为测试模型纯粹的预测能力,对模型进行了事前预测和事后搜索的对照实验。
② 实验表明,Grok-4 在事后搜索模式下得分极高,但在事前预测模式下准确率却大幅度下跌。
6、在现实的长程任务中,人类往往依靠推理、规划和分工等机制来维持任务的连续性和稳定性,但大模型在长程任务上的表现一直不太理想。传统的解释通常认为,这是因为模型缺乏足够的推理和规划能力,导致任务在长链条上最终崩溃。
7、然而,2025 年 9 月,剑桥大学等机构的研究者通过实验将「执行」与「推理」人为分离,他们预先向模型提供完整的知识与计划,只让模型负责逐步执行操作。在这种受控条件下,研究发现,即便不涉及推理与规划,模型在长程任务中依然容易失败,其根本原因在于执行环节的错误逐步累积。
① 随着任务步数的增加,模型的单步准确率会因「自我条件效应」而下降,先前的错误会污染后续判断,形成连锁效应。
② 尽管单步准确率的提升看似呈现「收益递减」的趋势,但在复合效应下,这种微小改进可以被放大,带来可执行任务长度的指数级增长。
02 LLM 推理「养兵千日」,指挥官「用兵时刻」还不到位?
1、目前来看,大模型推理预测能力的溢出仍没有完全被「消化」,在各类现实场景的运用都还有很大的优化空间。
2、此前,FutureX-S&P500 实验的研究者在 2025 年 Q2 财报发布前,让不同的 LLM Agents 预测标普 500 成分股的核心财务数据,并将预测结果与华尔街分析师的共识预测和实际财报数据进行了对比。[2-4]
3、实验结果表明,现有顶尖模型在约 40% 的公司财报预测中,能够超越华尔街分析师的表现。更重要的是,在部分案例中,智能体已经展现出初步的财务逻辑感知能力和前瞻性判断力。[2-5]...
...
#Reasoning over Boundaries
规范对齐时代:GPT-5 断层领先,让安全与行为边界更明晰
张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能。
去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边界,清楚哪些可以回应,哪些必须避免。推动这一转变的核心是「规范」(specification,spec),即在特定情境下约束模型行为的规则与准则。近年来,OpenAI、Google 等基础模型厂商纷纷将规范融入大模型,以此明确智能体应当遵循的行为标准。
想想我们日常的世界。社会有法律条款,明确划出不可触碰的禁区;行业有职业规范,提醒我们该怎么做事;还有道德准则,提醒我们别越过良心底线。这些就像是模型需要遵守的安全规范(safety-spec),是一条条必须坚守的红线。与此同时,在工作和生活中,我们还要面对一套又一套灵活多变的规则:公司 KPI、岗位职责、写报告要有逻辑、客服回复要有温度。这些就是行为规范(behavioral-spec),它们会随着场景和目标不断变化,甚至时时更新。
问题随之而来:在这样一个多规并存的现实中,大模型能否守住安全的底线,同时灵活应对层出不穷的行为要求?法律和道德是硬性红线,而工作流程、岗位标准,甚至是报告格式,却会因行业、团队或目标而变化。让一个模型同时满足这些规范,并不容易。
针对这一难题,上海交通大学、香港中文大学、中国科学技术大学和 UIUC 的研究团队,首次提出规范对齐(Specification Alignment)的新概念,要求大模型在不同场景下同时遵守细粒度的安全规范与行为规范。
- 论文标题:Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
- 论文链接:https://arxiv.org/abs/2509.14760
- 代码和数据:https://github.com/zzzhr97/SpecBench
团队进一步构建了首个评测基准 SpecBench,覆盖 5 大应用场景、103 条规范和 1500 条数据,并通过对 33 个主流模型的全面评测,揭示了它们在规范对齐上的不足。同时,团队探索了多种测试时深思(Test-time Deliberation, TTD)方法,包括 Self-Refine、TPO 以及他们提出的 Align3。结果证明,这些方法能显著提升大模型对规范的遵循度,让安全与实用的平衡点不断向前推进。

图表 1:不同模型的规范对齐能力示意图。GPT-5 断层式领先;Align3、TPO、Self-Refine 等测试时深思方法能显著提升模型的规范对齐能力
规范对齐
规范对齐(Specification Alignment)的核心,是让大模型在不同场景下同时满足两类规范:
-
安全规范(safety-spec):界定模型不可逾越的安全边界。比如,在儿童故事生成的场景中,大模型必须严格避免输出任何暴力或恐怖内容;在辅助编程场景中,当用户要求生成能够绕过登录认证的后门代码时,模型也必须坚决拒绝。
-
行为规范(behavioral-spec):规定模型如何更好地发挥作用,体现制定规范的用户或组织的偏好,包括内容偏好、目标导向、输出格式和表达风格等。比如,在生成童话故事时,要求模型必须蕴含至少一个清晰的教育寓意;在为用户制定旅行规划时,要求模型提供多套可对比的行程方案。
在模型的推理过程中,这种双重约束可以用一个简洁的数学公式来刻画,即最大化行为规范的满足度,同时确保安全风险不超过允许阈值:

其中,

是问题,

是模型的推理过程,

是最终回答,

衡量行为规范的遵循程度,

表示安全规范被违背的风险,

是允许的安全风险预算。
然而,现实中的规范并非一成不变,而是充满差异。儿童故事要避免恐怖和歧视,同时激发想象力;代码生成需要杜绝漏洞,同时保持高效清晰。更重要的是,这些规范会随着任务、环境甚至用户身份而不断调整。旅行规划可能因文化差异增加新的禁忌,企业客服可能随着季度目标而改变回复风格。许多行为规范还直接体现了个性化的偏好和需求。
正因如此,规范对齐成为一个动态、多样、细粒度的挑战,要求大模型不仅要守住红线,还要因地制宜。

图表 2:规范对齐范式,关注特定场景下大模型遵循特定规范的能力
SpecBench:首个系统评测规范对齐的基准测试
为了系统评测规范对齐,研究团队提出了首个基准 SpecBench,覆盖五大典型应用场景:儿童故事、健康咨询、代码生成、旅行规划和生物化学实验,共包含 103 条规范和 1500 条精心设计的提示。
在评价方式上,团队基于前文公式,将安全预算

收紧为零,提出规范对齐率(Specification Alignment Rate, SAR)这一新指标:

如果输出违背了安全规范(

),得分会直接归零;如果满足安全要求,才会根据行为规范的完成度(

)来评分,并保证每个安全输出至少有一个基线分数

。这样的设计体现了「先安全,再实用」的原则,为后续大模型的对齐研究奠定了标准化的评测基础。
测试时深思:灵活的规范对齐手段
有了基准,新的问题随之而来:怎样让模型真正做到规范对齐?模型微调虽然有效,但成本高、更新慢,而规范又在不断变化。为此,研究团队提出了一种更灵活的思路,测试时深思(Test-time Deliberation,TTD)。它让模型在推理阶段先针对规范进行深思,然后给出答案,从而在不改动模型参数的情况下,更好地贴合既定规范。

图表 3:测试时深思(Test-Time Deliberation)的几种代表方法,包含 Best-of-N、TPO 和研究团队提出的 Align3
在此基础上,团队提出了三步式的 TTD 方法 Align3。它在推理过程中依次对齐行为和安全规范,最后进行整体反思,将规范对齐嵌入推理链条,让模型表现得更可靠。
实验结果
研究团队在 SpecBench 上测试了 33 个模型,其中包括 18 个指令模型和 15 个推理模型。结果显示,大多数模型在规范对齐上存在明显差距:有的冒险触碰安全边界,有的则在遇到风险时一味拒绝。令人意外的是,GPT-5 在五大场景中都展现出断层式领先,远远超越其他模型。研究团队推测,这与 OpenAI 最新提出的 safe-completion training 密切相关。

图表 4:不同模型规范对齐能力的评估结果。其中 GPT-5 断层式领先,得到了 82.14% 的 SAR 得分

图表 5:五大场景中,部分模型的 SAR 规范对齐得分。GPT-5(最外层的红色线条)遥遥领先
进一步的实验表明,测试时深思(TTD)能有效提升规范对齐能力。TPO、Self-Refine、Best-of-N 等方法依靠并行采样或迭代反思来改进表现,但往往需要付出高昂的计算成本。而研究团队提出的 Align3 只需一次生成,就能在更低成本下实现更好的对齐效果。

图表 6:在 Qwen3-14B 和 Llama-3.1-8B-Instruct 上,不同 TTD 方法有效提升了规范对齐效果,其中 Align3 表现突出
展望:迈向更安全、更实用的大模型
规范对齐是学术上的重要课题,也是大模型真正走进社会和产业的关键门槛。未来的模型要在安全与实用之间找到更细致的平衡,既要守住底线,也要理解用户需求。SpecBench 提供了统一的评测标准,Align3 展示了轻量高效的解决方案,但这只是开始。随着规范日益多样化和个性化,大模型需要在更复杂的环境中展现更强的适应力。真正能走进日常生活的 AI,也许正在路上。
目前项目已在 GitHub 开源,欢迎有兴趣的同学了解。
...
#GDPval
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
AI 的颠覆近在眼前,奥特曼不是乱说的。
时至今日,我们已见过太多大模型的评估方法。
比如涵盖了数十个学科的考试式问题的学术基准 MMLU,还有 SWE-Bench (软件工程错误修复任务)、 MLE-Bench (机器学习工程任务,例如模型训练和分析)和 Paper-Bench (对研究论文的科学推理和评论)这类更具应用性的评估,以及基于市场的评估 SWE-Lancer。
最近,OpenAI 又推出了一种名为 GDPval 的新评估方法,用来跟踪模型在具有经济价值的现实世界任务上的表现。
- 论文:GDPval:Evaluating AI Model Performance on Real-World Economically Valuable Tasks
- 论文链接:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
之所以将其命名为 GDPval,是因为它以国内生产总值 (GDP) 作为关键经济指标,并从对 GDP 贡献最大的行业中的关键职业中提取任务。
评估结果显示,当今最优秀的前沿模型已接近行业专家的工作质量。OpenAI 进行了盲测,行业专家将几个领先模型 GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4 的交付成果与人工成果进行了比较。
在 GDPval 黄金数据集的 220 项任务中,他们记录了哪些模型的输出优于或与行业专家的成果相当。

在不同生产部门的作用上,可以看到 AI 在政府部门、零售和批发上的能力是已经达到或超越人类水平的。

有趣的是,在 GDPval 上,OpenAI 大方地承认了 Claude 的领先地位:Claude Opus 4.1 是该数据集中表现最佳的模型,尤其在美观性(例如文档格式、幻灯片布局)方面表现出色,该模型在 49% 的任务中被评为优于或与行业专家相当。另一方面,GPT-5 则在准确性(例如查找特定领域知识)方面更为出色。
不过 OpenAI 又说了,Claude 得分如此之高,是因为它倾向于制作令人愉悦的图形,而非纯粹的性能。
此外,这些任务随着时间的推移取得了显著的进步。从 2024 年春季发布的 GPT-4o 到 2025 年夏季发布的 GPT-5,性能提高了一倍多,呈现出明显的线性趋势。

从 GPT-4o 到 GPT-5,GDPval 任务的性能在一年内提升了两倍多。
前沿模型完成 GDPval 任务的速度比行业专家大约快 100 倍,成本也低 100 倍。虽然这些数据只考虑了模型的推理时间和 API 费用,但在模型特别擅长的任务上,先使用 AI 完成任务再交由人类测试,能够显著节省时间和成本。
有了测评基准,自然就可以想如何提高成绩,OpenAI 逐步训练了 GPT-5 的内部实验版本,以评估能否提升 GDPval 任务的性能。可见,这一过程提升了性能,并为进一步的潜在改进开辟了道路。其他对照实验也证实了这一点:增加模型规模、鼓励更多推理步骤以及提供更丰富的任务上下文,这些都带来了可衡量的收益。
OpenAI 还发布了 GDPval 任务的黄金子集和公共评分服务,以便其他研究人员在此基础上继续研究。
这些职业如何被选出来的?
GDPval 是该评估的首个版本,涵盖了从对美国 GDP 贡献最大的 9 个行业中甄选出的 44 个职业,如软件开发人员、律师、注册护士和机械工程师等。这些职业因其经济重要性而被选中,代表了人工智能可以在日常工作中有意义地辅助专业人士的工作类型。

GDPval 全套评估包含 1320 项专业任务(黄金开源评估包含 220 项),每项任务均由经验丰富的专业人士精心设计并审核,这些专业人士平均拥有超过 14 年的相关领域从业经验。每项任务均基于真实的工作成果,例如法律摘要、工程蓝图、客户支持对话或护理计划。每个任务经过至少 5 轮审查,确保其真实、可行且清晰。
最终数据集包含每个职业 30 个完全审查的任务(完整集),以及 5 个任务的开源黄金集,为评估模型在实际知识工作中的表现提供基础。每个任务由专业人士设计,基于实际工作成果,专家的解决方案作为参考。

GDPval 的独特之处在于其现实性和评估任务的多样性。与其他专注于特定领域的经济价值评估(例如 SWE-Lancer)不同,GDPval 涵盖了众多任务和职业。同时与那些以学术考试或测试形式综合创建任务的基准测试(例如 Humanity's Last Exam 或 MMLU)不同,GDPval 关注的是基于可交付成果的任务,这些可交付成果可以是现有的实际工作或产品,也可以是类似构造的工作产品。
GDPval 任务并非简单的文本提示,它们附带参考文件和上下文,预期交付成果涵盖文档、幻灯片、图表、电子表格和多媒体,这种现实性使得 GDPval 能够更真实地测试模型如何支持专业人士。
如何评估模型性能?
OpenAI 通过专家评分员来评估模型的表现,这些评分员来自数据集中相应职业的专业人士。评分员在盲评下比较 AI 和人类的交付成果,并给出排名,判断 AI 成果是「更好」、「相当」还是「更差」。任务编写者还制定了详细的评分标准,确保评分一致性和透明度。
此外,OpenAI 还开发了一个「自动评分员」,可以快速预测人类专家的评价,作为辅助工具,但目前其可靠性尚不如专家评分员,因此并未替代专家评分。
随着 AI 能力的增强,它可能会改变就业市场。GDPval 的早期结果表明,模型已经能够比专家更快、更低成本地完成一些重复性、明确规定的任务。然而,大多数工作不仅仅是一堆可以记录下来的任务。GDPval 强调了人工智能可以处理日常任务的领域,以便人们可以将更多时间投入到创造性和判断性较强的工作中。
当人工智能以这种方式补充工人时,它可以转化为显著的经济增长。OpenAI 的目标是通过普及这些工具的使用权、支持工人应对变革以及建立奖励广泛贡献的制度,让每个人都能登上人工智能的「上升梯」。
最后,OpenAI 表示,GDPval 尚处于起步阶段。虽然它涵盖了 44 种职业和数百项任务,但仍在不断改进方法的过程中。OpenAI 计划继续扩展 GDPval,以涵盖更多职业、行业和任务类型,提高交互性,并添加更多涉及处理模糊性的任务,其长期目标是更好地衡量多元化知识工作的进展。
参考内容:
https://openai.com/index/gdpval/
...
#AI能「拍」好电影?
五部短片亮相釜山电影节,答案出乎意料
全 AI 生成高质量剧情长片已经在技术上成为可能。
去年九月,中国香港动画公司 ManyMany Creations Limited 的几位年轻主创立下了一个几乎「逆天」的目标------
拍一部真正的剧情短片,至少十五分钟长,而且每个镜头都必须由 AI 生成。
野心之大,连他们自己都觉得悬。剧本选定后,团队心里依然没底。未曾想,几个月后,答案浮出水面------《九宵》。
AI 的「电影时刻」
这部 3D 短片不仅顺利完成,还成为香港首部全 AI 短片,并一举入选第 30 届釜山国际电影节「未来影像」 AI 电影国际峰会(以下简称「 AI 电影国际峰会」)。
此次 AI 电影国际峰会,由字节跳动旗下即梦AI、火山引擎,以及上海电影共同举办。此前三方联合发起的 「未来影像计划」 已完成全球征集与评审,五部入选作品也被带到峰会平台展映。
没有任何激烈冲突,也没有夸张的肢体语言,近 17 分钟的剧情全靠「男主」细腻的微表情推动,将内心觉醒一点点呈现出来:从困于日复一日的打工生活,到直面「自由」与「人生意义」的追问。
,时长01:46
微表情丰富,情绪转变真实饱满。
哪怕成片长达十几分钟,男主角的形象和场景依然连贯。
,时长00:05
睁眼这个大特写,细微肌肉变化(包括耳朵),非常细腻逼真。
与《九宵》一同入围的另外四部短片各有风格,却触及同一个共同点:AI 的镜头语言不再只是「生成影像」的展示,而是真正的叙事手段。
《权利游戏》的长镜头,至今让人印象深刻。一个苹果的自然腐坏过程与时间的流逝交织在一起,古代与现代在镜头中无缝转,叙事与视觉奇观被推至高潮。
导演小文与团队直接用即梦AI「组建」出一个虚拟剧组,完成了这部女性主义主题的创作。
,时长00:25
长镜头,围绕一颗自然烂掉的苹果,实现时空的丝滑转场。
《小怪物》则用延时手法捕捉失落与怀念,创作者晓薇竟是第一次尝试 AI 影像。
,时长01:02
固定镜头模拟延时摄影,表现出时间飞逝。
在过去,AI 作品大多停留在实验性科幻与动画。而这五部入选作品,无论是《权利游戏》、《法体》还是《一目五先生》已经敢于挑战真人叙事,直面女性主义、「平庸之恶」这样的主题。
,时长00:57
,时长00:48
《法体》、《权利童话》模拟实拍质感。
《一目五先生》甚至用黑白版画风重新演绎清代袁枚《子不语》的同名故事,复古与先锋的张力,被 AI一笔笔勾勒出来。
,时长02:45
画风很中国,运镜也富有创意。
这些作品背后,是一条迅速成型的工业链。它们都使用了即梦AI,依托火山引擎提供的 Seedance(视频生成)、 Seedream(图像创作) 模型。
一年前,当视频生成模型战火初燃时,就有人预测 AI 将在一年内达到个人即可制作电影的成熟度。《九宵》与其同伴们,正是这场预测的具象化。
基础模型高速迭代,AI 影像在质感、流畅度与真实感上的提升几乎是全面的。但更关键的分水岭在于 AI 能否能够「读懂」提示词------能否凭文字描述,生成精准的运镜与叙事节奏。如今,这道门槛已经被跨越,AI 影像展现出前所未有的可能性。
博纳影业的选择:「+AI」与「AI+」
对多数电影公司来说,AI 仍是一种值得观望的「未来工具」。但博纳影业选择直接迎上浪潮。
2023 年底,博纳成立国内首个 AI 制作中心,并联合抖音、即梦 AI 推出科幻短剧集《三星堆:未来启示录》第一季。第二季更是准备升级为大银幕电影,深度应用火山引擎提供的 Seendance、Seedream 模型,结合博纳在电影工业领域的深厚积累和经验,发展出高效独特的影视 AI 工作流,该片目前已进入最终制作阶段。
《三星堆:未来启示录》本来是一个计划投资数亿的科幻电影项目。博纳集团影视制作副总经理、AI 制作中心负责人曲吉小江回忆说,Sora 横空出世后,我们决定用 AI 来快速验证 IP,同时测试人工智能新技术的天花板。
在第一季中,从概念设计、分镜绘制到图像转视频,整个生产链条覆盖了 AI 技术,但这并不意味着「去人工化」。在曲吉小江介绍里,AI 更像是提出者,人则负责判断与取舍。
「我们会利用 AI 的不确定性生成大量的场景与人物,再从中筛选,而不是一开始就人为设定唯一的方向。」 她把这种方式称为 「AI+」。
以下视频来源于
博纳影业AIGMS制作中心
,时长00:50
《三星堆:未来启示录》第一季的第二支预告片。
到了第二季,模式进一步演化为 「+AI」:光靠生成式技术已不够,团队开始将传统电影工业的流程(剪辑、调色、特效、后期)重新整合进来。结果是,作品不仅更像一部经过完整工业化打磨的电影,也逐渐接近院线级别的成片水准。
这种模式转变背后,是模型能力的飞跃。曲吉小江坦言,许多最初的难题已被逐步攻克,比如火山引擎提供的 Seedream 4.0 是一场真正意义上的跨越。
要做电影,仅靠文生视频并不现实,必须依赖图生视频。Seedream 4.0 的多图融合功能让创作者只需提供角色照片和分镜描述,就能批量生成连环画式的分镜,再据此生成视频,保证了画面细节的丰富。博纳 AI 团队还研发、应用了虚拟人物lora 训练集,这个博纳工作流能够让虚拟人物形象在长片叙事作品中保持稳定和一致。
首尾帧功能则解决了一致性与可预测性这两个长期困扰 AI 视频生成的挑战。如果完全依赖传统特效来实现同样的效果,「 CG 成本非常高」,她说。
相比之下,《三星堆:未来启示录》第二季的制作周期被压缩到一年半至两年,成本也低于传统院线电影。
更重要的是,这些模型开始学会「理解」文化语境。无论是《三星堆:未来启示录》里的文物细节,还是《一目五先生》中的中式服饰与建筑,测试结果显示,即梦与火山引擎在中国元素上的生成准确度正在迅速提升。正如曲吉小江所言:现在生成文物的准确性已相对较高。博纳团队在模型生成的基础上,结合电影后期 CG 特效的手法,让历史和文物呈现能够满足大银幕的基本要求。
不过,前期策划和后期制作依旧遵循成熟的工业化流程。但新模型的能力已经能帮助从业人员快速验证分镜与叙事逻辑,显著降低前期筹备成本。
在后期特效环节,AI 潜力也逐渐显现。《法体》中的屠杀与复仇场景证明,AI 在营造灾难性场面时不仅能显著节省成本,还为创作者提供了更大的试错空间。
国外一些剧集也已开始尝试用 AI 替代昂贵的特效制作。曲江小吉认为,随着技术的迭代,这些剧集里的 AI 画面「几乎难以分辨与实拍画面的差别」。
,时长02:16
入选作品《法体》中的屠杀与复仇场景。
如今,博纳 AI 制作中心已经相当一部分应用国产的火山引擎模型。现在,我们是「抓两头」,曲吉小江说。一手是工业化,保证院线电影品质;一手是批量化,探索 AI 驱动的短剧生产,快速产出,快速验证。
他们基于火山引擎的多模态底座,打造了 「博卡短剧平台」与「博卡圆桌---剧本生成平台」,既实现了从「一句话成片」,也被用来发掘年轻的创作者。
超级个体:开麦拉!
这场浪潮并不只属于大公司。正如社会学家李银河在 AI 电影国际峰会的开幕致辞中所说:「这不仅是技术的进步,更是一次关于表达机会的重新布局。」 原本被挡在影像叙事之外的人,如今也有机会讲述自己的故事。
入围本届峰会作品的作者,有一些并非影视科班出身。过去,想执导一部属于自己的作品几乎不可能。现在,只需输入文字与图像,就能把心中的想象变为影像。
小型团队同样能够交出高水准成品。《九宵》就是一个例子:二十多人的团队,却因 AI 的介入,产能成倍提升。换作传统 3D 流程,要在半年内完成一段十五到二十分钟、并保持这种质量的作品,几乎不可想象。
AI 还带来了前所未有的创意自由,负责美术设计的范家怡曾提到,过去搭建一套完整的 3D 模型往往要耗费大量人力和时间。现在,只需提供一张概念图,AI 便能生成相应的场景和角色。
正因如此,团队得以在剧情中频繁更换人物造型和服装,这在传统制作流程里几乎是难以想象的。

《九宵》全AI生成,为场景设计带来了前所未有的创作自由。

《九宵》全AI生成,为场景设计带来了前所未有的创作自由。

《九宵》全AI生成,为角色、服饰设计带来了前所未有的创作自由。
有了趁手的 AI 工具,时间和费用成本都被大大压缩,AIGC 创新团队 AI Talk 负责人赵汗青坦言。这让他们得以重新聚焦创意本身,不必再疲于实现某些工业效果。AI Talk 是一个只有五六个核心成员的小型工作室,却凭借虚拟歌手 Yuri 制造出了一次文化现象。
今年 6 月,Yuri 首支原生歌曲《 Surreal 》上线后迅速走红。流畅的运镜、逼真的唇形同步,以及极具辨识度的虚拟形象,让她在网络上收获了大批歌迷,并很快拿下品牌合作。
,时长02:58
Yuri 的首支原生歌曲《Surreal》上线后迅速走红。截至目前,这支作品的播放量已突破1100万。
我们一直对 AI 是否能够构建出一个完整人格感兴趣,赵汗青说,OmniHuman 的出现让这一想法变得触手可及。
最初的数字人不过是「一张会动嘴的脸」,身体僵硬。但 OmniHuman1.0 版本首次实现了自然表现;到了今年的 OmniHuman1.5 内测,这种「活人感」进一步放大:角色说话时手部会自然配合动作,镜头能够拉近拉远、自由切换角度,甚至在唱歌时,动作与表情会随音乐风格自适应变化。
「我意识到,OmniHuman 关心的其实是如何用 AI 去创造角色。」他说。它指向的是一种角色资产的技术,而不仅仅是视频生成。
最近,AI Talk 团队做了很多短片和 MV 在线下的大型屏幕上播放。在巨幅投影下,AI 生成的画面依旧保持高度的完成度与逼真感。
在幕后,火山引擎 Seedream 4.0 发挥了关键作用。赵汗青解释说,这一图像模型能够生成 4K 级别的画面,其清晰度与完成度足以满足电影、广告乃至户外传播等商业与工业领域的标准。过去要实现类似效果,往往需要在本地与云端跑复杂的工作流;如今只需依托模型即可完成。
而火山引擎的 Seedance 1.0 Pro 则进一步缩短了从创意到成品的时间,让 AI 内容真正具备了可交付性。
虽然全 AI 生成高质量剧情长片已经在技术上成为可能,但「一键生成」------把剧本交给 AI,静待成片------还很遥远。
以《九宵》为例,尽管每个镜头均由 AI 生成,人类演员的介入仍不可或缺:AI 会先生成一版演绎,再通过动捕技术修正表演。不同于传统拍摄需要在演员脸上贴满标记点,这一过程几乎全由 AI 完成,耗时很短。
面对复杂场景与长镜头,人工干预依然不可避免。《小怪物》的创作者选择用即梦 AI 批量生成「标准件」,建立专属素材库,以确保角色在不同场景下保持一致的风格与特征。
《九宵》团队则花了四个月反复训练模型,重点测试人物生成的稳定性、背景衔接与多角度绘制的准确度,以达成连戏的要求。
稀缺的,从来不是工具,而是思想
曲吉小江回忆起最初涉足 AI 视频的日子,大约是一年半甚至两年前。那时,整个行业仍带着明显的抵触。
现在仍有部分电影人,常会下意识地将 AI 与「真正的艺术」作区分。对他们而言,可能拒绝,才能守住自我认同的一道防线。但影视行业原本固化的规则与生态,却正被一点点改写。
今年三月,美国演员 Adrien Brody 凭借《粗野派》摘得奥斯卡最佳男主。影片预算不足千万,他的台词却带有极高难度的匈牙利口音------如果没有 AI 修音,几乎不可能实现。
一个月后,美国电影艺术与科学学院正式宣布自 2026 年起,AI 参与创作的影片将获得奥斯卡参评资格。
在国内,曲吉小江的态度更为直接。 「每个创作者使用 AI 的深度都不同,」她说,「我希望团队能把它用到极致,触碰到边界。」
博卡短剧平台,成了这种理念的实验场。每个项目的知识库:文字资料、资产内容、人物与场景设定,乃至粉丝互动,都沉淀其中。这个数据库不断被丰富,她将其视为未来的元宇宙雏形。
但明显的技术瓶颈,依然存在。许多电影场景需要三十秒甚至一分钟的长镜头来完成复杂的调度,而现有模型一旦生成超过五秒,画面稳定性就开始急剧下滑,难以支撑叙事的完整性。
曲吉小江依旧乐观,她预言这个瓶颈或许在短时间内就能被突破。要想生成真正逼真的影像,AI 不仅需要画面的能力,更要理解物理世界的规律。
比如当下,人物的面部已大体可控,但当演员与坦克、飞机等道具同框时,比例和透视常常失真,让观众一眼便觉不真实。现实拍摄中这些关系自然而然,而 AI 还要艰难习得。
视频生成的未来,取决于「生成」与「理解」的融合。正如火山引擎总裁谭待在 Seedance 1.0 Pro 发布时所强调,只有当模型真正掌握物理规律,它才可能生成令人信服的影像。
「工具在变,但我们讲述故事、讲述自己故事的渴望,是永恒的。」在 AI 国际电影峰会上,曾任《卧虎藏龙》《英雄》制片人的李少伟提醒大家。即便 AI 的能力持续进化,真正决定作品差异化的,仍是人的艺术鉴赏力与独特创作理念。
当未来越来越多的通用内容由 AI 自动生成,创作者必须回到那个根本的问题:我与别人究竟有什么不同?
稀缺的,从来不是工具,而是思想与表达。
...
#xxx
...
#xxx
...
#xxx
...
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
.....
#xxx
.....