一、模型架构(Model Architecture)
GLM-4.1V-Thinking 与 GLM-4.5V 共享统一架构,核心由三大组件构成,支持图像、视频等多模态输入,适配任意分辨率与时空场景,具体如下:
1. 核心组件(Core Components)
| 组件 | 功能描述 | 关键细节 |
|---|---|---|
| 视觉编码器(ViT Encoder) | 处理图像/视频输入并编码特征 | 基于 AIMv2-Huge 初始化;用 3D 卷积替换 2D 卷积,实现视频 2 倍时间下采样(提升效率);单图像输入通过复制保持一致性 |
| MLP 适配器(MLP Projector) | 跨模态特征对齐 | 将视觉编码器输出的特征与语言解码器的文本 Token 特征统一维度,实现模态融合 |
| 语言解码器(LLM Decoder) | 处理多模态 Token 并生成结果 | GLM-4.1V-Thinking 采用 GLM-4-9B-0414;GLM-4.5V 采用 GLM-4.5-Air;扩展 3D-RoPE 增强空间感知能力 |
2. 关键适配设计(Key Adaptations)
- 分辨率适配:集成 2D-RoPE 至 ViT 自注意力层,支持超宽高比(超 200:1)和 4K+ 高分辨率;通过双三次插值动态调整绝对位置嵌入,适配任意 Patch 网格大小。
- 视频时序建模:每帧 Token 后插入时间索引 Token(编码为时间戳字符串),明确帧间时序关系,提升视频理解与接地能力。
二、算法设计(Algorithm Design)
算法围绕"推理中心"目标,分三阶段递进训练(预训练→有监督微调→强化学习),核心创新聚焦跨域推理效率与稳定性,具体如下:
1. 预训练(Pre-training):构建高潜力基座
- 数据构建:涵盖五大类多模态数据------高质量图像文本对(100亿+,经 CLIP 过滤与重采样)、交错图像文本学术语料(1亿+书籍/网页)、OCR 数据(2.2亿图像)、接地数据(自然图像 4000万+、GUI 1.4亿+问答对)、视频文本数据(人工标注修正幻觉)。
- 训练流程 :
- 多模态预训练:序列长度 8192,全局批次 1536,训练 12 万步,涵盖除视频外所有模态,采用数据打包优化效率。
- 长上下文持续训练:序列长度扩展至 32768,加入视频和长文本数据,训练 1 万步,新增上下文并行(大小 4)。
2. 有监督微调(SFT):对齐推理风格
- 核心目标:不注入新知识,仅将模型的视觉-语言理解能力与"长链推理(CoT)"风格对齐,为强化学习铺垫。
- 数据设计 :聚焦可验证任务(STEM、GUI 代理等)与非验证任务(开放式 VQA),过滤过易/过难样本,采用"思考过程+答案"结构化输出(验证类任务答案用
<<|begin_of_box|>/<<|end_of_box|>标记)。 - 训练配置 :全参数微调,序列长度 32768,全局批次 32;GLM-4.5V 额外支持
/nothink模式,可切换无思考过程输出。
3. 强化学习(RL):提升跨域推理能力
核心创新为 RLCS(课程采样强化学习),结合多组件优化框架:
- 数据准备:定义各模态可验证子任务,将选择题转为填空题避免随机猜测,通过离线难度分级(pass@k 评分+人工标注)与在线动态评估筛选样本。
- 奖励系统:多域统一奖励体系,每个子任务定制验证逻辑(如数学用 Sympy 数值匹配、OCR 用编辑距离、接地用 IoU 计算),避免奖励欺骗(Reward Hacking)。
- 训练优化策略 :
- 动态采样扩展:通过比例 EMA 调整采样系数,平衡样本正确率分布。
- 强制回答机制:插入
<<|end_of_think|>Token,避免长思考被截断。 - 丢弃 KL 与熵损失:释放模型探索能力,增大重要性采样裁剪上限防止熵崩溃。
- 基础设施优化:序列长度负载均衡、样本打包+梯度累积,提升训练吞吐量。
核心优势总结
- 架构层面:3D 卷积+RoPE 扩展,实现多模态输入的高效处理与时空感知。
- 算法层面:三阶段训练闭环+RLCS 策略,兼顾跨域泛化能力与训练稳定性,GLM-4.5V 在 42 个基准测试中近全任务达到开源 SOTA,部分任务超越 Gemini-2.5-Flash。
参考文献:
《GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning》
不过看评分图感觉对自家模型没啥信心,106B模型对标的是千问72B.。。。
但看好新出的这两大功能(摘自社区文档)
-
图文交织内容生成(Interleaved Image-Text Content Generation)
支持基于复杂多模态输入生成高质量混合内容。GLM-4.6V 能理解文档、用户输入以及工具检索图像构成的多模态上下文,并生成连贯的图文交织内容。模型在生成过程中可主动调用搜索与检索工具,以补充文本与视觉内容,生成丰富且视觉支撑强的结果。
-
多模态文档理解(Multimodal Document Understanding)
支持最长 128K tokens 的多文档/长文档输入,直接以图像方式解析排版丰富的页面。模型可联合理解文本、布局、图表、表格与插图,实现无需转换为纯文本即可高质量解析复杂文档。
智谱加油噢