【算法设计】GLM-4.5V模型架构和算法设计详解

GLM-4.1V-Thinking 与 GLM-4.5V 共享统一架构，核心由三大组件构成，支持图像、视频等多模态输入，适配任意分辨率与时空场景，具体如下：

组件	功能描述	关键细节
视觉编码器（ViT Encoder）	处理图像/视频输入并编码特征	基于 AIMv2-Huge 初始化；用 3D 卷积替换 2D 卷积，实现视频 2 倍时间下采样（提升效率）；单图像输入通过复制保持一致性
MLP 适配器（MLP Projector）	跨模态特征对齐	将视觉编码器输出的特征与语言解码器的文本 Token 特征统一维度，实现模态融合
语言解码器（LLM Decoder）	处理多模态 Token 并生成结果	GLM-4.1V-Thinking 采用 GLM-4-9B-0414；GLM-4.5V 采用 GLM-4.5-Air；扩展 3D-RoPE 增强空间感知能力

分辨率适配：集成 2D-RoPE 至 ViT 自注意力层，支持超宽高比（超 200:1）和 4K+ 高分辨率；通过双三次插值动态调整绝对位置嵌入，适配任意 Patch 网格大小。
视频时序建模：每帧 Token 后插入时间索引 Token（编码为时间戳字符串），明确帧间时序关系，提升视频理解与接地能力。

算法围绕"推理中心"目标，分三阶段递进训练（预训练→有监督微调→强化学习），核心创新聚焦跨域推理效率与稳定性，具体如下：

数据构建：涵盖五大类多模态数据------高质量图像文本对（100亿+，经 CLIP 过滤与重采样）、交错图像文本学术语料（1亿+书籍/网页）、OCR 数据（2.2亿图像）、接地数据（自然图像 4000万+、GUI 1.4亿+问答对）、视频文本数据（人工标注修正幻觉）。
训练流程 ：
1. 多模态预训练：序列长度 8192，全局批次 1536，训练 12 万步，涵盖除视频外所有模态，采用数据打包优化效率。
2. 长上下文持续训练：序列长度扩展至 32768，加入视频和长文本数据，训练 1 万步，新增上下文并行（大小 4）。

核心目标：不注入新知识，仅将模型的视觉-语言理解能力与"长链推理（CoT）"风格对齐，为强化学习铺垫。
数据设计 ：聚焦可验证任务（STEM、GUI 代理等）与非验证任务（开放式 VQA），过滤过易/过难样本，采用"思考过程+答案"结构化输出（验证类任务答案用 <<|begin_of_box|>/<<|end_of_box|> 标记）。
训练配置 ：全参数微调，序列长度 32768，全局批次 32；GLM-4.5V 额外支持 /nothink 模式，可切换无思考过程输出。

核心创新为 RLCS（课程采样强化学习），结合多组件优化框架：

数据准备：定义各模态可验证子任务，将选择题转为填空题避免随机猜测，通过离线难度分级（pass@k 评分+人工标注）与在线动态评估筛选样本。
奖励系统：多域统一奖励体系，每个子任务定制验证逻辑（如数学用 Sympy 数值匹配、OCR 用编辑距离、接地用 IoU 计算），避免奖励欺骗（Reward Hacking）。
训练优化策略 ：
1. 动态采样扩展：通过比例 EMA 调整采样系数，平衡样本正确率分布。
2. 强制回答机制：插入 <<|end_of_think|> Token，避免长思考被截断。
3. 丢弃 KL 与熵损失：释放模型探索能力，增大重要性采样裁剪上限防止熵崩溃。
4. 基础设施优化：序列长度负载均衡、样本打包+梯度累积，提升训练吞吐量。

架构层面：3D 卷积+RoPE 扩展，实现多模态输入的高效处理与时空感知。
算法层面：三阶段训练闭环+RLCS 策略，兼顾跨域泛化能力与训练稳定性，GLM-4.5V 在 42 个基准测试中近全任务达到开源 SOTA，部分任务超越 Gemini-2.5-Flash。

参考文献：

《GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning》

不过看评分图感觉对自家模型没啥信心，106B模型对标的是千问72B.。。。

但看好新出的这两大功能（摘自社区文档）

图文交织内容生成（Interleaved Image-Text Content Generation）

支持基于复杂多模态输入生成高质量混合内容。GLM-4.6V 能理解文档、用户输入以及工具检索图像构成的多模态上下文，并生成连贯的图文交织内容。模型在生成过程中可主动调用搜索与检索工具，以补充文本与视觉内容，生成丰富且视觉支撑强的结果。
多模态文档理解（Multimodal Document Understanding）

支持最长 128K tokens 的多文档/长文档输入，直接以图像方式解析排版丰富的页面。模型可联合理解文本、布局、图表、表格与插图，实现无需转换为纯文本即可高质量解析复杂文档。

智谱加油噢