【算法设计】GLM-4.5V模型架构和算法设计详解

一、模型架构(Model Architecture)

GLM-4.1V-Thinking 与 GLM-4.5V 共享统一架构,核心由三大组件构成,支持图像、视频等多模态输入,适配任意分辨率与时空场景,具体如下:

1. 核心组件(Core Components)
组件 功能描述 关键细节
视觉编码器(ViT Encoder) 处理图像/视频输入并编码特征 基于 AIMv2-Huge 初始化;用 3D 卷积替换 2D 卷积,实现视频 2 倍时间下采样(提升效率);单图像输入通过复制保持一致性
MLP 适配器(MLP Projector) 跨模态特征对齐 将视觉编码器输出的特征与语言解码器的文本 Token 特征统一维度,实现模态融合
语言解码器(LLM Decoder) 处理多模态 Token 并生成结果 GLM-4.1V-Thinking 采用 GLM-4-9B-0414;GLM-4.5V 采用 GLM-4.5-Air;扩展 3D-RoPE 增强空间感知能力
2. 关键适配设计(Key Adaptations)
  • 分辨率适配:集成 2D-RoPE 至 ViT 自注意力层,支持超宽高比(超 200:1)和 4K+ 高分辨率;通过双三次插值动态调整绝对位置嵌入,适配任意 Patch 网格大小。
  • 视频时序建模:每帧 Token 后插入时间索引 Token(编码为时间戳字符串),明确帧间时序关系,提升视频理解与接地能力。

二、算法设计(Algorithm Design)

算法围绕"推理中心"目标,分三阶段递进训练(预训练→有监督微调→强化学习),核心创新聚焦跨域推理效率与稳定性,具体如下:

1. 预训练(Pre-training):构建高潜力基座
  • 数据构建:涵盖五大类多模态数据------高质量图像文本对(100亿+,经 CLIP 过滤与重采样)、交错图像文本学术语料(1亿+书籍/网页)、OCR 数据(2.2亿图像)、接地数据(自然图像 4000万+、GUI 1.4亿+问答对)、视频文本数据(人工标注修正幻觉)。
  • 训练流程
    1. 多模态预训练:序列长度 8192,全局批次 1536,训练 12 万步,涵盖除视频外所有模态,采用数据打包优化效率。
    2. 长上下文持续训练:序列长度扩展至 32768,加入视频和长文本数据,训练 1 万步,新增上下文并行(大小 4)。
2. 有监督微调(SFT):对齐推理风格
  • 核心目标:不注入新知识,仅将模型的视觉-语言理解能力与"长链推理(CoT)"风格对齐,为强化学习铺垫。
  • 数据设计 :聚焦可验证任务(STEM、GUI 代理等)与非验证任务(开放式 VQA),过滤过易/过难样本,采用"思考过程+答案"结构化输出(验证类任务答案用 <<|begin_of_box|>/<<|end_of_box|> 标记)。
  • 训练配置 :全参数微调,序列长度 32768,全局批次 32;GLM-4.5V 额外支持 /nothink 模式,可切换无思考过程输出。
3. 强化学习(RL):提升跨域推理能力

核心创新为 RLCS(课程采样强化学习),结合多组件优化框架:

  • 数据准备:定义各模态可验证子任务,将选择题转为填空题避免随机猜测,通过离线难度分级(pass@k 评分+人工标注)与在线动态评估筛选样本。
  • 奖励系统:多域统一奖励体系,每个子任务定制验证逻辑(如数学用 Sympy 数值匹配、OCR 用编辑距离、接地用 IoU 计算),避免奖励欺骗(Reward Hacking)。
  • 训练优化策略
    1. 动态采样扩展:通过比例 EMA 调整采样系数,平衡样本正确率分布。
    2. 强制回答机制:插入 <<|end_of_think|> Token,避免长思考被截断。
    3. 丢弃 KL 与熵损失:释放模型探索能力,增大重要性采样裁剪上限防止熵崩溃。
    4. 基础设施优化:序列长度负载均衡、样本打包+梯度累积,提升训练吞吐量。

核心优势总结

  • 架构层面:3D 卷积+RoPE 扩展,实现多模态输入的高效处理与时空感知。
  • 算法层面:三阶段训练闭环+RLCS 策略,兼顾跨域泛化能力与训练稳定性,GLM-4.5V 在 42 个基准测试中近全任务达到开源 SOTA,部分任务超越 Gemini-2.5-Flash。

参考文献:

《GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning》

不过看评分图感觉对自家模型没啥信心,106B模型对标的是千问72B.。。。

但看好新出的这两大功能(摘自社区文档)

  • 图文交织内容生成(Interleaved Image-Text Content Generation)

    支持基于复杂多模态输入生成高质量混合内容。GLM-4.6V 能理解文档、用户输入以及工具检索图像构成的多模态上下文,并生成连贯的图文交织内容。模型在生成过程中可主动调用搜索与检索工具,以补充文本与视觉内容,生成丰富且视觉支撑强的结果。

  • 多模态文档理解(Multimodal Document Understanding)

    支持最长 128K tokens 的多文档/长文档输入,直接以图像方式解析排版丰富的页面。模型可联合理解文本、布局、图表、表格与插图,实现无需转换为纯文本即可高质量解析复杂文档。

智谱加油噢

相关推荐
ULTRA??2 小时前
Rust的移动语义
c++·算法·rust
不穿格子的程序员3 小时前
从零开始写算法——链表篇:相交链表 + 反转链表
数据结构·算法·链表
仰泳的熊猫3 小时前
1132 Cut Integer
数据结构·c++·算法·pat考试
aini_lovee3 小时前
基于边缘图像分割算法详解与MATLAB实现
开发语言·算法·matlab
艾上编程3 小时前
第一章——办公自动化之Excel批量合并工具:Python助力高效办公
开发语言·python·excel
拼好饭和她皆失3 小时前
高效算法的秘诀:滑动窗口(尺取法)全解析
数据结构·算法·滑动窗口·尺取法
断剑zou天涯3 小时前
【算法笔记】二叉树的Morris遍历
数据结构·笔记·算法
元亓亓亓3 小时前
LeetCode热题100--739. 每日温度--中等
python·算法·leetcode
小白程序员成长日记3 小时前
2025.12.11 力扣每日一题
数据结构·算法·leetcode