【算法设计】GLM-4.5V模型架构和算法设计详解

一、模型架构(Model Architecture)

GLM-4.1V-Thinking 与 GLM-4.5V 共享统一架构,核心由三大组件构成,支持图像、视频等多模态输入,适配任意分辨率与时空场景,具体如下:

1. 核心组件(Core Components)
组件 功能描述 关键细节
视觉编码器(ViT Encoder) 处理图像/视频输入并编码特征 基于 AIMv2-Huge 初始化;用 3D 卷积替换 2D 卷积,实现视频 2 倍时间下采样(提升效率);单图像输入通过复制保持一致性
MLP 适配器(MLP Projector) 跨模态特征对齐 将视觉编码器输出的特征与语言解码器的文本 Token 特征统一维度,实现模态融合
语言解码器(LLM Decoder) 处理多模态 Token 并生成结果 GLM-4.1V-Thinking 采用 GLM-4-9B-0414;GLM-4.5V 采用 GLM-4.5-Air;扩展 3D-RoPE 增强空间感知能力
2. 关键适配设计(Key Adaptations)
  • 分辨率适配:集成 2D-RoPE 至 ViT 自注意力层,支持超宽高比(超 200:1)和 4K+ 高分辨率;通过双三次插值动态调整绝对位置嵌入,适配任意 Patch 网格大小。
  • 视频时序建模:每帧 Token 后插入时间索引 Token(编码为时间戳字符串),明确帧间时序关系,提升视频理解与接地能力。

二、算法设计(Algorithm Design)

算法围绕"推理中心"目标,分三阶段递进训练(预训练→有监督微调→强化学习),核心创新聚焦跨域推理效率与稳定性,具体如下:

1. 预训练(Pre-training):构建高潜力基座
  • 数据构建:涵盖五大类多模态数据------高质量图像文本对(100亿+,经 CLIP 过滤与重采样)、交错图像文本学术语料(1亿+书籍/网页)、OCR 数据(2.2亿图像)、接地数据(自然图像 4000万+、GUI 1.4亿+问答对)、视频文本数据(人工标注修正幻觉)。
  • 训练流程
    1. 多模态预训练:序列长度 8192,全局批次 1536,训练 12 万步,涵盖除视频外所有模态,采用数据打包优化效率。
    2. 长上下文持续训练:序列长度扩展至 32768,加入视频和长文本数据,训练 1 万步,新增上下文并行(大小 4)。
2. 有监督微调(SFT):对齐推理风格
  • 核心目标:不注入新知识,仅将模型的视觉-语言理解能力与"长链推理(CoT)"风格对齐,为强化学习铺垫。
  • 数据设计 :聚焦可验证任务(STEM、GUI 代理等)与非验证任务(开放式 VQA),过滤过易/过难样本,采用"思考过程+答案"结构化输出(验证类任务答案用 <<|begin_of_box|>/<<|end_of_box|> 标记)。
  • 训练配置 :全参数微调,序列长度 32768,全局批次 32;GLM-4.5V 额外支持 /nothink 模式,可切换无思考过程输出。
3. 强化学习(RL):提升跨域推理能力

核心创新为 RLCS(课程采样强化学习),结合多组件优化框架:

  • 数据准备:定义各模态可验证子任务,将选择题转为填空题避免随机猜测,通过离线难度分级(pass@k 评分+人工标注)与在线动态评估筛选样本。
  • 奖励系统:多域统一奖励体系,每个子任务定制验证逻辑(如数学用 Sympy 数值匹配、OCR 用编辑距离、接地用 IoU 计算),避免奖励欺骗(Reward Hacking)。
  • 训练优化策略
    1. 动态采样扩展:通过比例 EMA 调整采样系数,平衡样本正确率分布。
    2. 强制回答机制:插入 <<|end_of_think|> Token,避免长思考被截断。
    3. 丢弃 KL 与熵损失:释放模型探索能力,增大重要性采样裁剪上限防止熵崩溃。
    4. 基础设施优化:序列长度负载均衡、样本打包+梯度累积,提升训练吞吐量。

核心优势总结

  • 架构层面:3D 卷积+RoPE 扩展,实现多模态输入的高效处理与时空感知。
  • 算法层面:三阶段训练闭环+RLCS 策略,兼顾跨域泛化能力与训练稳定性,GLM-4.5V 在 42 个基准测试中近全任务达到开源 SOTA,部分任务超越 Gemini-2.5-Flash。

参考文献:

《GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning》

不过看评分图感觉对自家模型没啥信心,106B模型对标的是千问72B.。。。

但看好新出的这两大功能(摘自社区文档)

  • 图文交织内容生成(Interleaved Image-Text Content Generation)

    支持基于复杂多模态输入生成高质量混合内容。GLM-4.6V 能理解文档、用户输入以及工具检索图像构成的多模态上下文,并生成连贯的图文交织内容。模型在生成过程中可主动调用搜索与检索工具,以补充文本与视觉内容,生成丰富且视觉支撑强的结果。

  • 多模态文档理解(Multimodal Document Understanding)

    支持最长 128K tokens 的多文档/长文档输入,直接以图像方式解析排版丰富的页面。模型可联合理解文本、布局、图表、表格与插图,实现无需转换为纯文本即可高质量解析复杂文档。

智谱加油噢

相关推荐
kszlgy2 小时前
Day 52 神经网络调参指南
python
程序员-King.4 小时前
day158—回溯—全排列(LeetCode-46)
算法·leetcode·深度优先·回溯·递归
wrj的博客4 小时前
python环境安装
python·学习·环境配置
Pyeako4 小时前
深度学习--BP神经网络&梯度下降&损失函数
人工智能·python·深度学习·bp神经网络·损失函数·梯度下降·正则化惩罚
月挽清风5 小时前
代码随想录第七天:
数据结构·c++·算法
小O的算法实验室5 小时前
2026年AEI SCI1区TOP,基于改进 IRRT*-D* 算法的森林火灾救援场景下直升机轨迹规划,深度解析+性能实测
算法·论文复现·智能算法·智能算法改进
摘星编程5 小时前
OpenHarmony环境下React Native:Geolocation地理围栏
python
小郭团队5 小时前
2_1_七段式SVPWM (经典算法)算法理论与 MATLAB 实现详解
嵌入式硬件·算法·硬件架构·arm·dsp开发
充值修改昵称5 小时前
数据结构基础:从二叉树到多叉树数据结构进阶
数据结构·python·算法
Deepoch6 小时前
Deepoc数学大模型:发动机行业的算法引擎
人工智能·算法·机器人·发动机·deepoc·发动机行业