【算法设计】GLM-4.5V模型架构和算法设计详解

一、模型架构(Model Architecture)

GLM-4.1V-Thinking 与 GLM-4.5V 共享统一架构,核心由三大组件构成,支持图像、视频等多模态输入,适配任意分辨率与时空场景,具体如下:

1. 核心组件(Core Components)
组件 功能描述 关键细节
视觉编码器(ViT Encoder) 处理图像/视频输入并编码特征 基于 AIMv2-Huge 初始化;用 3D 卷积替换 2D 卷积,实现视频 2 倍时间下采样(提升效率);单图像输入通过复制保持一致性
MLP 适配器(MLP Projector) 跨模态特征对齐 将视觉编码器输出的特征与语言解码器的文本 Token 特征统一维度,实现模态融合
语言解码器(LLM Decoder) 处理多模态 Token 并生成结果 GLM-4.1V-Thinking 采用 GLM-4-9B-0414;GLM-4.5V 采用 GLM-4.5-Air;扩展 3D-RoPE 增强空间感知能力
2. 关键适配设计(Key Adaptations)
  • 分辨率适配:集成 2D-RoPE 至 ViT 自注意力层,支持超宽高比(超 200:1)和 4K+ 高分辨率;通过双三次插值动态调整绝对位置嵌入,适配任意 Patch 网格大小。
  • 视频时序建模:每帧 Token 后插入时间索引 Token(编码为时间戳字符串),明确帧间时序关系,提升视频理解与接地能力。

二、算法设计(Algorithm Design)

算法围绕"推理中心"目标,分三阶段递进训练(预训练→有监督微调→强化学习),核心创新聚焦跨域推理效率与稳定性,具体如下:

1. 预训练(Pre-training):构建高潜力基座
  • 数据构建:涵盖五大类多模态数据------高质量图像文本对(100亿+,经 CLIP 过滤与重采样)、交错图像文本学术语料(1亿+书籍/网页)、OCR 数据(2.2亿图像)、接地数据(自然图像 4000万+、GUI 1.4亿+问答对)、视频文本数据(人工标注修正幻觉)。
  • 训练流程
    1. 多模态预训练:序列长度 8192,全局批次 1536,训练 12 万步,涵盖除视频外所有模态,采用数据打包优化效率。
    2. 长上下文持续训练:序列长度扩展至 32768,加入视频和长文本数据,训练 1 万步,新增上下文并行(大小 4)。
2. 有监督微调(SFT):对齐推理风格
  • 核心目标:不注入新知识,仅将模型的视觉-语言理解能力与"长链推理(CoT)"风格对齐,为强化学习铺垫。
  • 数据设计 :聚焦可验证任务(STEM、GUI 代理等)与非验证任务(开放式 VQA),过滤过易/过难样本,采用"思考过程+答案"结构化输出(验证类任务答案用 <<|begin_of_box|>/<<|end_of_box|> 标记)。
  • 训练配置 :全参数微调,序列长度 32768,全局批次 32;GLM-4.5V 额外支持 /nothink 模式,可切换无思考过程输出。
3. 强化学习(RL):提升跨域推理能力

核心创新为 RLCS(课程采样强化学习),结合多组件优化框架:

  • 数据准备:定义各模态可验证子任务,将选择题转为填空题避免随机猜测,通过离线难度分级(pass@k 评分+人工标注)与在线动态评估筛选样本。
  • 奖励系统:多域统一奖励体系,每个子任务定制验证逻辑(如数学用 Sympy 数值匹配、OCR 用编辑距离、接地用 IoU 计算),避免奖励欺骗(Reward Hacking)。
  • 训练优化策略
    1. 动态采样扩展:通过比例 EMA 调整采样系数,平衡样本正确率分布。
    2. 强制回答机制:插入 <<|end_of_think|> Token,避免长思考被截断。
    3. 丢弃 KL 与熵损失:释放模型探索能力,增大重要性采样裁剪上限防止熵崩溃。
    4. 基础设施优化:序列长度负载均衡、样本打包+梯度累积,提升训练吞吐量。

核心优势总结

  • 架构层面:3D 卷积+RoPE 扩展,实现多模态输入的高效处理与时空感知。
  • 算法层面:三阶段训练闭环+RLCS 策略,兼顾跨域泛化能力与训练稳定性,GLM-4.5V 在 42 个基准测试中近全任务达到开源 SOTA,部分任务超越 Gemini-2.5-Flash。

参考文献:

《GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning》

不过看评分图感觉对自家模型没啥信心,106B模型对标的是千问72B.。。。

但看好新出的这两大功能(摘自社区文档)

  • 图文交织内容生成(Interleaved Image-Text Content Generation)

    支持基于复杂多模态输入生成高质量混合内容。GLM-4.6V 能理解文档、用户输入以及工具检索图像构成的多模态上下文,并生成连贯的图文交织内容。模型在生成过程中可主动调用搜索与检索工具,以补充文本与视觉内容,生成丰富且视觉支撑强的结果。

  • 多模态文档理解(Multimodal Document Understanding)

    支持最长 128K tokens 的多文档/长文档输入,直接以图像方式解析排版丰富的页面。模型可联合理解文本、布局、图表、表格与插图,实现无需转换为纯文本即可高质量解析复杂文档。

智谱加油噢

相关推荐
540_5409 分钟前
ADVANCE Day33
人工智能·python·机器学习
水龙吟啸13 分钟前
基于Orbbec-Gemini深度相机与SFM-2D to 3D重建算法、手部识别视觉算法、Unity运动控制的3D水果切割游戏
python·深度学习·神经网络·c#·游戏引擎·3d视觉·3d重建
ullio1 小时前
div1+2. 2178F - Conquer or of Forest
算法
理心炼丹1 小时前
ubutnu系统关机卡 90s 的原因分析
ubuntu·语言模型·rime·ubuntu 输入法·sougou·雾凇拼音·关机卡90s
大模型任我行1 小时前
Meta:LLM无监督提升科研能力
人工智能·语言模型·自然语言处理·论文笔记
BBB努力学习程序设计1 小时前
深入理解 Python 中的深浅拷贝(Shallow Copy & Deep Copy):避免数据引用的 “坑”
python
Leweslyh1 小时前
制导算法开发实践指南:从入门到精通
算法·开发·武器·制导律设计
chushiyunen1 小时前
快慢双指针算法笔记
数据结构·笔记·算法
BBB努力学习程序设计1 小时前
深入理解 Python 中的闭包(Closure):封装状态的函数式编程利器
python
烟锁池塘柳01 小时前
一文总结模型压缩技术:剪枝、量化与蒸馏的原理、实践与工程思考
算法·机器学习·剪枝