【第四十六周】问题记录+论文阅读

文章目录

  • 摘要
  • Abstract
  • 一、项目问题记录
    • [1. codex的安装](#1. codex的安装)
    • [2. 问题记录:使用VSCode远程服务器连接codex的403问题](#2. 问题记录:使用VSCode远程服务器连接codex的403问题)
  • [二、《UniCompress: Token Compression for Unified Vision--Language Understanding and Generation》论文解读](#二、《UniCompress: Token Compression for Unified Vision–Language Understanding and Generation》论文解读)
    • [1. 摘要](#1. 摘要)
    • [2. 引言](#2. 引言)
      • [2.1 统一多模态模型的优势](#2.1 统一多模态模型的优势)
      • [2.2 核心痛点:Token效率瓶颈](#2.2 核心痛点:Token效率瓶颈)
      • [2.3 研究目标](#2.3 研究目标)
    • [3. 主要贡献](#3. 主要贡献)
    • [4. 方法:UniCompress框架](#4. 方法:UniCompress框架)
      • [4.1 整体架构](#4.1 整体架构)
      • [4.2 全局Token提取(Cross-Attention)](#4.2 全局Token提取(Cross-Attention))
      • [4.3 视觉Token压缩(平均池化)](#4.3 视觉Token压缩(平均池化))
      • [4.4 全局引导自回归解压缩](#4.4 全局引导自回归解压缩)
      • [4.5 轻量化训练流程](#4.5 轻量化训练流程)
    • [5. 实验](#5. 实验)
      • [5.1 实验设置](#5.1 实验设置)
      • [5.2 视觉-语言理解性能](#5.2 视觉-语言理解性能)
      • [5.3 图像生成性能](#5.3 图像生成性能)
      • [5.4 训练与推理效率](#5.4 训练与推理效率)
      • [5.5 消融实验](#5.5 消融实验)
  • 总结

摘要

本周主要解决项目运行中出现的问题,并且阅读论文《UniCompress: Token Compression for Unified Vision--Language Understanding and Generation》,论文中提出UniCompress插件式压缩框架,通过全局元 token 引导压缩与解压缩,无需全量重训即可集成,实现4 倍 token 压缩。


Abstract

This week, I fixed issues arising during project operation and read the paper UniCompress: Token Compression for Unified Vision--Language Understanding and Generation. The paper proposes a plug-and-play UniCompress compression framework. It guides compression and decompression via global meta tokens, supports integration without full retraining, and achieves fourfold token compression.


一、项目问题记录

1. codex的安装

参考教程:codex安装教程

主要流程为:

1,git下载。根据自己电脑系统安装合适版本

2,Node.js节点的下载与安装。官网下载,输入指令

python 复制代码
node -v
npm -v

查看是否安装成功。

3,codex安装。

终端输入:

python 复制代码
npm install -g @openai/codex

并且使用指令检查是否安装成功:

python 复制代码
codex --version

2. 问题记录:使用VSCode远程服务器连接codex的403问题

目前没有找到解决方法,但是尝试了多个教程中方法,进行记录

方法一
1. 设置环境变量排除本地回调地址

Codex CLI 会在本地启动一个回调服务器(通常是 http://localhost:1455),但代理把这个地址也代理了,导致 OpenAI 的 token 回调失败。

设置以下环境变量,排除本地地址不走代理:

python 复制代码
#Windows 命令行
set NO_PROXY=127.0.0.1,localhost

2. 设置 HTTP/HTTPS 代理环境变量(确保 Codex 能访问 OpenAI)

python 复制代码
set HTTP_PROXY=http://127.0.0.1:PORT
set HTTPS_PROXY=http://127.0.0.1:PORT

这里的 PORT 是确认有效的代理端口。

3.验证登录流程是否成功

重新运行 Codex CLI 登录命令:

python 复制代码
codex login

二、《UniCompress: Token Compression for Unified Vision--Language Understanding and Generation》论文解读

1. 摘要

统一多模态模型通过将图像编码为离散Token,与文本在单一自回归框架中处理,可同时支持理解与生成任务,但大量视觉Token 带来高额计算与内存开销,限制其在资源受限场景部署。本文提出UniCompress 插件式Token压缩框架,在保留理解与生成性能 的前提下,将视觉Token数量最高减少4倍,显著降低推理延迟与训练成本,仅带来极小性能损耗,为现实世界多模态应用提供高效统一建模方案。

2. 引言

2.1 统一多模态模型的优势

当前多模态学习向统一模型发展,将图像编码为离散视觉Token后与文本Token共同输入大语言模型主干,可在单一架构下完成图像描述、视觉问答、图像编辑等多任务,简化部署与多任务训练。

2.2 核心痛点:Token效率瓶颈

  1. 传统离散Tokenizer(如VQ-VAE、VQGAN)会将512×512图像转为1024个Token,长视觉序列大幅提升内存占用、训练成本与推理延迟。
  2. 简单压缩(下采样、均匀剪枝)对理解任务 有效,但会使生成任务性能下降超15%,因生成依赖细粒度、空间一致的Token。
  3. 重新训练高效Tokenizer需从头微调大语言模型,成本极高。

2.3 研究目标

设计插件式、轻量化 的Token压缩方法,无需完整重训练,同时适配统一模型的理解与生成双任务,在压缩Token的同时保留性能。

3. 主要贡献

  1. 指出统一多模态模型中Token效率是核心瓶颈,验证简单压缩会严重损伤生成性能,明确统一理解与生成的紧凑视觉Token空间目标。
  2. 提出UniCompress 插件式压缩框架,结合全局引导自回归解压缩,在缩短视觉序列的同时保留生成细节,可无缝集成到现有统一模型。
  3. 多模型实验验证:最高实现4倍Token压缩,理解与生成任务性能下降均≤5%,部分基准持平;推理延迟最高降低41.8%,训练时间缩短15.4%。

4. 方法:UniCompress框架

4.1 整体架构

在现有视觉Tokenizer基础上新增三个轻量化模块,大语言模型(LLM)结构保持不变:

  • 全局Token提取器:通过单向交叉注意力提取场景级语义;
  • 基于池化的压缩器:将Token网格聚合为短序列;
  • 自回归解压缩器:将紧凑表示恢复为原始分辨率密集Token。

采用两阶段训练:先训练Tokenizer侧压缩解压缩模块,再冻结Tokenizer轻量微调LLM,实现"一次压缩,双任务复用"。

4.2 全局Token提取(Cross-Attention)

引入少量可学习元查询Token,通过多头交叉注意力从完整视觉Token中提取图像专属全局Token,捕获整体布局与物体关系,全局Token数量远少于原始视觉Token,额外序列开销极小。

4.3 视觉Token压缩(平均池化)

将视觉Token恢复为H×W网格,通过非重叠平均池化聚合局部Token,降低空间冗余;压缩后加入[IMG_BOS]、[IMG_SEP]、[IMG_EOS]三个特殊嵌入,适配多模态序列输入。

4.4 全局引导自回归解压缩

生成任务中,LLM自回归输出全局元Token与压缩局部Token,经码本映射为连续特征后,解压缩器以Transformer解码器结构,结合全局Token引导,将紧凑表示恢复为密集Token,重建图像细节。

4.5 轻量化训练流程

  1. 第一阶段(Tokenizer训练):冻结LLM,用重建损失训练压缩解压缩模块,学习密集Token与紧凑表示的双向映射。
  2. 第二阶段(LLM微调):冻结Tokenizer,在压缩后数据上轻量微调LLM,无需修改架构即可适配理解与生成任务。

5. 实验

5.1 实验设置

  • 模型主干:Llama-3.2-1B;
  • 基线模型:UNITOK、VILA-U、VARGPT、UNIFORK、OPENUNI、BAGEL六种主流统一模型;
  • 压缩配置:下采样因子s=2(4倍局部Token压缩),全局Token数Ng=4;
  • 评估基准:
    • 理解任务:GQA、MME、POPE、TextVQA、MMMU等;
    • 生成任务:MJHQ-30K(FID、CLIPScore);
    • 效率指标:训练时间、推理延迟。

5.2 视觉-语言理解性能

  • 所有模型压缩后理解精度仅小幅下降,多数任务下降≤3个点;
  • 部分模型(如OPENUNI-COMPRESSED)在MM-Bench上甚至超越原始模型;
  • 压缩后生成的图像描述可完整保留关键实体、空间关系与动作信息。

5.3 图像生成性能

  • 轻量主干(UNITOK、VARGPT、VILA-U)压缩后FID与CLIPScore接近原始模型,生成质量几乎无损耗;
  • 强基线模型(BAGEL)压缩后仍保持竞争力,仅OPENUNI对压缩较敏感;
  • 全局元Token相比平均池化、CLS Token,能显著提升生成保真度。

5.4 训练与推理效率

  • 压缩后训练时间缩短15%左右,推理延迟最高降低41.8%;
  • 生成任务的加速效果最显著,因自回归生成对序列长度高度敏感;
  • 实现训练+推理、理解+生成的全流程效率提升,突破现有方法仅优化单一环节的局限。

5.5 消融实验

  1. 压缩比例:1/4(4倍压缩)为性能与效率最优平衡点,进一步压缩会严重损伤生成;
  2. 全局Token数量:Ng=4时达到精度峰值,继续增加无明显收益;
  3. 压缩方式:平均池化在理解与生成任务上综合表现最优。

总结

UniCompress是面向统一视觉-语言模型的插件式Token压缩框架,通过全局引导解压缩机制,实现4倍视觉Token压缩,同时最小化理解与生成性能损耗,显著提升训练与推理效率,可无缝集成到现有模型,为资源受限场景下的多模态应用提供高效解决方案。

相关推荐
qy-ll6 个月前
最新MMO-IG生成图像论文学习(25/11/19)
图像处理·深度学习·学习·计算机视觉·论文学习·遥感
AzathothLXL2 年前
无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection
论文学习·deep learning·computer version
@ZyuanZhang3 年前
Emvirus: 基于 embedding 的神经网络来预测 human-virus PPIs【Biosafety and Health,2023】
论文学习