【第四十六周】问题记录+论文阅读

文章目录

摘要
Abstract
一、项目问题记录
- [1. codex的安装](#1. codex的安装)
- [2. 问题记录：使用VSCode远程服务器连接codex的403问题](#2. 问题记录：使用VSCode远程服务器连接codex的403问题)
[二、《UniCompress: Token Compression for Unified Vision--Language Understanding and Generation》论文解读](#二、《UniCompress: Token Compression for Unified Vision–Language Understanding and Generation》论文解读)
- [1. 摘要](#1. 摘要)
- [2. 引言](#2. 引言)
- - [2.1 统一多模态模型的优势](#2.1 统一多模态模型的优势)
  - [2.2 核心痛点：Token效率瓶颈](#2.2 核心痛点：Token效率瓶颈)
  - [2.3 研究目标](#2.3 研究目标)
- [3. 主要贡献](#3. 主要贡献)
- [4. 方法：UniCompress框架](#4. 方法：UniCompress框架)
- - [4.1 整体架构](#4.1 整体架构)
  - [4.2 全局Token提取（Cross-Attention）](#4.2 全局Token提取（Cross-Attention）)
  - [4.3 视觉Token压缩（平均池化）](#4.3 视觉Token压缩（平均池化）)
  - [4.4 全局引导自回归解压缩](#4.4 全局引导自回归解压缩)
  - [4.5 轻量化训练流程](#4.5 轻量化训练流程)
- [5. 实验](#5. 实验)
- - [5.1 实验设置](#5.1 实验设置)
  - [5.2 视觉-语言理解性能](#5.2 视觉-语言理解性能)
  - [5.3 图像生成性能](#5.3 图像生成性能)
  - [5.4 训练与推理效率](#5.4 训练与推理效率)
  - [5.5 消融实验](#5.5 消融实验)
总结

摘要

本周主要解决项目运行中出现的问题，并且阅读论文《UniCompress: Token Compression for Unified Vision--Language Understanding and Generation》，论文中提出UniCompress插件式压缩框架，通过全局元 token 引导压缩与解压缩，无需全量重训即可集成，实现4 倍 token 压缩。

Abstract

This week, I fixed issues arising during project operation and read the paper UniCompress: Token Compression for Unified Vision--Language Understanding and Generation. The paper proposes a plug-and-play UniCompress compression framework. It guides compression and decompression via global meta tokens, supports integration without full retraining, and achieves fourfold token compression.

一、项目问题记录

1. codex的安装

参考教程：codex安装教程

主要流程为：

1，git下载。根据自己电脑系统安装合适版本

2，Node.js节点的下载与安装。官网下载，输入指令

python 复制代码

node -v
npm -v

查看是否安装成功。

3，codex安装。

终端输入：

python 复制代码

npm install -g @openai/codex

并且使用指令检查是否安装成功：

python 复制代码

codex --version

2. 问题记录：使用VSCode远程服务器连接codex的403问题

目前没有找到解决方法，但是尝试了多个教程中方法，进行记录

方法一
1. 设置环境变量排除本地回调地址

Codex CLI 会在本地启动一个回调服务器（通常是 http://localhost:1455），但代理把这个地址也代理了，导致 OpenAI 的 token 回调失败。

设置以下环境变量，排除本地地址不走代理：

python 复制代码

#Windows 命令行
set NO_PROXY=127.0.0.1,localhost

2. 设置 HTTP/HTTPS 代理环境变量（确保 Codex 能访问 OpenAI）

python 复制代码

set HTTP_PROXY=http://127.0.0.1:PORT
set HTTPS_PROXY=http://127.0.0.1:PORT

这里的 PORT 是确认有效的代理端口。

3.验证登录流程是否成功

重新运行 Codex CLI 登录命令：

python 复制代码

codex login

二、《UniCompress: Token Compression for Unified Vision--Language Understanding and Generation》论文解读

1. 摘要

统一多模态模型通过将图像编码为离散Token，与文本在单一自回归框架中处理，可同时支持理解与生成任务，但大量视觉Token 带来高额计算与内存开销，限制其在资源受限场景部署。本文提出UniCompress 插件式Token压缩框架，在保留理解与生成性能 的前提下，将视觉Token数量最高减少4倍，显著降低推理延迟与训练成本，仅带来极小性能损耗，为现实世界多模态应用提供高效统一建模方案。

2. 引言

2.1 统一多模态模型的优势

当前多模态学习向统一模型发展，将图像编码为离散视觉Token后与文本Token共同输入大语言模型主干，可在单一架构下完成图像描述、视觉问答、图像编辑等多任务，简化部署与多任务训练。

2.2 核心痛点：Token效率瓶颈

传统离散Tokenizer（如VQ-VAE、VQGAN）会将512×512图像转为1024个Token，长视觉序列大幅提升内存占用、训练成本与推理延迟。
简单压缩（下采样、均匀剪枝）对理解任务 有效，但会使生成任务性能下降超15%，因生成依赖细粒度、空间一致的Token。
重新训练高效Tokenizer需从头微调大语言模型，成本极高。

2.3 研究目标

设计插件式、轻量化 的Token压缩方法，无需完整重训练，同时适配统一模型的理解与生成双任务，在压缩Token的同时保留性能。

3. 主要贡献

指出统一多模态模型中Token效率是核心瓶颈，验证简单压缩会严重损伤生成性能，明确统一理解与生成的紧凑视觉Token空间目标。
提出UniCompress 插件式压缩框架，结合全局引导自回归解压缩，在缩短视觉序列的同时保留生成细节，可无缝集成到现有统一模型。
多模型实验验证：最高实现4倍Token压缩，理解与生成任务性能下降均≤5%，部分基准持平；推理延迟最高降低41.8%，训练时间缩短15.4%。

4. 方法：UniCompress框架

4.1 整体架构

在现有视觉Tokenizer基础上新增三个轻量化模块，大语言模型（LLM）结构保持不变：

全局Token提取器：通过单向交叉注意力提取场景级语义；
基于池化的压缩器：将Token网格聚合为短序列；
自回归解压缩器：将紧凑表示恢复为原始分辨率密集Token。

采用两阶段训练：先训练Tokenizer侧压缩解压缩模块，再冻结Tokenizer轻量微调LLM，实现"一次压缩，双任务复用"。

4.2 全局Token提取（Cross-Attention）

引入少量可学习元查询Token，通过多头交叉注意力从完整视觉Token中提取图像专属全局Token，捕获整体布局与物体关系，全局Token数量远少于原始视觉Token，额外序列开销极小。

4.3 视觉Token压缩（平均池化）

将视觉Token恢复为H×W网格，通过非重叠平均池化聚合局部Token，降低空间冗余；压缩后加入 $IMG_BOS$ 、 $IMG_SEP$ 、 $IMG_EOS$ 三个特殊嵌入，适配多模态序列输入。

4.4 全局引导自回归解压缩

生成任务中，LLM自回归输出全局元Token与压缩局部Token，经码本映射为连续特征后，解压缩器以Transformer解码器结构，结合全局Token引导，将紧凑表示恢复为密集Token，重建图像细节。

4.5 轻量化训练流程

第一阶段（Tokenizer训练）：冻结LLM，用重建损失训练压缩解压缩模块，学习密集Token与紧凑表示的双向映射。
第二阶段（LLM微调）：冻结Tokenizer，在压缩后数据上轻量微调LLM，无需修改架构即可适配理解与生成任务。

5. 实验

5.1 实验设置

模型主干：Llama-3.2-1B；
基线模型：UNITOK、VILA-U、VARGPT、UNIFORK、OPENUNI、BAGEL六种主流统一模型；
压缩配置：下采样因子s=2（4倍局部Token压缩），全局Token数Ng=4；
评估基准：
- 理解任务：GQA、MME、POPE、TextVQA、MMMU等；
- 生成任务：MJHQ-30K（FID、CLIPScore）；
- 效率指标：训练时间、推理延迟。

5.2 视觉-语言理解性能

所有模型压缩后理解精度仅小幅下降，多数任务下降≤3个点；
部分模型（如OPENUNI-COMPRESSED）在MM-Bench上甚至超越原始模型；
压缩后生成的图像描述可完整保留关键实体、空间关系与动作信息。

5.3 图像生成性能

轻量主干（UNITOK、VARGPT、VILA-U）压缩后FID与CLIPScore接近原始模型，生成质量几乎无损耗；
强基线模型（BAGEL）压缩后仍保持竞争力，仅OPENUNI对压缩较敏感；
全局元Token相比平均池化、CLS Token，能显著提升生成保真度。

5.4 训练与推理效率

压缩后训练时间缩短15%左右，推理延迟最高降低41.8%；
生成任务的加速效果最显著，因自回归生成对序列长度高度敏感；
实现训练+推理、理解+生成的全流程效率提升，突破现有方法仅优化单一环节的局限。

5.5 消融实验

压缩比例：1/4（4倍压缩）为性能与效率最优平衡点，进一步压缩会严重损伤生成；
全局Token数量：Ng=4时达到精度峰值，继续增加无明显收益；
压缩方式：平均池化在理解与生成任务上综合表现最优。

总结

UniCompress是面向统一视觉-语言模型的插件式Token压缩框架，通过全局引导解压缩机制，实现4倍视觉Token压缩，同时最小化理解与生成性能损耗，显著提升训练与推理效率，可无缝集成到现有模型，为资源受限场景下的多模态应用提供高效解决方案。