学习周报三十六

摘要

本周主要围绕论文《ThinkDiff》的复现工作展开。深入理解了该论文提出的新对齐范式,即将视觉语言模型(VLM)的推理能力迁移至扩散模型,通过训练阶段使用VLM与LLM解码器对齐、推理阶段替换为扩散解码器的方式,实现符合推理逻辑的图像生成。本周完成了服务器环境配置及必要数据集的下载,但尚未成功运行完整流程。此外,配置并初步使用了Claude Code工具辅助代码学习与分析,为后续复现工作提供了便利。

Abstract

This week's work primarily focused on the reproduction of the paper "ThinkDiff". A deep understanding was gained of its proposed novel alignment paradigm, which transfers the reasoning capabilities of a Vision-Language Model (VLM) to a diffusion model. This is achieved by aligning the VLM with an LLM decoder during training and replacing it with a diffusion decoder during inference to generate images that align with the reasoning logic. The server environment was configured and necessary datasets were downloaded this week, though the full pipeline has not yet been successfully executed. Additionally, the Claude Code tool was set up and preliminarily used to assist in code learning and analysis, facilitating subsequent reproduction efforts.

1、论文复现

1.1 论文思想

ThinkDiff 提出一种新的对齐范式,将视觉-语言模型(VLM)的推理能力迁移到扩散模型中,而不需要复杂的推理数据集或昂贵的训练。

在训练时,使用 VLM 处理图像和文本,输出 token 特征,再通过一个轻量级的 aligner network 映射到 LLM 解码器的输入空间。

LLM 解码器根据这些特征生成文本,与真实文本计算交叉熵损失。

在推理时,将 LLM 解码器替换为扩散解码器,从而生成符合推理逻辑的图像。

1.2 复现

本周在服务器上进行环境的配置,但是还没完全配置运行起来,主要是数据集等东西的下载,下周争取能够运行起来看看效果

这周在vscode上配置了Claude Code,对于代码的学习等都蛮有帮助。

总结

本周在论文复现方面取得了阶段性进展。

相关推荐
yyyyy_abc4 小时前
ceph学习笔记
笔记·ceph·学习
晓梦林4 小时前
ximai靶场学习笔记
android·笔记·学习
nashane4 小时前
HarmonyOS 6学习:外接键盘CapsLock与长截图功能的实战调试与完整解决方案
学习·华为·计算机外设·harmonyos
一口吃俩胖子5 小时前
【脉宽调制DCDC功率变换学习笔记021】时域性能准则
笔记·学习
@杰克成6 小时前
Java学习30
java·开发语言·学习
三品吉他手会点灯7 小时前
C语言学习笔记 - 40.数据类型 - scanf函数的编程规范与非法输入处理
c语言·开发语言·笔记·学习
Bechamz8 小时前
大数据开发学习Day36
大数据·学习
happymaker06269 小时前
SpringBoot学习日记——DAY02(SpringBoot整合Swagger3)
java·spring boot·学习
晓梦林10 小时前
homelab2靶场学习笔记
笔记·学习