学习周报三十六

摘要

本周主要围绕论文《ThinkDiff》的复现工作展开。深入理解了该论文提出的新对齐范式,即将视觉语言模型(VLM)的推理能力迁移至扩散模型,通过训练阶段使用VLM与LLM解码器对齐、推理阶段替换为扩散解码器的方式,实现符合推理逻辑的图像生成。本周完成了服务器环境配置及必要数据集的下载,但尚未成功运行完整流程。此外,配置并初步使用了Claude Code工具辅助代码学习与分析,为后续复现工作提供了便利。

Abstract

This week's work primarily focused on the reproduction of the paper "ThinkDiff". A deep understanding was gained of its proposed novel alignment paradigm, which transfers the reasoning capabilities of a Vision-Language Model (VLM) to a diffusion model. This is achieved by aligning the VLM with an LLM decoder during training and replacing it with a diffusion decoder during inference to generate images that align with the reasoning logic. The server environment was configured and necessary datasets were downloaded this week, though the full pipeline has not yet been successfully executed. Additionally, the Claude Code tool was set up and preliminarily used to assist in code learning and analysis, facilitating subsequent reproduction efforts.

1、论文复现

1.1 论文思想

ThinkDiff 提出一种新的对齐范式,将视觉-语言模型(VLM)的推理能力迁移到扩散模型中,而不需要复杂的推理数据集或昂贵的训练。

在训练时,使用 VLM 处理图像和文本,输出 token 特征,再通过一个轻量级的 aligner network 映射到 LLM 解码器的输入空间。

LLM 解码器根据这些特征生成文本,与真实文本计算交叉熵损失。

在推理时,将 LLM 解码器替换为扩散解码器,从而生成符合推理逻辑的图像。

1.2 复现

本周在服务器上进行环境的配置,但是还没完全配置运行起来,主要是数据集等东西的下载,下周争取能够运行起来看看效果

这周在vscode上配置了Claude Code,对于代码的学习等都蛮有帮助。

总结

本周在论文复现方面取得了阶段性进展。

相关推荐
网络工程小王2 小时前
【大数据技术详解】——Sqoop技术(学习笔记)
大数据·学习·sqoop
zlpzlpzyd2 小时前
groovy学习
java·jvm·学习
泯仲2 小时前
从零起步学习MySQL 第十二章:MySQL分页性能如何优化?
数据库·学习·mysql
我要成为嵌入式大佬2 小时前
嵌入式学习找工作第十七天--第二个项目(命令行日记本)
学习
71-33 小时前
Android studio中真机操作
android·笔记·学习·其他·android studio
·中年程序渣·3 小时前
Spring AI Alibaba入门学习(五)
人工智能·学习
AnalogElectronic4 小时前
RP2040学习4,LED点亮,OLED显示,DHT11温湿度传感器数据读取
单片机·嵌入式硬件·学习
adore.9684 小时前
3.15 复试学习
学习
不光头强4 小时前
jwt学习
java·大数据·学习