学习周报三十六

摘要

本周主要围绕论文《ThinkDiff》的复现工作展开。深入理解了该论文提出的新对齐范式,即将视觉语言模型(VLM)的推理能力迁移至扩散模型,通过训练阶段使用VLM与LLM解码器对齐、推理阶段替换为扩散解码器的方式,实现符合推理逻辑的图像生成。本周完成了服务器环境配置及必要数据集的下载,但尚未成功运行完整流程。此外,配置并初步使用了Claude Code工具辅助代码学习与分析,为后续复现工作提供了便利。

Abstract

This week's work primarily focused on the reproduction of the paper "ThinkDiff". A deep understanding was gained of its proposed novel alignment paradigm, which transfers the reasoning capabilities of a Vision-Language Model (VLM) to a diffusion model. This is achieved by aligning the VLM with an LLM decoder during training and replacing it with a diffusion decoder during inference to generate images that align with the reasoning logic. The server environment was configured and necessary datasets were downloaded this week, though the full pipeline has not yet been successfully executed. Additionally, the Claude Code tool was set up and preliminarily used to assist in code learning and analysis, facilitating subsequent reproduction efforts.

1、论文复现

1.1 论文思想

ThinkDiff 提出一种新的对齐范式,将视觉-语言模型(VLM)的推理能力迁移到扩散模型中,而不需要复杂的推理数据集或昂贵的训练。

在训练时,使用 VLM 处理图像和文本,输出 token 特征,再通过一个轻量级的 aligner network 映射到 LLM 解码器的输入空间。

LLM 解码器根据这些特征生成文本,与真实文本计算交叉熵损失。

在推理时,将 LLM 解码器替换为扩散解码器,从而生成符合推理逻辑的图像。

1.2 复现

本周在服务器上进行环境的配置,但是还没完全配置运行起来,主要是数据集等东西的下载,下周争取能够运行起来看看效果

这周在vscode上配置了Claude Code,对于代码的学习等都蛮有帮助。

总结

本周在论文复现方面取得了阶段性进展。

相关推荐
嵌入式小企鹅2 小时前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
三品吉他手会点灯7 小时前
C语言学习笔记 - 20.C编程预备计算机专业知识 - 变量为什么必须的初始化【重点】
c语言·笔记·学习
sakiko_8 小时前
UIKit学习笔记1-创建项目(使用UIKit)、使用组件
笔记·学习
生信碱移8 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
星幻元宇VR10 小时前
VR航空航天科普设备【VR时空直升机】
科技·学习·安全·生活·vr
_李小白10 小时前
【android opencv学习笔记】Day 2: Mat类(图片数据结构体)
android·opencv·学习
harder32111 小时前
RMP模式的创新突破
开发语言·学习·ios·swift·策略模式
程序猿乐锅12 小时前
【Tilas|第三篇】多表SQL语句
数据库·经验分享·笔记·学习·mysql
徐某人..12 小时前
基于i.MX6ULL平台的智能网关系统开发
arm开发·c++·单片机·qt·物联网·学习·arm
AOwhisky13 小时前
Kubernetes 学习笔记:集群管理、命名空间与 Pod 基础
linux·运维·笔记·学习·云原生·kubernetes