保研面试拷打

最重要的问题

论文 / 项目主要做了什么？

为什么选择这个方向？

为什么做计算机视觉？

我想做计算机视觉，我认为我喜欢观察图像，对于图像内容观察力较强对画面细节、视觉信息比较敏感，加上导师深耕高光谱图像处理、计算机视觉领域，在跟着导师学习的过程中逐渐深入项目与论文，正式确定深耕该研究方向。

什么是底层视觉？

底层视觉是图像处理最基础层级，主要对图像像素做基础运算，不涉及语义理解 。包含图像去噪、超分、图像复原、高光谱重建、去模糊等任务，目的优化图像画质、补齐缺失信息，也是我课题高光谱重建所属领域。

上层视觉是目标检测、分割、识别，侧重理解画面里物体含义。

未来想做什么方向？

未来我还是想继续做视觉相关的内容，目前想法是继续做底层视觉，像图像去噪、超分、复原这类，我也希望拓展知识面，慢慢接触目标检测、图像分割等高层视觉任务。

创新点和研究价值是什么？

论文摘要：

英文：

Hyperspectral image reconstruction aims to recover high-quality spectral distribution and high-fidelity spatial details from RGB inputs. However, we find that existing methods often fail in some challenging scenarios due to directly learning the mapping from the RGB to the hyperspectral domain without guidance on spectral distributions. We suggest that learning real-world spectral distributions in the hyperspectral domain can serve as a fundamental prior that significantly reduces the uncertainty and ambiguity of reconstruction mapping by casting the ill-posed inverse problem as a code prediction task. Specifically, we first model the spectral distribution using a VQGAN framework to obtain a discrete spectral codebook, which serves as generative spectral prior guidance for the next reconstruction stage. In the reconstruction stage, we first customize a quantized cross-attention (QCA) module based on Top-K selection to align the RGB latent feature distribution to hyperspectral latent representations, relieving the ambiguity of codebook prediction and ensuring correct codebook retrieval. Extensive experiments demonstrate that our method (denoted as HyperCode) outperforms state-of-the-art approaches in terms of spectral fidelity and structural consistency.

中文翻译：

高光谱图像重建旨在由RGB图像恢复出优质光谱分布与高保真空间细节。现有算法直接学习RGB到高光谱域的映射关系，缺少光谱分布先验约束，在复杂场景下重建效果较差。本文提出：学习真实场景下的高光谱光谱分布，将该分布作为基础先验，把病态逆重建问题转化为码本预测任务，能够大幅降低映射过程的不确定性与歧义性。具体实现分为两步：首先基于VQGAN建模光谱分布，得到离散光谱码本，该码本作为生成式光谱先验，为后续重建阶段提供指导；在重建阶段，本文基于Top-K筛选机制设计量化交叉注意力（QCA）模块，对齐RGB隐特征与高光谱隐表征，缓解码本预测的多解问题，保证码本精准匹配检索。大量实验表明：本文所提HyperCode算法在光谱保真度、空间结构完整性指标上优于当前主流SOTA方法。

In stage 1 is the HSI codebook learning， given a hyperspectral image the encoder maps it into a latent representation ，each spatial feature vector at position is quantized to its nearest neighbor in a learned codebook subsequently，the quantized feature map is fed into the decoder to generate the reconstruction process （量化操作不可导，采用直通估计的策略，重建损失和量化损失构成生成器损失，判别器损失采用双判别器，分别从空间和光谱角度约束）In stage 2 Alignment Aware Spectral Reconstruction Firstly the input RGB image is mapped into a latent feature space by the RGB encoder yielding zr，由于RGB和HSI显著的域差异，直接将Zr与codebook中的码本向量进行匹配会导致匹配失败，于是，我提出Quantized Cross-Attention Module ，该模块首先将RGB潜特征线性映射为Q K V，进一步将Q K通过Topk quantization的操作，进行初步量化，Topk的意思是选择前K个被使用的最多的码本向量来对Q和K做量化，QK相乘后再与V相乘，得到初步选择性的量化后的特征，再做一次最终的量化操作，最后通过解码器得到输出。

用了什么研究方法？

遇到什么问题？怎么解决？

本人具体贡献了什么？

如果继续做，会怎么改进？

1、问：为什么采用Top-K选取70%码本，不使用全部码本做匹配？

答：如果使用全部码本进行特征匹配，计算复杂度呈指数上升，检索冗余码元带来大量无效计算，耗时巨大，而且多余无关码本还会引入噪声干扰预测。经过多组消融实验测试，筛选保留70%高相关性码本，在大幅降低计算开销的前提下，重建精度没有下降，平衡了推理速度与模型性能，因此最终选用该方案。

2、问：70%的选取比例是经过消融实验确定的吗？

答：是的，针对K的取值做了完整消融对比，测试了多组不同占比，综合PSNR、参数量、推理耗时三项指标，最终确定保留大约70%码本效果最优。

3、问：70%码本对比全码本，指标和计算量具体提升多少？

答：具体量化数值暂时记不住，后续我可以回去翻看实验日志和表格数据补充。

4、问：如果让你再次优化HyperCode整体框架，你的改进方向是什么？

答：后续优化打算搭建双码本架构，分开训练RGB专用码本和高光谱专用码本，分别挖掘两个模态自身特征分布，进一步缩小跨域特征鸿沟。目前具体的对齐实现细节还需要精读相关领域论文梳理思路。

5、问：双码本计划采用什么样的对齐策略？对比现有单码本对齐优势在哪？

答：双码本的对齐方案我还在查阅相关文献学习，暂时没有落地细节，梳理完论文思路后才能确定对齐方式。

第二部分 Two-stage CvT、MSFE项目调参面试题

1、问：在项目落地训练过程中遇到最棘手的问题是什么，怎么处理？

答：最大难题是模型反复调参难以达到预期效果，收敛不理想、重建图像细节差。后续系统性从数据、模型结构、超参数三个维度分步排查、逐项修改调试。

2、问：数据、模型、超参数三个维度调整，哪一项带来效果提升最明显？

答：超参数调整提升幅度最大。刚开始学习率、batch大小设置不合理，训练loss震荡剧烈，重建图像边缘伪影多、细节模糊。我依次优化学习率、batch尺寸、损失函数权重，调整之后loss收敛平滑，PSNR和SSIM明显上涨，图像视觉质量改善显著。

3、问：学习率从1e-3改成1e-4，为什么不选择5e-4或者5e-5，是经验还是实验得出？

答：最开始凭借工程经验初步选定1e-4，之后为了验证合理性，使用网格搜索做对照实验，候选学习率包含1e-3、5e-4、1e-4、5e-5。

4、问：做学习率网格搜索时，是多参数同步遍历，还是固定其余参数单变量测试？

答：采用单变量调试思路，固定batch、dropout、损失权重等所有其他超参不变，只遍历不同学习率。好处是隔绝其他变量带来的干扰，可以精准判断单一学习率对模型的影响，实验结论更可靠。

5、问：不同学习率在训练收敛、最终精度上有哪些直观区别？

答：学习率偏大（如1e-3），前期loss下降快，但后期持续震荡无法收敛到最优值，最终PSNR偏低，图像存在明显伪影；学习率过小（如5e-5）参数更新太慢，收敛周期成倍拉长，长时间达不到饱和精度；1e-4兼顾收敛速度与最终指标，整体表现最优。

6、问：除了学习率，还针对哪个超参数做了单独实验调试？

答：重点调试batch size，经过多组实验对比，最终确定取值16。

7、问：为什么最终确定batch=16？

答：batch偏小梯度随机性大，loss波动严重；batch过大会占用大量显存，容易出现OOM，训练速度变慢。16这个配置下梯度更新平稳，模型收敛稳定，各项评价指标最优，同时适配实验室硬件显存条件。

8、问：训练阶段有没有使用Dropout正则？设置参数是多少，作用如何？

答：使用了Dropout，参数设置0.1。如果丢弃率过高，有效特征被大量随机舍弃，模型出现欠拟合；丢弃率过低起不到正则约束，容易过拟合。0.1的设置有效缩小训练集与验证集指标差距，提升模型泛化能力。

9、问：评估模型效果只依靠loss数值吗？

答：不是。loss仅代表模型收敛趋势，图像重建任务需要额外参考PSNR、SSIM两类客观量化指标，同时肉眼对比重建效果图，三者结合综合评判模型性能。

10、问：训练过程中出现过训练集指标远优于验证集的过拟合现象吗？

答：全程没有出现明显过拟合。一方面Dropout起到正则作用，另一方面配套使用数据增强，再加上超参数精细化调试，训练集和验证集的各项指标差距始终控制在合理范围。

11、问：那训练有没有出现欠拟合？如何解决？

答：出现过欠拟合，具体表现是训练集loss居高不下，PSNR、SSIM整体偏低，模型没办法充分学习数据特征。解决方案：适当降低Dropout丢弃比例，减少特征丢失；小幅上调学习率，加快参数迭代更新，调整后拟合效果明显改善，各项指标稳步上升。

12、问：项目代码基于什么深度学习框架？有没有做代码优化、训练提速工作？

答：项目代码基于PyTorch实现，训练期间针对冗余算子做精简，部分循环代码改用向量化运算，缩短整体训练耗时。

需要我继续拆分精简成逐题背诵小短句吗？