论文速览

GENIUS Generative Fluid Intelligence Evaluation SuiteAuthors: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang

MLDocRAG Multimodal Long-Context Document Retrieval Augmented GenerationAuthors: Yongyue Zhang, Yaxiong WuDeep-Dive Summary:

Chatting with Images for Introspective Visual ThinkingAuthors: Junfei Wu, Jian Guan, Qiang Liu, Shu Wu, Liang Wang, Wei Wu, Tienie Tan

MPA Multimodal Prototype Augmentation for Few-Shot LearningAuthors: Liwen Wu, Wei Wang, Lei Zhao, Zhan Gao, Qika Lin, Shaowen Yao, Zuozhu Liu, Bin Pu

Semantic Search At LinkedInAuthors: Fedor Borisyuk, Sriram Vasudevan, Muchen Wu, Guoyao Li, Benjamin Le, Shaobo Zhang, Qianqi Kay Shen, Yuchin Juan, Kayhan Behdin, Liming Dong, Kaixu Yang, Shusen Jing, Ravi Pothamsetty, Rajat Arora, Sophie Yanying Sheng, Vitaly Abdrashitov, Yang Zh

Mitigating Long-Tail Bias via Prompt-Controlled Diffusion AugmentationAuthors: Buddhi Wijenayake, Nichula Wasalathilake, Roshan Godaliyadda, Vijitha Herath, Parakrama Ekanayake, Vishal M. Patel

Language Models Struggle to Use Representations Learned In-ContextAuthors: Michael A. Lepori, Tal Linzen, Ann Yuan, Katja Filippova

POP Prefill-Only Pruning for Efficient Large Model InferenceAuthors: Junhui He, Zhihui Fu, Jun Wang, Qingan LiDeep-Dive Summary:

A Multi-scale Linear-time Encoder for Whole-Slide Image AnalysisAuthors: Jagan Mohan Reddy Dwarampudi, Joshua Wong, Hien Van Nguyen, Tania Banerjee

Toward Cognitive Supersensing in Multimodal Large Language ModelAuthors: Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao

VEQ Modality-Adaptive Quantization for MoE Vision-Language ModelsAuthors: Guangshuo Qin, Zhiteng Li, Zheng Chen, Weihang Zhang, Linghe Kong, Yulun Zhang

Structured Over Scale Learning Spatial Reasoning from Educational VideoAuthors: Bishoy Galoaa, Xiangyu Bai, Sarah Ostadabbas

FineInstructions Scaling Synthetic Instructions to Pre-Training ScaleAuthors: Ajay Patel, Colin Raffel, Chris Callison-Burch

UR-Bench A Benchmark for Multi-Hop Reasoning over Ultra-High-Resolution ImagesAuthors: Siqi Li, Xinyu Cai, Jianbiao Mei, Nianchen Deng, Pinlong Cai, Licheng Wen, Yufan Shen, Xuemeng Yang, Botian Shi, Yong Liu

EmbeddingRWKV State-Centric Retrieval with Reusable StatesAuthors: Haowen Hou, Jie YangDeep-Dive Summary: 以下是论文部分的中文总结：

More Images, More Problems A Controlled Analysis of VLM Failure ModesAuthors: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez

Over-Searching in Search-Augmented Large Language ModelsAuthors: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra

Decentralized Autoregressive GenerationAuthors: Stepan Maschan, Haoxuan Qu, Jun LiuDeep-Dive Summary: 以下是论文部分的中文摘要：

Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language ModelsAuthors: Brady Steele, Micah KatzDeep-Dive Summary:

TeleWorld Towards Dynamic Multimodal Synthesis with a 4D World ModelAuthors: Yabo Chen, Yuanzhi Liang, Jiepeng Wang, Tingxi Chen, Junfei Cheng, Zixiao Gu, Yuyang Huang, Zicheng Jiang, Wei Li, Tian Li, Weichen Li, Zuoxin Li, Guangce Liu, Jialun Liu, Junqi Liu, Haoyuan Wang, Qizhen Weng, Xuan’er Wu, Xunzhi Xiang, Xiaoyan Ya