AI 论文周报 | Chai-2刷新抗体设计效率,命中率提高100倍;多篇ICML入围论文一键速览

视觉语言模型(VLMs)正逐步突破传统文本理解的边界,迈向对复杂视觉信息的深度感知与解析,成为当今智能系统不可或缺的核心组件。随着模型智能的显著跃升,其应用场景已从基础视觉感知拓展至解决科学难题与构建自主智能体,对模型能力提出了更高要求。虽有相关研究不断进行,但这些工作多局限于特定领域,仍缺乏一种通用的多模态推理模型。

对此,智谱 AI 联合清华大学共同提出了 GLM-4.1V-Thinking 。作为一种通用多模态理解和推理的视觉语言模型,该模型在 STEM 问题解决、视频理解、内容识别、编程、指代消解、基于 GUI 的代理和长文档理解等多样化的任务中均有优异表现。其中在长文档理解和 STEM 推理等任务上展现出与闭源模型如 GPT-4o 相匹敌或更优的性能。

论文链接go.hyper.ai/fEPb4

最新 AI 论文go.hyper.ai/hzChC

为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI 超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文 内含 UniMate 机械超材料基准数据集及其下载地址,同时我们还为大家总结了论文架构的思维导图,一起来速览本周 AI 前沿成果吧 ⬇️

本周论文推荐

1 GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

本文介绍了 GLM-4.1V-Thinking,这是一种旨在推进通用多模态理解和推理的视觉语言模型。团队开源了 GLM-4.1V-9B-Thinking 模型,其在同等规模的模型中实现了最先进的性能。

在对 28 个公开基准测试进行全面评估后,该模型在几乎所有任务上均优于 Qwen2.5-VL-7B,并且在 18 个基准测试中相对于显著更大的 Qwen2.5-VL-72B 表现出相当或更优的性能。值得注意的是,该模型在长文档理解和 STEM 推理等挑战性任务上也展现出与闭源模型如 GPT-4o 相匹敌或更优的性能,进一步突显了其强大的能力。

论文链接: go.hyper.ai/fEPb4

模型架构图

论文思维导图

2 Zero-shot antibody design in a 24-well plate

本文介绍了多模态生成模型 Chai-2,其在完全从头抗体设计中实现了 16% 的命中率,相比之前的计算方法提高了超过 100 倍。除了抗体设计外,Chai-2 在微型蛋白设计中的湿实验室成功率为 68%,经常产生皮摩尔级别的结合剂。 Chai-2 的高成功率使得新型抗体可以在不到两周的时间内快速进行实验验证和表征,为快速而精确的原子级分子工程新时代铺平了道路。

论文链接: go.hyper.ai/rRRML

任务示例

论文思维导图

3 UniMate: A Unified Model for Mechanical Metamaterial Generation, Property Prediction, and Condition Confirmation

在机械超材料的设计中,通常涉及三个关键模态,即三维拓扑结构、密度条件和力学性能。然而大多数现有研究仅考虑了两个模态,本文提出了一种统一模型 UniMate,该模型由模态对齐模块和协同扩散生成模块组成。实验结果表明,UniMate 在拓扑生成任务、性能预测任务和条件确认任务中分别比其他基线模型高出 80.2% 、 5.1% 和 50.2% 。

论文链接: go.hyper.ai/KNcmr

UniMate 机械超材料基准数据集: go.hyper.ai/p4535

模型架构图

论文思维导图

4 SAM4D: Segment Anything in Camera and LiDAR Streams

本文介绍了一种新型的模型 SAM4D,旨在实现相机和雷达流之间的多模态、时空敏感的分割任务。该模型通过统一的多模态位置编码来对齐相机和雷达特征,并利用运动感知跨模态记忆注意力机制增强时序一致性,确保了在动态环境中的稳健分割。为避免标注瓶颈,文中还提出了一种自动数据引擎,能够基于视频帧 masklets 、 4D 重建以及跨模态 masklet 融合自动生成高质伪标签,有效提升了标注效率同时保持了由 VFM 衍生的语义准确性。

论文链接: go.hyper.ai/QtQEx

模型架构图

论文思维导图

5 WebSailor: Navigating Super-human Reasoning for Web Agent

本文提出了一种训练大语言模型以实现超越人类认知极限的推理能力的方法,尤其关注于复杂信息寻求任务的表现。该方法基于生成难以解析的任务数据、利用有效的强化学习策略以及实施适当的冷启动技术来提升模型的能力。通过这种方式,开发出的 WebSailor 模型能够在 BrowseComp 等复杂的英语和中文信息寻求基准上显著超越开源模型,并接近或达到一些专有系统的性能水平。

论文链接: go.hyper.ai/qyvf2

任务示例

论文思维导图

以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。

下周再见!

相关推荐
元宇宙时间41 分钟前
全球发展币GDEV:从中国出发,走向全球的数字发展合作蓝图
大数据·人工智能·去中心化·区块链
小黄人20251 小时前
自动驾驶安全技术的演进与NVIDIA的创新实践
人工智能·安全·自动驾驶
ZStack开发者社区2 小时前
首批 | 云轴科技ZStack加入施耐德电气技术本地化创新生态
人工智能·科技·云计算
X Y O3 小时前
神经网络初步学习3——数据与损失
人工智能·神经网络·学习
kngines3 小时前
【力扣(LeetCode)】数据挖掘面试题0002:当面对实时数据流时您如何设计和实现机器学习模型?
机器学习·数据挖掘·面试题·实时数据
FL16238631293 小时前
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程
深度学习·yolo·目标检测
唯创知音3 小时前
玩具语音方案选型决策OTP vs Flash 的成本功耗与灵活性
人工智能·语音识别
Jamence3 小时前
多模态大语言模型arxiv论文略读(151)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
tongxianchao3 小时前
LaCo: Large Language Model Pruning via Layer Collapse
人工智能·语言模型·剪枝
HyperAI超神经4 小时前
OmniGen2 多模态推理×自我纠正双引擎,引领图像生成新范式;95 万分类标签!TreeOfLife-200M 解锁物种认知新维度
人工智能·数据挖掘·数据集·图像生成·医疗健康·在线教程·数学代码