论文阅读

觉醒大王4 小时前
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
哪些文章会被我拒稿?身为审稿人,这些稿我绝不通过2025年积攒了不少审稿任务,现在正式启动处理。审稿前我会先看期刊当期的选题指南,这会影响学术判断的倾向,而且每天审稿量有限,格式不规范、选题偏离的稿件很容易被优先筛掉,分享给萌新作者 一、先讲个多数作者不清楚的 “铁律”期刊可不是想录用多少就能录用多少! 我们这本JCR一区期刊,一定周期内录用率不能超17%! 2025年上半年咱们录用率冲到25% 结果2025年下半年基本全是拒稿,质量稍好的也只能给RR处理 毕竟录用率太高,期刊会跌落JCR一区行列 扎心真相:投稿时机真的超级
觉醒大王7 小时前
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
强女思维:着急,是贪欲外显的相。刷到一个很震撼我的思维方式:Think like a farmer,像农民一样思考,然后像培育种子一样培养自己。
张较瘦_10 小时前
论文阅读·人工智能·机器学习
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路Molina F, Naziri M M A, Qin F, et al. Improving Deep Learning Library Testing with Machine Learning[C]//AST ’26: Proceedings of the 2026 ACM SIGSOFT International Symposium on Software Testing and Analysis. Rio de Janeiro: ACM Press, 2026.
m0_650108241 天前
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架在动态复杂的城市环境中部署网联自动驾驶汽车(CAVs),安全高效的多智能体协同是核心挑战。多智能体强化学习(MARL)虽在多机器人路径规划等领域展现出潜力,但应用于自动驾驶时,面临非平稳性、部分可观测性以及人类驾驶行为不确定性等多重难题。传统协同 MARL 方法仅通过共享编码状态观测来提升协同能力,在安全关键场景中表现不足。
m0_650108241 天前
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案在端到端自动驾驶(E2E-AD)领域,模仿学习(IL)长期占据主流地位,但始终受困于因果混淆、分布偏移等核心问题,难以应对复杂动态的真实驾驶场景。强化学习(RL)虽能通过奖励驱动的环境交互优化策略,展现出超越模仿学习的潜力,却因训练难度高、数据效率低等问题,未能在端到端自动驾驶中得到有效应用。上海交通大学、复旦大学等团队联合提出的 Raw2Drive 方案,创新性地设计了基于双流模型的强化学习(MBRL)架构,首次实现了基于原始传感器输入的端到端强化学习自动驾驶,并在 CARLA v2 和 Bench2D
快降重科研小助手1 天前
论文阅读·aigc·ai写作·降重·降ai·快降重
前瞻与规范:AIGC降重API的技术演进与负责任使用AIGC降重API的兴起,标志着文本处理技术从自动化走向了智能化。在关注其强大能力的同时,我们更需前瞻其发展趋势,并深入探讨在伦理边界内如何负责任地使用这项技术,确保其为学术进步和内容创新提供健康动力。
源于花海2 天前
论文阅读·元学习·电池健康管理·并行网络·小样本重训练
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法Hi,大家好,我是半亩花海。现对领域内一篇SCI一区TOP期刊论文进行阅读,文献记录如下。本文提出一种基于元学习与并行TCN-Transformer架构的锂离子电池健康状态(SOH)估计方法。针对传统方法依赖大规模数据、跨工况适应性差的问题,该方法通过:1)从随机充电片段提取容量增量特征;2)构建并行网络同步捕捉局部与全局老化特征;3)采用MAML元学习实现小样本快速适配。实验表明,在温度、电流变化及不同电池材料下,仅需10%目标数据即可实现SOH误差<3%,数据需求减少50%。该方法显著提升了BMS在实
m0_650108242 天前
论文阅读·自动驾驶·轨迹规划·感知、规划与生成融合·场景理解·未来图像生成
UniDrive-WM:自动驾驶领域的统一理解、规划与生成世界模型在自动驾驶技术的发展进程中,世界模型扮演着核心角色,精准的场景理解与未来预测是保障驾驶安全的关键。当前,尽管已有研究尝试将视觉 - 语言模型(VLMs)应用于规划任务,但大多将感知、预测和规划视为独立模块,存在信息传递瓶颈与误差累积等问题。为此,来自博世北美研究院、华盛顿大学等机构的研究团队提出了 UniDrive-WM,一种基于 VLM 的统一世界模型,在单一架构中实现了驾驶场景理解、轨迹规划和轨迹条件下的未来图像生成。
蓝田生玉1232 天前
论文阅读·笔记·llama
LLaMA论文阅读笔记论文:https://arxiv.org/pdf/2302.139711、为什么要做这个研究(理论走向和目前缺陷) ? 之前的效果的模型要么不开源,要么用了私有数据训练,完全开源的效果都不咋地。 2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ? 用完全开源的数据(1.4万亿tokens),并没有大的离谱模型(7B到65B), 做了一系列前面研究做的优化,如RMSNorm的Pre-normalization减少计算量,FFN的激活函数替换为SwiGLU增强表现能力更好,旋转位置编码RoPE提升模型
*西瓜2 天前
论文阅读·深度学习
基于深度学习的视觉水位识别技术与装备标题:基于深度学习的视觉水位识别技术与装备作者:王成建,马丁来源:汉斯DOI/链接:10.12677/jwrr.2024.133034,2024
大模型最新论文速读2 天前
论文阅读·人工智能·深度学习·机器学习·自然语言处理
BAR-RAG: 通过边界感知训练让单轮 RAG 效果媲美深度研究论文标题: Rethinking the Reranker: Boundary-Aware Evidence Selection for Robust Retrieval-Augmented Generation
觉醒大王3 天前
论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
科研新手如何读文献?从“乱读”到“会读”不少同学在后台私信我,问我是怎么高效读文献、快速抓重点的。说实话,我一开始读文献的方法也挺“笨”的:几乎完全依赖翻译软件,逐句通读,看起来很努力,但效率不高,很多内容看完很快就忘了。后来在不断试错中,我慢慢摸索出一些对自己比较管用的读法。如果你也正被“读文献”这件事折磨,希望下面的经验能对你有所帮助。
有Li3 天前
论文阅读·人工智能·深度学习·文献·医学生
SafeRPlan: 用于椎弓根螺钉置入术中规划的安全深度强化学习/文献速递-基于人工智能的医学影像技术2026.2.3本研究提出SafeRPlan,一种结合不确定性感知距离安全过滤器、领域随机化和教师-学生学习的深度强化学习方法,用于实现椎弓根螺钉置入术的术中连续路径规划,显著提升了手术安全性和在部分、噪声数据下的泛化能力,优于传统配准方法。
小明_GLC3 天前
论文阅读
Is Mamba Effective for Time Series Forecasting?论文阅读它提出基于Transformer模型在真实场景的时间序列预测中面临的问题:缺乏处理大规模数据的计算效率和资源扩展性
蓝海星梦3 天前
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
GRPO 算法演进——偏差修正/鲁棒优化/架构扩展篇Group Relative Policy Optimization(GRPO)作为大语言模型强化学习的核心算法之一,通过组内相对优势估计消除了对价值网络的依赖,显著提升了训练效率。然而,随着研究的深入,GRPO 在理论严谨性、训练稳定性和能力边界等维度暴露出关键局限:一方面,长度归一化与标准差除法引入系统性偏差;另一方面,高方差梯度估计与脆弱的优势计算制约了大规模训练的稳定性。
xx_xxxxx_3 天前
论文阅读·多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析2-对比模型与底层模型的基本结构参考文:Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion
YMWM_3 天前
论文阅读
《ImageNet Classification with Deep Convolutional Neural Networks》论文阅读我来详细分析这篇具有里程碑意义的论文——AlexNet(2012年ImageNet竞赛冠军方案)。这篇论文是深度学习发展史上的转折点,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在多伦多大学完成,发表于NIPS 2012。它在ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了突破性成果,将图像分类错误率大幅降低,重新点燃了对神经网络的研究热情。
蓝海星梦3 天前
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
GRPO 算法演进——裁剪机制篇Group Relative Policy Optimization(GRPO)作为大语言模型强化学习的核心算法之一,通过组内相对优势估计消除了对价值网络的依赖,显著降低了训练成本。然而,随着推理任务复杂度的提升,GRPO 在长链推理场景下暴露出熵崩溃、训练不稳定、探索效率低等关键问题。
蓝海星梦3 天前
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
GRPO 算法演进:2025 年 RL4LLM 领域 40+ 项改进工作全景解析在强化学习(RL)领域中,GRPO(Group Relative Policy Optimization)是一个具有重要意义的优化算法。它通过组内相对比较和去价值网络设计,显著降低了传统 PPO 的计算开销。在近年来的研究中,GRPO 算法经历了多个版本的迭代与优化。以下是我搜集到的 GRPO 算法在 RL4LLM 场景下的一系列改进工作(按照时间排序,欢迎补充),之后进行逐一解析。
蓝海星梦3 天前
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
GRPO 算法演进——奖励设计篇Group Relative Policy Optimization(GRPO)凭借其无需价值网络、组内相对估计的优势,成为大语言模型强化学习的主流范式。然而,随着研究的深入,GRPO 在奖励稀疏性、样本效率、探索-利用平衡等方面的问题逐渐显现。