自然语言处理

大模型任我行8 小时前
人工智能·语言模型·自然语言处理·论文笔记
英伟达:物理感知的多模态评判模型📖标题:PhyCritic: Multimodal Critic Models for Physical AI 🌐来源:arXiv, 2602.11124v1
大模型任我行12 小时前
人工智能·语言模型·自然语言处理·论文笔记
北大:LLM数学证明形式化验证📖标题:FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight 🌐来源:arXiv, 2602.11136v2
小雨中_13 小时前
人工智能·python·深度学习·机器学习·自然语言处理
3.7 GSPO:Group Sequence Policy Optimization(组序列策略优化)论文提出 GSPO(Group Sequence Policy Optimization),核心目标是:把大模型强化学习中“token 级动作、sequence 级奖励”的错位问题显式对齐,并进一步缓解 GRPO/PPO 在长序列训练时容易出现的高方差与不稳定(甚至不可逆崩溃)现象。
狮子座明仔15 小时前
人工智能·深度学习·自然语言处理
SkillRL:让AI智能体学会“练功升级“的递归技能强化学习框架一句话总结:SkillRL 把智能体与环境交互产生的冗长轨迹蒸馏成紧凑、可复用的"技能卡片",并在强化学习训练过程中让技能库与策略共同进化,在 ALFWorld 和 WebShop 上超越 GPT-4o 达 41.9%。
小雨中_15 小时前
人工智能·python·深度学习·机器学习·自然语言处理
3.5 ReMax:用 Greedy 作为基线的 REINFORCE + RLOO这一节先快速回顾:**策略梯度(Policy Gradient)**的核心是用“奖励相关的权重”去放大或缩小每一步动作的梯度,从而让高奖励轨迹更可能被复现、低奖励轨迹被抑制。随后再看 PPO 如何在策略梯度的框架上加入稳定训练的约束。最后进入 ReMax:它的目标和 GRPO 类似——不想训练 Critic/Value 网络,但又希望把训练稳定性做起来,于是它回到 REINFORCE,并把 baseline 设计成“同一个 prompt 下的 greedy 输出的奖励”。
岱宗夫up17 小时前
开发语言·python·深度学习·神经网络·自然语言处理·知识图谱
从代码模式到智能模式:AI时代的设计模式进化论2025年CodeRabbit对470个开源PR的分析发现,AI协作生成的代码,"重大"问题是人工编写代码的1.7倍。更扎心的是,METR做的随机对照试验发现,经验丰富的开源开发者用AI工具反而慢了19%,尽管他们预测会快24%。
人工智能研究所19 小时前
人工智能·深度学习·学习·机器学习·语言模型·自然语言处理
从 0 开始学习人工智能——什么是推理模型?从 OpenAI 的 o1 到大火的 DeepSeek-R1,大家都在谈论一个新词——“推理模型” (Reasoning Models)。
thorn_r2 天前
人工智能·python·机器学习·ai·自然语言处理
RAG系统练手与思考虽然是个练手项目,但在设计时还是尽量让它具备一些实用特性: github地址知识库的构建往往需要根据文档类型调整分块方式。我实现了三种模式:
MaoziShan2 天前
人工智能·语言模型·自然语言处理
CMU Subword Modeling | 10 Grammatical Properties解读CMU Subword Modeling | 10 Grammatical Properties (dmort27.github.io)。
MoonOutCloudBack2 天前
人工智能·深度学习·语言模型·自然语言处理
VeRL 框架中的奖励 (reward) 与奖励模型:从 PPO 配置到实现细节最近正在入门大模型 RL 微调,阅读 VeRL 框架 的代码。在 VeRL 提供的官方示例 ppo 训练脚本中,我们发现了以下参数:
MaoziShan2 天前
人工智能·语言模型·自然语言处理
CMU Subword Modeling | 11 Rules of realization and rules of referral这次课是在讲一种叫 Construction Morphology(构式形态学) 的方法,重点解释了:
阿杰学AI2 天前
人工智能·ai·语言模型·自然语言处理·aigc·ai岗位·ai数据标注师
AI核心知识114—大语言模型之 AI Data Annotator(简洁且通俗易懂版)AI 数据标注师 (AI Data Annotator / Labeler) 是人工智能产业链中最基础、但也是最不可或缺的“铺路石” 。
小雨中_2 天前
人工智能·python·深度学习·机器学习·自然语言处理
2.9 TRPO 与 PPO:从“信赖域约束”到“近端裁剪”的稳定策略优化策略梯度(Policy Gradient)与 Actor-Critic 方法的核心思想,是沿着目标函数 J(θ)J(\theta)J(θ) 的梯度方向更新策略参数 θ\thetaθ,从而提升期望回报。但在深度神经网络策略中,一个关键难点是:如果单次更新幅度过大,新策略可能突然变差(例如把高概率动作改成低概率动作,或把原本合理的分布推向极端),训练会出现性能骤降、震荡甚至崩溃。
阿杰学AI2 天前
人工智能·ai·语言模型·自然语言处理·aigc·ai训练师·ai trainer
AI核心知识113—大语言模型之 AI Trainer (简洁且通俗易懂版)AI 训练师 (AI Trainer / Data Annotator / Model Tutor) 是人工智能产业链中不可或缺的“基础教育工作者” 。
DevilSeagull2 天前
人工智能·语言模型·自然语言处理
C语言: 动态内存管理我们已经掌握的内存开辟方式有:但是上述的开辟空间的方式有两个特点:有时候我们需要的空间大小在程序运行的时候才能知道,那数组的编译时开辟空间的方式就不能满足了。 C 语言引入了动态内存开辟,让程序员自己可以申请和释放空间,就比较灵活了。
MoonOutCloudBack2 天前
人工智能·深度学习·算法·语言模型·自然语言处理
VeRL 框架下 RL 微调 DeepSeek-7B,比较 PPO / GRPO 脚本的参数差异最近正在研究如何使用强化学习(RL)技术微调大模型,读 VeRL 框架 的代码。VeRL 代码库在 examples/ 目录下提供了一些 RL 训练的示例脚本。其中,ppo_trainer/run_deepseek7b_llm.sh 和 grpo_trainer/run_deepseek7b_llm.sh 这两个脚本均使用 gsm8k 数据集训练 deepseek 7b 模型,不过一个使用 PPO 算法,另一个使用 GRPO 算法。经比较,这两个脚本的内容只有一些参数不同。
小雨中_3 天前
人工智能·python·深度学习·机器学习·自然语言处理
2.4 贝尔曼方程与蒙特卡洛方法在马尔可夫决策过程(MDP)中,一个智能体在时间步 ttt 处于状态 St=sS_t=sSt=s,选择动作 At=aA_t=aAt=a,获得即时奖励 RtR_tRt(或写作 r(s,a)r(s,a)r(s,a)),并以转移概率 p(s′∣s,a)p(s'|s,a)p(s′∣s,a) 到达下一状态 St+1=s′S_{t+1}=s'St+1=s′。策略 π(a∣s)\pi(a|s)π(a∣s) 表示在状态 sss 选择动作 aaa 的概率。
香芋Yu3 天前
人工智能·自然语言处理
【大模型面试突击】01_传统NLP基础精选自170+道采集题目,保留最高频最核心的28题 | 难度:⭐基础 ⭐⭐进阶 ⭐⭐⭐深入一句话秒答:CBOW用上下文猜中间词,Skip-gram反过来用中间词猜上下文,小数据集Skip-gram更强。
小雨中_3 天前
人工智能·python·深度学习·机器学习·自然语言处理
2.6 时序差分方法(Temporal Difference, TD)时序差分(Temporal Difference, TD)是一类经典的 model-free 强化学习方法:在不知道环境动力学(即不知道状态转移概率 p(s′∣s,a)p(s'|s,a)p(s′∣s,a)、也无法写出完整 MDP 转移方程)的情况下,仅通过 Agent 与环境交互采样得到的轨迹数据 来学习价值函数与策略。现实世界中,环境的转移规律往往复杂且难以精确建模,因此 model-free 方法具有非常强的实用性。
阿杰学AI3 天前
人工智能·ai·语言模型·自然语言处理·aigc·ai岗位·数字员工运营师
AI核心知识112—大语言模型之 Digital Employee Operations Specialist(简洁且通俗易懂版)数字员工运营师 (Digital Employee Operations Specialist) 是企业数字化转型进入深水区后诞生的一个“跨界”岗位 。