技术栈
强化学习
武子康
7 小时前
人工智能
·
机器人
·
强化学习
·
ros2
·
具身智能
·
仿真测试
·
a/b测试
AI研究-109-具身智能 机器人模型验证SOP流程详解|仿真 现实 回放 模板&理论
训练出的模型需要经过严格的验证评估,并根据反馈不断改进。模拟器验证是模型策略测试中至关重要的第一步,它提供了最安全高效的验证方式。具体实施过程包括以下关键环节:
marsggbo
7 小时前
llm
·
强化学习
·
ppo
·
dpo
·
grpo
LLM 场景下的强化学习技术扫盲
想象你正在和一个刚训练好的语言模型聊天。你问:“今天过得怎么样?” 模型可能回:“还行。” 也可能回:“我是个 AI,没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习(RL)在 LLM 中的核心任务,就是让模型学会生成“人类更喜欢”的回复。
2401_84149564
12 小时前
人工智能
·
python
·
算法
·
动态规划
·
强化学习
·
策略迭代
·
价值迭代
【强化学习】动态规划算法
目录一、引言二、悬崖漫步环境三、策略迭代算法(一)策略评估(二)策略提升(三)策略迭代算法四、价值迭代算法
Python算法实战
2 天前
人工智能
·
算法
·
面试
·
大模型
·
强化学习
腾讯送命题:手写多头注意力机制。。。
最近这一两周不少公司已开启春招和实习招聘。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。
L.fountain
2 天前
人工智能
·
强化学习
强化学习2.2 MDP实践——Frozen lake
FrozenLake 指 OpenAI Gym 库中的一个经典强化学习环境。初始化环境如下图所示,F表示正常的道路,H表示洞,G表示终点。
神州问学
3 天前
强化学习
最高推理效率提升100%+|让满血DeepSeekV3.1在L40S上大展身手
最近深度求索公司发布了他们最先进的大模型DeepSeekV3.1,作为重要升级版本,其以混合推理架构作为核心,实现了一个模型同时支持思考模式和非思考模式,让用户可以根据需求自由切换,平衡效率与深度,其核心优势明显。
Scc_hy
4 天前
人工智能
·
深度学习
·
算法
·
强化学习
·
rl
强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluation
paper Link: Eligibility Traces for Off-Policy Policy Evaluation
山顶夕景
4 天前
大模型
·
强化学习
·
dapo
·
vapo
【RL】DAPO的后续:VAPO算法
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
i.ajls
5 天前
机器学习
·
强化学习
·
dqn
强化学习入门-1-CartPole-v1(DQN)
本环境是OpenAI Gym提供的一个经典控制环境。官网链接:https://gymnasium.farama.org/environments/classic_control/cart_pole/
HyperAI超神经
6 天前
人工智能
·
神经网络
·
机器学习
·
ai
·
强化学习
·
可控核聚变
·
托卡马克
AI预判等离子体「暴走」,MIT等基于机器学习实现小样本下的等离子体动力学高精度预测
直接提起「托卡马克装置」,你可能觉得陌生。如果这样去介绍:托卡马克装置是通向最理想能源——核聚变能的重要技术之一, 或许会有「原来是你」的感悟。不过这里的「核能」并非核电站的核裂变,而是更高能、清洁、安全、几乎无放射废料的核聚变。
赋范大模型技术圈
6 天前
人工智能
·
强化学习
11G显存DPO强化学习微调实战
相信很多做电商的朋友都遇到过这些问题:用DPO强化学习让AI学会"什么是好的专业回答"简单说就是:给AI看大量的"好回答VS差回答"对比,让它自己学会判断什么样的回答更专业、更贴心。
i.ajls
7 天前
人工智能
·
机器学习
·
强化学习
·
dqn
强化学习入门-2(Dueling DQN)
本环境是OpenAI Gym提供的一个经典控制环境。官网链接:https://gymnasium.farama.org/environments/box2d/lunar_lander/
喜欢吃豆
7 天前
人工智能
·
语言模型
·
自然语言处理
·
大模型
·
强化学习
一份关于语言模型对齐的技术论述:从基于PPO的RLHF到直接偏好优化
本部分旨在为大型语言模型(LLM)的对齐工作奠定概念基础,阐述其必要性,并概述构成后续更高级技术基础的经典三阶段流程。
孤狼灬笑
8 天前
人工智能
·
强化学习
·
无监督学习
·
半监督学习
·
有监督学习
机器学习四范式(有监督、无监督、强化学习、半监督学习)
目录一、监督学习:“有标签”二、无监督学习:“无标签”三、强化学习:“无标签,有奖励机制”四、半监督学习:“有标签”
喜欢吃豆
10 天前
人工智能
·
python
·
语言模型
·
大模型
·
微调
·
强化学习
·
推理模型
微调高级推理大模型(COT)的综合指南:从理论到实践
大规模语言模型(LLM)的预训练阶段,通过在海量文本语料库(例如,Llama 3使用了超过15万亿个token的数据)上学习,赋予模型广泛的世界知识和语言能力。然而,预训练本身不足以让模型成为可靠、有用且安全的工具。后训练(Post-training) 是塑造模型行为、增强特定能力(尤其是复杂推理能力)并使其与人类价值观和偏好对齐的关键阶段。
Tfly__
10 天前
linux
·
人工智能
·
ubuntu
·
github
·
无人机
·
强化学习
·
运动规划
Ubuntu 20.04 安装Aerial Gym Simulator - 基于 Gym 的无人机强化学习仿真器
前言: Aerial Gym Simulator 是一个基于 NVIDIA Isaac Gym,用于训练微型飞行器(MAV)平台,如多旋翼飞行器,使其学会利用基于学习的方法在杂乱的环境中飞行和导航。配置有相机、雷达等多种传感器,具备高自由度自定义仿真场景和任务的能力。
喜欢吃豆
10 天前
人工智能
·
python
·
语言模型
·
自然语言处理
·
大模型
·
强化学习
·
constitutional
从指令遵循到价值对齐:医疗大语言模型的进阶优化、对齐与工具集成综合技术白皮书
医疗AI系统面临的挑战不仅是提供事实准确的信息,更在于确保其输出的绝对安全、符合复杂的医学伦理规范、并能在与患者和专业人士的交互中展现出高度的可靠性 。仅仅依赖SFT所学到的“知识”,模型可能在面对模糊不清的查询、潜在的有害指令或需要共情与谨慎的复杂场景时,表现出脆弱性甚至危险性。因此,后续的优化步骤并非锦上添花,而是确保模型能够安全、可靠、负责任地应用于现实世界的必要环节 。
武子康
10 天前
人工智能
·
深度学习
·
机器学习
·
ai
·
机器人
·
强化学习
·
具身智能
AI-调查研究-102-具身智能 智能机械臂、自动驾驶与人形机器人的模仿学习、强化学习与多模态融合趋势
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
成都犀牛
13 天前
人工智能
·
机器学习
·
强化学习
强化学习(5)多智能体强化学习
多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)与单智能体强化学习(Single-Agent Reinforcement Learning, SARL)区别主要体现在环境的动态性、智能体的目标、学习的复杂性等
simon_skywalker
16 天前
人工智能
·
算法
·
强化学习
第7章 n步时序差分 n步时序差分预测
n步时序差分(n-step TD)方法是蒙特卡洛(MC)方法与时序差分(TD)方法的统一推广。 蒙特卡洛方法使用完整回报,对应 n→∞n \to \inftyn→∞ 的极端情况;单步TD方法(如TD(0))对应 n=1n = 1n=1 的极端情况。 中间的 nnn 值通常能取得比两种极端方法更好的性能。