语言模型

喜欢吃豆9 小时前
人工智能·语言模型·架构·大模型
OpenAI Realtime API 深度技术架构与实现指南——如何实现AI实时通话执行摘要:从请求-响应到流式多模态的范式转变 OpenAI Realtime API 标志着 AI 交互从传统的 HTTP 请求-响应模型向持久化、有状态连接架构的根本性转变。通过 WebSocket 和 WebRTC,它实现了毫秒级延迟、原生的“打断”功能以及音视频流的并行传输,将模型从被动的指令执行者重构为具备实时感知能力的“对话伙伴”。
牛奶咖啡.85411 小时前
语言模型·llm·llama·rl·ppo
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】目标是整合主流高校效训练微调技术,如增量预训练、多模态指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO训练
阿正的梦工坊18 小时前
人工智能·深度学习·机器学习·语言模型·自然语言处理
Rubicon论文数据部分详解:从Rubric设计到RL Pipeline的全流程最近读到一篇来自Inclusion AI和蚂蚁集团的论文《Reinforcement Learning with Rubric Anchors》(Rubicon),提出了一种将传统RLVR(Reinforcement Learning from Verifiable Rewards)扩展到开放式、主观任务的方法。核心创新是用“Rubric”(评分细则)作为可自动打分的结构化奖励信号,取代了只能用于数学、编程等可严格验证任务的传统奖励。
珑墨1 天前
前端·人工智能·后端·ai·语言模型·自然语言处理·chatgpt
【大语言模型】从历史到未来嘿,你肯定用过ChatGPT吧?有没有想过,这玩意儿怎么就突然变得这么聪明了?能写代码、能回答问题、能和你聊天,甚至还能帮你写论文(虽然不建议这么做,你懂的)。
致Great1 天前
数据库·人工智能·深度学习·语言模型·自然语言处理·agent·智能体
使用 GRPO 和 OpenEnv 微调小型语言模型实现浏览器控制作者:Pau Labarta Bajo https://paulabartabajo.substack.com/p/fine-tuning-lfm2-350m-for-browser
智算菩萨1 天前
人工智能·语言模型·chatgpt
【实战教程】利用GPT、Gemini等语言模型辅助语文作文的完全指南(里面有窗体程序,有各种方法的使用入口)目录1. 引言:AI时代的写作新范式2. 语言模型工作原理与作文辅助的理论基础2.1 理解大型语言模型的核心机制
纪佰伦1 天前
人工智能·深度学习·语言模型
类人脑的另一种计算 ——大语言模型large-lauguage-model——训练到推理三个过程第三章节:基础名词说完啦,去看一个模型的生命周期通过海量通用文本预训练,学习语言的通用规律(语法、语义、逻辑、常识),并把这些规律固化成模型参数,为后续具体任务提供 “通用语言能力
汉克老师1 天前
人工智能·python·语言模型·自然语言处理·continue·break·小学生学大语言模型
小学生0基础学大语言模型应用(第12课 《循环的遥控器:break 和 continue》)上两节课我们学会了: 🔁 for / while 可以一直重复做事情这一课,我们给循环装上: 🛑 紧急停止按钮(break) ⏭️ 跳过按钮(continue)
赋创小助手1 天前
服务器·人工智能·深度学习·神经网络·语言模型·自然语言处理·架构
融合与跃迁:NVIDIA、Groq 与下一代 AI 推理架构的博弈与机遇近期行业爆出 NVIDIA 与 AI 芯片初创企业 Groq 达成了一项重磅 技术许可与人才招募协议。虽然市场上有传闻称 NVIDIA 以约 200 亿美元收购 Groq,但官方声明显示,这并不是一次传统意义上的公司并购;Groq 将继续作为独立实体运营,而 NVIDIA 则通过非排他性许可协议获得 Groq 的关键技术产权,并将包括创始人 Jonathan Ross 在内的多位核心工程师纳入麾下。 这样的结构在技术圈常被称为 “逆向 acqui-hire”(reverse acqui-hire):一方面
算法狗22 天前
人工智能·语言模型
面试题:推导一下softmax中为啥要除以根号d我整理好的1000+面试题,请看 大模型面试题总结-CSDN博客 或者https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md
EEPI2 天前
论文阅读·人工智能·语言模型
【论文阅读】Vision Language Models are In-Context Value Learners团队:Google Deepmind 时间:2025 论文链接:https://arxiv.org/pdf/2411.04549 项目链接:https://generative-value-learning.github.io/
Ma0407132 天前
语言模型·多代理·实时rag
【论文阅读28】-ChatCNC:通过大型语言模型和实时数据检索增强生成进行对话式机器监控题目:ChatCNC: Conversational machine monitoring via large language model and real-time data retrieval augmented generation
百锦再2 天前
人工智能·ai·语言模型·微信小程序·小程序·模拟·模型
万字解析:抖音小程序与微信小程序开发全景对比与战略选择在移动互联网生态从“应用商店”向“轻应用平台”迁移的浪潮中,小程序已成为连接用户与服务的核心桥梁。其中,微信小程序与抖音小程序分别依托腾讯和字节跳动两大生态,构建了截然不同的商业与开发图景。对于企业、开发者及创业者而言,理解二者的深层差异,并非简单的技术选型,而是关乎产品战略、流量获取与商业模式的根本决策。
纪佰伦2 天前
人工智能·语言模型·自然语言处理
类人脑的另一种计算 ——大语言模型large-lauguage-model ——模型怎么找出这种规律的第二章节:深入探究模型演变解析——模型怎么找出这种规律的在计算机的世界所有的数据都是0和1,也就是说都是符号化的,那么如何把这些符号表示为现实世界的某个现象?
小马过河R2 天前
人工智能·语言模型·agent·智能体
ReAct和Function Calling之间的纠葛与恩恩怨怨这个文章标题甚是有趣,ReAct和Function Calling本是一类人,却有着本质的区别,但很多时候我们甚至认为他们也是可以互为替代的,很是矛盾。
小陈phd2 天前
人工智能·语言模型·自然语言处理
大语言模型实战(八)——MCP(Model Context Protocol):AI 与外部世界交互的标准化协议在 AI 技术飞速发展的今天,大语言模型(LLM)的能力边界不断被突破,但模型与外部数据源、工具的对接始终面临“接口碎片化、集成复杂、复用性低”的痛点。2024 年,Anthropic 推出的 MCP(Model Context Protocol,模型上下文协议),为这一问题提供了标准化解决方案。本文将从概念、架构、工作原理、与 Function Call 的关系等维度,全面解析 MCP 的核心价值与应用前景。
renhongxia12 天前
人工智能·语言模型·自然语言处理
大型视觉语言模型下的异常链思维深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训基于大型视觉语言模型的自动化视频监控,因其固有的常态偏向性而受限,常常无法有效识别犯罪行为。尽管思维链推理策略在语言任务中展现出显著改进性能的潜力,但其推理过程中缺乏归纳性异常偏差,进一步将模型导向正常化解读。为此,我们提出异常思维链(Chain-of-Anomaly-Thoughts,简称CoAT)——一种多智能体推理框架,该框架通过最终聚焦异常的分类层,在推理过程中引入归纳性犯罪偏差。我们的方法显著提升了
不荒Huang2 天前
人工智能·语言模型·自然语言处理
task3—大语言模型基础复习:传统智能体能力来源于工程师显式的编程和知识构建,基于LLM驱动的智能体通过在海量数据上的预训练获得隐式的世界模型与强大的涌现能力。
WitsMakeMen2 天前
人工智能·缓存·语言模型·自然语言处理·llm·transformer
训练时开启 KV 缓存会和is_causal=False 冲突训练时开启 KV 缓存(Key-Value Cache)与 is_causal=False 冲突的核心原因是:KV 缓存的设计逻辑完全依赖「因果掩码(is_causal=True)+ 自回归逐 token 生成」,而 is_causal=False 打破了这一核心前提,从「逻辑设计、维度计算、场景适配」三个层面产生不可调和的矛盾。以下结合 Qwen3 等 Decoder 模型的底层逻辑,拆解冲突本质:
WitsMakeMen2 天前
人工智能·语言模型·自然语言处理·llm·qwen3
qwen3 训练loss 出现nan在 Qwen3 的训练 / 微调过程中,loss 变为 NaN(Not a Number,非数字) 是数值计算完全失效的核心标志,意味着模型在损失函数计算、梯度传播环节出现了无法被计算机解析的无效数值运算—— 这不是 “模型学不好(loss 高)”,而是 “训练流程本身崩溃”,继续训练会导致参数更新完全失效(参数也会变成 NaN),必须立即停止并排查问题。