语言模型

亚里随笔11 小时前
人工智能·语言模型·自然语言处理·llm·agentic
突破智能体训练瓶颈:DreamGym如何通过经验合成实现可扩展的强化学习?本文将介绍DreamGym,一个革命性的强化学习框架,它通过合成多样化经验来解决智能体训练中的核心挑战。DreamGym首次提出基于推理的经验模型,能够在不依赖昂贵真实环境交互的情况下,生成一致的状态转换和反馈信号,为自主智能体的在线强化学习训练提供了可扩展的解决方案。在WebArena等非RL就绪任务中,DreamGym的性能超越所有基线30%以上;在RL就绪但成本高昂的环境中,它仅使用合成交互就匹配了GRPO和PPO的性能。
wa的一声哭了12 小时前
android·java·javascript·pytorch·深度学习·语言模型·transformer
hf中transformers库中generate的greedy_searchgreedy_search的返回值和GenerationMixin的generate的返回值是一样的,因为实际上generate函数是通过调用greedy_search来生成内容的。可以看到如果参数return_dict_in_generate为False,那么返回的内容应该就是一个生成的input_ids的tuple,如果为True,那么会将scores、hidden_states、attentions封装成一个字典类返回。
电科_银尘1 天前
人工智能·语言模型·agi
【大语言模型】-- OpenAI定义的五个AGI发展阶段文章目录OpenAI提出的五级AGI发展框架,为理解人工智能进化路径提供了系统化视角。L1:聊天机器人(Chatbots) 定义:具备基础对话能力的AI系统,专注于语言理解和生成。 应用场景:ChatGPT模型、各种自动化客服、自动化助手等。 技术现状:属于"已实现"阶段
不叫猫先生1 天前
华为·语言模型·大模型·cann
基于华为昇腾CANN的自定义算子开发昇腾CANN,作为异构计算架构的核心组件,具有以下特性:在大模型推理中,Attention机制通常由多个基础算子组成(MatMul、Softmax、Dropout等),导致频繁的内存读写。我们将开发一个融合Attention算子,减少内存访问,提升性能。
AI 研究所2 天前
人工智能·语言模型·开源·大模型·交互·agent
1024开发者节:开源发布,引领生态繁荣技术浪潮奔涌的时代,人工智能正以前所未有的速度深刻改变世界。2025科大讯飞全球1024开发者节汇聚了全球优秀开发者与产业力量,全景呈现人工智能前沿技术、产品创新与行业应用。从「技术突破」奔赴「产业共生」,从「应用创新」迈向「人才培养」,讯飞持续引领中国人工智能产业发展。
leafff1232 天前
数据库·人工智能·语言模型·自然语言处理·架构
AI数据库研究:RAG 架构运行算力需求?RAG 架构运行算力需求与架构复杂度、知识库规模、检索 / 生成并行量正相关,从 “低成本 CPU 可用” 到 “高成本 GPU 集群” 不等,优先按架构模式匹配算力,再根据业务量弹性扩容。
闲看云起2 天前
人工智能·语言模型·自然语言处理
一文了解RoPE(旋转位置编码)作者:先看运气 | 更新时间:2025年11月9日你有没有想过:答案就藏在一个叫 RoPE(Rotary Position Embedding,旋转位置编码) 的神奇技术里。
鲸鱼在dn2 天前
人工智能·语言模型·自然语言处理
大型语言模型推理能力评估——李宏毅2025大模型课程第9讲内容本节课主要探讨了“如何科学评估大型语言模型的推理能力”,指出当前模型可能依赖记忆而非真正推理,介绍了 ARC-AGI 和 Chatbot Arena 等评估平台,并提醒人们注意评估指标的局限性和误导性。
PKNLP2 天前
人工智能·语言模型·模型微调
14.大语言模型微调语料构建微调(Fine-tuning)是指在已经预训练好的大规模模型基础上,通过进一步训练来适应特定任务或数据集的过程。这一过程体现了迁移学习的思想,即利用预训练模型在通用数据上学习到的知识,通过微调使其更好地服务于特定的应用场景.
Wu Liuqi2 天前
人工智能·学习·语言模型·大模型
【大模型学习4】大语言模型(LLM)详解在前三章中,我们从自然语言处理(NLP)的基础概念出发,逐步深入到注意力机制和Transformer架构——这些引发NLP领域革命性变革的核心技术。随着Transformer的出现,NLP领域进入了预训练-微调的全新范式,一系列基于Transformer的预训练语言模型不断刷新各类NLP任务的性能上限。
学历真的很重要2 天前
开发语言·后端·语言模型·面试·langchain·职场发展·langgraph
LangChain V1.0 Messages 详细指南基于官方文档 https://docs.langchain.com/oss/python/langchain/messages 的完整中文总结
柳安忆2 天前
论文阅读·人工智能·语言模型
【论文阅读与项目复现】Hypothesis Generation with Large Language Models这篇论文的假设是指类似日常生活中的推断假设。研究人员主要依靠 painstaking 的数据分析与思考(即所谓的“欧几里得时刻”)来驱动假设的产生。在本文中,我们探讨了大规模语言模型(LLMs)在假设生成方面的潜力,尤其关注基于数据(即带标签的示例)的假设生成任务。
汉克老师2 天前
人工智能·语言模型·自然语言处理·lmcc
CCF--LMCC大语言模型能力认证官方样题(第一赛(青少年组)第二部分 程序题 (26--30))完整可直接运行的代码:注意:本代码依赖 transformers 与 peft,并假定运行环境有支持 fp16 的 GPU(单卡 16GB)。
悟乙己3 天前
人工智能·语言模型·自然语言处理
超越文本:利用大型语言模型进行时间序列预测(第1部分)摘要:本文深入探讨将大型语言模型(LLM)用于时间序列预测的理论基础与实践实现,核心围绕 TimeLLM:通过“重编程”把连续数值序列转换为语言兼容的提示,从而在不微调 LLM 的情况下进行预测。文章系统解释输入嵌入、补丁(patch)重编程、提示(Prompt-as-Prefix)与输出投影,并以 Walmart M5 数据集的销售预测为用例,通过 Nixtla 生态的实现展示流程与效果,同时与经典统计模型和深度学习基线进行对比,指出 TimeLLM 在少样本与零样本场景下的优势与局限、容量与提示工程对
York·Zhang3 天前
人工智能·语言模型·自然语言处理·ollama
Ollama:在本地运行大语言模型的利器Ollama 是一款开源工具,旨在极大地简化在个人计算机上下载、设置和运行大型语言模型(LLM)的过程。它将复杂的模型配置、依赖管理和硬件加速设置打包成一个简单易用的命令行工具,让开发者和爱好者能像运行 Docker 容器一样,轻松地在本地部署和交互各种强大的开源 LLM。
reesn3 天前
人工智能·语言模型·自然语言处理
nanochat大语言模型讲解一围绕nanochat大模型项目讲解模型结构与训练知识点,首先从预训练脚本scripts/base_train.py开始。
leafff1233 天前
人工智能·语言模型·自然语言处理
一文了解-大语言模型训练 vs 推理:硬件算力需求数据对比大语言模型 (LLM) 的训练和推理对硬件算力需求存在数量级差异,训练阶段消耗的算力约为推理的10^4-10^6 倍,具体体现在以下几个方面,大语言模型的训练和推理对硬件算力需求的具体差异的数据支撑如下:
cooldream20093 天前
人工智能·语言模型·langchain·rag
构建智能知识库问答助手:LangChain与大语言模型的深度融合实践在人工智能迅猛发展的今天,大语言模型(Large Language Model,简称 LLM)已成为智能问答、文本生成与知识推理的重要技术基石。从 ChatGPT 到 Claude,再到各类国产语言模型,这些模型凭借强大的语言理解与生成能力,在众多领域展现出了非凡的潜力。然而,尽管 LLM 能回答多领域的通用问题,但其知识主要来源于预训练语料和指令微调数据,无法直接访问企业内部文件、专业论文或私有数据库。这就导致当问题涉及到特定领域知识时,模型往往出现“知识盲区”或“幻觉式回答”。
SEO_juper3 天前
人工智能·ai·语言模型·自然语言处理·数字营销
LLMs.txt 创建指南:为大型语言模型优化您的网站关于llms.txt的讨论热度持续攀升。但尚未有主流AI平台确认采用该协议。至少目前如此。也没有证据表明任何大型语言模型(LLM)在爬取时实际使用该协议。