llm

aopstudio8 小时前
人工智能·自然语言处理·llm·huggingface
HuggingFace Tokenizer 的进化:从分词器到智能对话引擎如果你用过 Hugging Face 的 Transformers 库,一定对 tokenizer 不陌生。它负责把"人话"变成"机器话"——也就是将文本转换成模型能理解的 token ID 序列。随着大模型从"单轮问答"走向"多轮对话",再到"调用外部工具完成任务",tokenizer 的角色早已超越了简单的分词器,正在成为构建可靠 AI Agent 的核心基础设施。
杨杨杨大侠11 小时前
后端·python·llm
DeepAgents 框架深度解析:从理论到实践的智能代理架构探索如何通过中间件模式构建可扩展的 AI 代理系统在 AI 代理系统快速发展的今天,如何构建一个既能处理复杂任务,又具备良好扩展性的框架?DeepAgents 给出了一个优雅的答案。本文将深入解析 DeepAgents 框架的核心理论、架构设计和执行流程,帮助开发者理解这一强大的 AI 代理框架。
董厂长12 小时前
人工智能·llm·agent·意图识别
Agent 意图库 和 知识图谱用“从直觉 → 类比 → 逐步拆开系统 → 最后给你一套可直接套用的模板”的方式,把 意图库 和 知识图谱 讲到你能落地用。
YaeZed12 小时前
llm·agent
数据准备(1)在 RAG 系统中,数据加载器(Data Loader)处于最前端,主要完成以下三个核心任务:内容提取:将 PDF、Word、Markdown、HTML 等不同格式的原始文档转换为可处理的纯文本。
董厂长12 小时前
大数据·llm·agent·rag·意图识别
前置RAG意图召回解决的问题分 6 层讲解(由浅入深):在 Agent 里,“意图”不是泛泛的主题,而是可执行的事务类型。例如(运维):
CoderJia程序员甲13 小时前
开源·大模型·llm·github·ai教程
GitHub 热榜项目 - 日榜(2026-1-15)生成于:2026-1-15共发现热门项目: 8 个榜单类型:日榜本期GitHub热榜显示AI应用开发依然是核心焦点,技术热点集中在智能体评估、多模态数据处理和实用工具开发。τ²-Bench和Inspect AI提供了专业的大模型评估框架,而ART项目则推动智能体在真实任务中的强化学习实战。Buzz凭借离线的音频转录与翻译功能获得高关注,Chandra项目专注于复杂文档OCR,展现了多模态理解的工程需求。同时,MediaCrawler等数据爬虫工具和知识图谱生成器凸显了数据供给与结构化在AI链路中的关键作用
Baihai_IDP13 小时前
人工智能·面试·llm
如何减少单智能体输出结果的不确定性?利用并行智能体的“集体智慧”编者按: 当 AI 智能体给出的解决方案时好时坏,我们该如何突破这种不确定性的困境?我们今天为大家带来的文章,作者的观点是:单一智能体的运行本质上是一次随机采样,而通过并行运行多个智能体并综合其输出结果,可以将编码任务从“靠运气抽签”转变为对最优解的系统性探索。
组合缺一13 小时前
java·人工智能·ai·langchain·llm·solon
带来 AI Agent 开发,OpenSolon v3.8.3 发布OpenSolon 是新一代,Java 企业级应用开发框架。从零开始构建(No Java-EE),有灵活的接口规范与开放生态。采用商用友好的 Apache 2.0 开源协议,是“杭州无耳科技有限公司”开源的根级项目,是 Java 应用开发的生态基座(可替换美国博通公司的 Spring 生态)。
Baihai_IDP13 小时前
人工智能·程序员·llm
智能体的构建依然是个“脏活累活”...编者按: 构建真正可靠的智能体(Agent)为什么依然如此困难?尽管大模型能力日新月异,工具调用、多步推理、状态管理等核心环节却仍充满“脏活累活” —— 是抽象层不够好?平台差异太大?还是我们尚未找到正确的工程范式?
huazi-J14 小时前
人工智能·自然语言处理·大模型·llm·datawhale
Datawhale Happy-LLM 课程 task 1和2:NLP基础概念此博客为Datawhale 组队学习打卡笔记[1] https://github.com/datawhalechina/happy-llm
molaifeng14 小时前
人工智能·ai·大模型·llm·go·token
Token:AI 时代的数字货币——从原理到计费全解Go 系列博文的最近一口气写了十篇(王婆卖瓜下,全是干货)。这一次换个方向,紧跟技术趋势,聊一个几乎所有 AI 应用都绕不开、却经常被一笔带过的概念——Token。
跳跳糖炒酸奶1 天前
人工智能·语言模型·自然语言处理·llm·transformers·gpt2
第十二章、GPT2:Language Models are Unsupervised Multitask Learners(理论部分)阅读经典论文是想深入任何领域都必须经历的过程,接下来让我们看看openai的经典之作GPT2。下述内容包含很多个人观点可能存在有问题的地方,欢迎一起讨论。
缘友一世1 天前
llm·gspo·大模型强化学习·lrm
Qwen GSPO算法的深入学习和理解GRPO 的局限:Token 级粒度的噪声问题,裁剪机制可能放大噪声。GRPO 依然沿用 Token 级别的更新粒度:
山顶夕景1 天前
llm·moe·知识检索·engram
【LLM】deepseek之Engram模型(增加条件记忆模块)【Deepseek进展】给大语言模型加了个“快速查知识的小模块”。也就是条件记忆模块,实现上,融合静态N-gram嵌入与动态隐藏状态,通过确定性寻址实现O(1)查找,以可扩展查找,作为混合专家(MoE)之外的新稀疏性维度。如此一来,原来的模型(比如MoE架构)靠“实时计算”处理信息,这个模块补了个“静态记忆库”,存着常用的短语、知识片段,后续一键调取,不用重复计算。
爱听歌的周童鞋1 天前
llm·assignment·cs336·bpe tokenizer
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 1: BPE Tokenizer本篇文章记录 CS336 作业 Assignment 1: Basics 中的 BPE Tokenizer 作业要求,仅供自己参考😄
小Pawn爷2 天前
金融·llm·rga
8.RAG构建金融知识库2 构建RAG实战3 总结与思考RAG(Retrieval-Augmented Generation)检索增强生成
WitsMakeMen2 天前
人工智能·线性代数·矩阵·llm
用矩阵实例具象化 RankMixer 核心机制结合文档中 100M 参数模型的典型配置(T=16 个特征 Token、D=768 隐藏维度、H=16 个头),通过具体矩阵维度和运算过程,拆解 RankMixer 核心模块的矩阵操作逻辑,让抽象架构落地为可感知的数值流程。
dzj20212 天前
unity·llm·llmunity
Unity中使用LLMUnity遇到的问题(一)设置[Num GPU Layers]参数的值,官方说-1代表全用GPU,实测后发现设置成-1时,CPU满载,GPU貌似没有忙碌。
智泊AI2 天前
llm
不靠模仿的第三条路:DeepSeek 凭数学推导,为何撞上 Google 的工程直觉?Google 在 2025 年 6 月推出 Gemma 3n 时,技术圈的反响截然两极。工程团队为其在移动端的极致轻量化折服——2GB 内存即可运行 80 亿参数模型,多模态推理流畅如常;而学术界却对 PLE(Per-Layer Embeddings)与 AltUp 等非传统设计心存疑虑,视其为为适配硬件而强行压缩的工程捷径。
laplace01232 天前
架构·大模型·llm·agent·rag
claude code架构猜测总结Claude Code 本质 =「LLM 驱动的 Tool-Calling 循环」+「逐层外置的认知结构」 模型是 Agent,本体代码只负责:约束、反馈、隔离、注入知识。