语言模型

zhangfeng113313 小时前
人工智能·语言模型·llama
大语言模型调试框架 Hugging Face vs LLaMA-Factory详细对比Hugging Face vs LLaMA-Factory:详细对比这两者定位不同,但存在重叠领域。让我从多个维度为你详细对比:
zhangfeng113314 小时前
人工智能·语言模型·开源·大模型
DeepSeek-R1-Qwen-32B bpe算法 ,分词器配置 LlamaTokenizerFast这是一个 DeepSeek 模型的 tokenizer 配置文件(tokenizer_config.json)。让我为你解析其中的关键配置:
阿杰学AI17 小时前
人工智能·深度学习·ai·语言模型·自然语言处理·deep learning·dl
AI核心知识97——大语言模型之 DL(简洁且通俗易懂版)深度学习 (Deep Learning, DL) 是现代人工智能真正的核心引擎。如果说 人工智能 (AI) 是我们要抵达的彼岸(机器像人一样聪明), 机器学习 (Machine Learning) 是通往彼岸的船(让机器从数据中找规律), 那么 深度学习 就是驱动这艘船的核反应堆。
zhangfeng113317 小时前
深度学习·语言模型·llama
大语言模型 llama-factory 通常不推荐只用 LoRA 做新词库预热 embedding可以,但通常不推荐只用 LoRA 做新词库预热,原因如下:修改命令(只训嵌入层):如果必须用 LoRA,需要手动初始化新 token 嵌入:
Sonhhxg_柒17 小时前
人工智能·语言模型·vllm
【AI实战教程】Nanobot实战教程:基于vLLM部署的智能QQ聊天机器人🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃
Elastic 中国社区官方博客19 小时前
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型·全文检索
Elasticsearch:交易搜索 - Index search tool在这篇文章中,我们来展示如何使用 Index search 类型的 tool 来针对交易进行搜索。这篇文章是之前文章 “Elasticsearch:交易搜索 - MCP” 的续篇。我们讲使用 AI Builder 来进行搜索,但是我们创建一个叫做 index search 的 tool 类型。
Sirius Wu1 天前
人工智能·深度学习·机器学习·语言模型
Seed Prover及相关强化学习核心方法技术报告本报告系统梳理字节跳动Seed团队研发的Seed Prover自动化定理证明系统、其核心训练框架VAPO算法,以及支撑VAPO价值估计的三大核心方法——蒙特卡洛(Monte Carlo, MC)、时序差分学习(Temporal Difference, TD)、广义优势估计(Generalized Advantage Estimation, GAE)。报告重点突出各技术的核心原理、创新点及协同关系,聚焦长链推理(定理证明)场景的技术适配的优化,详略得当,兼顾严谨性与逻辑性,清晰呈现“落地系统(Seed Pr
AI资源库1 天前
人工智能·语言模型
QwenQwen3-ASR-1.7B模型深入解析我们将文件分为四大类进行详细解读,揭示它们是如何“相辅相成”的。这部分决定了模型是“什么”,以及如何搭建神经网络。
大写-凌祁1 天前
人工智能·语言模型·自然语言处理
从文本生成器到自主决策者:Agentic RL如何重塑大语言模型的智能边界本文深度解读2025年重磅综述《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》(arXiv:2509.02547),揭示LLM智能体化演进的核心范式转变与技术全景
开放知识图谱2 天前
人工智能·语言模型·自然语言处理·知识图谱
论文浅尝 | PathMind:基于检索-排序-推理的知识图谱大语言模型推理框架(AAAI2026)笔记整理:杨再润,浙江大学硕士生,研究方向大语言模型后训练论文链接:https://arxiv.org/pdf/2511.14256
王莽v22 天前
人工智能·语言模型·自然语言处理
PrefixQuant:基于前缀token消除离群值的大语言模型量化方法PrefixQuant的创新点:正交于通道级方法,无需训练即可隔离令牌级离群值,同时覆盖极大/极小值离群令牌,检测耗时仅12秒-1分钟。
rr最叨2 天前
人工智能·语言模型·自然语言处理
N-gram文本生成与垃圾邮件检测add Codeadd MarkdownN-gram是自然语言处理中常用的技术,它可以用于文本生成、语言模型训练等任务。本文将介绍什么是n-gram,如何在Python中实现n-gram文本生成,并提供丰富的示例代码来帮助大家更好地理解和应用这一技术。 什么是N-gram?
陈天伟教授2 天前
人工智能·深度学习·神经网络·语言模型·自然语言处理
人工智能应用- 语言处理:07.机器翻译技术机器翻译技术的发展经历了三个主要阶段:基于规则的翻译、基于统计的翻译和基于神经网络的翻译。最初的规则翻译方法依赖人工编写的词典和语法规则,能够翻译简单句子,但难以处理实际生活中复杂的语言现象。随后,统计机器翻译(SMT)利用平行语料库自动学习语言之间的对应关系,显著提升了翻译效果。然而,SMT在处理长句或复杂句时仍然存在局限,常常会出现语义不连贯或翻译生硬的问题。近年来,神经机器翻译(NMT)凭借深度神经网络的强大学习能力,实现了从源语言到目标语言的端到端翻译。这种模型能够隐式地捕捉语言之间复杂的映射关系
码农垦荒笔记2 天前
人工智能·语言模型·gateway·agent·openclaw
OpenClaw实战#05-2:第二层工程拆解 Gateway 深度解析目录一、一句话核心结论(工程级)二、Gateway 为何被称为 Control Plane(控制平面)?
P-ShineBeam2 天前
人工智能·语言模型·自然语言处理·知识图谱
引导式问答-外部共情知识桥接-TriKF论文:Knowledge Bridging for Empathetic Dialogue Generation 会议:AAAI 2022 作者:Qintong Li et al.(山东大学、腾讯、香港大学)
陈天伟教授2 天前
人工智能·深度学习·神经网络·语言模型·自然语言处理·机器翻译
人工智能应用- 语言处理:05.神经机器翻译自 2014 年以来,随着深度学习技术的迅猛发展,神经机器翻译(Neural Machine Translation, NMT)逐渐成为机器翻译领域的主流技术。NMT 采用深度神经网络,实现了“端到端”的翻译方式。这意味着它不再依赖传统的词典和规则,而是直接从输入的源语言句子生成目标语言句子。
小马过河R3 天前
人工智能·语言模型·aigc·多模态·ai视频·智能体·视频大模型
Seedance 2.0 模型原理与案例体验记得去年10月Sora2爆火,小马还写过体验文章《国庆爆火的Sora2使用初探和实例生成》,时隔数月,号称国内的Sora2大模型Seedance 2.0再次火了一把。小马自然要去试一下了。
P-ShineBeam3 天前
人工智能·语言模型·自然语言处理·知识图谱
知识图谱-事件图谱的回答增强-EventRAG论文:EventRAG: Enhancing LLM Generation with Event Knowledge Graphs ACL 2025 作者:Zairun Yang、陈华均 et al. (浙江大学) 核心关键词:KGQA | Event Knowledge Graphs | RAG | Agent
墨心@3 天前
人工智能·笔记·语言模型·自然语言处理·chatgpt·nlp·llama
沐曦MCX500安装llama factory应该是01-locale-fix.sh 、 conda.sh这两个文件导致的,首先用cat conda.sh
羊羊小栈3 天前
人工智能·语言模型·毕业设计·软件构建·知识图谱·neo4j·大作业
基于知识图谱(Neo4j)和大语言模型(LLM)的图检索增强(GraphRAG)的乳制品生产管理智能问答系统b站演示视频与部署教程视频(点击这里) https://www.bilibili.com/video/BV1SYcMzdEmM/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1