语言模型

kylin-运维1 小时前
语言模型·voxcpm
VoxCPM 2.0 离线部署GitHub 地址https://github.com/OpenBMB/VoxCPM使用版本 v2.0.3
F_D_Z19 小时前
人工智能·语言模型·自然语言处理
扩散大语言模型新框架TraceRL扩散概率模型在图像生成领域取得了显著成功,近年来研究者开始探索其在语言建模中的潜力。扩散大语言模型采用迭代去噪的生成机制,与传统的自回归模型形成本质区别。然而,如何有效地对扩散语言模型进行后训练,特别是引入强化学习以提升推理能力,仍然是一个开放性问题。
jeffer_liu21 小时前
java·人工智能·后端·spring·语言模型
Spring AI 生产级实战:记忆管理我们平时使用 ChatGPT、通义千问、DeepSeek 等大模型时,经常会感觉模型“记得”前面聊过的内容。
z小猫不吃鱼21 小时前
人工智能·语言模型·自然语言处理
10 大语言模型基本术语总结:参数、Token、Context、Logits、Temperature在前面的文章中,我们已经讲过 Transformer、Self-Attention、Encoder、Decoder、Tokenizer、位置编码,以及 MLM、CLM、Seq2Seq LM 等训练目标。
MartinYeung51 天前
人工智能·学习·安全·语言模型
[论文学习]大型语言模型的安全性、安全与隐私问题综述:核心挑战、攻击防禦与未来方向分析On Large Language Models Safety, Security, and Privacy: A Survey (Journal of Electronic Science and Technology, ~2025)
我爱cope1 天前
人工智能·语言模型·职场和发展
【Agent智能体18 | 构建AI工作流的技巧-评估】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
MartinYeung51 天前
人工智能·学习·语言模型
[论文学习]使用使用者层级差分隐私(User-Level DP)微调大型语言模型(LLM)Fine-tuning LLMs with User-level Differential Privacy (Google Research, 2025)
jeffer_liu1 天前
java·人工智能·spring boot·后端·spring·语言模型·ai编程
Spring AI 生产级实战:模型选择在做 AI 应用时,很多团队容易一开始就纠结:到底用哪个大模型? 用 OpenAI、通义、智谱、DeepSeek,还是本地 Ollama? Chat 模型、Embedding 模型、图像模型、语音模型有什么区别? 是不是一个大模型就能解决所有问题?
东方佑1 天前
人工智能·语言模型·自然语言处理
WDLM-Turbo:为什么纯实数神经波动力学语言模型可行?——从薛定谔方程到离散序列建模的深层动机与原理分析WDLM-Turbo(Wave Dynamics Language Model)提出了一种全新的语言模型架构:它完全摒弃了传统的注意力机制与复数运算,而是用一种纯实数的“神经波”演化来建模离散符号序列。该模型将每个 token 映射为高维实向量,并在实数域内模拟波的传播、干涉与非线性混合。本文从物理直觉、数学结构与信息传播三个层面,系统性地回答了“WDLM 为何能够工作”这一核心问题。我们将展示,WDLM 的设计并非随意拼凑,而是与非线性薛定谔方程、KdV
z小猫不吃鱼1 天前
人工智能·语言模型·自然语言处理
09 语言模型训练目标:MLM、CLM、Seq2Seq LM 有什么区别?在前面的文章中,我们已经讲过 Transformer Encoder、Transformer Decoder、以及位置编码等核心内容。
qxq_sunshine1 天前
人工智能·gpt·语言模型
千问(Qwen)模型Linux部署操作手册基于实际环境:Ubuntu 22.04 + 双 RTX 4090 + llama.cpp + Qwen GGUF 模型
兰令水1 天前
python·语言模型
【helloagent】第四章 agent范式总结+面经在大模型对话中,messages 数组的每个元素都是一个对象,其中 role 字段是其核心。不同的 role 承担着不同的功能,共同构建了完整的对话上下文。
硅谷秋水2 天前
大数据·人工智能·深度学习·机器学习·语言模型
SkillOpt:自演化智体技能的执行策略26年5月来自微软、上海交大、同济大学和复旦的论文“SkillOpt: Executive Strategy for Self-Evolving Agent Skills”。
硅谷秋水2 天前
人工智能·深度学习·算法·计算机视觉·语言模型·机器人
Qwen-VLA:跨任务、环境与机器人形态的视觉-语言-动作统一建模26年5月来自qwen团队的论文“Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments”。
SXJR2 天前
java·网络·数据库·ai·语言模型
langchain4j是如何保证tools或者funcation call不出错的LangChain4j 从事前约束、事中校验、事后容错、循环保护、上层防护五层做全链路防错,覆盖模型幻觉、参数错误、工具执行异常、无限循环、非法输出所有场景。
lqqjuly2 天前
人工智能·语言模型·自然语言处理
语言模型理论与术语(LLM Theory & Terminology)
AndrewHZ2 天前
人工智能·深度学习·语言模型·大模型·llm·transformer·编解码技术
【LLM技术全景】Transformer架构深度解析:Encoder-Decoder全理解摘要:本文是《LLM技术全景》系列第三篇。Transformer是现代大语言模型的基石架构——从GPT到LLaMA,从BERT到ChatGPT,无一例外都基于Transformer。本文将深入解析Transformer的核心组件:Self-Attention(自注意力)机制、多头注意力、位置编码,以及Encoder和Decoder的完整结构。通过配图和代码示例,帮助读者建立对Transformer架构的直观理解。无论你是想理解GPT为何能生成文本,还是想搞懂BERT如何做文本分类,这篇文章都是你的必读基础
承渊政道2 天前
人工智能·pytorch·python·深度学习·机器学习·语言模型·自然语言处理
【从零开始大模型开发与微调:基于PyTorch与ChatGLM】(新时代的曙光之大模型与人工智能)在人工智能快速演进的今天,大语言模型已经从前沿研究逐渐走向真实业务场景,成为智能问答、内容生成、代码辅助、知识库检索等应用的核心能力.然而,对于许多开发者而言,大模型依然像一个"黑箱":我们知道它强大,却不一定清楚它是如何构建、如何训练,又该如何针对具体任务进行高效微调.本文将以"从零开始"为主线,围绕大模型开发与微调的完整流程展开,结合 PyTorch 的灵活深度学习能力与 ChatGLM 的中文大模型实践基础,带你一步步理解大模型背后的关键技术.从模型结构、数据处理、训练流程,到参数高效微调、推理部署
我爱cope2 天前
人工智能·语言模型·职场和发展
【Agent智能体17 | 工具使用-MCP协议】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
YueJoy.AI3 天前
人工智能·ai·语言模型
低算力场景下中小企业接入大模型的商业化路径"一个大模型API调用的推理成本比我们一天的服务器预算还高,怎么玩?"这是我去年给一家传统制造企业做AI咨询时,CTO当着全公司面问我的问题。他们想做一个智能维修助手,但预算只有每月5000块。市场上流行的方案动辄月均消耗两三万,确实让人望而却步。