语言模型

我爱cope11 分钟前
人工智能·语言模型·职场和发展
【Agent智能体18 | 构建AI工作流的技巧-评估】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
MartinYeung51 小时前
人工智能·学习·语言模型
[论文学习]使用使用者层级差分隐私(User-Level DP)微调大型语言模型(LLM)Fine-tuning LLMs with User-level Differential Privacy (Google Research, 2025)
jeffer_liu1 小时前
java·人工智能·spring boot·后端·spring·语言模型·ai编程
Spring AI 生产级实战:模型选择在做 AI 应用时,很多团队容易一开始就纠结:到底用哪个大模型? 用 OpenAI、通义、智谱、DeepSeek,还是本地 Ollama? Chat 模型、Embedding 模型、图像模型、语音模型有什么区别? 是不是一个大模型就能解决所有问题?
东方佑2 小时前
人工智能·语言模型·自然语言处理
WDLM-Turbo:为什么纯实数神经波动力学语言模型可行?——从薛定谔方程到离散序列建模的深层动机与原理分析WDLM-Turbo(Wave Dynamics Language Model)提出了一种全新的语言模型架构:它完全摒弃了传统的注意力机制与复数运算,而是用一种纯实数的“神经波”演化来建模离散符号序列。该模型将每个 token 映射为高维实向量,并在实数域内模拟波的传播、干涉与非线性混合。本文从物理直觉、数学结构与信息传播三个层面,系统性地回答了“WDLM 为何能够工作”这一核心问题。我们将展示,WDLM 的设计并非随意拼凑,而是与非线性薛定谔方程、KdV
z小猫不吃鱼2 小时前
人工智能·语言模型·自然语言处理
09 语言模型训练目标:MLM、CLM、Seq2Seq LM 有什么区别?在前面的文章中,我们已经讲过 Transformer Encoder、Transformer Decoder、以及位置编码等核心内容。
qxq_sunshine3 小时前
人工智能·gpt·语言模型
千问(Qwen)模型Linux部署操作手册基于实际环境:Ubuntu 22.04 + 双 RTX 4090 + llama.cpp + Qwen GGUF 模型
兰令水3 小时前
python·语言模型
【helloagent】第四章 agent范式总结+面经在大模型对话中,messages 数组的每个元素都是一个对象,其中 role 字段是其核心。不同的 role 承担着不同的功能,共同构建了完整的对话上下文。
硅谷秋水21 小时前
大数据·人工智能·深度学习·机器学习·语言模型
SkillOpt:自演化智体技能的执行策略26年5月来自微软、上海交大、同济大学和复旦的论文“SkillOpt: Executive Strategy for Self-Evolving Agent Skills”。
硅谷秋水1 天前
人工智能·深度学习·算法·计算机视觉·语言模型·机器人
Qwen-VLA:跨任务、环境与机器人形态的视觉-语言-动作统一建模26年5月来自qwen团队的论文“Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments”。
SXJR1 天前
java·网络·数据库·ai·语言模型
langchain4j是如何保证tools或者funcation call不出错的LangChain4j 从事前约束、事中校验、事后容错、循环保护、上层防护五层做全链路防错,覆盖模型幻觉、参数错误、工具执行异常、无限循环、非法输出所有场景。
lqqjuly1 天前
人工智能·语言模型·自然语言处理
语言模型理论与术语(LLM Theory & Terminology)
AndrewHZ1 天前
人工智能·深度学习·语言模型·大模型·llm·transformer·编解码技术
【LLM技术全景】Transformer架构深度解析:Encoder-Decoder全理解摘要:本文是《LLM技术全景》系列第三篇。Transformer是现代大语言模型的基石架构——从GPT到LLaMA,从BERT到ChatGPT,无一例外都基于Transformer。本文将深入解析Transformer的核心组件:Self-Attention(自注意力)机制、多头注意力、位置编码,以及Encoder和Decoder的完整结构。通过配图和代码示例,帮助读者建立对Transformer架构的直观理解。无论你是想理解GPT为何能生成文本,还是想搞懂BERT如何做文本分类,这篇文章都是你的必读基础
承渊政道1 天前
人工智能·pytorch·python·深度学习·机器学习·语言模型·自然语言处理
【从零开始大模型开发与微调:基于PyTorch与ChatGLM】(新时代的曙光之大模型与人工智能)在人工智能快速演进的今天,大语言模型已经从前沿研究逐渐走向真实业务场景,成为智能问答、内容生成、代码辅助、知识库检索等应用的核心能力.然而,对于许多开发者而言,大模型依然像一个"黑箱":我们知道它强大,却不一定清楚它是如何构建、如何训练,又该如何针对具体任务进行高效微调.本文将以"从零开始"为主线,围绕大模型开发与微调的完整流程展开,结合 PyTorch 的灵活深度学习能力与 ChatGLM 的中文大模型实践基础,带你一步步理解大模型背后的关键技术.从模型结构、数据处理、训练流程,到参数高效微调、推理部署
我爱cope1 天前
人工智能·语言模型·职场和发展
【Agent智能体17 | 工具使用-MCP协议】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
YueJoy.AI2 天前
人工智能·ai·语言模型
低算力场景下中小企业接入大模型的商业化路径"一个大模型API调用的推理成本比我们一天的服务器预算还高,怎么玩?"这是我去年给一家传统制造企业做AI咨询时,CTO当着全公司面问我的问题。他们想做一个智能维修助手,但预算只有每月5000块。市场上流行的方案动辄月均消耗两三万,确实让人望而却步。
活跃的煤矿打工人2 天前
人工智能·语言模型·gpu算力
【星海出品】大模型微调-Part-OneLoRA (Low-Rank Adaptation of Large Language Model) 大规模语言模型的低秩适应 低秩: 指矩阵的秩远小于其行数和列数,意味着数据中存在大量冗余信息 。
笑尘~Y2 天前
语言模型
每日GitCode开源项目精选基于GitCode开源频道
头盔小妹2 天前
人工智能·语言模型·自然语言处理
在本地调用大语言模型将模型下载到本地,方便调用。jinxia千问1.5-0.5B-Chat · 模型库下载好的文件移动到D盘的文件夹里,D:\AI_Model\Qwen1.5-0.5B-Chat。
weixin_446260852 天前
人工智能·语言模型·自然语言处理
分离性身份:语言模型代理缺乏声誉机制的基础论文来源: arXiv:2605.30169v1 提取时间: 2026-05-31Dissociative Identity (解离身份) 论文明确指出,语言模型(LM)代理在本质上是解离的 (Ontologically Dissociative)。由于 LM 代理具备模块化、流体化和可复制的架构,它们破坏了人类风格声誉机制(Reputation Systems)所需的基础假设。
星辰AI2 天前
人工智能·ai·语言模型
告别翻译腔:用 AI Agent 自动化构建开源项目的多语言技术文档很多开源项目在国际化上栽了跟头。文档只有英文,中文社区贡献者望而却步。手动翻译不仅慢,而且容易丢失技术语境。