语言模型

承渊政道2 小时前
人工智能·pytorch·python·深度学习·机器学习·语言模型·自然语言处理
【从零开始大模型开发与微调:基于PyTorch与ChatGLM】(新时代的曙光之大模型与人工智能)在人工智能快速演进的今天,大语言模型已经从前沿研究逐渐走向真实业务场景,成为智能问答、内容生成、代码辅助、知识库检索等应用的核心能力.然而,对于许多开发者而言,大模型依然像一个"黑箱":我们知道它强大,却不一定清楚它是如何构建、如何训练,又该如何针对具体任务进行高效微调.本文将以"从零开始"为主线,围绕大模型开发与微调的完整流程展开,结合 PyTorch 的灵活深度学习能力与 ChatGLM 的中文大模型实践基础,带你一步步理解大模型背后的关键技术.从模型结构、数据处理、训练流程,到参数高效微调、推理部署
我爱cope2 小时前
人工智能·语言模型·职场和发展
【Agent智能体17 | 工具使用-MCP协议】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
YueJoy.AI14 小时前
人工智能·ai·语言模型
低算力场景下中小企业接入大模型的商业化路径"一个大模型API调用的推理成本比我们一天的服务器预算还高,怎么玩?"这是我去年给一家传统制造企业做AI咨询时,CTO当着全公司面问我的问题。他们想做一个智能维修助手,但预算只有每月5000块。市场上流行的方案动辄月均消耗两三万,确实让人望而却步。
活跃的煤矿打工人16 小时前
人工智能·语言模型·gpu算力
【星海出品】大模型微调-Part-OneLoRA (Low-Rank Adaptation of Large Language Model) 大规模语言模型的低秩适应 低秩: 指矩阵的秩远小于其行数和列数,意味着数据中存在大量冗余信息 。
笑尘~Y17 小时前
语言模型
每日GitCode开源项目精选基于GitCode开源频道
头盔小妹18 小时前
人工智能·语言模型·自然语言处理
在本地调用大语言模型将模型下载到本地,方便调用。jinxia千问1.5-0.5B-Chat · 模型库下载好的文件移动到D盘的文件夹里,D:\AI_Model\Qwen1.5-0.5B-Chat。
weixin_4462608520 小时前
人工智能·语言模型·自然语言处理
分离性身份:语言模型代理缺乏声誉机制的基础论文来源: arXiv:2605.30169v1 提取时间: 2026-05-31Dissociative Identity (解离身份) 论文明确指出,语言模型(LM)代理在本质上是解离的 (Ontologically Dissociative)。由于 LM 代理具备模块化、流体化和可复制的架构,它们破坏了人类风格声誉机制(Reputation Systems)所需的基础假设。
星辰AI21 小时前
人工智能·ai·语言模型
告别翻译腔:用 AI Agent 自动化构建开源项目的多语言技术文档很多开源项目在国际化上栽了跟头。文档只有英文,中文社区贡献者望而却步。手动翻译不仅慢,而且容易丢失技术语境。
Hali_Botebie1 天前
人工智能·语言模型·自然语言处理
Infinity Instruct:扩展指令选择与综合以增强语言模型:推动开源指令数据集的发展大型语言模型(LLMs)在实际应用中展现出卓越的性能,然而,现有的开源指令数据集往往局限于数学或代码等狭窄领域,这限制了模型的泛化能力,并拉大了其与专有模型之间的差距。为弥合这一差距,我们推出了 Infinity-Instruct,这是一个高质量的指令数据集,旨在通过一个两阶段流程同时提升大语言模型的基础能力和聊天能力。在第一阶段,我们利用混合数据选择技术,从超过1亿条样本中筛选出740万条高质量的基础指令(InfInstruct-F-7.4M)。在第二阶段,我们经过指令选择、进化以及诊断性过滤这两个步骤
YueJoy.AI1 天前
人工智能·ai·语言模型
B端技术产品的核心指标体系搭建实战创业初期,我们团队做了一个面向研发团队的技术文档协作平台。上线两个月,注册用户3000+,但投资人问了一个让我哑口无言的问题:"你们的DAU为什么涨不动?"
YueJoy.AI1 天前
人工智能·ai·语言模型
数据埋点驱动的高并发产品转化率分析实战去年我在负责一款B端项目管理SaaS的架构重构时,遇到一个令人头疼的问题:产品团队日活已经冲到5万+,但需求拆解模块的转化率始终徘徊在12%左右。管理层拍桌子问"用户到底卡在哪一步",我们却拿不出量化数据。
星辰AI1 天前
人工智能·ai·语言模型
拒绝带病上线:在 GitHub Actions 中自动探测并阻断依赖库逻辑漏洞生产环境最怕什么?不是高并发,而是引入了一个看似无害、实则藏有逻辑炸弹的第三方库。上周凌晨三点,我还在处理线上订单系统的异常。排查半天发现,是某个常用的支付 SDK 在特定退款逻辑下会触发死锁。昨晚调试这个模块时,我的金毛“Bug”正好在旁边咬它的球,这让我想到了这个异步任务的处理——如果不加限制,它就像那只咬球不放的狗,永远停不下来。
YueJoy.AI1 天前
人工智能·ai·语言模型
敏捷需求优先级矩阵驱动迭代规划创业早期,我最怕的环节就是排迭代需求。产品同学说"用户反馈这个体验问题必须修",销售说"大客户丢了个必改需求",技术说"再不重构就撑不住了"——所有人都有道理,但两周迭代只能做5个需求,该听谁的?
YueJoy.AI1 天前
人工智能·ai·语言模型
非结构化业务中AI创业原型系统的极速交付"你们的AI产品能做什么?能给个demo看看吗?"几乎所有AI创业者都会被问到这句话。但当你面对的是法律合同审核、医疗影像报告、工程图纸解析这类非结构化业务时,做一个能看能用的Demo远比想象中难。
星辰AI1 天前
人工智能·ai·语言模型
拒绝“祖传屎山”:用 Git Rebase 重构 Apache/GPL 许可证冲突的分支管理上周处理一个企业级中间件项目时,我遇到了一个棘手的问题。核心模块引入了 Apache 2.0 协议的库,而边缘业务层却不小心引用了 GPL 协议的依赖。
东方佑1 天前
神经网络·语言模型
推理芯片设计实验报告基于 sympy + CMOS 门级建模, 从最小译码器一路推演到 27B LLM 推理芯片规模估算目标: 从最基础的门电路出发, 用 sympy 的 SOPform 工具验证 CMOS 数字电路设计的"晶体管数估算"方法, 并把这一思路逐级扩展, 最终用于 27B 参数 LLM 推理芯片的规模与速度估算。
星辰AI1 天前
人工智能·ai·语言模型
拒绝重复造轮子:用 LLM 重构开源 Issue 摘要自动化流水线维护开源项目最头疼的不是写代码,而是处理 Issue。每天几十条新反馈,大部分是重复的环境配置问题,或者是拼写错误。人工筛选这些噪音,效率极低。
海兰1 天前
人工智能·游戏·语言模型
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏最后一篇放出程序和源码,敬请期待。这是一款基于 Web 的回合制策略/叙事游戏,面向中文玩家群体。游戏设定在三国的虚构历史分支中,玩家需要在政治、军事、外交、占星等多个维度进行决策,每个选择都将影响世界走向。
yuanyuan2o22 天前
算法·ai·语言模型·自然语言处理·nlp·深度优先
模型预训练:Hugging Face Transformers 基础0. 环境安装1. Pipeline2. Tokenizer3. Model4. Config5. Datasets
星辰AI2 天前
人工智能·ai·语言模型
多模态记忆:让 AI Agent 记忆各种类型的信息多模态记忆是指让 AI Agent 能够记忆和理解多种类型的信息,包括文本、图像、音频等。这能显著提升 Agent 的能力。