大语言模型

deephub4 天前
人工智能·python·大语言模型·1024程序员节·vllm
vLLM 性能优化实战:批处理、量化与缓存配置方案很多团队把它vLLM 当 demo 跑,但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒,哪些参数真正有用,以及怎么在延迟和成本之间做取舍。
叶庭云4 天前
人工智能·大语言模型·hugging face·1024程序员节·llms·开源模型文件结构·deepseek-v3.1
一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/在当前 AI 技术讨论中经常提及 “大语言模型(Large Language Model,LLM)开源”,但它到底 “开” 出来什么?一个开源 LLM 究竟包含哪些核心组成部分?本文将介绍 DeepSeek-V3.1 模型文件由哪些部分组成,有助于理解大语言模型开源的具体内容和运行流程。
DO_Community7 天前
人工智能·开源·llm·大语言模型·qwen
普通服务器都能跑:深入了解 Qwen3-Next-80B-A3B-InstructAI 行业发展迅猛,各个模型都在超越模型规模和上下文长度的限制,以构建更智能、更强大的系统。阿里的 Qwen 团队凭借 Qwen3-Next 系列迈出了重要一步。最新的 Qwen 系列大语言模型引入了新的架构,可以实现更高的效率、更快的推理速度和更流畅的上下文处理。
文火冰糖的硅基工坊9 天前
人工智能·大模型·大语言模型
[人工智能-大模型-15]:大模型典型产品对比 - 数字人以下是针对 “数字人”(Digital Human / Virtual Agent) 场景下的大模型典型产品深度对比分析。随着大语言模型、语音合成、3D建模和多模态技术的融合,数字人已从“形象展示”走向“智能交互”,广泛应用于客服、直播、教育、营销、政务等领域。
MJJ_10 天前
大语言模型·读书笔记·ai学习
从零构建大模型 Build a large language model from scratch by Sebastian Raschka 阅读笔记Build a large language model from scratch by Sebastian Raschka 本书介绍了大模型三个阶段:准备数据、预训练、微调(分类、指令)适合有一些深度学习基础的人快速了解所谓的大语言模型是什么,要做什么事情,能做什么事情。同时提供了基于pytorch的代码,帮助新手理解和构建基础大模型的结构并训练。
deephub12 天前
人工智能·python·大语言模型·rag
REFRAG技术详解:如何通过压缩让RAG处理速度提升30倍RAG(检索增强生成)现在基本成了处理长文档的标准流程,但是它问题也很明显:把检索到的所有文本段落统统塞进LLM,这样会导致token数量爆炸,处理速度慢不说,还费钱。
编程小白_正在努力中12 天前
人工智能·大语言模型
大语言模型后训练:解锁潜能的关键路径在人工智能领域,大语言模型正逐渐成为推动技术进步的核心力量。然而,这些模型并非一经预训练就完美无缺。后训练,作为提升模型性能、适应特定任务的关键环节,正受到越来越多的关注。
MJJ_14 天前
大语言模型
Deep Dive into LLMs like ChatGPT 学习笔记视频链接 https://www.youtube.com/watch?v=7xTGNNLPyMI 要点:虽然名字是deep dive,但是属于帮助入门理解大模型。
许泽宇的技术分享15 天前
chatgpt·transformer·大语言模型·nanochat
百刀打造ChatGPT:nanochat极简LLM全栈实现深度解析当ChatGPT横空出世,无数开发者在惊叹其强大能力的同时,也被其天文数字般的训练成本所震慑。动辄上千万美元的算力投入,让大模型训练成为了科技巨头的专利。但如果我告诉你,只需100美元,你就能从零开始训练一个属于自己的ChatGPT,你会相信吗?
丁学文武15 天前
人工智能·语言模型·自然语言处理·大语言模型·大模型应用·预制菜
大语言模型(LLM)是“预制菜”? 从应用到底层原理,在到中央厨房的深度解析大语言模型(LLM)的出现,就像是软件开发领域的一场"产业升级"。如果你经常在技术社群里活动,一定听过这样的类比:LLM就是"预制菜"。
2401_8414956418 天前
gpt·语言模型·自然语言处理·bert·transformer·大语言模型·预训练
预训练基础模型简介目录一、引言二、预训练和微调艺术基础 —— 预训练目标三、 Transformer 模型架构和自注意力
神奇的代码在哪里21 天前
人工智能·大语言模型·pyside6·讯飞星火spark·spark lite
基于【讯飞星火 Spark Lite】轻量级大语言模型的【PySide6应用】开发与实践背景:之前博主使用PySide6开发了一个刷题复习软件实用刷题复习软件【单机版】 | 使用PySide6自制刷题软件【源码+解析】| 支持自定义excel题库。当前AI大模型火爆,可以借助AI在刷题复习软件中加入AI分析作答功能,提升刷题体验,更好的理解题目背后的逻辑和原理,同时也可以了解一下当前AI开放平台的开发过程。进行了一系列搜索后,决定还是使用免费、比较权威一点的AI大模型平台讯飞星火来完成这项研究工作。这里先放结果测试图,大模型分析的答案还是挺厉害的。
镰刀韭菜24 天前
大语言模型·sas·3dsmiles-gpt·分子设计·基于序列的分子生成·基于骨架的分子生成·vina
【AI4S】3DSMILES-GPT:基于词元化语言模型的3D分子生成基于目标结构生成三维(3D)分子,是药物发现领域的一项前沿挑战。然而,目前许多现有方法往往会产生构型无效、不符合物理实际、药效不佳、合成难度大,且耗时较长的分子。为应对这些难题,我们提出了3DSMILES-GPT——一种完全由语言模型驱动的3D分子生成框架,该框架仅使用标记符进行操作。我们将二维(2D)和三维分子表示均视为语言表达形式,通过全维表示将其有机结合,并在包含数千万种类似药物分子的海量数据集上对模型进行预训练。这种纯标记符的方法使模型能够全面理解大规模分子的二维与三维特性。随后,我们利用蛋白质口
deephub24 天前
人工智能·深度学习·google·微调·大语言模型·jax
Google开源Tunix:JAX生态的LLM微调方案来了JAX生态这两年在LLM训练这块追赶得挺快。PyTorch虽然还是主流但JAX在并行计算、TPU加速和API组合性上确实有些独特的优势。Google今天放出了Tunix这个库,专门做LLM的后训练——微调、强化学习、知识蒸馏这些都能搞。
镰刀韭菜1 个月前
llm·transformer·大语言模型·药物设计·分子发现·chemchat·smiles
【AI4S】大语言模型与化学的未来,以及整合外部工具和聊天机器人的潜力虽然近年来技术创新和变革日新月异,从根本上改变了我们对生物化学过程的认识,但化学领域仍花费大量时间和金钱——"10 年 "和 “3000 亿”——将新产品推向市场。这是由于实验室实验的高失败率、化学探索的广阔空间以及包括意外发现在内的强大运气成分。常见的情况是,设计一种分子,设计一条合成路线,并根据各种理论花费大量时间进行合成,却发现无法实现预期功能。然后,经过反复实验,可以说是机缘巧合的发现促成了新产品的诞生,如药品。
镰刀韭菜1 个月前
大语言模型·ai4s·指令微调·chemllm·chemdata
【AI4S】ChemLLM:一种化学大型语言模型这篇文章主要介绍了大语言模型(LLMs)在近年来取得的迅速进展,并成功地应用于各个领域,包括自然语言处理、计算机视觉、自动驾驶和医学诊断等。由于它们令人印象深刻的理解和推理能力,它们在各种科学领域中显示出潜力。值得注意的是,LLMs已经被应用于与化学相关的任务,如分子性质预测、分子生成和实验协议设计等。这些工作展示了LLMs在为化学研究提供有洞察力的建议和解决方案方面的潜力。尽管之前已经尝试过将LLMs适应于各种化学下游任务,但这些LLMs并非专门针对化学而设计,它们对化学空间的理解不足,难以处理复杂的化
Bioinfo Guy1 个月前
人工智能·大语言模型·多组学
Genome Med|RAG-HPO做表型注释:学习一下大语言模型怎么作为发文思路今天给大家介绍一篇做工具的文章,教大家怎么去模仿这种思路产出自己的文章,结合大语言模型去写工具也是可以出文章的,不论是集成化的docker本地部署,或者缩减点做个shiny,甚至是开放源代码都是可以的。
charieli-fh1 个月前
人工智能·深度学习·大模型·大语言模型
LoRA 高效微调大语言模型全流程:从原理、实践到参数调优在大语言模型(LLM)的微调实践中,LoRA (Low-Rank Adaptation) 是解决高昂计算成本的核心技术。本文基于 Hugging Face 生态,提供了一套完整的 LoRA 微调 Seq2Seq 模型 (mt0-large) 的工作流。通过对比三组不同超参数配置的实验数据,文章重点分析了 目标模块 (target_modules) 和学习率 (learning_rate) 对模型推理质量的决定性影响,并给出了经过验证的优化配置。
测试者家园1 个月前
javascript·自动化测试·人工智能·大语言模型·智能化测试·软件开发和测试·midscene
Midscene.js为什么能通过大语言模型成功定位页面元素Midscene.js 能够通过大语言模型(LLM)成功定位页面元素并生成XPath路径,主要归功于其多模态理解能力、对网页结构的智能解析,以及将自然语言指令与界面视觉信息相结合的处理方式。下面我来为你解释它的工作原理、关键技术和优势。
贾全1 个月前
人工智能·负载均衡·大语言模型·路由·moe·多模态ai·门控
MoE 的“大脑”与“指挥官”:深入理解门控、路由与负载均衡在上一篇文章中,我们通过“专家委员会”的类比,对 Mixture of Experts (MoE) 建立了直观的认识。本文将深入 MoE 的技术心脏,详细拆解其三大核心机制:门控网络 (Gating Network)、路由算法 (Routing Algorithm) 和 负载均衡 (Load Balancing)。我们将从数学原理出发,逐步推导门控网络如何做出决策,探讨 Top-k 路由如何高效地分配任务,并解释为何负载均衡对于训练一个成功的 MoE 模型至关重要。最后,我们会通过一个 PyTorch 代