大语言模型

2401_841495641 小时前
人工智能·深度学习·机器学习·自然语言处理·大语言模型·moe·混合专家模型
MoE算法深度解析:从理论架构到行业实践目录一、引言二、MoE算法的基础理论三、MoE算法的核心架构设计(一)专家网络的专业化分工(二)门控网络的动态路由机制
only-code5 小时前
人工智能·大语言模型·ai检测·文本检测
SeqXGPT:Sentence-Level AI-Generated Text Detection —— 把大模型的“波形”变成测谎仪标题:  SeqXGPT: Sentence-Level AI-Generated Text Detection
黑客思维者2 天前
大语言模型·自然语言
大语言模型对人类语言理解的模拟在人工智能技术飞速发展的当下,大语言模型(LLMs)已成为重塑人类语言交互方式的核心力量。它不仅在技术架构层面构建了模拟人类语言理解的复杂机制,更在认知层面不断逼近人类语言处理能力,甚至深刻改变了人类自身的语言理解模式。
OpenBayes3 天前
人工智能·深度学习·机器学习·ocr·大语言模型·文本处理·deepseek
教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA众所周知,大语言模型在处理千字、万字或是更长文本时,计算量往往急剧增加,甚至直接导致算力的「烧钱」游戏,也因此制约了 LLM 在处理高密度文本信息场景中的效率边界。
Stara05115 天前
ubuntu·lora·大语言模型·模型微调·qlora·llama-factory·实践指南
Ubuntu环境中LLaMA Factory 的部署与配置—构建大语言模型微调平台什么是LLaMA-Factory? LLaMA-Factory,全称Large Language Model Factory,即大型语言模型工厂。它支持 多种预训练模型和微调算法 ,提供了一套完整的工具和接口,使得用户能够轻松地对 预训练的模型进行定制化的训练和调整,以适应特定的应用场景,如智能客服、语音识别、机器翻译 等。
deephub5 天前
人工智能·大语言模型·agent
AI智能体落地:Agent-Assist vs 全自动化完整决策指南今年开始LLM驱动的Agentic AI发展速度非常惊人。而我们现在面临一个实际问题:到底是上全自主的AI智能体,还是让人类继续参与决策?从大量实际案例来看Agent-Assist(也就是Human-in-the-Loop系统)既能带来自动化的效率提升,又能有效规避那些可能造成重大损失的错误。
九章云极AladdinEdu10 天前
大语言模型·语音合成·零样本语音克隆·spark-tts·bicodec·属性控制·voxbox数据集
论文分享 |Spark-TTS:用解耦语音令牌实现高效可控的语音合成Spark-TTS 是一项基于大语言模型的高效文本转语音系统,其核心创新在于提出了 BiCodec——一种将语音信号分解为语义令牌和全局令牌的单流语音编码器。这种解耦结构使得模型在保持高压缩率的同时,实现了对语音属性(如音高、语速、性别)的精细控制。结合预训练LLM(Qwen2.5)和思维链推理机制,Spark-TTS 不仅支持零样本语音克隆,还能根据属性标签生成全新语音,突破了传统TTS系统依赖参考音频的限制。
Wilber的技术分享11 天前
人工智能·笔记·llm·prompt·大语言模型·提示词工程
【大模型实战笔记 6】Prompt Engineering 提示词工程Prompt Engineering(提示词工程)是设计和优化输入提示(prompt)以获得预期输出的过程。在与大型语言模型(如ChatGPT、GPT-4)交互时,如何构造提示会显著影响模型的回答质量。
deephub13 天前
服务器·人工智能·python·大语言模型·mcp
FastMCP 入门:用 Python 快速搭建 MCP 服务器接入 LLMModel Context Protocol (MCP) 这个协议简单说就是给大语言模型接入外部数据和工具提供了一套标准化方案。MCP 统一了模型和各种数据源、工具服务之间的交互方式。
DO_Community13 天前
运维·服务器·人工智能·llm·大语言模型
裸金属 vs. 虚拟化 GPU 服务器:AI 训练与推理应该怎么选根据研究机构预测,全球人工智能市场规模在 2024 年的价值为 234.6 亿美元。预计该市场将从 2025 年的 2,941.6 亿美元增长到 2032 年的 1,7716.62 亿美元,在预测期间的复合年增长率为 29.2%。到 2030 年全球 AI 推理市场规模将达到 2549.8 亿美元,而推理任务将占据 数据中心整体计算需求的 70% 以上。
亚里随笔14 天前
人工智能·深度学习·自然语言处理·大语言模型·rlhf
ReSpec:突破RL训练瓶颈的推测解码优化系统随着大语言模型通过强化学习进行对齐训练的需求激增,生成阶段的计算瓶颈日益凸显。ReSpec系统首次系统性地解决了推测解码在RL训练中面临的三大关键挑战,通过自适应配置调整、动态drafter演化和奖励加权更新机制,在保持训练稳定性的同时实现了高达4.5倍的加速效果,为高效的RL-based LLM适应提供了实用解决方案。
DO_Community18 天前
人工智能·3d·开源·llm·aigc·大语言模型
利用腾讯开源 Hunyuan3D 2.1:在 DigitalOcean GPU Droplet 上快速搭建 3D 模型你是否曾幻想将脑海中的创意或精美的 2D 图像,瞬间转化为能在虚拟世界中使用的 3D 模型?在人工智能逐渐成为创意“引擎”的今天,我们见证了图像和视频生成模型(如 Flux、Hi-Dream、Wan 等)带来的巨大飞跃,它们让“所思即所得”成为可能。然而,对于渴望将这些概念带入游戏、动画、元宇宙或其他三维项目的创作者而言,“如何跨越 2D 到 3D 的鸿沟” 仍是一个巨大的挑战。
deephub18 天前
数据库·人工智能·sqlite·大语言模型·向量检索·智能体
构建有记忆的 AI Agent:SQLite 存储 + 向量检索完整方案示例现在的 Agent 系统有个很明显的问题 —— 会话一结束,什么都忘了。这不是个技术缺陷,但是却限制了整个系统的能力边界。Agent 可以做推理、规划、执行复杂任务,但就是记不住之前发生过什么。每次对话都像是第一次见面,这种状态下很难说它真正"理解"了什么。
deephub23 天前
人工智能·python·大语言模型·1024程序员节·vllm
vLLM 性能优化实战:批处理、量化与缓存配置方案很多团队把它vLLM 当 demo 跑,但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒,哪些参数真正有用,以及怎么在延迟和成本之间做取舍。
叶庭云23 天前
人工智能·大语言模型·hugging face·1024程序员节·llms·开源模型文件结构·deepseek-v3.1
一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/在当前 AI 技术讨论中经常提及 “大语言模型(Large Language Model,LLM)开源”,但它到底 “开” 出来什么?一个开源 LLM 究竟包含哪些核心组成部分?本文将介绍 DeepSeek-V3.1 模型文件由哪些部分组成,有助于理解大语言模型开源的具体内容和运行流程。
DO_Community25 天前
人工智能·开源·llm·大语言模型·qwen
普通服务器都能跑:深入了解 Qwen3-Next-80B-A3B-InstructAI 行业发展迅猛,各个模型都在超越模型规模和上下文长度的限制,以构建更智能、更强大的系统。阿里的 Qwen 团队凭借 Qwen3-Next 系列迈出了重要一步。最新的 Qwen 系列大语言模型引入了新的架构,可以实现更高的效率、更快的推理速度和更流畅的上下文处理。
文火冰糖的硅基工坊1 个月前
人工智能·大模型·大语言模型
[人工智能-大模型-15]:大模型典型产品对比 - 数字人以下是针对 “数字人”(Digital Human / Virtual Agent) 场景下的大模型典型产品深度对比分析。随着大语言模型、语音合成、3D建模和多模态技术的融合,数字人已从“形象展示”走向“智能交互”,广泛应用于客服、直播、教育、营销、政务等领域。
MJJ_1 个月前
大语言模型·读书笔记·ai学习
从零构建大模型 Build a large language model from scratch by Sebastian Raschka 阅读笔记Build a large language model from scratch by Sebastian Raschka 本书介绍了大模型三个阶段:准备数据、预训练、微调(分类、指令)适合有一些深度学习基础的人快速了解所谓的大语言模型是什么,要做什么事情,能做什么事情。同时提供了基于pytorch的代码,帮助新手理解和构建基础大模型的结构并训练。
deephub1 个月前
人工智能·python·大语言模型·rag
REFRAG技术详解:如何通过压缩让RAG处理速度提升30倍RAG(检索增强生成)现在基本成了处理长文档的标准流程,但是它问题也很明显:把检索到的所有文本段落统统塞进LLM,这样会导致token数量爆炸,处理速度慢不说,还费钱。
编程小白_正在努力中1 个月前
人工智能·大语言模型
大语言模型后训练:解锁潜能的关键路径在人工智能领域,大语言模型正逐渐成为推动技术进步的核心力量。然而,这些模型并非一经预训练就完美无缺。后训练,作为提升模型性能、适应特定任务的关键环节,正受到越来越多的关注。