语言模型

亚里随笔7 小时前
人工智能·深度学习·机器学习·语言模型·llm·rlhf
突破性框架TRAPO:统一监督微调与强化学习的新范式,显著提升大语言模型推理能力大语言模型的后训练方法正迎来重大突破!清华大学与蚂蚁集团联合提出的TRAPO框架通过创新性地统一SFT与RL训练,在数学推理任务上实现了显著性能提升。该框架解决了传统两阶段训练中的根本性矛盾,通过Trust-Region SFT和自适应专家指导机制,实现了更稳定、更高效的模型训练,为推理增强型LLMs发展开辟了新道路。
雪花desu10 小时前
人工智能·深度学习·语言模型·chatgpt·langchain
深度解析RAG(检索增强生成)技术随着ChatGPT、文心一言等大语言模型(LLM)的爆发,AI的能力边界被不断拓宽。然而,当企业试图将这些“通才”模型应用到垂直领域或私有业务中时,往往会遭遇“水土不服”。
空白诗14 小时前
人工智能·ai·语言模型·npu
昇腾 NPU 落地 Llama3-8B:模型获取到数学解题推理的全流程实战对我这种小白来说,部署大模型最头疼的就是环境配置——之前本地折腾时,要么驱动装不对,要么依赖搞混,半天都没头绪。
艾醒(AiXing-w)14 小时前
人工智能·线性代数·语言模型·矩阵
大模型原理剖析——矩阵吸收优化:LLM推理加速的核心原理与实践矩阵吸收优化是针对Transformer架构大语言模型(LLM)的无精度损失推理加速技术,核心通过利用矩阵乘法结合律和模型参数的固定性,将冗余的在线矩阵乘法提前离线预计算,从而减少推理时的计算量、降低延迟。该技术尤其适用于自注意力机制的计算瓶颈优化,在不改变模型输出结果的前提下,可实现约1.7倍的推理速度提升,是LLM本地化部署、高并发API服务等场景的关键优化手段之一。
时光轻浅,半夏挽歌18 小时前
人工智能·语言模型·自然语言处理
小分子的语言模型MolT5的使用提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档这是MolT5的安装和embedding获取(gpu版)。
Coovally AI模型快速验证16 小时前
人工智能·计算机视觉·3d·语言模型·机器人·无人机
开放词汇3D实例分割新思路:框引导+超点融合,精准检索罕见物体定位并从场景级点云中检索物体是机器人技术和增强现实领域中一项具有广泛应用的挑战性问题。该任务通常被定义为开放词汇的三维实例分割。尽管现有方法表现出较强的性能,但它们严重依赖 SAM 和 CLIP 来生成和分类从点云所附图像中提取的三维实例掩码,导致巨大的计算开销和缓慢的处理速度,限制了其在实际应用中的部署。
破烂pan16 小时前
人工智能·游戏·语言模型
大语言模型在翻译领域的演进与游戏本地化应用分析当前大语言模型在翻译方向已形成三大主要产品形态:通用翻译工具、AI辅助本地化平台和垂直领域翻译解决方案。这些产品正经历从单一文本翻译向多模态理解与生成、从通用能力向专业领域适配、从云端服务向混合部署架构转变的技术演进。在游戏行业,LLM的应用已从传统的文本翻译扩展到NPC对话生成、关卡设计辅助、多语言客服系统等全流程场景,未来1-3年有望在实时多模态翻译、文化适配增强和边缘端部署三个方面实现突破性落地。
weixin_4462608516 小时前
人工智能·语言模型·自然语言处理
探索大语言模型:基础知识与应用指南在人工智能的浪潮中,大语言模型(LLM)逐渐成为了技术发展的热点。无论是科研、课程设计,还是学生的创新项目,掌握大语言模型的基本原理和应用技巧都显得尤为重要。为此,我们推荐一本极具价值的学习资料——《大模型基础》。这本书旨在系统性地讲解大语言模型的相关基础知识,并融入前沿技术的介绍,适合所有对这一领域感兴趣的读者。
弓.长.16 小时前
人工智能·机器学习·语言模型·架构
深入解析MoE架构:大模型高效训练的核心技术在人工智能快速发展的今天,大型语言模型的参数规模已从数亿增长到数万亿。2023年,GPT-4的参数数量据估计达到1.8万亿,而谷歌的PaLM模型更是达到了惊人的5400亿参数。这种规模的增长带来了前所未有的性能提升,但同时也带来了巨大的计算挑战。
WitsMakeMen18 小时前
人工智能·语言模型·自然语言处理
大语言模型在线推理过程大语言模型(如 Qwen3)的输出过程本质是基于自回归机制的逐 token 生成循环,从 “输入预处理” 到 “最终文本输出” 可拆解为「预处理→初始化→逐 token 生成→后处理」四大阶段,每个阶段都对应具体的张量计算、缓存更新和采样逻辑。以下结合 Qwen3 的实际推理流程,详细拆解输出的完整过程:
心疼你的一切19 小时前
目标检测·microsoft·机器学习·ai·语言模型·自然语言处理
多模态AI与视觉语言模型人类感知世界是多模态的:我们同时看到图像、听到声音、阅读文字、感受触觉。传统人工智能往往专注于单一模态——要么处理图像,要么理解文本。然而,真实世界的智能需要跨越感官的界限,实现视觉、语言、声音等多种信息的统一理解与生成。多模态AI正是这一方向的核心技术,CLIP、DALL-E、GPT-4V等模型的出现标志着我们进入了多模态智能的新时代。本文将深入解析多模态学习的原理、架构和应用,并通过实战代码帮助读者掌握这一前沿技术。
ytgytg2819 小时前
语言模型
Dify1.11.1+Ollama0.13.5安装说明系统:virtualbox虚拟机安装的centos stream 10系统。 网络:virtualbox采用 桥接模式,使虚拟机系统与宿主机一个ip段,方便测试
Lethehong20 小时前
人工智能·语言模型·sglang·昇腾npu
昇腾Atlas 800T平台下Qwen-14B大语言模型的SGLang适配与性能实测目录摘要引言一、GitCode Notebook 环境配置与 Qwen-14B 模型准备1.1 环境规格确认
Dragon水魅1 天前
人工智能·语言模型
使用 LLaMA Factory 微调一个 Qwen3-0.6B 猫娘古人云,铸万象言机,笼天地妙文,其本意所归,唯在猫娘而已。详见:https://blog.csdn.net/qq_43650934/article/details/148948282?spm=1001.2014.3001.5501
胡伯来了1 天前
人工智能·语言模型·自然语言处理
16 Transformers - 使用大语言模型NLP 是一个更广泛的领域,专注于使计算机能够理解、解释和生成人类语言。NLP 包含许多技术和任务,如情感分析、命名实体识别和机器翻译。
飞Link2 天前
论文阅读·人工智能·语言模型·自然语言处理
【论文笔记】A Survey on Data Synthesis and Augmentation for Large Language Models2024大型语言模型(LLM)的成功与否,本质上与用于训练和评估的海量、多样化和高质量数据的可用性息息相关。然而,高质量数据的增长速度明显落后于训练数据集的扩展速度,从而导致迫在眉睫的数据耗尽危机。这突显了提高数据效率和探索新数据来源的迫切需求。在此背景下,合成数据已成为一种有前景的解决方案。目前,数据生成主要包括两种主要方法:数据增强和合成。本文全面回顾并总结了LLM生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调整、偏好对齐和应用。此外,我们还讨论了这些方法目前面临的限制,并探讨了未来发展
汉克老师2 天前
人工智能·语言模型·自然语言处理·小学生0基础学习大语言模型
小学生0基础学大语言模型应用(第0课 课前准备)🎒 适合对象:编程 0 基础的小学生 🎯 本节目标:不学代码,只做一件事: 👉 让电脑准备好,迎接我们的第一行 Python 程序
喜欢吃豆2 天前
人工智能·语言模型·架构·moe
大语言模型混合专家(MoE)架构深度技术综述—— 理论前沿、系统工程与应用实践在人工智能的发展历程中,模型规模的扩张(Scaling)已被证实是提升模型性能、解锁涌现能力(Emergent Capabilities)的最有效途径之一。然而,随着模型规模突破千亿(100B+)大关,传统的稠密(Dense)Transformer 架构面临着边际效应递减的挑战。在此背景下,混合专家(Mixture-of-Experts, MoE) 架构作为一种“条件计算”范式,凭借其在扩大模型容量的同时保持计算成本可控的特性,成为了大模型领域的绝对核心技术。
雪花desu2 天前
人工智能·深度学习·神经网络·语言模型
大模型应用评估—— 从 BLEU 到 Agent 综合评价随着大语言模型(LLM)的应用形态从简单的文本生成进化为复杂的多轮对话机器人、检索增强生成(RAG)系统以及自主智能体(Agent),开发者面临着一个共同的难题:代码跑通了,但效果怎么测?