语言模型

2401_841495641 天前
人工智能·python·gpt·深度学习·语言模型·自然语言处理·transformer
【自然语言处理】轻量版生成式语言模型GPT目录一、引言:轻量版GPT的设计目标与整体架构二、全局配置与工具函数的工程实现三、自定义BPE分词器的设计与实现
leafff1231 天前
人工智能·语言模型·自然语言处理
【大模型】多模态大语言模型(MLLMs):架构演进、能力评估与应用拓展的全面解析多模态大语言模型(MLLMs)作为人工智能领域的前沿技术,正在突破传统大语言模型的单一文本处理限制,实现对图像、音频、视频等多种模态数据的深度理解与生成。本文将从技术本质、架构设计、能力评估到应用场景与发展趋势,进行全面而深入的剖析,帮助您建立对这一技术的系统性认知框架。
开放知识图谱1 天前
人工智能·语言模型·自然语言处理·知识图谱
论文浅尝 | 图约束推理:在知识图谱上实现大语言模型的忠实推理(ICML2025)笔记整理:冯科华,浙江大学博士。研究方向为大语言模型、AI for Science论文链接:https://arxiv.org/pdf/2410.13080
oe10191 天前
人工智能·笔记·语言模型·agent
好文与笔记分享 A Survey of Context Engineering for Large Language Models(下)上下文工程系统的评估提出了前所未有的挑战,这些挑战超越了传统语言模型评估范式的范畴。这类系统展现出复杂的多组件架构,其动态的、上下文依赖的行为特性要求建立能够评估组件级诊断、基于任务的性能以及整体系统鲁棒性的综合评估框架。上下文工程组件的异构性——涵盖检索机制、记忆系统、推理链和多智能体协调等——需要能够同时捕捉单个组件效能和系统层面涌现行为的评估方法。
oe10191 天前
人工智能·笔记·语言模型·agent开发
好文与笔记分享 A Survey of Context Engineering for Large Language Models(中)在上下文工程的基础组件之上,本节探讨了将这些组件集成到实用智能架构中的复杂系统实现。这些实现代表了从理论框架到可部署系统的演进,这些系统利用上下文工程原理。每种实现都建立在基础组件之上,同时解决了上下文利用中的特定挑战,展示了理论原理如何转化为实用系统。
林九生1 天前
人工智能·语言模型·自然语言处理
【人工智能】使用 vLLM 高效部署大语言模型:以 secGpt14b 为例本文将带你从零开始了解如何使用 vLLM 在多 GPU 环境下快速部署大语言模型(例如 secGpt14b),并详细解释每个参数的含义与优化技巧。
十三画者1 天前
人工智能·语言模型·自然语言处理
【文献分享】DARKIN:基于蛋白质语言模型的零样本磷酸化位点与暗激酶关联基准测试蛋白质语言模型(pLMs)已成为捕捉蛋白质序列中复杂编码信息的强大工具,有助于各种下游蛋白质预测任务。随着众多 pLMs 的出现,迫切需要多样化的基准来系统地评估它们在生物相关任务中的表现。在此,我们介绍了 DARKIN,这是一个零样本分类基准,旨在将磷酸化位点分配给研究不足的激酶,即暗激酶。激酶通过催化磷酸化在细胞信号传导途径中发挥核心作用。虽然磷酸蛋白质组学能够大规模识别磷酸化位点,但确定负责磷酸化事件的同源激酶仍是一项实验挑战。
五条凪1 天前
开发语言·人工智能·算法·语言模型
Verilog-Eval-v1基准测试集搭建指南由于有在若干个服务器中搭建此项目的需求,因此记录下来完整的踩坑流程。直接使用git clone下载即可
喜欢吃豆2 天前
人工智能·语言模型·架构·大模型·llama·llama.cpp·gguf
掌握本地化大语言模型部署:llama.cpp 工作流与 GGUF 转换内核全面技术指南llama.cpp 不仅仅是一个软件工具,它更是一个关键的开源项目,其核心使命是推动大语言模型(LLM)的普及化。该项目秉持“CPU 优先”的设计哲学,通过精湛的 C++ 实现和底层优化,使得在没有昂贵高端图形处理单元(GPU)的消费级硬件上运行强大的语言模型成为可能。这一特性极大地降低了开发者、研究人员和技术爱好者探索和应用前沿人工智能技术的门槛,从而催生了一个活跃的本地化 AI 应用生态系统。
少林码僧2 天前
人工智能·ai·语言模型·自然语言处理·llm·1024程序员节
1.1 大语言模型调用方式与函数调用(Function Calling):从基础到实战在当今AI技术飞速发展的时代,大语言模型(LLM)已成为各行各业智能化转型的核心驱动力。然而,单纯的语言生成能力往往无法满足复杂的业务需求,这时函数调用(Function Calling)技术就显得尤为重要。本文将深入探讨主流大语言模型的调用方式,特别是函数调用技术的原理与实践,帮助开发者构建更加智能和实用的AI应用。
oe10192 天前
数据库·笔记·语言模型·agent·上下文工程
好文与笔记分享 A Survey of Context Engineering for Large Language Models(上)随着大语言模型从简单的指令跟随系统演变为复杂多面应用的核心推理引擎,与之交互的方法也必须同步演进。"提示工程"这一术语虽然具有基础意义,但已不足以涵盖现代AI系统所需信息载荷的设计、管理和优化的全部范畴。这些系统并非基于单个静态文本字符串运行,而是利用动态化、结构化、多层面的信息流。为此,我们引入并正式提出语境工程这一学科体系。
亚里随笔2 天前
人工智能·语言模型·自然语言处理·llm·agentic
AsyPPO_ 轻量级mini-critics如何提升大语言模型推理能力大型语言模型强化学习训练面临计算瓶颈,传统对称actor-critic架构导致critic模型参数量巨大,训练成本高昂。本文介绍的Asymmetric Proximal Policy Optimization (AsyPPO)算法通过创新的非对称架构设计,使用轻量级mini-critics组合实现高效价值估计,在保持性能的同时显著降低计算开销。实验表明,该方法在多个数学推理基准上平均提升超过3%准确率,训练内存占用减少20%,每步训练时间缩短约20秒。
coding_ksy2 天前
人工智能·语言模型
基于启发式的多模态风险分布越狱攻击,针对多模态大型语言模型(ICCV 2025) - 论文阅读和解析作者团队由来自多个知名学术机构和公司(如中山大学、浙江大学、南洋理工大学、阿里巴巴等)的研究人员组成,涵盖了区块链、数据安全、人工智能等多个研究领域。
HPC_C2 天前
人工智能·语言模型·自然语言处理
Efficient Memory Management for Large Language Model with PagedAttentionThis paper porposed PagedAttention Algorithm, inspired by paging technique in OS.It can improve 2~4x memory throughput.
渡我白衣2 天前
java·开发语言·c++·人工智能·深度学习·语言模型
C++世界的混沌边界:undefined_behavior写在前面:这是一篇面向中高级 C++ 开发者的长文。我希望它像朋友之间的长谈——不装腔作势,也不流于枯燥。我们会从概念出发,穿插真实例子、调试技巧、工具链实践,以及在工程中如何防守这片危险地带。
iNBC3 天前
人工智能·语言模型·prompt
AI基础概念-第一部分:核心名词与定义(一)📅 创建日期:2025年10月 🎯 适合人群:AI初学者、想了解Agent开发的开发者通俗理解:就像一个能自己思考、做决策的智能助手。比如你让它"帮我订一张机票",它不仅能理解你的需求,还能自己规划步骤:搜索航班→比较价格→选择合适的→完成预订。
wechat_Neal3 天前
人工智能·语言模型·自然语言处理
AI革新汽车安全软件开发由于日益增长的系统复杂性和严格的监管要求,开发安全关键的汽车软件面临着重大挑战。一种将生成式人工智能集成到软件开发生命周期中的新颖框架被介绍,该框架使用大语言模型自动化生成诸如C++等语言的代码,并融入以安全为重点的实践,如静态验证、测试驱动开发和迭代优化。一个反馈驱动的流程确保了测试、仿真和验证的集成,以符合安全标准。该框架通过开发一个自适应巡航控制系统进行了验证。对大语言模型的比较基准测试确保了在准确性和可靠性方面选择最佳模型。结果表明,该框架能够实现自动代码生成,同时确保符合安全关键要求,系统地将生
努力犯错3 天前
人工智能·计算机视觉·语言模型·开源·音视频
Google Veo 3.1 提示词生成器:让 AI 视频创作效率翻倍的免费工具2025年10月,Google 发布了 Veo 3.1,这款 AI 视频生成模型在业界引起了广泛关注。相比前代 Veo 3,新版本带来了更丰富的原生音频、更强的叙事控制能力,以及增强的图像转视频功能。
IvanCodes3 天前
人工智能·语言模型·langchain·llm
一、初识 LangChain:架构、应用与开发环境部署随着大型语言模型技术的飞速发展,如何高效地构建基于这些强大模型的复杂、可交互的应用,成为了开发者的核心挑战。LangChain应运而生,它不仅仅是一个简单的 API 封装,而是一个功能强大的开源框架,旨在简化和加速 LLM 驱动的应用程序的开发。
hesorchen3 天前
人工智能·语言模型·自然语言处理
算力与数据驱动的 AI 技术演进全景(1999-2024):模型范式、Infra 数据、语言模型与多模态的关键突破梳理灵感来自于 开源一段论文探索之旅:模型范式、Infra和数据、语言、多模态的完整变迁史。1999年,英伟达发布首款图形处理器(GPU)GeForce 256(128MB显存、4条并行渲染流水线),彼时科技行业尚未察觉,这颗为PC游戏设计的芯片,将成为AI领域突破“寒冬”的关键。当时AI面临双重致命瓶颈: