白海科技

AI 系统架构的演进：LLM → RAG → AI Workflow → AI Agent编者按：当前 AI 系统建设中的一大痛点是：盲目追求先进技术而忽视业务实际需求，导致系统过度复杂、成本高昂、可靠性差。许多团队在 Agent 热潮中迷失方向，不知道何时该用简单的 LLM，何时需要 RAG，什么场景下才真正需要智能体。

“一代更比一代强”：现代 RAG 架构的演进之路编者按：我们今天为大家带来的文章，作者的观点是：RAG 技术的演进是一个从简单到复杂、从 Naive 到 Agentic 的系统性优化过程，每一次优化都是在试图解决无数企业落地大语言模型应用时出现的痛点问题。

机械鹦鹉与真正的智能：大语言模型推理能力的迷思编者按：大语言模型真的具备推理能力吗？我们是否误解了"智能"的本质，将模式匹配误认为是真正的推理？本文深入探讨了大语言模型（LLMs）是否真正具备推理能力这一前沿科学问题，作者的核心观点是：LLMs 本质上是高级的模式识别机器，而非真正具备逻辑推理能力。

理性看待、正确理解 AI 中的 Scaling “laws”编者按：LLMs 规模和性能的不断提升，让人们不禁产生疑问：这种趋势是否能一直持续下去？我们是否能通过不断扩大模型规模最终实现通用人工智能（AGI）？回答这些问题对于理解 AI 的未来发展轨迹至关重要。

汽车长翅膀：GPU 是如何加速深度学习模型的训练和推理过程的？编者按：深度学习的飞速发展离不开硬件技术的突破，而 GPU 的崛起无疑是其中最大的推力之一。但你是否曾好奇过，为何一行简单的“.to(‘cuda’)”代码就能让模型的训练速度突飞猛进？本文正是为解答这个疑问而作。

Llama-2 vs. Llama-3：利用微型基准测试（井字游戏）评估大模型编者按：如何更好地评估和比较不同版本的大语言模型？传统的学术基准测试固然重要，但往往难以全面反映模型在实际应用场景中的表现。在此背景下，本文作者别出心裁，通过让 Llama-2 和 Llama-3 模型进行井字游戏对决，为我们提供了一个新颖而有趣的模型评估视角。

高质量数据不够用，合成数据是打开 AGI 大门的金钥匙吗？编者按：人工智能技术的发展离不开高质量数据的支持。然而，现有可用的高质量数据资源已日渐接近枯竭边缘。如何解决训练数据短缺的问题，是当前人工智能领域亟待解决的一个较为棘手的问题。

提示词优化的自动化探索：Automated Prompt Engineering编者按：作者在尝试教授母亲使用 LLM 完成工作任务时，意识到提示词的优化并不像想象中简单。提示词的自动优化对于经验并不丰富的提示词撰写者很有价值，他们没有足够的经验去调整和改进提供给模型的提示词，这引发了对自动化提示词优化工具的进一步探索。

Advanced RAG 04：重排序（Re-ranking）技术探讨编者按：重排序（Re-ranking）技术在检索增强生成（Retrieval Augmented Generation，RAG）系统中扮演着关键角色。通过对检索到的上下文进行筛选和排序，可以提高 RAG 系统的有效性和准确性，为最终的结果生成提供更精准的信息。

LLM 推理优化探微 (4) ：模型性能瓶颈分类及优化策略编者按：在人工智能浪潮袭卷全球的大背景下，进一步提升人工智能模型性能，满足更多应用需求已经刻不容缓。如何优化模型延迟和吞吐量，成为了业界亟待解决的重要问题。

LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解编者按：随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维度全面剖析 Transformer 大语言模型的推理过程，以期帮助读者对这个技术难点建立系统的理解，并在实践中做出正确的模型服务部署决策。

LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？编者按：随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维度全面剖析 Transformer 大语言模型的推理过程，以期帮助读者对这个技术难点建立系统的理解，并在实践中做出正确的模型服务部署决策。

LLM 模型融合实践指南：低成本构建高性能语言模型编者按：随着大语言模型技术的快速发展，模型融合成为一种低成本但高性能的模型构建新途径。本文作者 Maxime Labonne 利用 mergekit 库探索了四种模型融合方法：SLERP、TIES、DARE和passthrough。通过配置示例和案例分析，作者详细阐释了这些算法的原理及实践操作。

LoRA：语言模型微调的计算资源优化策略编者按：随着数据量和计算能力的增加，大模型的参数量也在不断增加，同时进行大模型微调的成本也变得越来越高。全参数微调需要大量的计算资源和时间，且在进行切换下游任务时代价高昂。

MoE模型性能还能更上一层楼？一次QLoRA微调实践编者按：最近，混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力，如何在此基础上进一步提升 MoE 模型的性能成为业界热点。

语言模型文本处理基石：Tokenizer简明概述编者按：近年来，人工智能技术飞速发展，尤其是大型语言模型的问世，让 AI 写作、聊天等能力有了质的飞跃。如何更好地理解和利用这些生成式 AI，成为许多开发者和用户关心的问题。

用好语言模型：temperature、top-p等核心参数解析编者按：我们如何才能更好地控制大模型的输出?本文将介绍几个关键参数，帮助读者更好地理解和运用 temperature、top-p、top-k、frequency penalty 和 presence penalty 等常见参数，以优化语言模型的生成效果。

轻松理解 Transformers (4) ：Decoder 和 Output 部分编者按：Transformers凭借其卓越的性能，已经成为自然语言处理领域的代表性模型架构。但是Transformers的内在机制却比较复杂，对许多读者来说可能还存在一定的难度。本系列对 Transformer各组件进行逐一剖析，我们可以更直观地理解这个模型架构的整体运行逻辑。本篇文章是《轻松理解Transformers》系列的最后一篇，主要介绍Transformer的Decoder和Output 部分。