LLMs App 技术栈与工作流实践-101

分享嘉宾：Dify AI 联合创始人兼产品 VP 延君晨

我是 Dify.AI 这款产品的联合创始人，今年 3 月初我们完成了产品定义，并于5月发布了开源 LLMOps 平台 Dify.AI。旨在帮助开发者专注于将想象力转化为实际落地的生成式 AI 应用并持续运营。

目前，Dify.AI 的 GitHub Star 数已经接近 10k，同时云端版上构建了超过 7 万个基于大模型的应用。

GitHub 地址：github.com/langgenius/...

今天我作为关注大模型落地应用的中间层从业者，想和大家共同探讨一下，基于 LLMs 打造生成式 AI 原生应用，可能会涉及到的技术栈和工作流的变化趋势，也非常期待可以给现场和线上观看直播的创新者们带来一些启发。

ChatGPT 上线至今刚好是 333 天，Dify.AI 上线至今 165 天，我们看到了什么，有哪些经常思考的问题？

应用创新有配方么？
工程落地有范式么？
协作模式有变化么？

你真的需要 1 万个 AI 助理吗？

首先，我注意到一个现象：今年大部分时候，用户和媒体关注的焦点都集中在模型层。确实大模型是这一轮生成式 AI 变革的核心，但是无论 ChatGPT 还是 Midjounry ，都是完成了初步的产品化，有了应用场景，才真正引爆了这个市场。所以基础设施虽然很重要，但成功的评判标准依然是应用层。

它山之石可以攻玉，从今年 9 月份 A16z 发布的一份全球生成式 AI 应用的流量分布，我想分享两个观察：

目前世界上可能有超过1万个各种各样的 AI 助理，但你能想象你未来和如此多的 AI 助理进行互动么？你的这些 AI 助理之间如何互动呢，毕竟人类的自然链接也存在邓巴数的限制。
对于企业，除了知识库问答和 AI 客服，还有哪些落地场景？从流量上看，图像生成是最主要的用例，所以大模型具备图像识别和文生图能力后，实际投产应该会有一波新的想象力释放，我们会密切关注 GPT-4v 的发布。

这周我们的 CTO 去参加了一个日本的 AI 展会，发现一个现象，就是在日本几乎没有公司去研究大模型，反而是有很多团队在研究大模型的投产落地。也确实在现场看到了比国内做得更细致、更落地的一些应用情景。

所以这个引发我的一个思考：一个技术，尤其是一个底层技术，它能否获得成功，其实还是要看应用层是不是蓬勃发展，应用层是不是取得一个良好的收入，来覆盖上游成本。

红色药丸还是蓝色药丸

这里我特别要指出右上角的那张图，其实和 AI 甚至和互联网都没有任何关系，而是电力从点解决方案走向系统解决方案的演进过程。所以同样作为基础技术，我们应该保持乐观，但是也同样需要创新和耐心。

我很喜欢的一部电影《黑客帝国》里有一个隐喻，反叛军领袖 Morpheus 向主角 Neo 提供了红色药丸和蓝色药丸之间的选择。你是选择红色药丸面对真实的残酷，还是面对蓝色药丸享受虚幻的梦境。

虽然电影里对未来的预测比较悲观，但有一点我非常认同，那就是 AI 的落地，需要从数字世界影响到真实的世界，才会有更多可能性。我觉得大家可以去跳出做一个简单助理的想法，去看看是不是有更多对真实世界产生影响的可能性，给用户一个选择红色还是蓝色药丸的一个机会。

红杉前段时间也发布了一份生成式 AI 第二篇章的报告，印证了这一点，我把里面的应用场景，按照语言模型到多模态，数字世界到真实世界做了分类，可以看到绝大部分方向都在朝着更多模态、更多对真实世界的影响发挥着作用。同时还有一个非常重要的观点，是千万不要忘记，这一轮 AI 技术变革是有一个前缀的，那就是生成式，在今年上半年，大多数团队也包括我们都在想办法克服大模型的幻觉问题，但却缺少了对于创意层面的思考。

而事实上有很多收入不错，ARR 超过百万美金的项目，其实大多都和创意生成有关。所以总结上面的一些观察，我认为一个生成式 AI 应用的落地，其实是有一些范式的，但并没有低垂的果实。

对于一个产品经理来讲，一个新产品的价值一定是要去减掉旧产品价值和替换成本的。 这也解释了目前 ToC 的场景相对容易做， ToB 则相对难一些，因为价值增量不够，替换成本很高。所以需要尽快实现价值交付，形成数据飞轮，进而和行业或者场景深入融合。

Generative AI 应用落地 = 价值交付 + 数据飞轮 + 行业匹配 + (交互创新) - 旧产品价值- 替换成本

Gen-AI Infra 正在逐渐形成共识

显然，对于创新者来说，同时兼顾这些，很难也没没有必要。那这个时候就引入了今天的第二个话题，我们可能需要一些中间件去帮助大家能快速完成价值交付或者应用构建。

我这里面有三点观察想跟大家分享，首先就是今年我们观察到基于大模型制作一些有趣的 Demo 是很容易的，但是要用大模型去直接生产一些应用其实是相对困难的。 其次就是有很多机会其实是发生在技术的扩散和转移中，最后就是我们现在的开发者其实还是很迫切需要一些工具或者技术栈。

对于中间层，今年我们看到的一个趋势如下图：

我们坚信所有的 AI 应用最终都需要部署和运维，因此我们注重成本控制、可用性监测和数据运营。所以 LLMOps 非常重要。但是，大家对 LLMOps 普遍存在两种理解：一种是偏向后端，即模型的运维，既延续了传统 MLOps 的理念，又专注于基于大型模型进行训练和推理等任务；另一种更偏向前端，核心在于 Prompt 工程和问题的编排，而与外部数据的接入等因素可能关系较小。我们的理解偏重于后者。

通过 Dify 编排的应用程序将能够像 Docker 容器一样，使用简单的声明性文件来运行并在不同环境中传播。这与当前的做法有很大不同。目前，包括 LangChain 在内的一些产品都采用硬编码的方式，用传统的代码来管理大型模型的各种功能，以解决问题。我们相信这个设计上的差异将是我们与其他产品之间的最大不同之处，我们坚信这个理念是可行的。

同时我们认为真正的 Ops 过程，需要大多数人都可以参与，并且该运营基于线上反馈数据来不断改进应用程序。所以说 Dify 非常重视用户体验，希望降低产品在业务和技术人员协作过程中的门槛。

Dify LLMs App Stack

如果从技术栈的角度去理解如何构建应用，可以参照 Dify 的架构：

如果你拿到一个大模型的 API，那下一步你要做什么呢？你可能需要一些数据的导入，可能需要一些 RAG 的工程，同时也需要地方把提示词、数据、工具等进行编排，然后通过 APIs 或 Agents 对外提供服务。

因为 RAG 可以较低成本的实现 AI 客服和知识库问答等场景，所以从今年7月份以来越来越多人关注，也能找到很多介绍，今天就直接说问题吧。

首先就是命中率依然存在天花板，我们即将上线的新版本会有一个非常大的提升，但依然需要多个环节同步优化，并在实际场景中运行获得真实反馈。其次目前对结构化的数据进行 RAG 是买椟还珠的行为，应当通过 APIs 直接获取结构化的数据，这个能力在 Dify 上已经可以实现。最后就是 RAG 继续研究和探索的价值还是有的，因为模型技术本身即使实现超长的上下文，也依然面对性能和成本的问题。

我们塑造了 AI，尔后 AI 也在塑造我们

从传统的软件工程，到 AI 1.0 时代，到如今，其实我们的工作方式和协作方式一直在发生演进和变化。

提示词工程或者说 AI Chain 工程已然兴起，只不过分布不均而已。为了应对协作模式的变化，AI 时代的敏捷开发也在呼唤 AI 时代的协作工具，姑且称之为 LLMOps 吧。

开发人员和业务人员的隔离以前是由产品经理来作为中间人的。未来是提示词工程师来作为中间人？还是业务人员可以直接和研发人员协作？提示工程也需要一个全新的岗位和一个全新的工作流。

在大模型和快速变化的市场中，团队需要成为学习型组织，积极吸收和处理大量信息，并将其整合到产品开发中。这对于应对不断变化的市场需求非常关键。

另外就是从创业组织的形式来说的话，大家也会发现一个明显的趋势是现在的 AI 创业公司规模更小，速度更快，不需要太多的融资，也更特立独行。

我们也看到了一些不到 10 个人的创新团队做出来的产品，虽然并没有非常大的用户基数，但是现在用户对于交付价值的产品付费意愿比较强，也获得了很好的收入情况。

Stack & Workflow 101 变成了 101 Questions？

回到最开始的三个问题，你还记得么？你有答案了么？

我简单总结一下：

应用创新可能有配方，那就是旧的积累 + 新的技术 + 独特的情景，但是请记住这不是平均的机会，也没有低垂的果实。中国的团队在打磨产品上投入是不足的。
工程落地是否有范式？在目前的模型技术下，已经在形成共识了，优秀的中间件可以加速工程落地，但模型技术和应用场景依然处于快速变化的阶段。
我今天讲了一些提示词工程师参与协作的理念，但没有说的是在未来，可能还需要研究人类和 AI 互信协作的模式， 分布不均也是事实，绝大多数组织中还没有适应 AI 2.0 时代的创新形式。

那今天其实我讲的虽然是一个 Stack & Workflow 的入门课 101，但后来发现变成了 101 Questions。

我觉得这也是好事情，当共识形成的时候，其实没有太多创新者的机会，我们团队在创业的过程中也会纠结于沿着共识走向深水区，还是去寻找非共识的领域尝试颠覆式创新。

经常有人问我产品怎么念，其实 Dify 一词源自 Define + Modify，意指"定义并且持续的改进你的 AI 应用"，代表了帮助开发人员不断改进其 AI 应用程序的愿景。

Dify 也可以理解为 "Do it for you"。

你真的需要 1 万个 AI 助理吗？｜稀土掘金创新论坛回顾