大模型
大模型的出现和落地开启了人工智能(AI)新一轮的信息技术革命,改变了人们的生 活方式、工作方式和思维方式。大模型的落地需要数据、算力和算法三大要素。经过几 年发展,大模型的数据集(包括多模态数据集)制作已经形成了规约,Meta、Google和百 度等人工智能公司都有自己的一套数据集标准制作流程。算力方面主要依托GPU、TPU 等硬件资源进行集群计算(即并行计算)。在算法方面,主要以Transformer架构为主流框 架,出现了 OpenAI 的 GPT 系列大模型、Meta 的 Llama 系列大模型以及清华大学的 ChatGLM 系列大模型。目前虽然已经有几千个甚至更多的大模型。
在这种背景下,在基础大模型基础上形成了微调和提示工程等新的技术范式。同时也出现了大模型应用落地的软件产品,如LangChain、Ollama、Chatbox、LM Studio、 AnythingLLM、LocalAI 和 MaxKB 等,主要用于大模型微调、部署、管理和应用服务 开发。这些产品各有特色,要根据自己的业务场景、业务需求和特色选择。
LangChain 由Harrison Chase 于2022 年创建,是一个开源Python 框架,用于构建大规模语言模型驱动的应用程序。它为开发人员提供模块化、易于使用的组件,用于将语言模型与外部数据源和服务连接起来。LangChain提供了一个完整的生态系统,为开发者带来了一系列核心模块和工具。
大规模语言模型的局限性
大规模语言模型已成为强大的工具,但其功能也有局限性。了解这些限制有助于有 效地设计和部署大规模语言模型。大规模语言模型面临以下几个问题。
● 知识过时:大规模语言模型完全依赖于训练数据,而这些数据可能已经过时。 大规模语言模型缺乏获取实时信息的途径,在回答有关时事的问题时会很吃力。 例如,向大规模语言模型询问最近的一则新闻会得到一个不知情的响应。
● 有限行动:大规模语言模型无法在现实世界中执行行动。它们不能搜索网络、 访问数据库或进行计算。这就限制了它们在需要与外部数据交互的任务中的作 用。试想一下,大规模语言模型在讨论金融时------它可以解释概念,但无法检 索实时股票数据来分析当前趋势。
● 偏见与公平:大规模语言模型可能会从训练数据中继承偏见。这些偏见可能是 宗教性的、意识形态的或政治性的,从而导致歧视性的输出。精心设计和监控 对于降低这些风险至关重要。例如,微软的Tay聊天机器人在2016年推出不久 后就下线了,原因是有毒性互动导致的攻击性推文。
● 成本和速度:由于对计算的要求,训练和运行大规模语言模型的成本可能很高。 此外,文本生成速度也会因模型大小和复杂程度而异。对于生产部署而言,仔 细考虑这些因素至关重要。
● 逻辑推理和数学:虽然大规模语言模型不断取得进步,但通常难以胜任复杂推 理或数学模型的任务。它们可能无法将多个事实结合起来,或进行以前从未遇 到过的计算。例如,大规模语言模型可能知道水果和水的密度,但却无法确定 水果是否会浮起来(这是一个多步骤的推理过程)。
如何减少大规模语言模型的局限性
大规模语言模型在推理、获取实时信息和避免偏见等方面可能存在不足。为了弥补 这些不足,可以采用循序渐进的方法,以下技术可以减少其局限性。
-
提示工程和微调:首先要精心设计提示(问题或指示),引导大规模语言模型实现 预期结果。这有助于大规模语言模型更好地理解任务和上下文。此外,在特定数据集上 进行微调可以进一步提高特定应用的性能。
-
自我任务提示:这种方法鼓励大规模语言模型将复杂的问题分解成更小、更容 易处理的步骤。通过向自己提出明确的问题,大规模语言模型可以找出相关信息,更有 条理地解决问题。
-
连接外部数据:大规模语言模型缺乏实时知识,可以将其与数据库或Web 搜索 API 等外部数据源集成。这样,大规模语言模型就能获取当前信息,提高响应的准确性。
-
过滤和监控:尽管采取了预防措施,但偏见和事实错误仍有可能漏网。实施过 滤器,如屏蔽列表、敏感度分类器和禁用词过滤器,可在输出之前捕捉到不适当或不准 确的输出。人工监控对于识别和解决新出现的问题也至关重要。
-
人工智能的宪法原则:将道德因素纳入开发过程。这包括将公平性和透明度纳 入大规模语言模型本身,使其行为符合人类价值观。 通过将这些策略结合起来,可以将大规模语言模型从随机鹦鹉转变为推理引擎,使 其能够进行更有意义的交互并输出负责任的结果。
像LangChain这样的框架通过提供一 种结构化的方法,将提示、数据源和过滤器结合起来,有效地使用大规模语言模型,从 而简化了这一过程。
《LangChain大模型应用开发》
本书围绕大模型、生成式人工智能、LangChain等主题,以理论、案例和近几年的 技术前沿为主线展开,以代码实现为途径,适合大模型应用开发、人工智能和大数据等 领域的学者和工程师阅读,也可以作为非计算机背景人员作为入门大模型应用实战的 读物。无论是初学者还是经验丰富的开发人员,对于任何想要充分利用大规模语言模型并 在大规模语言模型和LangChain方面保持领先的人来说,这本书都将是宝贵的资源。
大规模语言模型可以生成令人信服的语言,但在推理、知识和使用工具方面却有很 大的局限性。LangChain框架简化了由大规模语言模型驱动的复杂应用程 序的构建,从而减少缺陷。链允许对大规模语言模型、数据库、API等进行排序调用, 以完成多步骤工作流。智能体可利用链根据观察结果采取行动,以管理动态应用程序。 记忆会在执行过程中持久保存信息,以保持状态。这些概念通过整合外部数据、操作和 上下文,使开发人员能够克服单个大规模语言模型的局限性。换句话说,LangChain将 复杂的编排工作简化为可定制的构建模块。
LangChain 生态系统还包括用于收集反馈的 LangSmith、用于构建复杂有状 态应用程序的LangGraph以及用于简化API创建的LangServe,它们都具有旨在优化性 能、可扩展性和用户参与度的独特功能。此外,TruLens、Twitter和Google Search等重 要的第三方集成也丰富了该框架的功能,使大规模语言模型的应用更加广泛。