泛读笔记(2023.07.17 至 2023.07.23)
- [1. vLLM](#1. vLLM)
- [2. WebGLM](#2. WebGLM)
- [3. LLMs可以成为财务顾问吗?](#3. LLMs可以成为财务顾问吗?)
- [4. 对行业大模型的思考](#4. 对行业大模型的思考)
1. vLLM
文章:比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半
- PageAttention(关键算法):新的注意力算法,允许在非连续的空间中存储连续的键和值;
- 作者认为:GPU内存的碎片化 = 慢;
- 高效的内存共享,极大地减少了复杂采样算法的内存开销;
- FastChat作为多模型聊天服务前端,vLLM作为推理后端。
2. WebGLM
文章:GLM 大加强,清华团队推出 GLM 联网加强版 WebGLM!
项目主页:https://github.com/THUDM/WebGLM
- 大模型生成答案不可靠?一种直接的思路就是结合搜索引擎的结果来对大模型进行一次检索增强。
- OpenAI 发布可以聚合搜索结果的 WebGPT,基于 GPT-3 使用搜索引擎获得聚合的搜索答案,从而在开放域长问答等领域上收获了非常不错的结果。
- 借鉴 WebGPT 的思路,清华唐杰老师团队将 ChatGLM 联网,推出了 ChatGLM 的联网加强版 WebGLM。作为一个基于 GLM-10B 的联网增强版问答系统,WebGLM 可以更加精确高效的完成问答与检索的任务,甚至在实验性能评估的结果中,以 10B 的参数量逼近 175B 的 WebGPT。
- 一个网络增强的问答系统一般涉及三个组件:Retriever,Generator 与 Scorer。
- Retriever 主要作为大模型的增强检索器,其使用分为了两个阶段:粗粒度搜索和细粒度搜索。
- Generator 主要负责从检索器得到的参考页面中生成出高质量的问题答案,这也是作为基于 Web 增强的 GLM 的核心功能。在 WebGLM 中,作者团队使用大模型的上下文学习能力构造了一个包含45000条过滤数据与83000条未过滤数据的问答数据集 WebGLM-QA。
- Scorer 的目的是使模型与人类的目标与偏好对齐,通过使用 RLHF 来为 WebGLM 生成的答案进行评分,并依据评分对模型进行微调并舍弃了部分样本。
- 在实验部分,对答案与参考链接进行评估。
- 答案评估部分:使用流畅性、正确性、真实性、客观性、冗余性与引证准确度六个指标进行评估,
- 参考链接评估部分:使用相关性、密度、真实性、有毒性以及社会偏差五个指标进行评估。
3. LLMs可以成为财务顾问吗?
文章:大模型作为个人理财顾问
论文链接:https://arxiv.org/abs/2307.07422.pdf
- 研究问题:使用 LLMs 作为财务顾问的潜力和问题。
- 论文在个人理财决策中应用了LLM聊天机器人,通过回答13个涵盖银行产品、高价购买和投资建议等方面的问题,评估了LLM在提供准确可靠的财务信息方面的表现。研究结果表明,虽然LLM聊天机器人的输出流畅且可信,但在提供准确和可靠的金融信息方面仍存在关键差距。
- 根据论文实验结果,虽然ChatGPT和Bard输出的内容流畅且可信,但在提供准确和可靠的金融信息方面仍存在重要的缺陷。这可能是因为大型语言模型在个人理财领域的数据和专业知识方面的训练不够充分,导致了决策质量的不稳定性和可靠性的缺陷。
- 尽管这些模型可以产生流利和可信的建议,但由于其在个人理财方面的训练不足以及决策质量的不确定性,公众对于这些模型提供的金融建议和支持可能会持有保留态度。
- 根据论文所述,LLM模型在提供准确和可靠的个人理财信息方面存在关键的缺陷。这些模型可能无法考虑到银行产品之间的相互关系,以及金融决策过程中个人变化的需求。此外,由于LLM模型的训练数据和专业知识的限制,它们在个人理财方面的决策质量可能不稳定。这些局限性可能对LLM模型在实际应用中提供个人理财建议造成重要的阻碍。
- 为了提高LLM模型在个人理财领域的性能和可靠性,需要加强模型在金融领域的专业知识和训练数据的充分性。这将有助于模型更好地理解银行产品之间的相互关系,并更准确地预测个人理财决策的结果。此外,与金融领域的专家和实际用户合作,收集和整理更全面和真实的个人理财数据,可以提高LLM模型在该领域的性能和可靠性。
4. 对行业大模型的思考
原文链接:【LLM系列】对行业大模型的思考
- 行业领域数据的两类用法:
(1)用行业数据对通用模型进行继续训练、微调等(模型权重改变);
(2)用 in context learning 的能力通过 prompt 注入领域知识,或者利用外挂数据库的方式。(模型权重不变)- 训练垂直大模型的方法:
(1)使用通用数据和领域数据混合,从头开始训练 一个大模型(BloombergGPT)。
(2)在一个通用模型的基础上继续预训练 (LawGPT)。普遍反应效果一般,很有可能是数据配比
的问题。
(3)在一个通用模型的基础上做instruction tuning(sft ),这也是现在开源社区最普遍的做法(Huatuo,ChatLaw)。这种做法的优势是可以快速看到不错的结果,但要提高上限比较困难。
(4)领域知识库 加上通用大模型,利用向量数据库等方式根据问题在领域知识库中找到相关内容,再利用通用大模型强大的summarization和qa的能力生成回复。
(5)直接用 in context learning 的方法,通过构造和领域相关的prompt,由通用大模型直接生成回复。