大语言模型（LLMs）进阶

1. 什么是 LLMs 复读机问题？

LLMs复读机问题指的是模型倾向于不适当地复制用户输入的文本或者在回复中重复使用相同的句式和短语。这种倾向可能源自模型在处理输入时的一种简便路径，即模仿而不是创造性地响应。生成的内容往往缺乏变化和新颖性，这使得交互体验变得预测性强且单调。

训练数据的偏差问题：大型语言模型的预训练过程通常依赖大量未标记的数据。若这些数据中存在高度重复的文本，或某些句子及短语频繁出现，则模型在文本生成时可能过度沿用这些普遍模式。
训练目标设置的局限：自监督学习是训练大型语言模型的一种常用方法，它主要通过预测下一单词或发现隐藏单词来学习。这种训练设置可能导致模型偏好生成与输入过于类似的文本，进而引发重复性输出的问题。
训练材料多样性不足：尽管大型语言模型能处理大量数据，但如果所用的训练材料在语言表达和情境上缺乏变化，模型可能不会学习到充分的多样性和创造力，这也可能促成所谓的复读现象。

虽然理论上大型语言模型（LLM）能够处理任何长度的输入文本，但是存在局限性。限制LLM处理输入长度的主要因素包括：

计算资源的要求：构建长文本需要较大的计算资源量，包括内存、显存以及处理时间。深度学习模型在处理较长的输入时，可能会遇到内存耗尽或计算过程耗时过长的问题。
训练与推理中的挑战：在训练过程中，长文本可能导致梯度消失或爆炸，影响模型的训练稳定性和效果。而在推理过程中，长文本的生成可能导致错误率升高并延长生成所需时间。
复杂上下文的捕捉：由于LLMs依赖于捕捉文本的上下文信息，长句子涉及的上下文通常更为复杂和深入。模型必须具备捕获并理解长句子中细微的语义和语法结构的能力，以确保输出的文本准确且流畅。

Bert模型：Bert是一种预训练的语言模型，Bert广泛应用于多种自然语言处理任务中，包括文本分类、实体识别和语义相似度评估等。Bert是一个基于Transformer的encoder结构的模型，非常适用通用文本处理任务，通常在自然语言理解（NLU）方面表现优异。
LLaMA模型：该模型属于基座模型，擅长文本生成，训练材料广泛，达到14万亿tokens。LLaMa专长于常识推理、问答、数学推导、代码生成以及语言理解等任务。该模型是基于Transformer的decoder结构构建的。其训练数据主要基于英文及其他拉丁字母系语言，中文语料较少，因此原版LLaMa更适合处理英语文本生成任务。
ChatGLM模型：该模型属于Chat模型，适合用于开发聊天机器人和智能客服系统。若应用需要模型生成流畅、连贯的对话回答，同时还要处理对话上下文并产生多轮对话，这时可以选择ChatGLM。ChatGLM采用Prefix decoder架构，其训练数据包含相等比例的中文和英文文本，使得它能够有效处理中英文文本生成任务。

垂直领域知识：为了有效处理某一专业领域的文本，模型需要接受包含该领域特定知识和术语的训练。例如，医疗领域的大型模型通过接受医疗知识的专业训练，能够更精准地解读和生成相关医疗文本。
行业特定语言表达和习惯用语：不同的专业领域往往发展出了独有的语言表达风格和习惯用语。通过对这些特征的深入训练，大型模型能够更好地理解并产生符合特定领域风格的文本，并且在生成内容上会更专业。
行业文本需求差异：各个领域对文本处理的具体需求有差异。例如，金融行业可能更专注于处理数字和统计信息，而法律行业可能更注重法规内容和案例分析的深度解读。为满足这些差异化需求，不同领域的大型模型需经过特别定制的训练。
数据限制问题：在模型预训练阶段由于有些行业领域的数据资源可能较为匮乏，限制了通用大型模型在这些领域的能力。对这些特定领域进行深入的模型训练能更有效地挖掘和利用现有数据，以优化模型的性能。

当然很多时候也可以通过挂载领域知识库的方式来增强模型在垂直领域的专业性。

分块处理：将较长的文本内容拆分为更短的段落来单独处理，有助于减轻模型在内存及计算资源方面的负担。在执行此方法时，为维护文本连贯性，可采用段落之间重叠的策略，即相邻的文本块有一部分是共享的。
层次建模：采用分级处理的方法，将文本内容按照段落、句子或短语等不同层次进行划分，并依次送入模型中进行处理。可缩短处理的文本单位，从而增强模型对于长篇幅内容的处理效率。
部分生成：当任务只需求模型产出文本的特定部分时，无需处理全文，仅将相关部分的文本提供给模型作为上下文即可。例如，仅需向模型提供前面一部分内容，便可生成其余部分的内容。可以采用Streaming的思想，减小脱离中心主旨的可能性。
模型架构改进：通过调整模型结构和参数配置，可以增强模型处理长文本的能力。例如，增加网络层数或调整参数量能够扩展模型的学习能力。采用更为高效的架构设计，以提升处理长文本的效率。