LLM商业落地中的注意事项、关于高级提示词prompt的思考

微调是创造性工作，需要不断调试，在原有的参数的基础上，不动原有模型的权重参数，然后再增加个低阶矩阵，不停的训练这个低阶矩阵，这种方式训练出来的微调具备一定的不确定性。微调通常用在垂直的推理场景，需要独有的数据，例如：医疗领域医生的能力。微调技术难度高，失败概率较大，需要经验丰富的微调团队。

Agent的实现原理其实是基于知识库和提示词工程做的对齐，来解决特定工作流场景的问题，即：特定场景的代理。Agent需要具备推理能力，而推理能力是稀缺的，通常需要懂研发，也需要懂业务流。

知识库是基于上下文的语义，让大模型理解公司的业务，最后回答出检索的问题，通常用于比较严谨的咨询场景和科普场景。知识库和提示词工程在大模型底层能力中扮演重要角色。

对于特定场景，不同大模型的覆盖能力不同，选择底座模型需要考虑是否具备推理能力。大模型的底层能力是解决一批问题的能力，需要具备特定约束规范的提示词工程，具备初步的推理能力能够解决一些单个问题。多模态大模型可以处理不同模态的数据，具备多种能力。

利用注意力汇流(Attention Sinks)提高流式语言模型效率。

实现原理：保留最开始的几轮对话的token，接着计算剩余的token，最后再交给LLM处理。

告诉AI你具体想要什么。比如，如果你想要简短的答案，就直接说"给我一个简短的回答"。这样AI就不用猜你的意图了。模型无法读懂你的思维。如果需要简短的回答，就明确要求；如果需要专家级的写作，也要明确指出。提供清晰的指令，减少模型猜测的需要。

▶具体操作：

如果你有关于你要写的主题的具体资料或例子，给AI看看。这样它就能提供更准确、更相关的内容。语言模型可能会创造虚假答案，尤其是在询问特定主题或要求引用和URL时。提供参考文本可以帮助模型提供更准确的答案。

▶具体操作：

如果你有一个复杂的主题要写，试着把它分成几个小部分。比如，先写一个关于主题背景的部分，然后再写关于主要观点的部分。就像软件工程中将复杂系统分解为模块化组件一样，将任务提交给语言模型时也应采取类似的做法。复杂任务的错误率通常高于简单任务。复杂任务通常可以重新定义为一系列简单任务的工作流程。

▶具体操作：

模型在立即回答问题时可能会犯更多的推理错误。要求模型在给出答案之前进行"思考链"可以帮助模型更可靠地推理出正确答案。

▶具体操作：

有时候结合使用AI和其他工具（比如数据搜索工具）可以得到更好的结果。利用其他工具的输出来补偿模型的不足。例如，文本检索系统可以向模型提供相关文档信息，代码执行引擎可以帮助模型进行数学计算和运行代码。

▶具体操作：

尝试不同的指令和方法，看看哪种效果最好，然后根据结果进行调整。使用黄金标准答案评估模型输出是一种有效的方法，用于确保AI模型的回答质量。