摘要

大型语言模型（LLM）已经显示出强大的性能和发展前景，并在现实世界中得到了广泛的部署。然而，LLM可以从未处理的训练数据中捕捉社会偏见，并将这些偏见传播到下游任务。不公平的LLM制度具有不良的社会影响和潜在的危害。在本文中，我们对LLM中的公平性的相关研究进行了全面的综述。首先，对于中等规模LLM，我们分别从内在偏差和外在偏差的角度介绍了评估指标和去偏方法。然后，对于大规模LLM，我们介绍了最近的公平性研究，包括公平性评估、偏差原因和去偏差方法。最后，我们讨论并深入了解LLM公平发展的挑战和未来方向。

1 引言

2 评估度量

3 内在去偏

4 外部去偏

5 大型LLM的公平性

6 讨论

7 结论

我们对LLM中的公平性问题进行了全面的调查。社会偏见主要来源于包含有害信息和不平衡数据的训练数据，可分为内在偏见和外在偏见。我们总结了LLM的公平性研究，包括中等规模LLM的内在和外在评估指标和去偏策略，以及大规模LLM的公正性评估、偏误原因和去偏方法。此外，我们还讨论了LLM公平性发展中的挑战以及参与者可以努力的研究方向。本次调查的结论是，当前LLM的公平性研究仍需在评估偏差、偏差来源和去偏差策略方面加强。特别是对于仍处于早期阶段的大规模LLM的公平性，从业者应该结合更多的技术，构建全面、安全的语言模型系统。