概述
随着数字时代的到来,信息瞬间传遍全球,但其中也不乏各种偏见。媒体偏见",即对某些观点的选择性报道,会影响人们对某一事件或问题的看法,并对公众舆论产生重大影响。事实上,许多人都认为主要媒体存在偏见,因此迫切需要对这一问题进行调查。
本文探讨了如何利用人工智能技术来检测和了解媒体偏见。识别媒体偏见的方法多种多样,既有由人工评分员进行的人工内容分析,也有使用机器学习和自然语言处理技术的计算方法,但这些方法都有局限性。例如,专注于特定政治偏见或假新闻的方法已经得到了很好的研究,但在捕捉导致偏见的语言细微差别和可扩展性方面面临挑战。
其中,由 OpenAI 开发的大规模语言模型 ChatGPT 的使用引起了人们的兴趣,因为基于 GPT-3.5 引擎的 ChatGPT 在翻译、情感分析、推理和总结等各种自然语言处理任务中表现出了非凡的能力。本文研究了 ChatGPT 识别媒体偏见的能力,并探讨了提高其准确性的方法。本文还将 ChatGPT 的性能与 BART 等经过微调的语言模型进行了比较。
对于媒体偏见的未来研究,ChatGPT 为识别多种偏见(包括种族偏见、性别偏见和认知偏见)的能力提供了宝贵的见解。
论文地址:https://arxiv.org/abs/2403.20158
实验装置
本文介绍了一项旨在识别和评估媒体偏见的实验。所使用的数据选自媒体偏见识别基准(MBIB),这是一个由 Wessel 等人编制的数据集。这是一个由 115 个数据集组成的综合性数据集。其中有 9 项任务和 22 个相关数据集被选中用于评估媒体偏差检测技术。
这些数据也会根据不同的任务进行适当的预处理,并将标签转换为二进制格式。这有助于整合不同的数据集,并简化任务格式。其中,连续标签的数据集已使用作者推荐的阈值进行了二值化处理。
本节特别关注 MBIB 九项任务中的六项,并广泛评估 ChatGPT 在每项任务中检测媒体偏见的能力。
与所选任务相关的数据集会根据其规模按比例分成训练子集和测试子集。对于大多数偏见识别任务,数据集的训练-测试比例为 80-20,但由于认知偏见和仇恨言论任务的数据量较大(如 200 万例),因此会随机抽取其中 10%的数据集,然后按 80-20 的比例分割80-20分割。下表显示了每个任务中使用的数据量。
我们还选择了三个备受赞誉的模型(ConvBERT、BART 和 GPT-2)进行比较,以评估 ChatGPT 在检测媒体偏见方面的性能。这些模型在各种自然语言处理 (NLP) 任务中表现出色。这些模型的性能已在测试数据集上进行了评估,并与 ChatGPT 的结果进行了比较。
ChatGPT 的 GPT-3.5 涡轮增压版也被用作 ChatGPT,在效率和成本之间取得了极佳的平衡。为了提高结果的可重复性,我们将模型的行为设置为确定性的,即模型的温度设置为零,这样它对相同的提示总是会产生相同的反应。我们让 ChatGPT 为六项偏差识别任务中的每一项生成三个简洁的提示,以最大限度地提高其能力。
例如,关于识别种族偏见的查询可能是这样的。请提供三个简短的提示,以最大限度地提高您识别给定文本是否包含种族偏见的能力。
这些提示使用从原始数据集和不同数据集中随机选取的少量示例(60 个)进行测试。每个任务提示都包含相同数量的正面标注示例,表示存在偏差,反面标注示例则表示不存在偏差。这样就能选出最有效的提示。结果如下表所示。
此外,任务提示还附加了特殊指令,以确保模型以可自动处理的方式做出响应。有了这些指令,模型就能提供 JSON 格式的输出,其中包括 "偏差 "列,用 1 或 0 表示文本中是否存在偏差。这一过程提高了偏差识别的准确性,并有助于该方法的标准化。
实验结果
本文通过比较 ChatGPT 与其他微调模型在六项媒体偏见识别任务中的表现,对 ChatGPT 的性能进行了全面评估。这项评估对于了解不同环境下偏差识别和缓解的效果以及促进开发更平衡的人工智能系统至关重要。使用特定指标分析模型的性能可以深入了解它们的优势、局限性和改进潜力。
根据 MBIB 的建议,使用了两个指标:一个是微平均 F1 分数。一个 F1 分数是根据模型在所有测试集上的预测结果计算得出的。这种方法忽略了每个示例来自哪个数据集的差异。这一指标有助于轻松了解模型的整体性能。另一种是宏观平均 F1 分数。为测试集中的每个数据集计算 F1 分数,然后将结果平均,得到宏观平均分数。这种方法可确保所有数据集对最终得分的贡献相同,而不论数据集的大小。
ChatGPT 和微调模型的性能如下表所示。
总体而言,BART、ConvBERT 和 GPT-2 等微调模型在识别偏差方面的表现一般较好。这可能是因为这些模型经过训练,能够适应人类贴标者识别出的偏差模式。另一方面,ChatGPT 的 "0-shot "方法仅依赖于广泛的数据模式,这已被证明会降低偏差识别的准确性。
特别是在性别和种族偏见方面,ChatGPT 明显不如微调模型,在很多情况下会出现假阳性。例如,ChatGPT 可能会错误地将一句话解释为有性别偏见,而人类评分员或其他模型可能会认为这句话是中性的。例如,"我无法忍受美国佬的声音来解说足球。 CRINGE "这句话被 ChatGPT 描述为 "通过假定足球解说是男性主导的领域来强化性别角色",并将其误判为 "我无法忍受美国佬的声音来解说足球。将其标签化。这种超敏感反应可能是在学习过程中与某些单词和短语相关联的刻板印象和偏见造成的。在本案例中,"美国佬的声音 "与足球解说主要由男性完成的假设相关联。
此外,在检测认知偏见和假新闻方面,ChatGPT 明显不如 BART 和 ConvBERT 等模型。这是因为这些类型的偏见深深地依赖于语境和细微的语言差别,很难通过简单的零点学习来解决。就假新闻而言,由于其模棱两可且往往具有欺骗性,因此很难仅凭语言线索将其与真相区分开来。
不过,ChatGPT 在检测仇恨言论方面的表现也相对较好。仇恨言论因其明目张胆和咄咄逼人的语言模式而易于识别,这也是它在零镜头模型中表现良好的原因。
在文本层面检测上下文偏差的任务中,结果与微调方法不相上下。这可能是因为 ChatGPT 的广泛架构特别适合捕捉人类交流中的微妙含义。通过全面的训练,这个大型模型已经获得了对语言的多方面理解。因此,ChatGPT 有能力洞察和解释语境对语言的影响。
不过,本研究中所有模型的性能在很大程度上都受到可用数据集质量的影响。例如,模型在数据示例较少的数据集上表现吃力,而在示例较多的数据集上则表现较好。由于数据量有限,这些宏观平均分可能无法完全反映模型的真实能力。
因此,ChatGPT 显示出一定程度的熟练程度,但目前的形式还不清楚它是否能作为媒体偏见的明确检测器。不过,使用少量提示进行测试可能会提高其性能。这种方法需要在 ChatGPT 数据集中进一步验证其一致性。
总结
论文将 ChatGPT 检测媒体偏见的能力与其他微调模型(BART、ConvBERT 和 GPT-2)进行了比较,尽管 ChatGPT 在识别仇恨言论和文本级语境偏见方面表现突出、尽管 ChatGPT 在识别仇恨言论和文本层面的语境偏见方面表现不俗,但在性别、种族和认知偏见等需要更深层次语境理解的任务上表现不佳。
在展示大规模语言模型在语言理解方面所取得的进展的同时,它也强调了在更敏感地理解语境和偏见方面仍然存在挑战。需要指出的是,偏差的主观性和训练 ChatGPT 的数据的性质可能会影响这些模型之间的性能差异。
预计未来的论文将采用新的方法,包括少量提示和人工评估,进一步提高这些模型的能力。本文为人工智能的未来发展及其社会影响提供了见解。