【计算机科学与应用】预训练语言模型在日文文本难易度自动分类中的应用

导读:

在日语教学过程中,选择难易度合适的日文文本作为教学材料有利于提高日语学习者的学习兴趣及效率。日语具有词汇量大、语法复杂等特征,对文本难易度分类提出了挑战。本文尝试采用多种基于神经网络的日语预训练语言模型,通过收集历年日本语能力测试真题以及模拟题作为数据集以训练日文文本难易度自动分类模型。实验结果表明,预训练语言模型在日文文本难易度自动分类任务上能够表现出较好的性能。基于预训练语言模型的日文文本难易度自动分类方法将为计算机辅助日语学习系统以及电子化教材开发等提供有力的技术保障。

作者信息:

刘 君:广西大学外国语学院,广西 南宁

论文详情

数据收集与预处理

本文收集的日语文本数量统计说明如表1所示:

本文根据实际教学过程中大学日语专业学习者的学习进阶情况以及日文文本难易度自动分类实验设计需求,进一步对JLPT的难易度进行了四种不同分类,并对对应JPLT不同难度的文本进行了相应标注。具体分类及标注说明如表2所示:

此外,为了有效训练日语文本难易度分类模型,本文将标注后的数据集按照8:2的比例划分为训练集和测试集。

实验设计

本文分别选取了由日本京都大学、日本情报通信研究机构以及日本东北大学发布的日语预训练语言模型,共计14种。这些模型采用双向Transformer编码器表征(Bidirectional Encoder Representations from Transformers, BERT) 算法训练而成。日语预训练语言模型信息如表3所示:

实验结果与分析

从二分类实验结果(如表4所示)来看,除了模型4 (NICT-100K)之外,其他模型取得的F1值均超过了0.8。其中,模型12 (tohoku-bert-large-japanese-v2)在精确率、召回率以及F1值三项指标上均获得最高值,其分值均为0.926。实验结果表明,该模型在将日文文本分类为高级难度文本(JLPT-N1、N2)和低级难度文本(JLPT-N3、N4、N5)两个级别上表现出了最优的性能。

从三分类实验结果(如表5所示)来看,模型12 (tohoku-bert-large-japanese-v2)以及模型14 (tohoku-bert-large-japanese-char-v2)的精确率最高,分值均为0.784;模型7 (tohoku-bert-base-japanese-v3)以及模型14 (tohoku-bert-large-japanese-char-v2)的召回率最高,分值均为0.773;模型14 (tohoku-bert-large-japanese-char-v2)的F1值最高,分值为0.778。综合三分类结果来看,模型14 (tohoku-bert-large-japanese-char-v2)在将日文文本分类为高级难度文本(JLPT-N1、N2)、中级难度文本(JLPT-N3、N4)和低级难度文本(JLPT-N5)三个级别上表现出了最优的性能。

从四分类实验结果(如表6所示)来看,模型14 (tohoku-bert-large-japanese-char-v2)取得了最高的精确率,分值均为0.761;模型12 (tohoku-bert-large-japanese-v2)取得了最高的召回率,分值均为0.722;模型12 (tohoku-bert-large-japanese-v2)的F1值最高,分值为0.735。综合四分类结果来看,模型12 (tohoku-bert-large-japanese-v2)在将日文文本分类为高级上等难度文本(JLPT-N1)、高级下等难度文本(JLPT-N2)、中级难度文本(JLPT-N3、N4)和低级难度文本(JLPT-N5)四个级别上表现出了更好的性能。

从五分类实验结果(如表7所示)来看,模型13 (tohoku-bert-large-japanese-char)取得了最高的精确率,分值均为0.73;模型7 (tohoku-bert-base-japanese-v3)取得了最高的召回率,分值均为0.681;模型11 (tohoku-bert-large-japanese)的F1值最高,分值为0.683,其次为模型7,分值为0.682。综合四分类结果来看,模型7 (tohoku-bert-base-japanese-v3)在将日文文本分类为高级上等难度文本(JLPT-N1)、高级下等难度文本(JLPT-N2)、中级上等难度文本(JLPT-N3)、中级下等难度文本(JLPT-N4)和低级难度文本(JLPT-N5)五个级别上表现出了更好的性能。

结论

本文提出基于预训练语言模型的方法,通过多项分类实验评估了14中日语BERT预训练语言模型在日文文本难易度自动分类任务中的表现。实验结果表明,该方法具有一定的有效性,尤其是在二分类任务上表现最优;各种模型随着分类的进一步细化,其性能也随之降低;不同机构发布的模型在难易度分类性能方面也表现出了一定的差异。综合来看,日本东北大学发布的BERT预训练语言模型在本次日文文本难易度分类任务中表现更优。BERT预训练语言模型因其强大的表示能力,能够适应日文文本难易度分类任务,在日语教学领域展现出了较大的应用价值。今后,将继续探索针对日文的语言数据标注、文本分类的标准化、日语语言特征挖掘等系列问题,以构建更加精细化的模型,为智能化、个性化日语教学提供有力的技术保障。例如,可借助实时动态建模技术,模型不断输出与学习者日语能力相匹配的文本,并接受学习者的反馈,达到优化文本分类结果。

基金项目:

广西哲学社会科学规划研究课题:日语文本易读性评估中融合神经网络技术的语言学特征优化组合研究(批准号:22FYY011)

原文链接:

https://doi.org/10.12677/csa.2025.1512324

相关推荐
智枢圈几秒前
Function-Calling与工具使用
人工智能
司南-70491 分钟前
Dense结构下的 大模型系统架构研究
服务器·人工智能·后端
GISer_Jing1 分钟前
AI全栈转型_TS后端学习路线
前端·人工智能·后端·学习
漫游的渔夫1 分钟前
前端开发者做 Agent:别只会执行,用 4 类失败策略让 AI 知道怎么停
前端·人工智能·typescript
娃娃略2 分钟前
Frame
人工智能·深度学习·机器学习
Python私教7 分钟前
Pure-Admin-Thin 深度解析:完整版和精简版到底怎么选?
vue.js·人工智能·开源
星马梦缘10 分钟前
强化学习实战8.3——用PPO打赢星际争霸【编写自定义环境GYM】
人工智能·强化学习·gymnasium·星际争霸·sc2·starcraft2·sb3
翔云12345610 分钟前
大模型部署全流程深度解析
人工智能·ai·大模型
BU摆烂会噶11 分钟前
【LangGraph】持久化实现的三大能力——人机交互
数据库·人工智能·python·langchain·人机交互
沐风老师12 分钟前
开发AI机器人操作系统用什么编程语言?
人工智能·ai编程·机器人操作系统