【计算机科学与应用】预训练语言模型在日文文本难易度自动分类中的应用

导读:

在日语教学过程中,选择难易度合适的日文文本作为教学材料有利于提高日语学习者的学习兴趣及效率。日语具有词汇量大、语法复杂等特征,对文本难易度分类提出了挑战。本文尝试采用多种基于神经网络的日语预训练语言模型,通过收集历年日本语能力测试真题以及模拟题作为数据集以训练日文文本难易度自动分类模型。实验结果表明,预训练语言模型在日文文本难易度自动分类任务上能够表现出较好的性能。基于预训练语言模型的日文文本难易度自动分类方法将为计算机辅助日语学习系统以及电子化教材开发等提供有力的技术保障。

作者信息:

刘 君:广西大学外国语学院,广西 南宁

论文详情

数据收集与预处理

本文收集的日语文本数量统计说明如表1所示:

本文根据实际教学过程中大学日语专业学习者的学习进阶情况以及日文文本难易度自动分类实验设计需求,进一步对JLPT的难易度进行了四种不同分类,并对对应JPLT不同难度的文本进行了相应标注。具体分类及标注说明如表2所示:

此外,为了有效训练日语文本难易度分类模型,本文将标注后的数据集按照8:2的比例划分为训练集和测试集。

实验设计

本文分别选取了由日本京都大学、日本情报通信研究机构以及日本东北大学发布的日语预训练语言模型,共计14种。这些模型采用双向Transformer编码器表征(Bidirectional Encoder Representations from Transformers, BERT) 算法训练而成。日语预训练语言模型信息如表3所示:

实验结果与分析

从二分类实验结果(如表4所示)来看,除了模型4 (NICT-100K)之外,其他模型取得的F1值均超过了0.8。其中,模型12 (tohoku-bert-large-japanese-v2)在精确率、召回率以及F1值三项指标上均获得最高值,其分值均为0.926。实验结果表明,该模型在将日文文本分类为高级难度文本(JLPT-N1、N2)和低级难度文本(JLPT-N3、N4、N5)两个级别上表现出了最优的性能。

从三分类实验结果(如表5所示)来看,模型12 (tohoku-bert-large-japanese-v2)以及模型14 (tohoku-bert-large-japanese-char-v2)的精确率最高,分值均为0.784;模型7 (tohoku-bert-base-japanese-v3)以及模型14 (tohoku-bert-large-japanese-char-v2)的召回率最高,分值均为0.773;模型14 (tohoku-bert-large-japanese-char-v2)的F1值最高,分值为0.778。综合三分类结果来看,模型14 (tohoku-bert-large-japanese-char-v2)在将日文文本分类为高级难度文本(JLPT-N1、N2)、中级难度文本(JLPT-N3、N4)和低级难度文本(JLPT-N5)三个级别上表现出了最优的性能。

从四分类实验结果(如表6所示)来看,模型14 (tohoku-bert-large-japanese-char-v2)取得了最高的精确率,分值均为0.761;模型12 (tohoku-bert-large-japanese-v2)取得了最高的召回率,分值均为0.722;模型12 (tohoku-bert-large-japanese-v2)的F1值最高,分值为0.735。综合四分类结果来看,模型12 (tohoku-bert-large-japanese-v2)在将日文文本分类为高级上等难度文本(JLPT-N1)、高级下等难度文本(JLPT-N2)、中级难度文本(JLPT-N3、N4)和低级难度文本(JLPT-N5)四个级别上表现出了更好的性能。

从五分类实验结果(如表7所示)来看,模型13 (tohoku-bert-large-japanese-char)取得了最高的精确率,分值均为0.73;模型7 (tohoku-bert-base-japanese-v3)取得了最高的召回率,分值均为0.681;模型11 (tohoku-bert-large-japanese)的F1值最高,分值为0.683,其次为模型7,分值为0.682。综合四分类结果来看,模型7 (tohoku-bert-base-japanese-v3)在将日文文本分类为高级上等难度文本(JLPT-N1)、高级下等难度文本(JLPT-N2)、中级上等难度文本(JLPT-N3)、中级下等难度文本(JLPT-N4)和低级难度文本(JLPT-N5)五个级别上表现出了更好的性能。

结论

本文提出基于预训练语言模型的方法,通过多项分类实验评估了14中日语BERT预训练语言模型在日文文本难易度自动分类任务中的表现。实验结果表明,该方法具有一定的有效性,尤其是在二分类任务上表现最优;各种模型随着分类的进一步细化,其性能也随之降低;不同机构发布的模型在难易度分类性能方面也表现出了一定的差异。综合来看,日本东北大学发布的BERT预训练语言模型在本次日文文本难易度分类任务中表现更优。BERT预训练语言模型因其强大的表示能力,能够适应日文文本难易度分类任务,在日语教学领域展现出了较大的应用价值。今后,将继续探索针对日文的语言数据标注、文本分类的标准化、日语语言特征挖掘等系列问题,以构建更加精细化的模型,为智能化、个性化日语教学提供有力的技术保障。例如,可借助实时动态建模技术,模型不断输出与学习者日语能力相匹配的文本,并接受学习者的反馈,达到优化文本分类结果。

基金项目:

广西哲学社会科学规划研究课题:日语文本易读性评估中融合神经网络技术的语言学特征优化组合研究(批准号:22FYY011)

原文链接:

https://doi.org/10.12677/csa.2025.1512324

相关推荐
todoitbo13 小时前
【TextIn大模型加速器 + 火山引擎】基于 Dify 构建企业智能文档中枢:技术文档问答+合同智审+发票核验一站式解决方案
人工智能·ocr·火山引擎·工作流·dify·textln·企业智能文档
生信碱移13 小时前
神经网络单细胞预后分析:这个方法直接把 TCGA 预后模型那一套迁移到单细胞与空转数据上了!竟然还能做模拟敲除与预后靶点筛选?!
人工智能·深度学习·神经网络·算法·机器学习·数据挖掘·数据分析
冻伤小鱼干13 小时前
《自动驾驶与机器人中的slam技术:从理论到实践》笔记——ch7(3)
笔记·机器人·自动驾驶
线束线缆组件品替网13 小时前
高可靠线缆工程实战:ElectronAix 德国工业线缆全解析
网络·人工智能·汽车·电脑·硬件工程·材料工程
rcc862813 小时前
开源RAG知识库平台深度解析
人工智能·开源
福客AI智能客服13 小时前
AI智能客服系统:增值服务行业的售后核心解决方案
大数据·人工智能
thubier(段新建)13 小时前
2025技术实践复盘:在沉淀中打磨,在融合中锚定AI协同新方向
大数据·人工智能
龙萱坤诺13 小时前
Sora-2 API 技术文档:创建角色接口
人工智能·aigc·ai视频·sora-2
ftpeak13 小时前
Burn:纯 Rust 小 AI 引擎的嵌入式物体识别之旅(一步不踩坑)
开发语言·人工智能·rust
藦卡机器人14 小时前
安徽装配机器人生产企业有哪些?
机器人