Datawhale 2024 年 AI 夏令营第二期——基于术语词典干预的机器翻译挑战赛

#AI夏令营 #Datawhale #夏令营

1.赛事简介

目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

2.赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果,数据包括:

·训练集:双语数据:中英14万余双语句对

·开发集:英中1000双语句对

·测试集:英中1000双语句对

·术语词典:英中2226条

3.baseline

(1)对中英双语句对进行分词:

复制代码
import nltk
import jieba
def read_file(filepath):
    with open(filepath, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    return lines

# 分词英语文本
def tokenize_en(lines):
    return [' '.join(nltk.word_tokenize(line)) for line in lines]

# 分词中文文本
def tokenize_zh(lines):
    return [' '.join(jieba.cut(line)) for line in lines]

(2)统计句长分布

train_en.tok

train_zh.tok

句长普遍较短,且中英句长分布有区别。

(3)filter

利用分词后的语料训练源语言和目标语言的语言模型,打分后删除低分语句。

(4)训练

相关推荐
Kingfar_11 分钟前
高速列车驾驶员情境意识动态建模及生理反应机制研究
人工智能·机器学习
小二·4 分钟前
Python Web 开发进阶实战:AI 原生硬件接口 —— 在 Flask + MicroPython 中构建边缘智能设备控制平台
前端·人工智能·python
TTGGGFF6 分钟前
深度实战:在 GPU 环境下一键部署 Jimeng 中文文生图交互系统
人工智能·交互·图片生成
集和诚JHCTECH9 分钟前
精准采摘背后的大脑:BRAV-7135边缘计算解决方案赋能智能农业新时代
人工智能·嵌入式硬件
deephub9 分钟前
用 PydanticAI 让 LLM 输出变成可信赖的 Python 对象
人工智能·python·大语言模型·agent
cooldream200913 分钟前
从辩论训练到具身智能——辩核AI具身辩论数字人系统整体设计思路
人工智能·具身数字人
Light6019 分钟前
智能融合,赋能未来:业财一体化与RPA的深度交响
人工智能·数字化转型·业财一体化·流程再造·机器人流程自动化·智能财务
kicikng20 分钟前
智能体来了(西南总部):AI Agent 指挥官与 AI 调度官如何重塑企业智能体体系
人工智能·大模型·智能调度·智能体体系·应用层架构
LetsonH21 分钟前
Swap 大小一键调整脚本
人工智能·python
老陈聊架构22 分钟前
『AI工具』AIShort部署实战:一键部署专属AI提示词管理与共享平台
人工智能·开源·提示词·aishort