自然语言处理学习笔记(十一)————简繁转换与拼音转换

目录

1.简繁转换

2.拼音转换


1.简繁转换

简繁转换指的是简体中文和繁体中文之间的相互转换。可能有的人觉得,这很简单,按字转换 就好了。HanLP提供了这样的朴素实现**CharTable,**用来执行字符正规化(繁体->简体,全角->半角,大写->小写)

复制代码
System.out.println(CharTable.convert("愛聽4G"));
打印结果为:爱听4G

事实上,汉字历史悠久,地域复杂,在字符级别存在"一简对多繁"和"一繁对多简"的情况。在词语级别上存在"简繁分歧词",按字转换容易出错。

eg:"代码","代碼",台湾称为"程式碼",这就是"简繁分歧词"。

eg:"头发"、"发财"对应的繁体字为"頭髮"和"發財",这里的"发"就是一简对多繁。

这启示我们不能按字转换,最起码是按词转换。

s:简体

t:繁体

tw:台湾繁体

hk:香港繁体

HanLP.convertToTraditionalChinese:简转繁

HanLP.s2t:简转繁

HanLP.s2tw:简转香港繁体

HanLP.s2hk:简转香港繁体

2.拼音转换

拼音转换涉及到多音字的问题,仍然需要按词转换

相关推荐
zhangfeng11335 分钟前
KTransformers / 简称 Kt 让超大模型(如 DeepSeek-V3)能够在消费级硬件(单卡 24GB 显存 + 大内存)跑
人工智能·语言模型·自然语言处理
GLDbalala8 分钟前
GPU PRO 4 - 6.2 Real-Time JPEG Compression Using DirectCompute 笔记
笔记
edisao12 分钟前
第三章 合规的自愿
jvm·数据仓库·python·神经网络·决策树·编辑器·动态规划
努力学习的小廉21 分钟前
redis学习笔记(三)—— hash数据类型
redis·笔记·学习
cuber膜拜23 分钟前
Tenacity 原理与基本使用
服务器·网络·python·装饰器模式·tenacity
Myosotis51323 分钟前
作业 第三次
开发语言·python
学编程的闹钟24 分钟前
C语言WSAGetLastError函数
c语言·开发语言·学习
cuber膜拜24 分钟前
PyBreaker 原理与基本使用
服务器·网络·python·pybreaker
学Linux的语莫26 分钟前
模型转为RKNN格式
python·深度学习·机器学习
Albert Edison32 分钟前
【Python】文件
android·服务器·python