自然语言处理学习笔记(十一)————简繁转换与拼音转换

目录

1.简繁转换

2.拼音转换


1.简繁转换

简繁转换指的是简体中文和繁体中文之间的相互转换。可能有的人觉得,这很简单,按字转换 就好了。HanLP提供了这样的朴素实现**CharTable,**用来执行字符正规化(繁体->简体,全角->半角,大写->小写)

复制代码
System.out.println(CharTable.convert("愛聽4G"));
打印结果为:爱听4G

事实上,汉字历史悠久,地域复杂,在字符级别存在"一简对多繁"和"一繁对多简"的情况。在词语级别上存在"简繁分歧词",按字转换容易出错。

eg:"代码","代碼",台湾称为"程式碼",这就是"简繁分歧词"。

eg:"头发"、"发财"对应的繁体字为"頭髮"和"發財",这里的"发"就是一简对多繁。

这启示我们不能按字转换,最起码是按词转换。

s:简体

t:繁体

tw:台湾繁体

hk:香港繁体

HanLP.convertToTraditionalChinese:简转繁

HanLP.s2t:简转繁

HanLP.s2tw:简转香港繁体

HanLP.s2hk:简转香港繁体

2.拼音转换

拼音转换涉及到多音字的问题,仍然需要按词转换

相关推荐
秋雨梧桐叶落莳1 小时前
iOS——Masonry约束内容整理
开发语言·学习·macos·ios·objective-c·cocoa
2401_882273721 小时前
golang如何处理zip压缩包_golang zip压缩包处理思路
jvm·数据库·python
Hesionberger1 小时前
LeetCode72.编辑距离(多维动态规划)
java·开发语言·c++·python·算法
猫吻鱼1 小时前
【笔记03】【Reactor 响应式编程② - 事务编程】
笔记·reactor·webflux·jooq
tjc199010051 小时前
Golang怎么实现分布式定时任务_Golang如何保证集群中定时任务不重复执行【进阶】
jvm·数据库·python
卷心菜狗1 小时前
Python进阶--网络编程入门
python
XLYcmy1 小时前
2026游戏安全技术竞赛-PC客户端安全-初赛 求解起点到终点的最短路径
windows·python·网络安全·dfs·bfs·游戏安全·曼哈顿距离
Hello--_--World1 小时前
React:描述UI 官网笔记
笔记·react.js·ui
尘埃落定wf1 小时前
FastAPI 鉴权怎么写?中间件和依赖注入一次说清楚
python·中间件·fastapi
2301_773553621 小时前
构建 Go CLI 应用的最佳实践:纯 Go 交互式命令行库选型与使用指南
jvm·数据库·python