自然语言处理学习笔记(十一)————简繁转换与拼音转换

目录

1.简繁转换

2.拼音转换


1.简繁转换

简繁转换指的是简体中文和繁体中文之间的相互转换。可能有的人觉得,这很简单,按字转换 就好了。HanLP提供了这样的朴素实现**CharTable,**用来执行字符正规化(繁体->简体,全角->半角,大写->小写)

复制代码
System.out.println(CharTable.convert("愛聽4G"));
打印结果为:爱听4G

事实上,汉字历史悠久,地域复杂,在字符级别存在"一简对多繁"和"一繁对多简"的情况。在词语级别上存在"简繁分歧词",按字转换容易出错。

eg:"代码","代碼",台湾称为"程式碼",这就是"简繁分歧词"。

eg:"头发"、"发财"对应的繁体字为"頭髮"和"發財",这里的"发"就是一简对多繁。

这启示我们不能按字转换,最起码是按词转换。

s:简体

t:繁体

tw:台湾繁体

hk:香港繁体

HanLP.convertToTraditionalChinese:简转繁

HanLP.s2t:简转繁

HanLP.s2tw:简转香港繁体

HanLP.s2hk:简转香港繁体

2.拼音转换

拼音转换涉及到多音字的问题,仍然需要按词转换

相关推荐
1104.北光c°2 分钟前
滑动窗口HotKey探测机制:让你的缓存TTL更智能
java·开发语言·笔记·程序人生·算法·滑动窗口·hotkey
默默开发1 小时前
完整版:本地电脑 + WiFi 搭建 AI 自动炒股 + 自我学习系统
人工智能·学习·电脑
for_ever_love__1 小时前
Objective-C学习 NSSet 和 NSMutableSet 功能详解
开发语言·学习·ios·objective-c
zm-v-159304339862 小时前
Python 数据挖掘从入门到精通:回归 / 分类 / 聚类 / 关联分析完整教程
python·数据挖掘·回归
qq_417695057 小时前
机器学习与人工智能
jvm·数据库·python
无极低码7 小时前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag
漫随流水7 小时前
旅游推荐系统(view.py)
前端·数据库·python·旅游
yy我不解释8 小时前
关于comfyui的mmaudio音频生成插件时时间不一致问题(一)
python·ai作画·音视频·comfyui
盐水冰9 小时前
【烘焙坊项目】后端搭建(12) - 订单状态定时处理,来单提醒和顾客催单
java·后端·学习
Hello小赵9 小时前
视频压缩编码学习(一)—— 基础知识大集合
学习