自然语言处理系列四十二》新词发现与短语提取》新词发现》代码实战

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书 《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列四十二

新词发现》代码实战

新词发现是 NLP 的基础任务之一,通过对已有语料进行挖掘,从中识别出新词。上一篇文章已经对新词发现做了详细介绍,下面展示代码,HanLP工具提供了新词发现的功能,代码如11.1所示。

【代码11.1】 FindNewWord.java

java 复制代码
package com.chongdianleme.job;
import org.ansj.dic.LearnTool;
import org.ansj.splitWord.analysis.NlpAnalysis;
import org.apache.commons.lang3.StringUtils;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
/**
 * Created by 充电了么 - 陈敬雷
 * 充电了么 - 专注上班族教育培训和职业技能提升充电学习的在线教育平台
 * HanLP新词发现功能,开源地址:https://github.com/hankcs/HanLP
*/
public class FindNewWord {
    public static void main(String[] args) {
        String content = "分布式机器学习实战(人工智能科学与技术丛书)作者陈敬雷,责任编辑赵佳霓,此书深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目,并有以下名人陈兴茂,梅一多,杨正洪,刘冬冬,龙旭东联袂推荐:" +
                "------陈兴茂 猎聘CTO\n" +
                "------梅一多 博士 上海市青年拔尖人才,中基凌云科技有限公司联合创始人\n" +
                "------杨正洪 博士 中央财经大学财税大数据实验室首席科学家\n" +
                "------刘冬冬 首席数据官联盟创始人\n" +
                "------龙旭东 北京掌游智慧科技有限公司董事长";
        List<String> newWordList = findNewWords(content);
        System.out.println(StringUtils.join(newWordList,","));
    }
    /**
     * HanLP新词发现
     * @param content
     * @return
     */
    public static List<String> findNewWords(String content){
        LearnTool learnTool = new LearnTool();
        NlpAnalysis nlpAnalysis = new NlpAnalysis().setLearnTool(learnTool) ;
        nlpAnalysis.parseStr(content);
        List<Map.Entry<String, Double>> topTree = learnTool.getTopTree(0);
        List<String> newWords = new ArrayList<String>();
        if(topTree!=null){
            for (Map.Entry<String, Double> entry : topTree) {
                newWords.add(entry.getKey());
            }
        }
        return newWords;
    }
}

短语提取算法原理

下一篇文章详细讲解短语提取算法原理,敬请关注。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。

全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。

本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战 视频教程【陈敬雷】

视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

上一篇:自然语言处理系列四十一》新词发现与短语提取》新词发现算法原理
下一篇:自然语言处理系列四十三》新词发现与短语提取》短语提取》算原理

相关推荐
向阳2564 分钟前
SpringBoot+vue前后端分离整合sa-token(无cookie登录态 & 详细的登录流程)
java·vue.js·spring boot·后端·sa-token·springboot·登录流程
Scc_hy8 分钟前
强化学习_Paper_1988_Learning to predict by the methods of temporal differences
人工智能·深度学习·算法
袁煦丞11 分钟前
【亲测】1.5万搞定DeepSeek满血版!本地部署避坑指南+内网穿透黑科技揭秘
人工智能·程序员·远程工作
大模型真好玩13 分钟前
理论+代码一文带你深入浅出MCP:人工智能大模型与外部世界交互的革命性突破
人工智能·python·mcp
XiaoLeisj20 分钟前
【MyBatis】深入解析 MyBatis XML 开发:增删改查操作和方法命名规范、@Param 重命名参数、XML 返回自增主键方法
xml·java·数据库·spring boot·sql·intellij-idea·mybatis
风象南21 分钟前
SpringBoot实现数据库读写分离的3种方案
java·spring boot·后端
遇码26 分钟前
大语言模型开发框架——LangChain
人工智能·语言模型·langchain·llm·大模型开发·智能体
在狂风暴雨中奔跑26 分钟前
使用AI开发Android界面
android·人工智能
振鹏Dong28 分钟前
策略模式——本质是通过Context类来作为中心控制单元,对不同的策略进行调度分配。
java·策略模式
飞哥数智坊28 分钟前
AI编程实战:30分钟实现Web 3D船舶航行效果
人工智能·three.js