自然语言处理系列四十二》新词发现与短语提取》新词发现》代码实战

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书 《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列四十二

新词发现》代码实战

新词发现是 NLP 的基础任务之一,通过对已有语料进行挖掘,从中识别出新词。上一篇文章已经对新词发现做了详细介绍,下面展示代码,HanLP工具提供了新词发现的功能,代码如11.1所示。

【代码11.1】 FindNewWord.java

java 复制代码
package com.chongdianleme.job;
import org.ansj.dic.LearnTool;
import org.ansj.splitWord.analysis.NlpAnalysis;
import org.apache.commons.lang3.StringUtils;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
/**
 * Created by 充电了么 - 陈敬雷
 * 充电了么 - 专注上班族教育培训和职业技能提升充电学习的在线教育平台
 * HanLP新词发现功能,开源地址:https://github.com/hankcs/HanLP
*/
public class FindNewWord {
    public static void main(String[] args) {
        String content = "分布式机器学习实战(人工智能科学与技术丛书)作者陈敬雷,责任编辑赵佳霓,此书深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目,并有以下名人陈兴茂,梅一多,杨正洪,刘冬冬,龙旭东联袂推荐:" +
                "------陈兴茂 猎聘CTO\n" +
                "------梅一多 博士 上海市青年拔尖人才,中基凌云科技有限公司联合创始人\n" +
                "------杨正洪 博士 中央财经大学财税大数据实验室首席科学家\n" +
                "------刘冬冬 首席数据官联盟创始人\n" +
                "------龙旭东 北京掌游智慧科技有限公司董事长";
        List<String> newWordList = findNewWords(content);
        System.out.println(StringUtils.join(newWordList,","));
    }
    /**
     * HanLP新词发现
     * @param content
     * @return
     */
    public static List<String> findNewWords(String content){
        LearnTool learnTool = new LearnTool();
        NlpAnalysis nlpAnalysis = new NlpAnalysis().setLearnTool(learnTool) ;
        nlpAnalysis.parseStr(content);
        List<Map.Entry<String, Double>> topTree = learnTool.getTopTree(0);
        List<String> newWords = new ArrayList<String>();
        if(topTree!=null){
            for (Map.Entry<String, Double> entry : topTree) {
                newWords.add(entry.getKey());
            }
        }
        return newWords;
    }
}

短语提取算法原理

下一篇文章详细讲解短语提取算法原理,敬请关注。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。

全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。

本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战 视频教程【陈敬雷】

视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

上一篇:自然语言处理系列四十一》新词发现与短语提取》新词发现算法原理
下一篇:自然语言处理系列四十三》新词发现与短语提取》短语提取》算原理

相关推荐
小嗷犬4 分钟前
【论文笔记】VCoder: Versatile Vision Encoders for Multimodal Large Language Models
论文阅读·人工智能·语言模型·大模型·多模态
Struart_R10 分钟前
LVSM: A LARGE VIEW SYNTHESIS MODEL WITH MINIMAL 3D INDUCTIVE BIAS 论文解读
人工智能·3d·transformer·三维重建
lucy1530275107911 分钟前
【青牛科技】GC5931:工业风扇驱动芯片的卓越替代者
人工智能·科技·单片机·嵌入式硬件·算法·机器学习
爬山算法16 分钟前
Maven(28)如何使用Maven进行依赖解析?
java·maven
幻风_huanfeng38 分钟前
线性代数中的核心数学知识
人工智能·机器学习
2401_8574396940 分钟前
SpringBoot框架在资产管理中的应用
java·spring boot·后端
怀旧66641 分钟前
spring boot 项目配置https服务
java·spring boot·后端·学习·个人开发·1024程序员节
李老头探索43 分钟前
Java面试之Java中实现多线程有几种方法
java·开发语言·面试
volcanical1 小时前
LangGPT结构化提示词编写实践
人工智能
粤海科技君1 小时前
如何使用腾讯云GPU云服务器自建一个简单的类似ChatGPT、Kimi的会话机器人
服务器·chatgpt·机器人·腾讯云