技术栈
中文分类
DreamNotOver
9 个月前
spark-ml
·
中文分类
使用spark mllib训练中文文本分类器的
该代码首先读取训练数据。训练数据包括文本内容和文本类别两列。然后,我们使用中文分词器将文本内容转换为分词结果。在本例中,我们使用了 Spark MLlib 提供的 RegexTokenizer 类。
DreamNotOver
9 个月前
spark-ml
·
集群
·
中文分类
使用 Spark MLlib 使用 jieba 分词训练中文分类器
github.com/DanielReider/bde-project在 Spark 集群上实现中文分类器,可以使用以下步骤: