Scala的全文单词统计

全文单词统计:

可分为以下几个步骤:

1.读取文件,得到很长的字符串

2.把字符串拆分成一个一个的单词

3.统计每个单词出现的次数

4.排序

5.把结果写入到一个文件中

完整代码如下:

import java.io.PrintWriter

import scala.io.Source

object 全文单词统计 {

def main(args: Array[String]){

//1.读入文件内容

val content = Source.fromFile("1.text").mkString

println(content)

//2.把字符串拆分为一个一个的单词,保存到数组

//正则表达式

// \\:表示正则表达式

// W:表示一个非字(不是一个字 eg:空格,逗号,句号......)

// W+:多个非字

val arr = content.split("\\W+")

for(word <- arr){

println(word)

}

//3.统计每个单词出现的次数

val wordMap = scala.collection.mutable.Map[String,Int]()

for(word <- arr){

if(wordMap.contains(word)){

wordMap(word) += 1

}else{

wordMap(word) = 1

}

}

//4.排序。Map是无序,要对其进行排序,要先把数组转成序列。List,Array

println(wordMap.toList)

val orderWordList = wordMap.toList.sortWith((a,b)=> a._2 > b._2).filter(e=>e._1.length>2).slice(0,30)

for (e <- orderWordList){

println(e)

}

//5.把结果写到一个文件中

for(e <- orderWordList){

println(e)

}

val writer = new PrintWriter("2.txt")

for (e <- orderWordList) {

writer.write(s"{e._1}: {e._2}\n")

}

writer.close()

}

}

运行结果:

相关推荐
是阿威啊1 天前
【用户行为归因分析项目】- 【企业级项目开发第五站】数据采集并加载到hive表
大数据·数据仓库·hive·hadoop·spark·scala
是阿威啊4 天前
【用户行为归因分析项目】- 【企业级项目开发第四站】模拟三类用户行为数据上传到Hadoop
大数据·hadoop·分布式·sql·scala
今天没有盐6 天前
Python字符串操作全解析:从基础定义到高级格式化
后端·scala·编程语言
是阿威啊7 天前
【用户行为归因分析项目】- 【企业级项目开发第一站】项目架构和需求设计
大数据·hive·hadoop·架构·spark·scala
代码于老总9 天前
【Scala 技巧】用隐式类给 String “开挂”:一行代码实现手机号 / 身份证号校验
scala
scala舔狗汪9 天前
scala的隐式对象和隐式类
scala
是阿威啊10 天前
【maap-analysis】spark离线数仓项目完整的开发流程
大数据·分布式·spark·scala
豚踢兔x15 天前
正则表达式应用-手机号打码
scala
代码于老总16 天前
正则表达式在 Scala 中的应用
scala
凯新生物22 天前
聚乙二醇二生物素,Biotin-PEG-Biotin在生物检测中的应用
scala·bash·laravel·perl