Lua 第11部分 小插曲:出现频率最高的单词

在本章中,我们要开发一个读取并输出一段文本中出现频率最高的单词的程序。像之前的小插曲一样,本章的程序也十分简单但是也使用了诸如迭代器和匿名函数这样的高级特性。

该程序的主要数据结构是一个记录文本中出现的每一个单词及其出现次数之间关系的表。使用这个数据结构,该程序可以完成 3 个主要任务。

(1)读取文本并计算每一个单词的出现次数。

(2)按照出现次数的降序对单词列表进行排序。

(3)输出有序列表中的前 n 个元素。

要读取文本,可以遍历每一行,然后遍历每一行的每一个单词。对于我们读取的每一个单词,增加对应计数器的值:

Lua 复制代码
local  counter = {}

for line in io.lines() do
	for word in string.gmatch(line, "%w+") do
		counter[word] = (counter[word] or 0) + 1
	end
end

这里,我们使用模式"%w+"来描述"单词", 也就是一个或多个字母或数字。

下一步就是对单词列表进行排序。不过,就像一些有心的读者可能已经注意到的那样,我们并没有可以用来排序的单词列表。尽管如此,使用表 counter 中作为键的单词来创建一个列表还是很简单的:

Lua 复制代码
local words = {}		-- 文本中所有单词的列表

for w in pairs(counter) do
	words[#words + 1] = w
end

一旦有了单词列表,就可以使用函数 table.sort 对其进行排序 :

Lua 复制代码
table.sort( words, function (w1, w2)
	return counter[w1] > counter[w2] or
			counter[w1] == counter[w2] and w1 < w2
end )

统计单词出现频率的程序完整的代码如下:

Lua 复制代码
local  counter = {}

for line in io.lines() do
	for word in string.gmatch(line, "%w+") do
		counter[word] = (counter[word] or 0) + 1
	end
end

local words = {}		-- 文本中所有单词的列表

for w in pairs(counter) do
	words[#words + 1] = w
end

table.sort( words, function (w1, w2)
	return counter[w1] > counter[w2] or
			counter[w1] == counter[w2] and w1 < w2
end )

-- 要输出的字数
local n = math.min(tonumber(arg[1]) or math.huge, #words)

for i = 1, n do
	io.write(words[i], "t", counter[words[i]], "\n")
end

最后一个循环输出了结果,也就是前 n 个单词及它们对应的计数值。这个程序假定第 1个参数是要输出单词的个数;默认情况下,如果没有参数,它会输出所有的单词 。

相关推荐
IT猿手12 分钟前
基于控制障碍函数的多无人机编队动态避障控制方法研究,MATLAB代码
开发语言·matlab·无人机·openclaw·多无人机动态避障路径规划·无人机编队
AI科技星22 分钟前
全尺度角速度统一:基于 v ≡ c 的纯推导与验证
c语言·开发语言·人工智能·opencv·算法·机器学习·数据挖掘
sunwenjian88636 分钟前
Java进阶——IO 流
java·开发语言·python
波特率11520041 分钟前
const关键字与函数的重载
开发语言·c++·函数重载
FL16238631291 小时前
[C#][winform]segment-anything分割万物部署onnx模型一键抠图演示
开发语言·c#
百锦再1 小时前
Java 并发编程进阶,从线程池、锁、AQS 到并发容器与性能调优全解析
java·开发语言·jvm·spring·kafka·tomcat·maven
条tiao条1 小时前
KMP 算法详解:告别暴力匹配,让字符串匹配 “永不回头”
开发语言·算法
干啥啥不行,秃头第一名1 小时前
C++20概念(Concepts)入门指南
开发语言·c++·算法
2301_807367192 小时前
C++中的解释器模式变体
开发语言·c++·算法
always_TT2 小时前
C语言中的字符与字符串(char数组)
c语言·开发语言