Go语言实战案例-统计文件中每个字母出现频率

以下是《Go语言100个实战案例》中的 文件与IO操作篇 - 案例19:统计文件中每个字母出现频率 的完整内容。本案例适合用来练习文件读取、字符处理、map统计等基础技能。

🎯 案例目标

读取一个本地文本文件,统计并打印出其中每个英文字母(忽略大小写)出现的次数和频率。


🧩 应用场景

  • • 文本分析、自然语言处理前的预处理
  • • 编写字频统计工具
  • • 简化数据分析或可视化处理的前置步骤

🧠 涉及知识点

  • • 使用 os.Open() 读取文件
  • bufio.Scanner 按行读取
  • • 字符串遍历与判断
  • • 使用 map[rune]int 统计频率
  • • 转换大小写 unicode.ToLower

💻 示例代码:统计字母频率

go 复制代码
package main

import (
    "bufio"
    "fmt"
    "os"
    "unicode"
)

func main() {
    filePath := "sample.txt"

    // 打开文件
    file, err := os.Open(filePath)
    if err != nil {
        fmt.Println("无法打开文件:", err)
        return
    }
    defer file.Close()

    // 用于存储每个字母出现的次数
    frequency := make(map[rune]int)
    totalLetters := 0

    scanner := bufio.NewScanner(file)
    for scanner.Scan() {
        line := scanner.Text()
        for _, ch := range line {
            if unicode.IsLetter(ch) {
                ch = unicode.ToLower(ch)
                frequency[ch]++
                totalLetters++
            }
        }
    }

    // 打印结果
    fmt.Println("字母频率统计:")
    for ch := 'a'; ch <= 'z'; ch++ {
        count := frequency[ch]
        if count > 0 {
            percentage := float64(count) / float64(totalLetters) * 100
            fmt.Printf("%c: %d (%.2f%%)\n", ch, count, percentage)
        }
    }
}

📂 示例文本内容(sample.txt)

vbnet 复制代码
Go is expressive, concise, clean, and efficient.
Its concurrency mechanisms make it easy to write programs.

📤 执行结果示例

erlang 复制代码
字母频率统计:
a: 5 (4.85%)
c: 7 (6.80%)
d: 2 (1.94%)
e: 10 (9.71%)
f: 2 (1.94%)
g: 1 (0.97%)
...
t: 8 (7.77%)
w: 1 (0.97%)

🛠 技术说明

函数 说明
os.Open() 打开文件
bufio.NewScanner() 按行扫描文本
unicode.IsLetter() 判断字符是否为英文字母
unicode.ToLower() 转换为小写字母以便统计统一
map[rune]int 使用字符为键的字典进行计数

🧪 拓展练习

  • • 统计所有字符(包括数字、标点)
  • • 按频率从高到低排序输出
  • • 将结果保存为 CSV 或 JSON 文件
  • • 添加参数选择分析哪个文件或字母范围(如大写、小写)

✅ 小结

这个案例帮助你掌握了如何在 Go 中进行文本分析,特别是字母频率统计。这是数据清洗和自然语言处理中的常见需求。


相关推荐
fliter30 分钟前
Arborium:把 tree-sitter 语法高亮打包成 Rust 文档生态的基础设施
后端
张三丰233 分钟前
不会写代码的高管用Claude Code两天上线新程序,工程师接手后发现:一个Bug,让AI一天烧掉一个月服务器费!
后端
Ai拆代码的曹操1 小时前
从一条转账 SQL 到分布式事务:5 种方案的全方位对比与实战
后端
掘金小豆1 小时前
Spring 事务失效的 6 大场景,你踩过几个?
后端·spring·面试
im_lanny1 小时前
Agent = Model + Harness:决定 AI 智能体上限的,往往不是模型而是“装具”
后端
阿文和她的Key1 小时前
AI新词太多?把它们串成一条线就清楚了
后端
笨鸟飞不快1 小时前
当规则比代码跑得快:我对用 LiteFlow 编排信贷业务的一点思考
后端·设计
苏三说技术1 小时前
干掉if...else,这个规则引擎真香!
后端
xiaoshuai10241 小时前
把权限校验从手写里解放出来:RBAC 注解 + 过滤器链的设计
后端
Csvn1 小时前
Python 开发技巧 · Python 上下文管理器 —— 从 with 到 contextlib 实战
后端