C语言做的文本词频数量统计功能

用户6120414922132025-09-19 13:17

文本词频统计器

这是一个用C语言编写的文本词频统计程序，可以读取文本文件并统计每个单词的出现次数，然后输出频率最高的10个单词。

功能特点

读取文本文件（支持.txt等文本格式）
自动识别单词（字母和数字组合）
忽略大小写差异
统计每个单词的出现次数
按出现频率排序
输出前10个高频单词
支持大文件处理

编译方法

bash 复制代码

gcc -Wall -Wextra -std=c99 -O2 -o word_frequency word_frequency.c

使用方法

基本用法

bash 复制代码

./word_frequency <文本文件名>

示例

bash 复制代码

# 使用提供的示例文件
./word_frequency sample.txt

# 使用自己的文本文件
./word_frequency my_text.txt

Windows用户

bash 复制代码

# 编译
gcc -o word_frequency.exe word_frequency.c

# 运行
word_frequency.exe sample.txt

输出示例

markdown 复制代码

正在读取文件: sample.txt
文件读取成功，开始分析...

=== 词频统计结果 ===
排名    单词           出现次数
--------------------------------
1       the            8
2       dog            4
3       lazy           4
4       fox            3
5       quick          3
6       brown          3
7       jumps          2
8       over           2
9       was            2
10      testing        2

总共统计了 45 个不同的单词

程序特性

智能单词识别：程序会自动识别由字母和数字组成的单词
大小写不敏感：所有单词都会被转换为小写进行统计
高效排序：使用快速排序算法对结果进行排序
内存管理：动态分配内存，支持大文件处理
错误处理：包含完善的错误处理机制

技术实现

使用结构体存储单词和计数
动态内存分配处理文件内容
快速排序算法进行结果排序
标准C库函数进行文件操作和字符串处理

文件说明

word_frequency.c - 主程序源代码
sample.txt - 示例文本文件
README.md - 说明文档

系统要求

C编译器（如GCC、Clang等）
支持C99标准
足够的可用内存（取决于文本文件大小）

注意事项

程序最多支持统计10000个不同的单词
单个单词最大长度为100个字符
确保输入文件存在且可读
程序会忽略标点符号，只统计字母数字组合

上一篇：Python 文件上传：一个简单却易犯的错误及解决方案

下一篇：从零开始：C# 拼音首字母搜索、字符串编码、关键词高亮的原理即实现考虑

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10CC-Switch & Claude 基于 Linux 服务器安装使用指南