python-27-零基础自学python

学习内容:《python编程:从入门到实践》第二版

知识点:

统计文本单词数、

解决问题: 'gbk' codec can't decode byte 0x9d in position 995: illegal multibyte sequence"

练习内容:

练习10-10:常见单词 访问古登堡计划,找一些你想分析的图书。下载这些作品的文本文件或将浏览器中的原始文本复制到文本文件中。可以使用方法count()来确定特定的单词或短语在字符串中出现了多少次。

可以使用方法count()来确定特定的单词或短语在字符串中出现了多少次。例如,下面的代码计算'row'在一个字符串中出现了多少次:插图

请注意,通过使用lower()将字符串转换为小写,可捕捉要查找单词的所有格式,而不管其大小写如何。

编写一个程序,它读取你在古登堡计划中获取的文件,并计算单词'the'在每个文件中分别出现了多少次。这里计算得到的结果并不准确,因为将诸如'then'和'there'等单词也计算在内了。请尝试计算'the '(包含空格)出现的次数,看看结果相差多少。

我的代码&运行结果:

python 复制代码
def count_words(filename):
    try:
        with open(filename,encoding='utf-8') as file_object:
            contents = file_object.read()
    except:
        print(f"{filename}文件不存在")
    else:
        count1 = contents.lower().count('the')
        print(f"[the]出现{count1}次")
        count2 = contents.lower().count('the ')
        print(f"[the ]出现{count2}次")
        count3 = contents.lower().count(' the ')
        print(f"[ the ]出现{count2}次")

filenames = ["A Little Princess.txt","Alice's Adventures in Wonderland.txt"]
for filename in filenames:
    count_words(filename)

练习

注意点:

1.最后写count_words()的时候,忘记写了这个filename

2.我遇到第二个问题是文件不存在,但是文件是存在的,不知道什么原因。

处理方式:

1.删除try-except-else,让程序运营,发现问题

2.书中,也用了这部分代码encoding ='utf-8',果然没有一个字符是乱敲的。

3.try-except-else处理异常要慎用,感觉用了之后完全找不出真正的问题在哪,会导致处理文件的时候出现bug,此外,自己以后写程序,在测试和一开始的阶段,尽量不要用

4.解决方法参考以下几个大佬,感谢,另外发现了博客园也是个不错的论坛,见下文里面的引用,另外是第一个链接写得特别详细,把一些我以为是乱码的符号解释得很清楚:

Python中读取txt文本出现" 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence"的解决办法-CSDN博客
https://blog.csdn.net/lqzdreamer/article/details/76549256

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence-CSDN博客
https://blog.csdn.net/Young__Fan/article/details/89179393

相关推荐
方也_arkling2 小时前
【Java-Day08】static / final / 枚举
java·开发语言
风吹夏回2 小时前
Python 全局异常处理:从“满屏 try-except”到优雅兜底
开发语言·python
Chengbei113 小时前
一站式源码安全检测工具、云安全 / APP / 小程序源码敏感信息递归多层目录扫描AK、JWT、手机号、身份证等敏感信息
java·开发语言·安全·web安全·网络安全·系统安全·安全架构
llz_1123 小时前
web-第一次课后作业
java·开发语言·idea
小熊Coding3 小时前
Python爬取当当网二手图书项目实战!
开发语言·爬虫·python·beautifulsoup·requests·二手图书
秋93 小时前
Java项目运行5天左右自动宕机:系统性定位与解决方案
java·开发语言·python
小江的记录本3 小时前
【JVM虚拟机】垃圾回收GC:垃圾收集器:CMS:核心原理、回收流程、优缺点、废弃原因(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·spring·面试·maven
xiaoshuaishuai83 小时前
C# 内存管理与资源泄漏
开发语言·c#
lsx2024064 小时前
SVN 检出操作
开发语言
田里的水稻4 小时前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人