【腾讯云Cloud Studio实战训练营】如何成为一名合格的Python爬虫“念咒师”(基于ChatGpt)

【前言】

不管是新手程序猿,还是秃头程序猿,在工作学习中,都无法避免一项看似简单却又异常重要的环节------搭建开发环境,这常常让我们程序猿们头痛不已!毫不夸张的说,它可能是整个开发过程中最具挑战性和耗时的一环。

  • 首先,选择合适的硬件设备是搭建开发环境的第一步。需要考虑的因素有很多很多,比如处理器速度、内存容量、存储空间等。

  • 其次,选择合适的开发软件和工具也是非常重要的。不同的项目需要不同的编程语言和集成开发环境(IDE)。而且还需要安装和配置版本控制系统、数据库管理工具等。

  • 此外,搭建开发环境的挑战并不仅限于上述硬件和软件的选择。在实际操作过程中,常常会遇到各种问题和BUG。比如:软件的版本兼容性;网络连接的稳定性;安全设置和权限限制等。

看到这的小伙伴们,是不是已经深有同感开始头疼了😂

尽管搭建开发环境是一项困难且耗时的任务,但它对我们的工作效率和开发质量有着重要的影响。一个良好的开发环境可以提供高效的编码和调试工具,减少不必要的错误和调试时间,从而加快开发进度并提高程序的稳定性。

这就不得不提到------Cloud Studio产品了!!!使用它,我们可以一键构成所需的开发环境,哪怕你是零基础的小白,相信经过本文的学习,也会使用Cloud Studio构建自己所需的开发环境!

很喜欢大佬的一句话,这里也贴给大家看看:

目录:

一、Cloud Studio

第一部分:介绍

随着云计算技术的不断发展,云端工作站越来越受大家的欢迎。而Cloud Studio就是其中的一个佼佼者。**Cloud Studio 是基于浏览器的在线集成式开发环境(IDE),为开发者提供了一个永不间断的云端工作站。用户在使用 Cloud Studio 时无需安装,随时随地打开浏览器就能在线编程。**得益于以下优点,它成为了大部分程序猿们的首选开发环境。

  • 首先,Cloud Studio可以实现跨平台和设备的无缝协作。因为它是基于云计算的,所以我们可以在任何时间、任何地点(PS:超级侦探,认真办案)访问自己的开发环境。这对于需要频繁出差或远程合作的团队来说尤其有用。

  • 其次,Cloud Studio提供了强大的计算和存储能力。我们可以直接利用它的云计算资源来加速编译、运行和调试代码,而且也可以存储和管理大量的项目文件和数据。这样不仅可以提高工作效率,而且可以节省资源消耗。

  • 另外,Cloud Studio提供了灵活的扩展和定制选项。配备了丰富的开发工具和软件,比如集成开发环境(IDE)、版本控制系统、数据库管理工具等。而且,我们可以根据自己的需求自定义环境设置,安装所需的软件和插件。这使得我们可以快速搭建适合自己的开发环境。

  • 最后,Cloud Studio还提供了高级别的安全性和数据保护措施。云服务提供商通常会采用多层次的安全措施来保护用户的数据和隐私,包括加密传输、身份验证、防火墙等。同时,他们也会定期备份和存储数据,以防止数据丢失或损坏。这样的数据安全性和可靠性难道还不足以让你心动吗!

大家通过上图可以很清楚地看到,Cloud Studio为我们提供了很多语言的开发环境和框架模板。

Cloud Studio 作为在线 IDE,几乎拥有我们本地IDE的所有功能,比如:代码高亮、自动补全、Git 集成、终端等,同时支持实时调试、插件扩展等,可以帮助开发者快速完成各种应用的开发、编译与部署工作。

同时 Cloud Studio 也对所有新老用户每月赠送 3000 分钟的工作空间免费时长。白嫖就完事了~

这里上手非常简单操作界面跟我们使用的 VS Code 操作界面类似。

第二部分:使用

(1)注册:

注册 Cloud Studio 非常方便,有三种注册方式

  • 使用CODING账号注册
  • 使用微信授权注册
  • 使用GitHub授权注册
    由于 CODING 和 Cloud Studio 实现了账号互通,我们可以用 CODING 账号登录,完成账号授权。

(2)启动对应的Python开发环境:

进入Cloud Studio控制台,选择'常用模板'里名为'Python'的模板点击即可:

点击完毕后,环境会自动开始配置,正常情况下大概1-2分钟左右,Python开发环境就配好了,是不是一键构成开发环境!

启动成功后,我们进入了一个欢迎界面:

通过对代码和README的简单解读我们发现,这是一个默认的Flask项目搭建起来的临时页面(巧了不是,我的Flask专栏最近正在持续更新中~学习过我Flask专栏的小伙伴,看这个类似于hello world的Flask项目是不是感觉so easy!)

是不是会有小伙伴疑惑:为何一进来这个Flask项目就自动启起来,而且自动访问了Flask的设置的路由并弹出了这个响应界面呢?

这就需要看到.vscode文件夹里的preview.yml配置文件了,如下所示。注释非常的详细,大家一目了然了~

同时这也给了我们启发,在用Cloud Studio开发的时候通过这个yml文件实现一些骚操作哦~

powershell 复制代码
# .vscode/preview.yml
autoOpen: true # 打开工作空间时是否自动开启所有应用的预览
apps:
  - port: 5000 # 应用的端口
    run: pip install -i https://mirrors.tencent.com/pypi/simple/ -r ./requirements.txt && bash /usr/bin/start-vnc-session.sh && python ./app.py # 应用启动命令
    root: ./web # 应用的启动目录
    name: Python Cloud Studio Demo # 应用名称
    description: Python Cloud Studio Demo Project # 应用描述
    autoOpen: true # 打开工作空间时是否自动运行命令(优先级高于根级 autoOpen)
    autoPreview: true # 是否自动打开预览, 若无则默认为true

我们可以在终端处查看Python版本。

可以看到version 3.11.1还是比较新的一个版本。

这个页面我们先放着,本次的念咒编程也用不上Flask,我们后续直接在这个环境的根目录里创建新文件进行操作即可~

二、实操---念咒编程

第一部分:何为念咒编程?

2022年12月 OpenAI 推出 ChatGPT 以来,国内外掀起了大型语言模型(LLM)AI的热潮,随着 GPT 的技术的不断发展以及应用的不断普及,一个全新的职业逐渐被推出------------"念咒师"!由念咒师给出的高效提示/输入(Promt)对于ChatGpt输出的质量高与低至关重要。

在我的几个"咒语"下 GPT 帮我完成了一个应用、在我的几个"咒语"下 GPT 帮我设计了一个广告海报、在我的几句"咒语"下 GPT 帮我做好了一个汇报 PPT...

如何有效通过语言艺术使GPT高效完成我们想让他做的事情,即如何成为一名合格的念咒师,正是本文的一大重点所在!

下面就请跟随我的脚步,通过念咒编程做一个Python爬虫------【爬取豆瓣TOP250所有电影信息】

第二部分:无门槛念咒编程做Python爬虫------抓取豆瓣TOP250电影信息

(1)需求分析:

  • 目标网站------https://movie.douban.com/top250
  • 爬取如下图所示豆瓣电影TOP250所有的电影信息,如:电影名,导演,主演等;
  • 需要注意的是:这个网站的电影数据是分页展示的;
  • 同时,我们最终希望的效果不仅仅是控制台打印结果,而且要同时保存到json文件里。

该准备的工具(Cloud Studio)都准备好了,爬取目标也十分明确(这个目标也是好多大学生大学生涯的某一次课外作业),如何正确对 GPT 发问,或者提需求其实是非常讲究的,并且作为一个拿到答案的人,你也一定要有辨别是非的能力 ;例如 GPT 告诉了你一串Python代码,尽管你一句都看不懂,但你还兴高采烈的CV代码中去运行导致和各种BUG对抗,但是对有辨别能力的人来说,一看 GPT 的回复代码立马能够找到问题,并且通过下一句话把这个"补丁"打好。

Chatgpt是一个可以连续提问,能够结合上下文内容进行反馈的AI,所以在提问时我们不要一口气把整个问题都抛给它,我们要一点点的提问,一点点的增加需求,让它最终实现我们要的东西。

(2)念咒编程------对GPT念出咒语:

  1. 在Cloud Studio中创建要编写代码的文件。例如我的叫main.py
  2. 第一问------使用Python,帮我爬取https://movie.douban.com/top250这个网站的电影相关信息。
    可以看到,Chatgpt甚至很贴心地告诉我们需要安装程序运行所需的库,并给了可以直接用的代码,所以使用Cloud Studio终端下载一下,如下第二个图。


    将代码CV过来,终端运行:

    但是运行之后,终端并无任何打印,这是为何呢?
    这就说明,Chatgpt固然强大,但是仍会有错误哦~所以我们直接来问问ChatGpt,看看它能否帮我们解决:

    非常棒,在我们的帮助下,它认识到了自己的错误并改正了!其实就是加了个请求头🤣
    直接CV过来继续运行:

    成功啦!!!
    经过我们观察目标网站,发现一页就是25个电影信息,这里刚刚好,而且电影相关信息都获取到了!!!
    是不是很有趣?
    是不是很简单?
    有兴趣的同学可以赶紧入坑一波Python爬虫哦~

上面已经完成第一页电影信息的抓取,下面就通过念咒,控制ChatGpt来抓取多页,共计250个电影的信息。

  1. 第三问------这个网站分页了,上面只能获取到第一页的电影数据,我想要获取所有250个电影信息。

    继续直接CV,运行:

    效果杠杠的!
    到目前为止,所有电影信息都已经获取成功,下面通过念咒让ChatGpt完成最后一个功能:另存为json文件。
  2. 第四问------将结果另存为json文件。

    继续直接CV,运行:

    运行成功,我们本次的念咒编程之旅完美结束!

三、总结

使用腾讯云Cloud Studio后的一些个人感受与总结:

关于腾讯云Cloud Studio的优点在上面的内容中已经阐述的非常全面细致。比如:可以实现跨平台和设备的无缝协作、提供了强大的计算和存储能力、提供了高级别的安全性和数据保护措施等。

但是,我想强调的关于云IDE的一个优势点是:

(同时也是开头中我引用的大佬的一个观点,结合一些个人拙见)

编程界无时无刻都有无数新人小白的加入,但是他们中有很大一部分都在配置开发环境这一环饱受折磨甚至被劝退转行。而现在,有了各种云IDE产品,尤其是腾讯云Cloud Studio,使用它的话,我们可以非常简单快捷的走过一环,比如你要学习什么语言学习什么框架的话,不用在本地搭建各种开发环境,而是直接一键启动对应的开发环境即可!!!

真是相遇恨晚,如果早几年让我在大学里遇到Cloud Studio,那我现在的编程功力肯定能提高好几个等级(PS:开个玩笑话)

建议方向的话:

  • 目前腾讯云Cloud Studio只提供了部分基础的IDE功能,期待更多IDE功能的更新;
  • 任何一款产品的性能都是需要长期更新迭代的,俗话说的好,没有最好,只有更好;
  • 一个月3000分钟免费额度有点短,对于习惯内卷且习惯白嫖的我们来说,我们希望是一万年~
相关推荐
互联网杂货铺8 分钟前
基于Selenium+Python的web自动化测试框架(附框架源码+项目实战)
自动化测试·软件测试·python·selenium·测试工具·单元测试·测试用例
myheartgo-on30 分钟前
PySpark——Python与大数据
大数据·python·信息可视化
weixin_478689761 小时前
【回溯法】——组合总数
数据结构·python·算法
天天要nx1 小时前
D68【python 接口自动化学习】- python基础之数据库
数据库·python
山山而川 潺潺如镜1 小时前
杰控通过 OPCproxy 获取数据发送到服务器
python
好看资源平台1 小时前
爬虫开发工具与环境搭建——使用Postman和浏览器开发者工具
爬虫·lua·postman
V搜xhliang02461 小时前
基于深度学习的地物类型的提取
开发语言·人工智能·python·深度学习·神经网络·学习·conda
API快乐传递者2 小时前
除了网页标题,还能用爬虫抓取哪些信息?
开发语言·爬虫·python
豌豆花下猫2 小时前
REST API 已经 25 岁了:它是如何形成的,将来可能会怎样?
后端·python·ai
平头哥在等你4 小时前
Python中的正则表达式教程
python·正则表达式