Python作为一门热门脚本语言,凭借精简的语法、丰富的内置库和高效的开发效率,成为新手入门编程的首选,尤其适合解决重复性操作,无需在语法和环境配置上花费大量时间。需要注意的是,Python对缩进(Tab)有着严格要求,缩进错误会直接导致代码运行失败。
一、Python核心特性
Python最大的优势的是简洁高效,自带大量库文件,能快速编写脚本完成需求,无需复杂配置。核心注意点:缩进是Python的语法要求,不同缩进层级代表不同代码块,不可随意省略或错乱。
二、Python常用语法与操作
新手入门只需掌握以下常用语法,就能应对基础脚本编写,每一个操作都贴合实操场景,简单易上手:
-
print:基础输出功能,用于打印内容到控制台,示例:print("Hello Python")。 -
def:用于定义函数,函数内部的变量为形参,调用函数时传入的变量为实参,实参值会覆盖形参值,示例:def add(a, b): return a + b(a、b为形参),调用时add(1, 2)(1、2为实参)。 -
return:仅能在def定义的函数中使用,作用是返回函数执行结果;若在函数中执行return,会直接停止函数后续代码的运行。 -
input:用于获取用户外部输入,示例:name = input("请输入你的名字:"),将用户输入的内容赋值给name变量。 -
if 判断:逻辑判断语法,与其他编程语言差别不大,可搭配else、elif实现多条件判断,示例:if a > 10: print("大于10") else: print("小于等于10")。 -
变量赋值:语法为
变量 = 值,其中{}为占位符,可通过format()方法替换占位符内容,示例:print("我叫{},年龄{}".format(name, 18))。 -
try...except:用于捕获代码报错,防止程序崩溃,try内写可能报错的代码,except内写报错后执行的内容,示例:try: print(1/0) except: print("报错了")。
三、Python爬虫基础
Python是爬虫开发的常用工具,爬虫本质是自动访问互联网、抓取网络信息的自动化脚本或程序,核心步骤:访问网站 → 解析响应 → 定位截取内容 → 输出结果。
1. 爬虫实操要点
-
乱码解决:爬取内容出现乱码时,在爬取变量后添加
.encoding = 'utf-8'即可,例如:response.encoding = 'utf-8'。 -
定位内容:爬取时可按F12或右击网页点击"检查",通过鼠标点击目标内容,快速找到对应XPath,右击复制XPath即可直接使用;也可通过"网络"模块查看请求,定位需要爬取的内容。
2. 反爬技巧(爬取失败时使用)
部分网站会拦截爬虫,可通过添加以下参数伪装正常访问,避免被识别:
-
User-Agent:伪装成浏览器访问,模拟正常用户行为。
-
Referer:模拟访问来源,伪造正常的网页跳转路径。
-
Cookie:提供登录凭证,获取需要登录才能访问的内容权限。
四、Python模块使用
模块是已经编写好的代码集合,无需从零编写,导入后即可使用其中的方法、类和变量,极大提升开发效率。其中第三方模块需先通过命令行下载,再导入使用。
1. 模块下载与导入
-
第三方模块下载:打开命令提示窗口,输入
pip install 模块名即可完成下载(例如:pip install requests)。 -
模块导入方式:
-
导入整个模块:使用
import 模块名,使用时格式为模块名.使用方法;按住Ctrl+点击模块名,可快速查看模块内部内容。 -
导入模块特定方法:使用
from 模块名 import 方法。 -
注:导入时不要添加文件后缀
-
2. 常用模块:requests
requests是Python中最常用的发送网络请求模块,也是爬虫开发的核心模块,用于向目标网站发送请求,获取网页响应内容,后续爬取操作均依赖此模块。
五、for循环基础
for循环是Python中常用的循环方式,核心作用是将一组数据(列表、字符串、range、元组、字典、文件等)逐个取出,依次进行操作。
举例:生成1-10的数字(实操示例,可直接复制运行):
python
for i in range(1, 11):
print(i)
说明:range(1,11)表示生成1到10的整数(左闭右开,不包含11),for循环逐个取出赋值给i,再通过print输出i,最终打印出1-10的所有数字。
六、入门总结
Python入门门槛低,语法简洁、实用性强,无论是编写简单脚本解决重复性工作,还是开发爬虫抓取网络信息,都能高效完成。新手入门建议先熟练掌握常用语法和模块使用,重点注意缩进规范,多写实操代码,再逐步深入爬虫等进阶内容,就能快速上手Python编程。