python--常用简单功能

os函数获取上层目录

python 复制代码
# 获取当前目录
print(os.path.abspath(os.path.dirname(__file__)))
# 获取上级目录
print(os.path.abspath(os.path.dirname(os.path.dirname(__file__))))
print(os.path.abspath(os.path.dirname(os.getcwd())))
print(os.path.abspath(os.path.join(os.getcwd(), "..")))
# 获取上上级目录
print(os.path.abspath(os.path.join(os.getcwd(), "../..")))

中文转为 url 编码

python 复制代码
from urllib.parse import quote
print(quote("xxxx"))

二次 xpath 提取

html 复制代码
<div id="main">
      <div  id="main1">
               <ul>
                   <li>1</li>
                   <li>2</li>
                   <li>3</li>
                   <li>4</li>
           </ul>
       </div>
   </div>
python 复制代码
div = html.xpath("//div[@id='main']")
li = div.xpath("div[@id='main1']/li")

scrapy在爬虫文件中导入 items 文件中的类

python 复制代码
"""items.py"""
class FirstItem(scrapy.Item):
    shopName = scrapy.Field()
    start = scrapy.Field()
    commentNumber = scrapy.Field()
    avgPrice = scrapy.Field()
    shopType = scrapy.Field()
    shopAddress = scrapy.Field()
    isGroupBuy = scrapy.Field()
    groupBuyContent = scrapy.Field()
python 复制代码
"""spider.py"""
from ..items import FirstItem

创建 Scrapy 项目

创建项目的命令:

scrapy startproject MySpider

cd MySpider

在已有 scrapy 项目下创建爬虫:
scrapy genspider example example.com

相关推荐
@zulnger几秒前
python 学习笔记(循环)
笔记·python·学习
No_Merman7 分钟前
【DAY28】元组和os模块
python
iuu_star22 分钟前
金融数据-基于Streamlit的金融数据分析平台开发详解
python·金融·数据挖掘
智航GIS25 分钟前
9.3 Excel 自动化
python·自动化·excel
草莓熊Lotso26 分钟前
Python 库使用全攻略:从标准库到第三方库(附实战案例)
运维·服务器·汇编·人工智能·经验分享·git·python
我送炭你添花30 分钟前
Pelco KBD300A 模拟器:06+6.键盘按键扩展、LCD 优化与指示灯集成(二次迭代)
python·自动化·计算机外设·运维开发
vibag31 分钟前
RAG项目实践
python·语言模型·langchain·大模型
猫头虎34 分钟前
如何解决pip报错 import pandas as pd ModuleNotFoundError: No module named ‘pandas‘问题
java·python·scrapy·beautifulsoup·pandas·pip·scipy
飞天小蜈蚣35 分钟前
python-django_ORM的基本操作
android·python·django
七分辣度44 分钟前
Python给PDF添加水印(极速版)
python·pdf