python--常用简单功能

os函数获取上层目录

python 复制代码
# 获取当前目录
print(os.path.abspath(os.path.dirname(__file__)))
# 获取上级目录
print(os.path.abspath(os.path.dirname(os.path.dirname(__file__))))
print(os.path.abspath(os.path.dirname(os.getcwd())))
print(os.path.abspath(os.path.join(os.getcwd(), "..")))
# 获取上上级目录
print(os.path.abspath(os.path.join(os.getcwd(), "../..")))

中文转为 url 编码

python 复制代码
from urllib.parse import quote
print(quote("xxxx"))

二次 xpath 提取

html 复制代码
<div id="main">
      <div  id="main1">
               <ul>
                   <li>1</li>
                   <li>2</li>
                   <li>3</li>
                   <li>4</li>
           </ul>
       </div>
   </div>
python 复制代码
div = html.xpath("//div[@id='main']")
li = div.xpath("div[@id='main1']/li")

scrapy在爬虫文件中导入 items 文件中的类

python 复制代码
"""items.py"""
class FirstItem(scrapy.Item):
    shopName = scrapy.Field()
    start = scrapy.Field()
    commentNumber = scrapy.Field()
    avgPrice = scrapy.Field()
    shopType = scrapy.Field()
    shopAddress = scrapy.Field()
    isGroupBuy = scrapy.Field()
    groupBuyContent = scrapy.Field()
python 复制代码
"""spider.py"""
from ..items import FirstItem

创建 Scrapy 项目

创建项目的命令:

scrapy startproject MySpider

cd MySpider

在已有 scrapy 项目下创建爬虫:
scrapy genspider example example.com

相关推荐
CodeCraft Studio42 分钟前
国产化Excel开发组件Spire.XLS教程:将Python列表转换为Excel表格(3种实用场景)
开发语言·python·excel·spire.xls·python列表转excel·国产化文档开发
企鹅侠客1 小时前
基于python写的PDF表格提取到excel文档
python·pdf·excel·pdf文档表格转excel
mortimer1 小时前
Python 中那些鲜为人知但实用的工具函数
python
weixin_421133411 小时前
Django 的文档接口
python·django·sqlite
LK_072 小时前
【Open3D】Ch.3:顶点法向量估计 | Python
开发语言·笔记·python
小码哥0682 小时前
智能化招聘系统设计与实现-Java
开发语言·python
饮浊酒2 小时前
Python学习-----小游戏之人生重开模拟器(普通版)
python·学习·游戏程序
CryptoRzz2 小时前
越南k线历史数据、IPO新股股票数据接口文档
java·数据库·后端·python·区块链
chenchihwen2 小时前
深度解析RAG系统中的PDF解析模块:Docling集成与并行处理实践
python·算法·pdf
MasonYyp2 小时前
简单使用Marker
python·语言模型