使用ORM模型操作MySQL数据库:Python爬虫数据持久化实践

源码分享

https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2

在Python爬虫开发中,数据持久化是一个重要的步骤。通常,我们会将爬取的数据保存到数据库中。本篇博客将介绍如何使用对象关系映射(ORM)模型在Python中操作MySQL数据库,以便更加高效和安全地管理爬虫数据。

ORM简介

ORM即对象关系映射,它是一种数据库抽象技术,使得开发者能够以编程语言中的对象的方式来操作数据库。Python社区中流行的ORM框架有SQLAlchemy和Django ORM等。

SQLAlchemy入门

SQLAlchemy是Python中最著名的ORM工具之一,它提供了强大的数据库操作能力。以下是如何使用SQLAlchemy操作MySQL数据库的详细步骤。

安装必要库

首先,确保已经安装了​​SQLAlchemy​​和MySQL的Python适配器,例如​​mysql-connector-python​​:

复制代码
pip install sqlalchemy mysql-connector-python

定义模型

定义一个模型,它映射到MySQL数据库中的一个表。例如,如果您的爬虫正在爬取书籍信息,您可能会有一个模型如下:

复制代码
from sqlalchemy import create_engine, Column, Integer, String, Float
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

# 定义基类
Base = declarative_base()

# 定义Book模型,它对应于MySQL中的一个表
class Book(Base):
    __tablename__ = 'books'  # 数据库中表的名字
    id = Column(Integer, primary_key=True)
    title = Column(String(200))
    author = Column(String(100))
    ratings = Column(Float)

    def __repr__(self):
        return f"<Book(title={self.title}, author={self.author}, ratings={self.ratings})>"

连接数据库

创建一个与MySQL数据库的连接,并建立一个Session来操作数据库。

复制代码
# 创建连接到数据库的引擎
engine = create_engine('mysql+mysqlconnector://user:password@localhost:3306/dbname')

# 创建所有表(如果它们还不存在)
Base.metadata.create_all(engine)

# 创建Session类
Session = sessionmaker(bind=engine)

# 创建实际的Session对象
session = Session()

请将​​user​​, ​​password​​, ​​localhost​​, ​​3306​​和​​dbname​​替换为实际的MySQL连接参数。

操作数据库

现在可以通过创建模型的实例来插入新记录,通过查询来获取数据,通过修改模型实例来更新记录,或者删除记录。

复制代码
# 插入新书籍
new_book = Book(title="Python编程:从入门到实践", author="Eric Matthes", ratings=4.5)
session.add(new_book)
session.commit()

# 查询书籍数据
books = session.query(Book).filter_by(author="Eric Matthes").all()
for book in books:
    print(book)

# 更新书籍数据
book_to_update = session.query(Book).get(1)  # 假设id为1的书籍存在
if book_to_update:
    book_to_update.ratings = 4.7
    session.commit()

# 删除书籍数据
book_to_delete = session.query(Book).get(1)
if book_to_delete:
    session.delete(book_to_delete)
    session.commit()

结语

ORM提供了一种方便的方式来操作数据库,使得数据库操作更加直观和安全。在爬虫项目中,使用ORM可以提高代码的可读性和可维护性,并且有助于避免SQL注入这样的安全问题。本篇博客介绍了如何使用SQLAlchemy框架与MySQL交互,希望能帮助你在接下来的爬虫项目中更高效地处理数据。

使用ORM模型操作数据库是现代Web开发的最佳实践之一,而在爬虫开发中同样适用。始终记住,每一个爬虫都应当负责任地对待数据和网络资源。祝您的爬虫项目顺利!

相关推荐
大得36927 分钟前
django生成迁移文件,执行生成到数据库
后端·python·django
大志说编程34 分钟前
LangChain框架入门17: 手把手教你创建LLM工具
python·langchain·ai编程
R-G-B1 小时前
【P38 6】OpenCV Python——图片的运算(算术运算、逻辑运算)加法add、subtract减法、乘法multiply、除法divide
人工智能·python·opencv·图片的运算·图片加法add·图片subtract减法·图片乘法multiply
数据智能老司机1 小时前
MCP 实战——全局视角:为什么 MCP 将成为 AI 的颠覆者
python·llm·mcp
在星空下1 小时前
Fastapi-Vue3-Admin
前端·python·fastapi
似水流年流不尽思念1 小时前
MySQL 的 MVCC 到底解决了幻读问题没有?请举例说明。
mysql·面试
cxyll12341 小时前
从接口自动化测试框架设计到开发(三)主流程封装、返回数据写入excel
前端·python·excel
Kyln.Wu1 小时前
【python实用小脚本-190】Python一键删除PDF任意页:输入页码秒出干净文件——再也不用在线裁剪排队
服务器·python·pdf
秋难降2 小时前
零基础学SQL(八)——事务
数据库·sql·mysql
Starry_hello world2 小时前
MySql 表的约束
数据库·笔记·mysql·有问必答