Python网络爬虫实战——实验8:Python爬虫项目部署与kafka消息队实战

【实验内容】

本实验主要介绍关于在Linux云环境下部署和运行爬虫项目并使用kafka发送消息队列。

【实验目的】

1、学会在云环境中部署爬虫项目

2、掌握Kafka消息队列的基本使用

3、实现爬虫与消息队列的集成

【实验步骤】

步骤1 在Linux上部署爬虫项目

步骤2 Kafka消息队列的基本使用

步骤3 在python中向kafka推送消息

步骤1:在云环境中部署爬虫项目

(1) 使用pycharm部署爬虫项目

在pycharm中点击如上图所示的Configuration

-*******************************************************************************

-********************************************************************************

点击上图所示按钮进入云服务器的配置。

-***************************************************************************

输入域名、用户名、地址后点击Test Connection测试连接

-**********************************************************************************

连接成功后,点击Mappings配置路径映射,local path 表示window 上爬虫项目的路径,Deployment path 是Linux服务器上项目存放的路径。

-***************************************************************************************

右击项目根目录,选择将整个项目上传至你所连接的服务器。如下图所示

-*********************************************************************************

(2) 数据库迁移


使用navicat将本地数据库转存为sql文件,保存结构和数据。然后连接上我们的linux服务器,运行sql文件(如下图所示)即可完成数据表和数据内容的迁移。

-*********************************************************************

(3) python虚拟环境
(4) 项目运行

Python manage.py runserver

后台运行 nohup python manage.py runserver 2>&1 &

/============================================================
=========================================================================================================================
/
2>&1: /============================================================
=========================================================================================================================
/

-&: /===================================================================
==================
/

-**********************************************************************************

项目运行成功如上图所示,当到达定时点时候,就会开始自动运行脚本程序进行数据采集。
步骤2 Kafka消息队列的基本使用

Kafka 是一个分布式流处理平台,通常被用于构建实时数据管道和流应用程序。它提供了高吞吐量、容错性和可伸缩性的特性。

复制代码
创建一个主题(Topic):在 Kafka 中,数据被组织成主题。主题是消息的分类,生产者将消息发送到主题,而消费者从主题订阅消息。
/*=============================================================================================================================================================*/
/*==============================================================================================================================================================*/
/*===============================================================================================================================================================================*/
消息的序列化和反序列化:默认情况下,Kafka 接收和发送的消息是字节数组。在实际应用中,你需要使用序列化器将消息转换为特定的格式。常见的选择包括 JSON、Avro 等。在生产者和消费者配置中,你可以指定相应的序列化和反序列化器。
Kafka 集群:在生产环境中,通常会运行多个 Kafka 服务器组成集群,以提高容错性和可伸缩性。确保生产者和消费者配置中指定了所有 Kafka 服务器的地址。

-***************************************************************************

步骤3 在python中向kafka推送消息

(1) 安装包

pip install confluent_kafka

(2) 发送消息

-****************************************************************************

-**********************************************************************

根据环境变量 'django_env' 的值选择 Kafka 服务器地址,如果 'django_env' 的值为'production',则使用 192.168.0.151:9092否则,使用 192.168.0.228:9092

/============================================================
=========================================================================================================================
/

-***************************************************************************

在数据采集时候,通过调用send_kafka_message方法,向yunnan_zhong这个主题推送消息

-*********************************************************************************

在服务器上可以接收到上图所示的消息示例。

相关推荐
大邳草民12 小时前
深入理解 Python 的属性化方法
开发语言·笔记·python
周杰伦_Jay12 小时前
【日志处理方案大比拼】 Filebeat+Kafka+Flink+Spark+ES+HDFS VS ELK/AOP/RocketMQ/大厂方案
flink·spark·kafka
洗紫13 小时前
Python中的条件语句怎么使用?
python
南汐汐月13 小时前
重生归来,我要成功 Python 高手--day35 深度学习 Pytorch
pytorch·python·深度学习
java1234_小锋13 小时前
[免费]基于Python的深度学习豆瓣电影数据可视化+情感分析推荐系统(Flask+Vue+LSTM+scrapy)【论文+源码+SQL脚本】
python·信息可视化·flask·电影数据可视化
PieroPc14 小时前
一个基于Python Streamlit sqlite3 的销售单管理系统,提供商品管理、客户管理、销售单管理及打印,和应收对账单等功能
python·oracle·sqlite·streamlit
月下倩影时14 小时前
视觉进阶篇—— PyTorch 安装
人工智能·pytorch·python
Valueyou2415 小时前
论文阅读——CenterNet
论文阅读·python·opencv·目标检测·计算机视觉
孤狼warrior15 小时前
目前最新同花顺金融股市数据爬取 JS逆向+node.js补浏览器环境
javascript·爬虫·python·金融·node.js
蒋星熠15 小时前
全栈开发实战指南:从架构设计到部署运维
运维·c++·python·系统架构·node.js·devops·c5全栈