11.22【大数据】

各文件的区别

1. history_starter_jrj.py
  • 爬虫对象JrjSpyder
  • 数据来源:金融界(JRJ)
  • 爬取方式 :调用 get_historical_news 方法,传入网站列表和起始日期。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
2. history_starter_nbd.py
  • 爬虫对象NbdSpyder
  • 数据来源:每日经济新闻(NBD)
  • 爬取方式 :调用 get_historical_news 方法,传入起始页码。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
3. history_starter_cnstock.py
  • 爬虫对象CnStockSpyder
  • 数据来源:中国证券网(CNStock)
  • 爬取方式 :循环调用 get_historical_news 方法,传入每个网站的URL和分类。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
    5. 每次爬取后休眠30秒,防止被封IP。
4. history_starter_stock_price.py
  • 爬虫对象StockInfoSpyder
  • 数据来源:股票价格数据
  • 爬取方式 :调用 get_historical_news 方法,可以指定起始和结束日期,如果不指定则从最新数据时间开始获取直到当前。
  • 处理步骤
    1. 爬取历史股票价格数据。

总结

  • 数据来源:四个文件分别从不同的数据源爬取数据,分别是金融界(JRJ)、每日经济新闻(NBD)、中国证券网(CNStock)和股票价格数据。
  • 爬取方式:爬取方式有所不同,JRJ和CNStock需要传入具体的网站列表和分类,NBD需要传入起始页码,而股票价格数据可以通过指定时间段来爬取。
  • 处理步骤:前三个文件(JRJ、NBD、CNStock)的处理步骤相似,包括爬取数据、去重清洗、去除null值和创建新的数据库。而股票价格数据文件(stock_price)只包含爬取数据的步骤。

这些文件的主要区别在于数据源的不同和爬取方式的差异,但处理步骤在前三个文件中基本一致。

PRO1,tensorFlow版本问题

相关推荐
Lary_Rock1 小时前
ubuntu20.04 Android14编译环境配置
大数据·数据库·elasticsearch
合合技术团队3 小时前
TextIn ParseX文档解析参数使用指南(第一期)
大数据·人工智能·算法·ocr·文档解析
SelectDB3 小时前
网易游戏 x Apache Doris:湖仓一体架构演进之路
大数据·数据库·数据分析
吹35度风3 小时前
Spark-SQL核心编程(二)(三)
大数据·spark
vivo互联网技术4 小时前
Spark on K8s 在vivo大数据平台的混部实战
大数据·spark·容器化
盈达科技4 小时前
盈达科技GEO技术体系全景解密:AIM³ Pro × AICC × GEO-BENCH Pro构建认知主权堡垒
大数据·人工智能
得物技术5 小时前
得物自研DGraph4.0推荐核心引擎升级之路
大数据
F36_9_5 小时前
如何通过工具实现流程自动化
大数据·人工智能