11.22【大数据】

各文件的区别

1. history_starter_jrj.py
  • 爬虫对象JrjSpyder
  • 数据来源:金融界(JRJ)
  • 爬取方式 :调用 get_historical_news 方法,传入网站列表和起始日期。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
2. history_starter_nbd.py
  • 爬虫对象NbdSpyder
  • 数据来源:每日经济新闻(NBD)
  • 爬取方式 :调用 get_historical_news 方法,传入起始页码。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
3. history_starter_cnstock.py
  • 爬虫对象CnStockSpyder
  • 数据来源:中国证券网(CNStock)
  • 爬取方式 :循环调用 get_historical_news 方法,传入每个网站的URL和分类。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
    5. 每次爬取后休眠30秒,防止被封IP。
4. history_starter_stock_price.py
  • 爬虫对象StockInfoSpyder
  • 数据来源:股票价格数据
  • 爬取方式 :调用 get_historical_news 方法,可以指定起始和结束日期,如果不指定则从最新数据时间开始获取直到当前。
  • 处理步骤
    1. 爬取历史股票价格数据。

总结

  • 数据来源:四个文件分别从不同的数据源爬取数据,分别是金融界(JRJ)、每日经济新闻(NBD)、中国证券网(CNStock)和股票价格数据。
  • 爬取方式:爬取方式有所不同,JRJ和CNStock需要传入具体的网站列表和分类,NBD需要传入起始页码,而股票价格数据可以通过指定时间段来爬取。
  • 处理步骤:前三个文件(JRJ、NBD、CNStock)的处理步骤相似,包括爬取数据、去重清洗、去除null值和创建新的数据库。而股票价格数据文件(stock_price)只包含爬取数据的步骤。

这些文件的主要区别在于数据源的不同和爬取方式的差异,但处理步骤在前三个文件中基本一致。

PRO1,tensorFlow版本问题

相关推荐
左林右李021 小时前
watermark的作用
大数据
Deepoch3 小时前
静默的田野守护者:Deepoc具身智能如何让除草机器人读懂大地密语
大数据·人工智能
蜜獾云3 小时前
Flink双流实时对账
大数据·flink·linq
黄雪超3 小时前
Kafka——生产者压缩算法
大数据·分布式·kafka
Ftrans13 小时前
【分享】文件摆渡系统适配医疗场景:安全与效率兼得
大数据·运维·安全
天氰色等烟雨17 小时前
支持MCP服务的多平台一键发布工具
大数据·github·mcp
AutoMQ17 小时前
技术干货|深度剖析将 Kafka 构建在 S3 上的技术挑战与最佳实践
大数据
AutoMQ18 小时前
技术干货|AutoMQ:在 Kafka 中无需使用 Cruise Control 实现自动分区重分配
大数据
搞数据的小杰18 小时前
spark广播表大小超过Spark默认的8GB限制
大数据·数据库·分布式·spark
isNotNullX19 小时前
数据怎么分层?从ODS、DW、ADS三大层一一拆解!
大数据·开发语言·数据仓库·分布式·spark