11.22【大数据】

各文件的区别

1. history_starter_jrj.py
  • 爬虫对象JrjSpyder
  • 数据来源:金融界(JRJ)
  • 爬取方式 :调用 get_historical_news 方法,传入网站列表和起始日期。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
2. history_starter_nbd.py
  • 爬虫对象NbdSpyder
  • 数据来源:每日经济新闻(NBD)
  • 爬取方式 :调用 get_historical_news 方法,传入起始页码。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
3. history_starter_cnstock.py
  • 爬虫对象CnStockSpyder
  • 数据来源:中国证券网(CNStock)
  • 爬取方式 :循环调用 get_historical_news 方法,传入每个网站的URL和分类。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
    5. 每次爬取后休眠30秒,防止被封IP。
4. history_starter_stock_price.py
  • 爬虫对象StockInfoSpyder
  • 数据来源:股票价格数据
  • 爬取方式 :调用 get_historical_news 方法,可以指定起始和结束日期,如果不指定则从最新数据时间开始获取直到当前。
  • 处理步骤
    1. 爬取历史股票价格数据。

总结

  • 数据来源:四个文件分别从不同的数据源爬取数据,分别是金融界(JRJ)、每日经济新闻(NBD)、中国证券网(CNStock)和股票价格数据。
  • 爬取方式:爬取方式有所不同,JRJ和CNStock需要传入具体的网站列表和分类,NBD需要传入起始页码,而股票价格数据可以通过指定时间段来爬取。
  • 处理步骤:前三个文件(JRJ、NBD、CNStock)的处理步骤相似,包括爬取数据、去重清洗、去除null值和创建新的数据库。而股票价格数据文件(stock_price)只包含爬取数据的步骤。

这些文件的主要区别在于数据源的不同和爬取方式的差异,但处理步骤在前三个文件中基本一致。

PRO1,tensorFlow版本问题

相关推荐
会飞的老朱11 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
AI_567816 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
CRzkHbaXTmHw16 小时前
探索Flyback反激式开关电源的Matlab Simulink仿真之旅
大数据
七夜zippoe16 小时前
CANN Runtime任务描述序列化与持久化源码深度解码
大数据·运维·服务器·cann
盟接之桥16 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
忆~遂愿17 小时前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
忆~遂愿17 小时前
GE 引擎与算子版本控制:确保前向兼容性与图重写策略的稳定性
大数据·开发语言·docker
米羊12118 小时前
已有安全措施确认(上)
大数据·网络
人道领域19 小时前
AI抢人大战:谁在收割你的红包
大数据·人工智能·算法
qq_124987075319 小时前
基于Hadoop的信贷风险评估的数据可视化分析与预测系统的设计与实现(源码+论文+部署+安装)
大数据·人工智能·hadoop·分布式·信息可视化·毕业设计·计算机毕业设计