11.22【大数据】

各文件的区别

1. history_starter_jrj.py
  • 爬虫对象JrjSpyder
  • 数据来源:金融界(JRJ)
  • 爬取方式 :调用 get_historical_news 方法,传入网站列表和起始日期。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
2. history_starter_nbd.py
  • 爬虫对象NbdSpyder
  • 数据来源:每日经济新闻(NBD)
  • 爬取方式 :调用 get_historical_news 方法,传入起始页码。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
3. history_starter_cnstock.py
  • 爬虫对象CnStockSpyder
  • 数据来源:中国证券网(CNStock)
  • 爬取方式 :循环调用 get_historical_news 方法,传入每个网站的URL和分类。
  • 处理步骤
    1. 爬取历史数据。
    2. 去重清洗。
    3. 去除包含null值的行。
    4. 创建新的数据库,针对每个股票保存涉及该股票的新闻,并贴好标签。
    5. 每次爬取后休眠30秒,防止被封IP。
4. history_starter_stock_price.py
  • 爬虫对象StockInfoSpyder
  • 数据来源:股票价格数据
  • 爬取方式 :调用 get_historical_news 方法,可以指定起始和结束日期,如果不指定则从最新数据时间开始获取直到当前。
  • 处理步骤
    1. 爬取历史股票价格数据。

总结

  • 数据来源:四个文件分别从不同的数据源爬取数据,分别是金融界(JRJ)、每日经济新闻(NBD)、中国证券网(CNStock)和股票价格数据。
  • 爬取方式:爬取方式有所不同,JRJ和CNStock需要传入具体的网站列表和分类,NBD需要传入起始页码,而股票价格数据可以通过指定时间段来爬取。
  • 处理步骤:前三个文件(JRJ、NBD、CNStock)的处理步骤相似,包括爬取数据、去重清洗、去除null值和创建新的数据库。而股票价格数据文件(stock_price)只包含爬取数据的步骤。

这些文件的主要区别在于数据源的不同和爬取方式的差异,但处理步骤在前三个文件中基本一致。

PRO1,tensorFlow版本问题

相关推荐
硅谷秋水31 分钟前
SkillOpt:自演化智体技能的执行策略
大数据·人工智能·深度学习·机器学习·语言模型
智慧景区与市集主理人40 分钟前
传统农场的数字化蝶变:马山百里度假区全域智慧化升级,重构乡村文旅运营逻辑
大数据·人工智能
名不经传的养虾人1 小时前
从0到1:企业级AI项目迭代日记 Vol.38|能演示的系统,和能日常用的系统,差的是这五件事
大数据·人工智能·ai编程·企业ai·多agent协作
小小王app小程序开发1 小时前
陪诊小程序开发功能深度分析:功能架构、业务逻辑与落地要点
大数据·架构
Yang96111 小时前
鼎讯信通 RM-1000:助力风电信号覆盖与设备稳定运行
大数据·网络
仙俊红1 小时前
rocketmq学习
大数据·学习·rocketmq
星辰_mya1 小时前
数据同步的几种姿势
大数据·elasticsearch·搜索引擎
卷毛迷你猪2 小时前
快速实验篇(A5)基于 MapReduce 的降水百分位数计算与干旱等级划分
大数据·mapreduce
Volunteer Technology2 小时前
Flink的DataStream分区操作
大数据·linux·flink
米云科技2 小时前
小红书客服软件支持多账号吗?米多客高效解决跨账号管理难题
大数据·人工智能