11.22【大数据】

CQU_JIAKE2024-12-09 13:45

各文件的区别

1. history_starter_jrj.py

爬虫对象 ：JrjSpyder
数据来源：金融界（JRJ）
爬取方式 ：调用 get_historical_news 方法，传入网站列表和起始日期。
处理步骤 ：
1. 爬取历史数据。
2. 去重清洗。
3. 去除包含null值的行。
4. 创建新的数据库，针对每个股票保存涉及该股票的新闻，并贴好标签。

2. history_starter_nbd.py

爬虫对象 ：NbdSpyder
数据来源：每日经济新闻（NBD）
爬取方式 ：调用 get_historical_news 方法，传入起始页码。
处理步骤 ：
1. 爬取历史数据。
2. 去重清洗。
3. 去除包含null值的行。
4. 创建新的数据库，针对每个股票保存涉及该股票的新闻，并贴好标签。

3. history_starter_cnstock.py

爬虫对象 ：CnStockSpyder
数据来源：中国证券网（CNStock）
爬取方式 ：循环调用 get_historical_news 方法，传入每个网站的URL和分类。
处理步骤 ：
1. 爬取历史数据。
2. 去重清洗。
3. 去除包含null值的行。
4. 创建新的数据库，针对每个股票保存涉及该股票的新闻，并贴好标签。
5. 每次爬取后休眠30秒，防止被封IP。

4. history_starter_stock_price.py

爬虫对象 ：StockInfoSpyder
数据来源：股票价格数据
爬取方式 ：调用 get_historical_news 方法，可以指定起始和结束日期，如果不指定则从最新数据时间开始获取直到当前。
处理步骤 ：
1. 爬取历史股票价格数据。

总结

数据来源：四个文件分别从不同的数据源爬取数据，分别是金融界（JRJ）、每日经济新闻（NBD）、中国证券网（CNStock）和股票价格数据。
爬取方式：爬取方式有所不同，JRJ和CNStock需要传入具体的网站列表和分类，NBD需要传入起始页码，而股票价格数据可以通过指定时间段来爬取。
处理步骤：前三个文件（JRJ、NBD、CNStock）的处理步骤相似，包括爬取数据、去重清洗、去除null值和创建新的数据库。而股票价格数据文件（stock_price）只包含爬取数据的步骤。

这些文件的主要区别在于数据源的不同和爬取方式的差异，但处理步骤在前三个文件中基本一致。

PRO1,tensorFlow版本问题

上一篇：C#委托的前世今生

下一篇：Elasticsearch ILM 故障排除：常见问题及修复

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 09几个好用的ip纯净度检测网站 102026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？