一、系统说明
本系统是一款集成数据采集、智能分析、销量预测和个性化推荐的新能源汽车综合服务平台。系统采用Flask+PySpark技术架构,融合了大数据分析、机器学习和人工智能技术。通过爬取汽车之家真实数据,为用户提供全面的市场洞察、精准的购车推荐和专业的AI咨询服务。系统支持多维度数据分析,包括销量趋势、价格分布、评分分析等;采用LSTM模型进行销量预测,准确率可达85%以上;混合推荐引擎结合协同过滤和内容推荐,实现个性化推荐;集成DeepSeek AI助手,提供智能问答和购车建议。界面简洁美观,操作便捷,适合汽车行业从业者、购车用户和市场研究人员使用。

完整代码点击这里下载
二、功能说明
1. 数据采集与预处理功能
系统内置智能爬虫模块,可自动采集汽车之家新能源汽车的详细数据,包括车型名称、品牌、价格、续航里程、马力、电池容量、评分等关键信息。数据采集后,系统会自动进行数据清洗,包括缺失值填充、异常值处理、数据格式统一等预处理操作,确保数据质量。清洗后的数据存储在SQLite数据库中,为后续分析和推荐提供可靠的数据基础。支持一键采集和自动更新,保证数据的时效性和准确性。

2. 多维度数据分析功能
基于PySpark大数据分析引擎,系统提供全方位的数据分析能力。包括不同新能源车型的销量及市场表现分析,帮助了解各品牌市场占有率;评分范围车型分布分析,洞察消费者偏好;价格与马力关联分析,揭示性能与价格的平衡点;价格与评分关联分析,研究性价比规律;车辆类型与价格关系分析,指导产品定位;汽车类别与马力关系分析,助力技术路线选择。所有分析结果通过交互式图表直观展示,支持数据导出和深度解读。

3. 智能销量预测功能
系统采用先进的LSTM深度学习模型,结合时间序列分析和回归预测技术,实现新能源汽车销量的精准预测。用户可以选择预测月份、车型类型等参数,系统会自动调用训练好的模型进行预测,并生成预测图表和详细数据。预测模型经过历史数据训练和验证,预测精度可达85%以上。系统还提供模型性能评估指标,包括均方误差、决定系数等,确保预测结果的可靠性。预测结果可帮助厂商制定生产计划,帮助消费者把握购车时机。

4. 智能推荐系统功能
系统采用混合推荐引擎,融合基于用户的协同过滤和基于物品的内容推荐两种算法。首先通过K-Means聚类算法对用户进行分群,识别不同用户群体的偏好特征;然后根据用户的历史行为、预算范围、品牌偏好等信息,生成个性化推荐列表。推荐结果会综合考虑车辆的评分、性价比、市场热度等多个维度,为每位用户提供最符合需求的车型推荐。系统还解决了冷启动问题,即使用户没有历史行为,也能获得有价值的推荐建议。

5. DeepSeek AI助手功能
系统集成了DeepSeek大语言模型,提供7×24小时的智能咨询服务。用户可以通过自然语言提问,AI助手会基于系统中的数据和分析结果,给出专业、准确、个性化的回答。咨询内容包括数据分析解读、购车建议、市场洞察、车型对比等。AI助手具备深度理解能力,能够分析复杂的查询需求,结合用户的具体情况提供定制化建议。同时,AI助手还支持多轮对话,可以通过追问不断细化需求,最终提供最优解决方案,大大提升用户体验和决策效率。

6. 数据可视化功能
系统采用ECharts可视化库,提供丰富的图表展示功能。包括柱状图用于销量对比和马力分布展示,饼图和圆环图用于销售占比和评分分布分析,散点图用于价格与马力关联性展示,折线图用于趋势预测结果展示。所有图表均支持交互操作,用户可以点击查看详细数据、缩放视图、导出图片等。可视化界面设计简洁美观,配色采用蓝色系主题,符合专业数据分析平台的定位。通过直观的可视化展示,用户可以快速理解数据背后的规律和洞察。

7. 用户管理功能
系统提供完善的用户权限管理机制,支持用户注册、登录、登出等基础功能。用户角色分为普通用户和管理员两种:普通用户可以浏览数据分析结果、查看个性化推荐、使用AI助手咨询;管理员除拥有普通用户的所有权限外,还可以进行数据采集、数据清洗、执行分析等高级操作。系统采用基于装饰器的权限控制机制,确保只有授权用户才能访问敏感功能。用户密码经过加密存储,保障账户安全。支持多个用户同时在线使用,满足团队协作需求。

8. 数据管理功能
数据管理模块为管理员提供了完整的数据操作能力。管理员可以一键启动数据采集,系统会自动爬取汽车之家最新数据并更新数据库;可以执行数据清洗操作,处理缺失值、异常值等问题;可以触发分析流程,系统会调用PySpark执行多维度分析、训练推荐模型、更新预测参数。所有操作均有实时进度提示和详细日志记录,管理员可以随时查看任务执行状态。数据管理功能确保系统数据的时效性、准确性和完整性,为所有上层功能提供可靠的数据支撑。

三、技术架构
后端技术栈
- Flask 3.0:轻量级Web框架,提供RESTful API接口
- PySpark 3.5:分布式大数据处理引擎,支持大规模数据分析
- Pandas 2.1:高效的数据处理和分析库
- Scikit-learn 1.3:机器学习算法库,实现K-Means聚类等算法
- TensorFlow 2.16+:深度学习框架,构建LSTM预测模型
- SQLite:轻量级关系型数据库,存储结构化数据
- Requests + BeautifulSoup:网页爬虫技术,采集汽车之家数据
前端技术栈
- Bootstrap 5:响应式UI框架,确保多设备兼容性
- ECharts 5.4:强大的数据可视化库,支持多种图表类型
- jQuery:JavaScript库,简化DOM操作和AJAX请求
- AJAX:异步通信技术,实现无刷新数据交互
人工智能技术
- DeepSeek AI:先进的大语言模型,提供智能问答和咨询服务
- LSTM模型:长短期记忆网络,实现时间序列预测
- 协同过滤算法:基于用户的推荐算法
- 内容推荐算法:基于物品特征的推荐算法
- K-Means聚类:无监督学习算法,实现用户分群