【开题答辩全过程】以基于Spark机器学习算法的体育新闻智能分类系统设计与实现为例，包含答辩的问题和答案

个人简介

一名14年经验的资深毕设内行人，语言擅长Java、php、微信小程序、Python、Golang、安卓Android等

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

感谢大家的关注与支持！

各位老师好，我是20大数据技2班的xx同学。我的课题是"基于Spark机器学习算法的体育新闻智能分类系统"。系统主要做三件事：一是用Python爬虫把新浪、腾讯等网站的体育新闻实时抓回来；二是用Spark MLlib里的朴素贝叶斯、SVM等算法给新闻自动打标签，分成足球、篮球、排球等八类；三是用Django+MySQL搭一个Web后台，普通用户可以按分类浏览、搜索、收藏，管理员可以人工纠正错误分类。整套技术栈就是：Spark+MLlib做分布式训练，jieba+TF-IDF做特征，Django+Bootstrap做页面，MySQL存数据，整个项目跑在一台8核16 G的虚拟机集群上。下面请各位老师提问。

评委老师：为什么选择体育新闻这个场景，而不是更常见的新闻综合场景？

答辩学生：因为我本人就是体育迷，日常就刷体育板块，数据好收集，标签也清晰，像NBA、中超这些关键词很明显，不容易分错。

评委老师：系统准备分几类？如果一条新闻同时提到足球和篮球怎么办？

答辩学生：目前定8个大类，多标签问题先按"出现关键词最多的类"单标签输出，后期再加多标签分类做改进。

评委老师：数据打算抓多少条？存哪儿？

答辩学生：计划抓5万条做训练，1万条做测试，统一存MySQL，文本字段用utf8mb4，附件图片只存URL不存文件。

评委老师：Spark版本用哪个？单机还是集群？

答辩学生：用Spark3.4，本地先单机4核调试，后期开3台虚拟机搭Standalone集群，每台8核16 G，够跑5万条数据。

评委老师：机器学习部分你提到朴素贝叶斯、SVM，最后怎么选模型？

答辩学生：用准确率+训练时间双重指标，哪个综合得分高就用哪个，先跑10折交叉验证，如果差距在2个百分点以内就选训练快的朴素贝叶斯。

评委老师：前端页面谁来做？会写到什么程度？

答辩学生：我自己做，用Django自带模板和Bootstrap，实现登录、列表、搜索、后台审核四个页面，样式够用就行，不追求美工。

评委老师：如果模型把"中国女排夺冠"错分成"乒乓球"，你怎么办？

答辩学生：后台有"人工纠正"按钮，点一下就能把这条数据重新标成排球，同时把修正后的数据回流到训练集，隔一周重新训练一次模型。

评委老师：项目进度怎么安排？

答辩学生：2025.1.1-1.15环境搭建+爬虫；1.16-2.15数据清洗+特征；2.16-3.15模型训练+Web接口；3.16-4.15系统集成+测试；4.16-5.10写论文+查重；5.11-5.25准备答辩。

评委老师：xx同学选题具体、技术路线清晰，对数据、模型、前后端都有实际可落地的安排，问答中也体现出对误差修正和进度管控有思考。建议下一步先把爬虫跑通，确保5万条数据按时入库，再提前把Spark集群环境搭起来，避免后期卡性能。总体通过，请按时间节点推进，预祝顺利完成毕业设计。

以上是某同学的毕业设计答辩的过程，如果你现在还没有参加答辩，还是开题阶段，已经选好了题目不知道怎么写开题报告，可以下面找找有没有自己符合自己题目的开题报告内容，列表中的开题报告都是往届真实的开题报告，可发送使用或参考。文末或底部来联xi可免费获取

最后

有时间和有基础的同学，建议自己多花时间找一下资料（开题报告、源码）自己独立完成毕设，需要开题报告内容、源码参考的，可以联xi博主，没有选题的也可以联系我们进行帮你选题、定功能和建议。

【开题答辩全过程】以 基于Spark机器学习算法的体育新闻智能分类系统设计与实现为例，包含答辩的问题和答案

最后

【开题答辩全过程】以基于Spark机器学习算法的体育新闻智能分类系统设计与实现为例，包含答辩的问题和答案