赛事背景
电商直播的快速发展积累了海量带货视频及用户评论数据,这些数据蕴含消费者真实反馈,是优化选品策略和评估网红带货效果的关键。通过分析视频内容与评论,企业可精准捕捉用户需求痛点,构建消费者偏好画像,为商业决策提供支持。
赛事任务
参赛者需完成三阶段分析:
1. 商品识别:精准识别推广商品;
2. 情感分析:对评论进行多维度情感分析;
3. 评论聚类:按商品对评论聚类并提炼总结词。
Baseline 分析
第一步、加载数据
使用 pandas 库加载两个 csv 文件:

第二步、商品识别预测
主要使用 SGDClassifier 线性分类器,通过 pipeline 链接 tfidf 构建管道流,从而进行训练和预测:
第三步、文本分类
原理跟第二步一样。

第四步:文本聚类
主要使用 KMeans
聚类算法,按赛题要求分别进行五个主题的聚类:
第五步:保存结果并压缩文件
