Datawhale AI 夏令营：用户洞察挑战赛 Notebook（1）

饕餮怪程序猿2025-07-11 10:27

赛事背景‌

电商直播的快速发展积累了海量带货视频及用户评论数据，这些数据蕴含消费者真实反馈，是优化选品策略和评估网红带货效果的关键。通过分析视频内容与评论，企业可精准捕捉用户需求痛点，构建消费者偏好画像，为商业决策提供支持。

参赛者需完成三阶段分析：

‌1. 商品识别‌：精准识别推广商品；

2‌. 情感分析‌：对评论进行多维度情感分析；

3‌. 评论聚类‌：按商品对评论聚类并提炼总结词。

第一步、加载数据

使用 pandas 库加载两个 csv 文件：

第二步、商品识别预测

主要使用 SGDClassifier 线性分类器，通过 pipeline 链接 tfidf 构建管道流，从而进行训练和预测：

第三步、文本分类

原理跟第二步一样。

第四步：文本聚类

主要使用 KMeans 聚类算法，按赛题要求分别进行五个主题的聚类：

第五步：保存结果并压缩文件