Datawhale AI夏令营:基于带货视频评论的用户洞察挑战赛

分析赛题

一共给出了三个任务:

1.商品识别 :从视频的描述与标签中判断其推广商品(Xfaiyx Smart Translator 和 Xfaiyx Smart Recorder)。

2.评论情感分析 :对每条评论进行多维度预测,包括:主情感分类(5类:正面、负面、正负混合、中性、不相关)

,用户场景(是否涉及使用场景),用户疑问(是否提出问题),用户建议(是否给出建议)。

3.评论聚类与主题词提取:按照情感维度将评论分簇并提炼出每个簇的"主题词"。

数据共两部分:视频数据评论数据

视频数据(85条)

字段名 含义
video_id 视频唯一ID
video_desc 视频描述文本
video_tags 视频标签
product_name 待预测字段,表示商品名称

评论数据(6477条)

字段名 含义
comment_text 评论文本
sentiment_category 主情感分类
user_scenario/question/suggestion 是否包含用户场景/问题/建议
cluster_theme 各维度聚类生成的主题词

技术方案与思路

商品识别(规则匹配)

只需判断是推广"翻译器"还是"录音笔"。由于选项有限(仅两个)并且数据较少,无需训练模型,可通过关键词正则匹配完成:

python 复制代码
translator_pattern = r'(translator|translat|interpret|language|语言|翻译|译)'
recorder_pattern = r"(recorder|record|audio|voice|录音|记录|音)"

video_desc + video_tags做统一小写预处理,然后统计命中次数决定商品类型。

处理时注意字符串缺失等边界情况。

情感分析(TF-IDF + 逻辑回归)

因为本题数据只有两千多条,使用深度模型容易过拟合,所以采用轻量级模型对评论文本做情感识别:

模型结构

主情感分类模型(5分类)

python 复制代码
Pipeline([
    ('tfidf', TfidfVectorizer(max_features=2000, stop_words='english')),
    ('clf', LogisticRegression(multi_class='multinomial', class_weight='balanced', max_iter=1000))
])
  • TfidfVectorizer: 将文本转为词频向量(最多2000个词,英文停用词过滤)
  • LogisticRegression: 支持 multinomial 多分类模式
  • class_weight='balanced': 自动调整类别权重,缓解数据不均衡问题

三个辅助分类器(二分类)

python 复制代码
Pipeline([
    ('tfidf', TfidfVectorizer(max_features=2000, stop_words='english')),
    ('clf', MultiOutputClassifier(LogisticRegression(class_weight='balanced', max_iter=1000)))
])
  • MultiOutputClassifier: 一次性训练3个逻辑回归模型,分别预测:

    • user_scenario
    • user_question
    • user_suggestion

评论聚类(TF-IDF + KMeans + 主题词提取)

对符合聚类条件的评论(如正面/负面/建议等)进行聚类分析:

  1. 抽取对应维度的评论子集
  2. TF-IDF向量化
  3. KMeans聚类(自动选取最佳k)
  4. 提取每簇的Top 3高频词作为主题词

使用轮廓系数(Silhouette Score)作为聚类质量指标。

效果与思考

整体得分可以达到230+,商品识别部分96+,情感分析83+,评论聚类51+。

该方案只涉及到简单的机器学习模型,适合初学者作为baseline学习参考,不依赖算力资源。

待优化方向

  • TF-IDF对词序和上下文建模能力有限,可能导致分类精度不足。
  • 聚类主题词基于词频提取,未融合语义信息。
  • 情感分析5分类分布不均衡,可探索重采样/调参。
  • 可以使用bert或者星火大模型尝试进一步优化。
相关推荐
我爱计算机视觉4 小时前
ICCV 2025 | VideoOrion: 将视频中的物体动态编码进大语言模型,理解视频涨点10%以上!
人工智能·语言模型·自然语言处理
Lululaurel4 小时前
深度模型瘦身术:从100MB到5MB的工业级压缩实战
pytorch·python·机器学习·模型压缩·模型优化·边缘部署
影子鱼Alexios9 小时前
机器人、具身智能的起步——线性系统理论|【二】状态空间方程的解
算法·机器学习·机器人
CV-杨帆9 小时前
复现 Qwen3Guard 实时安全,逐词响应
人工智能·语言模型
人工智能技术派9 小时前
LTU-AS:一种具备音频感知、识别、理解的大模型架构
人工智能·语言模型·语音识别
nju_spy13 小时前
2023 美赛C Predicting Wordle Results(上)
人工智能·机器学习·数学建模·数据挖掘·arima·时间序列预测·相关性分析
zhangfeng113315 小时前
geo Counts 数据 ,机器学习 模型的外部验证 ROC外部验证数据处理流程
人工智能·机器学习·r语言·生物信息
程序员大雄学编程16 小时前
「机器学习笔记2」机器学习系统设计:从理论到实践
人工智能·笔记·机器学习
Learn Beyond Limits17 小时前
Using per-item Features|使用每项特征
人工智能·python·神经网络·算法·机器学习·ai·吴恩达
之墨_17 小时前
【大语言模型】—— Transformer的QKV及多头注意力机制图解解析
人工智能·语言模型·transformer