B站社群AI智能分析系统的实践

一、为什么我们需要一套能"读懂群聊"的 AI?

在 B 站,我们运营团队需要管理着数量庞大的UP主交流群,如:品类扶持、成长训练营、专项交流、答疑沟通群等。覆盖许许多多的创作者,每天会产生大量的消息。如果完全依赖人工逐条统计,不仅效率低下,而且容易遗漏关键问题。早期运营尝试过简单的关键字分析和人工汇总的方式,但这种传统方案存在明显局限:只能捕捉预先设定的词汇,无法理解上下文和隐含含义,对新出现的话题无法及时捕获。同时人工整理出的反馈多为自由文本,缺乏结构化信息,难以及时深入分析。

于是我们做了一件事:

  • 让 AI 自动阅读社群会话内容

  • 理解创作者的真实声音

  • 并生成结构化洞察、预警、日报、周报。

二、整体架构:一套由 LLM 驱动的社群 "AI 中台"

整个系统的生命周期可以分为 四层:

数据采集层 → AI 结构化层 → 群体分析层 → 运营洞察层

在大量真实业务场景中落地群聊智能分析,我们不仅构建了由多个大模型驱动的 Agent Pipeline,更形成了一套 可治理、可复用、可演化的 Prompt Engineering 与语义分析架构。

系统的关键点如下:

1.分层 Prompt Engineering 体系:高召回 × 高精度的协同设计

我们将整条 LLM 链路拆分为四层 Prompt:

  1. 信息挖掘层
  • 用于高召回地提取所有可能的用户反馈
  • 固定 Schema 输出,保障结构化稳定性
  • 内置业务语义空间(反馈类型、标签体系、情绪体系)
  1. 内容治理层
  • 用于高精度校验、去幻觉、去噪
  • 引入"模糊语句过滤 + 情绪 × 意图双因子校验"
  • 合并同用户重复反馈、剔除弱反馈、剔除运营/测试信息
  1. 语义聚类层
  • 基于大模型语义理解自动构建话题簇
  • 统一标签命名,避免相似标签分裂
  • 当出现语义相近但不属于既有标签的反馈时,模型能够基于语义自动归并或生成新标签
  1. 洞察生成层

a. 自动生成 100 字社区热点摘要

b. 基于结构化数据生成日报/周报,包含环比变化与风险事件

通过分层 Prompt,我们实现了 可控、高可用、全链路可解释 的模型输出体系。

2.双模型协作:精准性与成本之间的动态平衡

社群消息本质是 非结构化、口语化、强上下文依赖 的文本,针对每日大量群聊,我们采用"轻模型做召回 → 强模型做校验"的方法:

  • LLM A:擅长高召回、信息挖掘
  • LLM B:擅长严谨判断、减少幻觉

出于业务安全,本次分享中我们对实际使用的大语言模型进行了匿名化处理,仅以其能力特征进行描述。

这种 多模型协同校验 的设计,让我们在成本、召回率、准确率之间达成最佳平衡。

真实样例:模型幻觉导致的严重误判

在项目初期,我们仅使用单模型直接解析群聊内容。当遇到某些"非结构化、短句、无明确反馈意图"的消息时,模型会为了满足结构化输出要求,主动补充一些并不存在的反馈信息

下面是一次典型的错误样本:

真实情况:该群当天没有 UP 主提出任何有效反馈内容。

模型输出:却"凭空生成"了数十条反馈结构,包括需求、负向反馈、标签分类等。

截图如下:

然而经过人工复查可以确认:

以上所有反馈均为模型"自动脑补",群聊原文中完全不存在。

这不是简单的技术 Bug,而是足以影响业务判断的 严重幻觉风险

因此,我们必须引入第二阶段严格复核节点

为了避免这类"凭空生成反馈"的问题,我们设计了 LLM A(高召回) → LLM B(高精度) 的双模型协作机制。

在复核节点中我们做了几类专门的 "反幻觉策略"

  • 严格禁止模型补充不存在的用户原话

  • 无原话时 → 必须输出「无反馈」

  • 结构化数据必须与原文一一对应

  • 模糊语气(似乎、可能) → 自动判定为高风险 → 进入复核

  • 字段缺失、标签不符 → Must Fix

经过增强后:

  • 幻觉率从 早期的 8--12% → 降为 <1%

  • 假反馈基本完全消失

  • 所有反馈均带可追溯原话,形成"证据链"

3.基于 Few-shot 的结构化输出稳定机制

在实际使用大模型时,结构化输出(尤其是表格字段)容易随着上下文或模型版本发生"格式漂移"。

为此,我们采用了一种 轻量级 Few-shot Prompting 方法,让模型在正式解析业务数据前,通过少量示例快速"记住"目标格式,从而保持输出稳定。

方案原理:

通过给模型连续提供 2~3 个标准表格示例(Few-shot),并让模型在后续回答中沿用同样的格式,来显著降低结构漂移概率。

无须额外的校验器,无须复杂自愈机制,成本极低,但对稳定性提升非常明显。

技术流程:

  1. 在 Prompt 中加入 1--2 个"标准表格示例"(Few-shot Examples)

a. 示例内容来自真实数据或我们构造的理想格式。

  1. 要求模型:下一轮回答必须完全沿用示例格式

  2. 如果模型偶尔偏移,少量的"格式纠正提示"即可修正

在某些场景下,这种 few-shot 技巧甚至比复杂的结构化约束更实用。

4.LLM 语义聚类:适应社区语言变化的轻量级 Topic 分组

用户在群聊中的用词高度自由,包含大量细微表达差异:

  • 多种说法表达同一个问题(如"审核慢""卡审核")

  • 多种术语、别名并存("流量波动""推流不稳")

  • 不断出现新的词汇或表述

为避免关键词维护负担,我们采用:

  • LLM 自主判断语义相似度(不是关键词匹配)

  • 让模型生成统一标签(避免同类话题被拆分)

  • 当模型识别到"完全不属于现有主题"的内容时,自动生成新主题

这是一种轻量但非常实用的 Topic 聚类方式,可以让系统在不依赖复杂算法的前提下,自动跟上业务与社区语境的变化,效果足以支撑每日热点、话题趋势分析

以下Prompt隐去了一些我们业务标签注入的内容,但仍可供大家参考

diff 复制代码
你是社区运营团队的一员。你即将阅读到一批用户反馈内容,每条反馈都有唯一的"反馈ID"。

你的工作如下:
主题聚类
- 对所有反馈进行语义聚类,将语义相近的反馈归为同一主题(如"系统卡顿"和"服务器崩溃"应归为同类)。
- 相同主题只保留一个统一标签,不要生成相似但不同的标签名称。
标签命名
- 参考微博热搜命名方式,生成简洁有冲击力的标签(2~8字),避免冗长描述。
- 标签需覆盖多种类型(满意度、咨询、问题等),不可只聚焦问题反馈。
事件提炼
- 为每个标签用一句话概括用户关注的焦点,事件化描述,不要罗列类别。
热度统计
- 统计该标签下的反馈数量,作为热度值。
反馈ID标注
- 列出与该标签相关的最多5个反馈ID,用英文逗号分隔。
排序输出
- 按热度从高到低,输出前10个标签的信息。

输出表格格式如下,请勿返回多余的注解:
| 标签 | 热议事件 | 热度 | 反馈ID |

5.语义驱动的风控预警体系:从趋势中提前发现风险

我们结合语义聚类结果与反馈指标,形成了轻量级的预警判断逻辑:

  • 量级分析

  • 增速分析

  • 负向占比

  • 情绪突发检测

  • 跨群体一致性判断

当某个话题出现:

  • 负向情绪短时间急增

  • 环比快速上涨

  • 多个群同时出现类似反馈

系统会自动判定为 突发事件,并标注风险等级。

相比传统人工轮询,这种能力可以:

全链路流程图

三、实际效果与业务收益

引入 AI 智能分析系统后,我们在反馈洞察的效率、覆盖、准确性上都取得了显著提升。

过去依赖人工筛查时,在有限人力下日均只能回收约 50 条有效反馈;如今系统能够每天自动回收近 600 条,覆盖范围扩大十倍以上,大量被忽略的"弱信号"得以被及时捕捉和记录。

AI 带来的价值不仅体现在规模化处理,更重要的是对关键事件的提前洞察能力。系统能够识别短时间内出现的异常聚集信号,如创作流程、审核体验、版权申诉等领域的情绪波动。当某一话题的负面表达突然增多时,系统会自动聚合并提升为重点关注事件,让团队能在问题形成大范围扩散前就提前介入,在早期苗头阶段就进行响应与处理。

此外,结构化处理后的海量群聊信息,也成为了团队的重要知识资产。这些数据会进一步被用于:

  • 生成每日/每周的事件简报,为运营与产品提供准确的用户温度计

  • 输出典型案例与话题热度,辅助判断优先级

  • 自动生成 TAPD 需求,推动问题闭环处理

  • 为产品团队提供真实用户的"原声证据",减少沟通成本

在 BI 看板上,这些沉淀的数据以更直观的方式呈现:情绪趋势、话题聚类、反馈规模、风险事件等核心指标一目了然,让业务团队可以随时掌握用户的关注点和变化趋势,做到"数据驱动运营决策"。

整体而言,这套社群信息 AI 分析体系让我们从被动响应走向了主动洞察------

不再是等用户大量投诉后再处理,而是能够利用 AI 的语义理解能力,及时捕捉到群聊中不断浮现的细微变化,并将分散的用户声音转化为推动产品迭代的动力。

四、AI应用优势总结

这套社群信息 AI 分析体系的落地,让我们在反馈获取、问题识别和运营决策三个层面都获得了实质性的提升:

  • 效率跃升:大量重复、零散的群聊分析工作被自动化取代,团队能把更多精力投入到关键问题的判断与沟通上。

  • 全面覆盖:大模型的语义理解能力让"隐晦表达、弱信号、新话题"都能被及时捕捉,显著降低反馈遗漏率。

  • 情绪量化:用户情绪从主观判断变成可观测指标,趋势变化也能通过数据直接呈现,为运营提供更及时的风险提示。

  • 话题聚合能力:语义聚类让重复表达的意见被合并、长尾问题被显性化,帮助我们更准确地把握 UP 主的关注点。

  • 推动闭环:结构化数据沉淀后,反馈能自然进入日报、周报和需求流转体系,问题从被发现到被解决的路径更加顺畅。

AI 让我们从"人工盯岗"进入"主动洞察"时代。

我们真正实现了将创作者的声音得到规模化记录、分析与反馈,这在过去几乎是不可能完成的任务。

未来,我们也会继续加强模型在风险识别、创作支持与社区生态等方向的能力建设,为平台持续提供更智能的基础设施。

-End-

作者丨Zerooo、蓝莓派

相关推荐
xcLeigh41 分钟前
AI的提示词专栏:“Re-prompting” 与迭代式 Prompt 调优
人工智能·ai·prompt·提示词
喜欢吃豆1 小时前
使用 OpenAI Responses API 构建生产级应用的终极指南—— 状态、流式、异步与文件处理
网络·人工智能·自然语言处理·大模型
Q同学1 小时前
verl进行Agentic-RL多工具数据集字段匹配问题记录
人工智能
亚马逊云开发者2 小时前
Amazon Q Developer 结合 MCP 实现智能邮件和日程管理
人工智能
Coding茶水间2 小时前
基于深度学习的路面坑洞检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
梵得儿SHI2 小时前
AI Agent 深度解析:高级架构、优化策略与行业实战指南(多智能体 + 分层决策 + 人类在环)
人工智能·多智能体系统·aiagent·分层决策系统·人类在环机制·agent系统完整解决方案·aiagent底层原理
Peter_Monster2 小时前
大语言模型(LLM)架构核心解析(干货篇)
人工智能·语言模型·架构
Ma0407133 小时前
【机器学习】监督学习、无监督学习、半监督学习、自监督学习、弱监督学习、强化学习
人工智能·学习·机器学习
cooldream20093 小时前
LlamaIndex 存储体系深度解析
人工智能·rag·llamaindex