嵌入模型分类问答

问题:如何基于表示模型生成的嵌入向量实现文本分类?

答案:需要接入新的输出层对应分类向做训练,核心要点

核心流程

  • 表示模型生成固定维度嵌入向量 → 接入 "全连接层 + 可选正则化" 的分类头 → 按场景选择 "冻结 / 微调" 训练。
    关键选择
  • 小数据集:冻结表示模型,仅训分类头(省成本、防过拟合);
  • 大数据集:微调表示模型(适配任务特征,效果更好)。
    工程细节
  • 分类头建议加 Dropout/LayerNorm 提升鲁棒性;
  • 最终用分类头输出的 logits 经过 softmax 得到类别概率。

问题:使用嵌入向量实现分类和使用生成模型直接分类的方法相比,有什么优缺点?

答案:嵌入分类:轻量、快、稳定、可批量部署,但需要标注数据、泛化弱。

  • 生成模型直接分类:零样本强、泛化好、无需训练,但慢、不稳定、格式不可控、成本高。

问题:如果没有标注数据,如何基于嵌入模型实现文本分类?如何优化标签描述来提高零

样本分类的准确率?

答案:无标注数据时,使用零样本嵌入分类:将文本和标签都转为嵌入,用余弦相似度分类。

无标注数据分类意思是有一堆纯文本,没有人工打标签,但知道要分成哪几类(比如财经、科技、体育)。

方法是把文本转成向量,把标签描述也转成向量,比相似度,直接分类。

  • 优化标签:扩展成完整句子、加关键词、多描述平均、使用统一模板、避免模糊。

问题:嵌入模型 + 逻辑回归的分类方式获得了 0.85 的 F1 分数,而零样本分类方式获得

了 0.78 的 F1 分数,如果有标注数据,什么情况下会选择零样本分类?

答案:类别频繁变化,不想反复训练分类器;

  • 标注数据质量差、噪声大,监督学习不可靠;
  • 需要强泛化、跨领域识别;
  • 追求极简部署,不想维护训练流程。

问题:Transformer 为什么比朴素贝叶斯分类器效果好很多?朴素贝叶斯分类器的条件独立

性假设有什么问题?

答案:Transformer 能建模上下文语义、语序与词间依赖,朴素贝叶斯只是词袋统计,表达能力天差地别。

  • 朴素贝叶斯的条件独立性假设在文本中不成立,词语之间高度相关,导致概率估计错误、无法理解语义。

问题:掩码语言建模与 BERT 的掩蔽策略相比有何不同?这种预训练方式如何帮助模型在

下游的文本分类任务中获得更好的性能?

答案:BERT 的掩蔽策略是掩码语言建模(MLM)的改进版,用 15% 掩码 + 80/10/10 混合策略,减少预训练与微调的分布差异。

  • MLM 让模型学习 双向上下文与深层语义,使文本表示更精准,从而在文本分类中效果显著优于随机初始化或单向模型。
    15%:一句话里 15% 的 token 被选中参与预测。选中的 token 按 80/10/10 处理:
  • 80% → [MASK]
  • 10% → 随机词
  • 10% → 保持原词
    目的:减少预训练和微调之间的分布差异,让模型更鲁邦、上下文理解更强。

问题:假设你有一个包含 100 万条客户评论的数据集,但只有 1000 条带有标签的数据,同

时利用有标签和无标签数据,结合表示模型和生成模型的优势,构建一个分类系统?

答案:整体架构

少样本生成模型打标 + 表示模型自训练 + 噪声过滤充分利用:

  • 生成模型:零 / 少样本理解能力强
  • 表示模型:轻量、快、适合上线
    步骤
    1.利用 1000 条标注数据引导生成模型
  • 不一定要全量微调,可使用 少样本提示(Few-shot Prompt)/ LoRA 微调 让生成模型理解分类任务。
  • 目标:让大模型能高准确率地给无标签数据打标。
    2.用生成模型给 99.9 万无标签数据打伪标签(Pseudo-label)
  • 关键:只保留高置信度结果(如概率 > 0.9 或使用阈值过滤)。
  • 过滤噪声,避免错误标签污染训练集。
    3.用 1000 真标签 + 高质量伪标签 训练表示模型
  • 数据集 = 1000 标注 + 高质量无标注
  • 训练 Sentence-BERT/E5 等表示模型 + 分类头。
    4.可选:迭代自训练(Self-training)
  • 用训练好的表示模型再次修正伪标签,迭代提升质量。
    5.最终上线:表示模型做推理
  • 轻量、高吞吐、稳定、可解释、成本远低于生成模型。
    核心思想(一句话总结)
  • 生成模型负责 "用少量知识扩大数据集"
  • 表示模型负责 "学习稳定模式并高效上线"
    这就是 1000 条标注也能训练出百万级效果分类系统 的工业界标准答案。

问题:使用生成模型进行文本分类时,以下三个提示词哪个会更有效?

-- "Is the following sentence positive or negative?"

-- "Classify the sentiment of this movie review as positive or negative."

-- "You are a sentiment analysis expert. Given a movie review, determine if it expresses a

positive or negative opinion. Return only the label 'positive' or 'negative'."

答案:第三个提示词最优,因为:

  • 给出角色定位
  • 任务与领域清晰
  • 强制只输出标签,格式稳定、噪声最小、分类效果最好。

问题:有了强大的生成式大模型,嵌入模型还有什么用?请举一个适合嵌入模型但不适合

生成模型的例子。

答案:嵌入模型的核心作用是将内容转化为语义向量,用于检索、匹配、推荐。生成式大模型再强,也不擅长低成本、高稳定、规模化地做语义向量与匹配。

最典型例子:从百万级文档库中做语义相似检索,适合嵌入模型,完全不适合生成模型。

问题:给定大量的文档,如何把它们聚类成几簇,并总结出每一簇的主题?

答案:低成本高效方案(工业界主流)

步骤:

1.文档向量化用 ** 嵌入模型(Embedding Model)** 把所有文档转为稠密向量。

2.向量聚类对向量使用聚类算法:

  • K-Means(速度最快,适合大量数据)
  • 或 HDBSCAN(不需要预先指定簇数)依据余弦相似度把语义相近的向量聚为一类。
    3.抽取簇内代表性文本取每簇中距离簇中心最近的若干条文档(如前 5~10 条)。
    4.大模型生成主题把这些代表性文档送入生成式大模型,让模型:
  • 提炼共同主题
  • 输出简短的簇标签 / 主题总结
    一句话总结:嵌入模型做向量 → 聚类算法分簇 → 大模型总结主题。
    2)高成本方案(不推荐)
  • 不使用嵌入模型,直接让大模型对每篇文档打主题标签。
  • 再按标签做简单归类。
  • 缺点:极贵、极慢、无法处理海量文档、难以做全局语义聚类。
    极简版
    1.用嵌入模型将所有文档向量化。
    2.基于余弦相似度,用K-Means 等聚类算法将向量分成若干簇。
    3.提取每簇中心附近的代表性文档。
    4.用生成大模型对这些文档进行主题总结,得到每簇主题。

问题:词袋法和文档嵌入在实现原理上有什么区别?词袋法是不是一无是处了?

答案:词袋法 和 文档嵌入 在实现原理上的区别

词袋法(Bag-of-Words / TF-IDF)

  • 把文本看成一袋子单词,不考虑顺序、语法、上下文。
  • 只统计词是否出现、出现多少次。
  • 输出:高维稀疏向量,每一维对应一个词。
  • 本质:基于词频的统计表示,无语义理解。
    文档嵌入(Document Embedding)
  • 通过模型(如 BERT、Sentence-BERT、专属嵌入模型)学习上下文与语义。
  • 把整个文档映射成一段低维稠密向量。
  • 向量距离 ≈ 语义相似度。
  • 本质:语义表示,能理解含义。
    一句话总结原理区别
    词袋法是「统计词的有无与多少」,文档嵌入是「学习并编码整段文本的语义」。
    词袋法的用处
    典型适用场景:
    1.BM25 精确关键词检索搜索引擎、Elasticsearch 主流方案,速度极快、稳定性极强,嵌入模型无法完全替代。
    2.简单文本分类、垃圾邮件过滤特征清晰,效果够用,训练推理极快。
    3.作为强基线(Baseline)速度快、可解释、资源极低,任何复杂任务都先用词袋 / TF-IDF 做基准。
    4.OOV、小语种、专业术语场景不依赖数据,不挑语言,鲁棒性极高。
    极简
    1.原理区别词袋法基于词频统计,不考虑语序和上下文,输出稀疏向量;文档嵌入通过模型学习上下文语义,输出稠密向量,能表示语义相似度。
    2.词袋法并非一无是处在BM25 检索、关键词匹配、轻量分类、基线模型等场景依然高效、稳定、不可替代。

问题:BERTopic 中的 c-TF-IDF 与传统 TF-IDF 有何不同?这种差异如何帮助改进主题表示

的质量?

答案:传统 TF-IDF 以单个文档为单位,衡量词对文档的重要性;

  • c-TF-IDF 以聚类后的主题簇为单位,将同一簇所有文档合并后,在簇之间计算 TF-IDF,衡量词对主题的重要性。
    对主题质量的改进
  • 突出簇内共有、簇间区分度高的词,更能代表主题;
  • 弱化只在单篇文档出现的个性词与全库通用词;
  • 让提取出的主题关键词更聚焦、更清晰、更可解释。
    问题:LDA、BTM、NMF、BERTopic、Top2Vec 等主题模型有什么优缺点?对长文档、短
    文档、高质量需求的垂直领域分别应使用何种模型?
    答案:
    LDA(隐狄利克雷分配)
    优点:
  • 经典、稳定、理论成熟
  • 速度快、资源占用小
  • 可解释性强,主题词清晰
    缺点:
  • 基于词袋模型,无视语序、上下文
  • 短文本效果极差(数据稀疏)
  • 无法捕捉语义

BTM(Biterm Topic Model)

优点:

  • 专门解决短文本稀疏问题
  • 比 LDA 更适合微博、评论、标题等短文本
    缺点:
  • 依然是统计词共现,无上下文语义
  • 长文档不如 LDA 稳定
  • 可解释性一般

NMF(非负矩阵分解)

优点:

  • 基于 TF-IDF,训练极快
  • 主题干净、稳定、可解释
  • 比 LDA 更不容易出现"混合主题"
    缺点:
  • 同样无上下文、无语义
  • 短文本表现一般
  • 依赖词频特征,表达能力有限

Top2Vec

优点:

  • 端到端:嵌入 → 聚类 → 主题词一步到位
  • 利用上下文语义向量,效果远好于传统模型
  • 不需要指定主题数,自动聚类
    缺点:
  • 主题词抽取逻辑较简单
  • 垂直领域精细度不如 BERTopic
  • 可调整性弱

BERTopic(目前工业界最强通用)

优点:

  • 流程最完整:Embedding → 降维 → 聚类 → c-TF-IDF 主题抽取
  • 语义强、主题清晰、可解释性极高
  • 长短文本都能打
  • 支持自定义嵌入模型,垂直领域可微调
    缺点:
  • 流程重,比 LDA/BTM 慢
  • 依赖向量质量,超短文本偶尔不如 BTM 稳定

按场景直接给选型结论(背诵版)

长文档(论文、报告、新闻、书籍)

推荐:BERTopic ≈ Top2Vec > NMF ≈ LDA

  • 长文档信息足,语义模型碾压传统统计模型
  • 追求质量:BERTopic
  • 追求速度:LDA / NMF

短文本(评论、微博、标题、问答)

推荐:BTM > BERTopic > Top2Vec > LDA/NMF

  • 传统模型:BTM 专门为短文本设计
  • 追求语义质量:BERTopic(用好的嵌入模型)
  • LDA/NMF 在短文本上基本不能用

高质量需求 + 垂直领域(医疗、法律、金融、学术)

推荐:BERTopic >>> Top2Vec >> 传统模型

  • 垂直领域关键词极重要,c-TF-IDF 能精准提取领域主题词
  • 可替换领域预训练 Embedding,质量大幅提升
  • 主题可解释、可落地、可展示

超简答

  1. LDA:经典高效,基于词袋,长文本可用,短文本差。
  2. BTM:针对短文本优化,共现统计,无语义。
  3. NMF:稳定可解释,基于词频,速度快。
  4. Top2Vec:语义嵌入+聚类,端到端,无需指定主题数。
  5. BERTopic:语义强、主题清晰、c-TF-IDF 效果最好,长短文本与垂直领域均适用。

问题:基于质心的和基于密度的文本聚类算法有什么优缺点?

答案:基于质心的聚类(代表:K-Means)

优点

  • 速度极快,适合海量高维文本向量
  • 实现简单、稳定、可解释
  • 适合大致呈球状、分布均匀的簇
    缺点
  • 必须预先指定簇数 K
  • 只能发现凸球形簇,长条、弯形、不规则簇效果差
  • 对异常点、噪声非常敏感
  • 初始质心影响最终结果,容易陷入局部最优

基于密度的聚类(代表:DBSCAN、HDBSCAN)

优点

  • 不需要指定簇数量
  • 能发现任意形状的簇(长条、环形、弯弯曲曲都可以)
  • 自带噪声识别,能把异常点单独标为噪音,不污染簇
  • 簇边界更自然,更贴合真实语义分布
    缺点
  • 在 高维向量(文本 embedding)上,密度定义失效,效果大幅下降
  • 比 K-Means 慢、耗内存
  • 调参麻烦(半径、最小点数)
  • 密度不均匀的数据上表现差
    极简版
    基于质心(如 K-Means)
  • 优点:快、适合海量文本、简单稳定。
  • 缺点:需指定 K、只能识别球形簇、对噪声敏感。
    基于密度(如 DBSCAN)
  • 优点:不用指定簇数、可识别任意形状簇、能过滤噪声。
  • 缺点:高维文本向量上效果下降、速度慢、调参难。

问题:为什么在主题建模流程中,将聚类和主题表示这两个步骤分开处理是有益的?

答:

把聚类和主题表示分开,是为了各司其职、优势互补、效果更强、更可控。

  • 聚类:负责把语义相似的文本分到同一簇
  • 主题表示:负责从簇里提炼出人类能看懂的主题词
  1. 任务目标不同,分开更专业
  • 聚类:只关心向量距离 / 密度,目标是分对簇。
  • 主题表示:只关心关键词区分度 & 可解释性,目标是说清这簇讲什么。强行揉在一起,两边都做不好。
  1. 可以使用更强的语义特征
  • 聚类用 Embedding 向量(语义强、适合分簇)
  • 主题表示用 c-TF-IDF / 词频(可解释、适合抽关键词)强强联合,比单一特征效果好得多。
  1. 提升主题的可解释性
  • 聚类只保证 "语义相近",不保证关键词清晰。
  • 单独做主题表示(如 c-TF-IDF)可以:
  • 突出簇内特有词
  • 压低通用词、噪音词让主题干净、好懂、能落地。
  1. 工程上更灵活、可迭代
  • 聚类可以换:K-Means → HDBSCAN
  • 主题表示可以换:c-TF-IDF → LDA → LLM 总结互不影响,方便调参、优化、部署。

极简版

将聚类与主题表示分离,有利于:

1.分工明确:聚类专注语义分簇,主题表示专注提取可解释关键词。

2.特征互补:聚类用高质量嵌入向量保证分簇准确,主题表示用词频类特征保证可解释性。

3.提升主题质量:能突出簇间区分词,让主题更清晰、更准确。

4.灵活可控:算法可独立替换、调优,工程更友好。

问题:在一个主题建模项目中,你发现生成的主题中有大量重叠的关键词,如何使用本章

介绍的技术来改进主题之间的区分度?

答案:

  1. 改进主题表示:用 c-TF-IDF 或带 "簇间区分" 的统计
  • 传统 TF-IDF 只看 "词在文档里重要",不看 "词能不能区分主题"。
  • c-TF-IDF(簇级别 TF-IDF) 会:
  • 提高只在本簇高频、其他簇低频的词的权重
  • 降低所有簇都高频的通用词权重→ 直接提升主题间区分度。
  1. 加入主题间的正则化 / 惩罚机制
  • 在抽取主题词时,强制降低已在其他主题出现过的词的权重。
  • 例如:
  • 主题 1 已经用了 "系统""数据",
  • 主题 2、3 就尽量不排这些词,优先用独有词。→ 从结果上减少关键词重叠。
  1. 优化聚类:让簇本身分得更开
  • 聚类越差,主题越糊、越重叠。
  • 可做:
  • 对嵌入向量先降维(UMAP)再聚类,语义更紧凑
  • 换HDBSCAN等密度聚类,减少模糊簇
  • 调大簇间距离,让主题边界更清晰→ 从源头减少主题重叠。
  1. 过滤停用词、通用词、领域噪音词
  • 重叠关键词大多是:"问题""使用""系统""管理""功能" 等通用词。
  • 建立停用词表 + 高频通用词过滤,强制剔除。→ 剩下的都是各主题独有的特征词,区分度立刻上升。
  1. 使用大模型做 "差异化主题重命名"
  • 先用聚类 + c-TF-IDF 得到候选词
  • 再让 LLM 对比其他主题,重新生成互不重复、高度区分的主题标签→ 最终主题干净、不打架。

问题::在使用 BERTopic 时,如果很大比例的文档被归类为离群值,这可能是什么原因导致

的?如何调整聚类参数?

答:

大量文档被归为离群值(outlier)的原因

BERTopic 里离群值多,90% 是聚类(HDBSCAN)和降维(UMAP)的问题:

1.UMAP 降维参数太 "散"

  • 邻居数 n_neighbors 太小 → 局部结构保留太多,全局结构散
  • 向量在低维空间分得太开,聚不成簇
    2.HDBSCAN 要求太严
  • min_cluster_size 太大 → 小簇直接不算簇
  • min_samples 太大 → 只有密度极高的点才成簇,其余全是噪声
    3.文本本身语义太分散
  • 短文本、噪声文本、杂乱数据 → 天然形不成密集簇
    4.嵌入向量质量差
  • 语义不统一 → 距离乱,密度低 → 被判为离群
    如何调整参数
  1. 调整 UMAP(最关键)
  • 增大 n_neighbors(如 10→15→20)更关注全局结构,让点更聚拢。
  • 减小 min_dist(如 0.0→0.05→0.1)让相似点靠得更近,更容易形成高密度区域。
  1. 调整 HDBSCAN
  • 减小 min_cluster_size(如 10→5→3)允许更小的簇存在。
  • 减小 min_samples降低对密度的要求,减少噪声。
  • 可以用 DBSCAN 替代 HDBSCAN强制所有点都必须归类,不产生离群值。
  1. 工程层面
  • 清洗数据,过滤过短、无意义文本
  • 换更好的嵌入模型,提升语义紧凑度
    极简版
    原因:
    1.UMAP 降维后向量过于分散,形不成高密度区域。
    2.HDBSCAN 的 min_cluster_size 或 min_samples 设置过大,只认极密簇。
    3.数据杂乱、短文本多、嵌入质量差。
    解决方法:
    1.UMAP:增大 n_neighbors,减小 min_dist,让向量更聚拢。
    2.HDBSCAN:减小 min_cluster_size 和 min_samples,放宽聚类条件。
    3.可选:换成 DBSCAN,强制所有点归类,无离群值。

问题:在新闻或社交媒体推荐系统中,主题往往随时间快速演化,如何检测新兴主题?

答:检测随时间快速演化的新兴主题,关键是:按时间切片建模 + 跟踪词 / 簇的频率增长 + 对比历史分布 + 识别突然崛起的语义簇。

技术方法

  1. 时间切片 + 增量主题建模
  • 把数据按小时 / 天 / 周分成时间窗口(如 t-1, t, t+1)。
  • 每段时间独立做主题建模(LDA、BERTopic、Top2Vec)。
  • 对比相邻窗口:
  • 某主题之前几乎没有,现在突然大量出现 → 判定为新兴主题。
  1. 跟踪词频 / 簇大小的增长率
  • 统计词或文档簇的:
  • 文档数增速
  • 提及量增速
  • 热度增长率
  • 设置阈值:如增速超过历史均值 3 倍、或超过所有主题前 5% → 标记为爆发式新兴主题。
  1. 使用时序主题模型(如动态主题模型 DTM)
  • DTM(Dynamic Topic Model)可以:
  • 建模主题随时间的演变
  • 输出每个主题的诞生、成长、衰退曲线
  • 直接识别新出现、权重快速上升的主题。
  1. 基于嵌入的时序聚类
  • 用增量嵌入 / 增量聚类:
  • 不断把新文本转为向量
  • 与历史簇中心比较
  • 若大量新向量远离所有旧中心,且聚成新簇→ 判定为新兴语义主题。
  1. 异常检测 + 过滤噪声
  • 新兴主题 = 突然出现 + 密度快速升高。
  • 用统计方法(如孤立森林、滑动窗口 Z-score)过滤:
  • 垃圾内容
  • 短期刷屏噪音
  • 旧主题重炒
  1. 结合用户行为信号(推荐系统特有)
    在新闻 / 推荐场景里,不只看文本,还要看:
  • 点击率、完读率、分享率突然飙升
  • 同一类内容用户交互爆发增长
  • 共同点击 / 共同观看形成新的兴趣簇这些都能辅助确认真正有价值的新兴主题。
    极简版
    1.时间切片:按时间窗口做主题建模,对比前后差异。
    2.增速监控:监控主题 / 关键词的频率、规模、增速,识别突增项。
    3.时序主题模型:用 DTM 等模型跟踪主题诞生与演化。
    4.增量嵌入聚类:发现与历史语义不同的新密集簇。
    5.异常过滤:剔除噪音,保留真实新兴主题。
    6.结合行为:利用点击、分享等用户信号增强判断。

问题:如何构建一个内容平台的推荐系统,冷启动时通过文本聚类和主题建模提供推荐,

有一定量用户交互数据后又能利用这些数据提升推荐效果?

阶段 1:无大量用户行为 ------ 冷启动(纯内容驱动)

  • 新内容、新用户、新平台,没点击、没收藏、没关注
  • 靠内容本身做推荐
    实现方案
    1.内容统一表示:嵌入 + 主题建模
  • 用嵌入模型把文章 / 视频标题、摘要转为文本向量
  • 用 BERTopic / LDA 对内容做主题聚类,给每个内容打上:
  • 主题标签
  • 主题向量
  • 关键词
    2.基于内容相似推荐(ItemCF 平替)
  • 对每个内容,召回向量最相近的内容
  • 对每个用户(如果有少量浏览),推荐同主题内容
  • 对新用户,推荐热门主题 + 多样性主题池
    3.冷启动核心策略
  • 按主题做内容池,保证新用户一进来就能看到成系列内容
  • 用主题保证多样性,避免全推同类导致厌倦
    此阶段优点
  • 完全不依赖用户行为
  • 新内容立刻可推荐,解决内容冷启动
  • 可解释性强:"因为你看了 A,推荐同主题的 B"
    阶段 2:有用户交互数据 ------ 混合推荐(行为 + 内容)
    可用数据
    点击、停留、点赞、收藏、关注、完读、负反馈
    1.协同过滤召回(CF)
  • 基于用户行为:看了 X 的人也看了 Y
  • 基于物品共现:A 和 B 经常被一起点击→ 比纯内容相似更准
    2.用户兴趣画像
  • 把用户行为过的内容映射到主题
  • 构建用户的主题兴趣分布
  • 优先推荐用户高兴趣主题的内容
    3.融合召回(多路召回)
  • 一路:内容相似 / 主题相似
  • 一路:协同过滤
  • 一路:热门 / 新内容→ 覆盖广、效果稳
    4.精排模型(MLP / DeepFM / DNN)特征融合:
  • 内容特征:主题、关键词、嵌入向量
  • 用户特征:兴趣主题、活跃度
  • 行为特征:点击、收藏、停留时长用模型学习最优排序,大幅提升准确率
    从冷启动到成熟的完整链路
    1.冷启动内容 → 嵌入向量 → 主题建模 / 聚类 → 基于内容相似推荐
    2.有行为数据后
  • 加入协同过滤挖掘行为规律
  • 构建用户主题兴趣画像
  • 使用多路召回 + 精排模型
  • 内容特征 + 用户行为特征融合训练
    3.持续迭代
  • 新内容仍靠主题 + 嵌入快速冷启动
  • 老内容靠行为模型精准分发
  • 主题模型用于多样性控制、去重、冷启动兜底
相关推荐
一招定胜负1 小时前
实战:从零开始部署yolov5实现口罩分类
yolo·分类·数据挖掘
对号东2 小时前
2026现象级开源AI智能体|OpenClaw:让AI从“聊天”变“干活”,本地部署零门槛
人工智能·开源
初窺門徑2 小时前
label studio安装和使用
人工智能·分类·数据挖掘
ZFSS2 小时前
Producer Tasks API 的对接和使用
人工智能·ai·ai作画·ai编程
飞升不如收破烂~2 小时前
AI会替代一部分人,但不会“替代人类”。更准确的说法是——重构工作结构。
人工智能
Joy T2 小时前
【AI Agent入门】从RAG知识库到智能体架构:实质区分Coze、Dify与OpenClaw
人工智能·agent·dify·rag·coze·openclaw
Wu_Dylan2 小时前
液态神经网络系列(六) | 数学求解器全景图:Euler、RK4、Dopri5、自适应步长怎么选?
人工智能·深度学习·神经网络
TYFHVB122 小时前
2026六大主流CRM横评,五大核心维度深度解析
大数据·前端·数据结构·人工智能
on_pluto_2 小时前
论文Heterogeneous Graph Transformer(HGT)阅读笔记
论文阅读·人工智能·笔记·深度学习·学习方法