【大模型技术报告】ChatGLM大模型技术报告深度解读

一、报告要解决的"工程/能力缺口"与问题设定

1.1 背景与动机:作者明确指出了哪些瓶颈?

  • 长上下文处理:报告指出ChatGLM的上下文长度从"2K扩展到32K",并进一步至"128K与1M"。(原文位置:2. ChatGLM技术 | 架构)
  • 工具使用与智能体能力:报告提出GLM-4全工具模型需"理解用户意图并自主决策调用时机与工具组合",并开发了"AgentTuning"框架。(原文位置:摘要;2. ChatGLM技术 | GLM-4 All Tools;2. ChatGLM技术 | AgentTuning)
  • 数学推理能力:报告提到为提升数学问题解决能力而引入"ChatGLM-Math"。(原文位置:2. ChatGLM技术 | ChatGLM-Math)
  • 中英文双语对齐:报告称GLM-4主要针对"中英文使用场景进行对齐优化",并指出在中文对齐评测上超越GPT-4。(原文位置:摘要;3.3 对齐度评估)
  • 训练与推理效率:报告指出GLM-4-Air在保持性能同时,"具有更低的延迟与推理成本"。(原文位置:1.引言)
  • 开源模型性能对标:报告目标包括使开源模型(如GLM-4-9B)"在性能上超越了Llama-3-8B"。(原文位置:1.引言)

1.2 问题设定与范围

  • 目标用户/场景 :面向研究与商业应用,通过API (bigmodel.cn) 和开源模型 (github.com/THUDM) 提供。(原文位置:1.引言,图1说明)
  • 模型家族范围:聚焦于语言模型系列(GLM-4, GLM-4-Air, GLM-4-9B),为dense模型,上下文长度覆盖128K至1M,支持全工具调用。(原文位置:摘要;1.引言;2. ChatGLM技术)
  • 明确"不做什么/未覆盖什么":报告未声明明确的排除边界。报告提及了代码、视觉、文生图模型家族,但声明"本报告主要侧重于语言模型"。未声明不覆盖的规模、语言或模态。(原文位置:1.引言,第一段)

二、核心主张(Claims)清单 + 证据矩阵

2.1 主张清单

A) 性能/能力主张

A1:GLM-4在MMLU、GSM8K等通用基准上"接近或超越GPT-4"。(原文位置:摘要;3.1 学术基准评估,表2)

A2:GLM-4在IFEval评测的指令跟随能力上"接近GPT-4-Turbo"。(原文位置:摘要;3.2 指令遵循能力评估,表3)

A3:GLM-4在长上下文任务上"达到GPT-4 Turbo(128K)和Claude 3同等水平"。(原文位置:摘要;3.4 长上下文处理能力评估,表5)

A4:GLM-4在AlignBench评测的中文对齐能力上"超越GPT-4"。(原文位置:摘要;3.3 对齐度评估,表4)

A5:GLM-4全工具模型在联网检索、Python数学解题等任务上"达到甚至超越GPT-4全工具模型"。(原文位置:摘要;3.8 全工具评估,表9)

A6:GLM-4-9B"在性能上超越了Llama-3-8B"。(原文位置:1.引言)

A7:GLM-4的代码能力在NaturalCodeBench上"与Claude 3 Opus相近"。(原文位置:3.5 针对真实用户指令的代码能力评估,表6)

A8:GLM-4的"函数调用能力与GPT-4 Turbo相当"。(原文位置:3.6 函数调用评估,表7)

A9:GLM-4在AgentBench上展现出"相当出色的性能",GLM-4-Air"与GPT-4 Turbo和Claude 3 Opus相当"。(原文位置:3.7 智能体能力评估,表8)

B) 效率/成本主张

B1:GLM-4-Air相比GLM-4 (0116),"具有更低的延迟与推理成本"。(原文位置:1.引言)

B2:采用分组查询注意力(GQA)以"降低推理过程中的KV缓存大小"。(原文位置:2. ChatGLM技术 | 架构)

B3:通过移除大部分偏置项,"使长度外推能力获得轻微提升"。(原文位置:2. ChatGLM技术 | 架构)

C) 数据主张

C1:GLM-4基于"约十万亿个以中英文为主的多语言token"进行预训练。(原文位置:摘要;2. ChatGLM技术 | 预训练数据)

C2:预训练数据经过"去重、过滤与分词"流程,并对高质量数据重新加权。(原文位置:2. ChatGLM技术 | 预训练数据)

D) 对齐与安全主张

D1:通过"包含监督微调与人类反馈学习的多阶段后训练过程",实现了高质量对齐。(原文位置:摘要)

D2:设有红队"持续使用易引发不安全回答的棘手问题来挑战模型"。(原文位置:4.安全与风险 | 风险缓解)

D3:在SafetyBench上,GLM-4"整体表现与Claude 3 Opus相当"。(原文位置:4.安全与风险 | 安全评估,表10)

E) 长上下文主张

E1:GLM-4能处理"最高达128K令牌"的上下文,性能与GPT-4 Turbo相当。(原文位置:2. ChatGLM技术 | 架构;3.4 长上下文处理能力评估)

E2:通过"LongAlign"方案扩展上下文窗口。(原文位置:2. ChatGLM技术 | LongAlign)

F) 开源与可复现主张

F1:已开源包括"ChatGLM-6B(三代)、GLM-4-9B(128K、1M)"等模型。(原文位置:摘要)

F2:相关技术"已采用并即将公开"。(原文位置:2. ChatGLM技术)

2.2 证据矩阵

主张ID 主张内容(可核验表述) 原文位置 支撑证据类型 证据强度评级 关键缺口 可能的替代解释
A1 GLM-4在MMLU等基准上接近/超越GPT-4。 3.1, 表2 实验(表格分数对比) 未报告GPT-4对比版本的推理设置(温度、提示模板)。未进行统计显著性检验。 证据不足导致无法排除因评测设置差异带来的分数偏差。
A2 GLM-4指令跟随能力接近GPT-4-Turbo。 3.2, 表3 实验(表格分数对比) 未报告对比模型的版本与推理设置。IFEval本身是合成指令数据集。 证据不足导致无法排除在真实、复杂指令上的表现差异。
A3 GLM-4长上下文任务达到GPT-4 Turbo/Claude 3水平。 3.4, 表5 实验(表格分数对比) 未披露用于评测的长文本具体构造方法。未在"大海捞针"等经典测试报告召回率。 证据不足导致无法排除其在特定位置信息提取任务上的缺陷。
A4 GLM-4中文对齐能力超越GPT-4。 3.3, 表4 实验(表格分数对比) AlignBench使用GPT-4作为评分器,存在循环依赖与偏好对齐风险,报告未讨论此局限。 证据不足导致无法排除因评分器偏好带来的系统性偏差。
A5 GLM-4全工具模型任务表现达到/超越GPT-4全工具。 3.8, 表9 案例(表格展示任务通过率) 仅展示了4类任务的有限样例(Web、Python、混合、作图),样本量小,任务定义模糊。未报告具体交互流程与失败案例。 证据不足导致无法排除其泛化能力,可能仅为精选案例展示。
B1 GLM-4-Air延迟与推理成本更低。 1.引言 叙述 无任何量化数据(如吞吐、延迟、P50/P99延迟、单位token成本)与GLM-4或其他模型的对比。 证据不足导致无法核验此效率主张。
C1 基于约十万亿token预训练。 摘要; 2. 预训练数据 叙述 未披露多语言(中/英/其他)及多领域(网页、代码、书籍等)的具体混合比例。 证据不足导致无法评估数据配方对模型能力的归因。
D2 设有红队进行持续安全挑战。 4. 风险缓解 叙述 未披露红队规模、流程、发现的问题类型与数量、以及如何用于迭代模型。 证据不足导致无法评估其安全流程的实际有效性。
E1 能处理128K上下文,性能相当。 3.4, 表5 实验(表格分数对比) 未披露其"LongAlign"方案的具体技术细节(如插值方法、长文本训练数据构成)。 证据不足导致无法排除其长上下文能力依赖于特定评测任务分布。
F1 已开源GLM-4-9B等模型。 摘要 事实(可公开访问仓库) 开源了模型权重,但训练代码与配方未完全开源(见F2)。 无。
F2 关键技术"已采用并即将公开"。 2. ChatGLM技术 叙述 报告发布日期为当前,但"即将公开"非可核验的当前事实。 证据不足导致无法评估其技术的可复现性。

三、工程路径与核心决策的系统拆解

3.1 数据配方(Data Recipe)的"可见部分与黑箱部分"

  • 可见部分:报告披露了预训练总token量(~10T)、主要语言(中英文)、数据来源(网页、维基百科、书籍、代码、论文)和处理流程三阶段(去重、过滤、分词)。(原文位置:2. ChatGLM技术 | 预训练数据)
  • 黑箱部分
    1. 具体混合比例缺失:未披露中/英/其他语言token比例,及各数据源(网页vs书籍)的采样权重。(原文位置:2. ChatGLM技术 | 预训练数据)
    2. 过滤阈值/规则缺失:提及"移除低质量噪声文档",但未定义"低质量"的具体标准或分数阈值。(原文位置:同上)
    3. 对齐数据细节模糊:SFT/RLHF数据的规模、人工/第三方数据比例、具体的"严格质量控制"标准均未披露。(原文位置:2. ChatGLM技术 | 对齐)
  • 影响:这些缺失使得外部研究者无法复现其数据配方,无法公平地进行数据效率对比,也无法准确评估数据污染风险或归因模型能力提升的具体原因。

3.2 架构选型与折中(Trade-offs)

  • 架构选择
    1. 仅保留QKV偏置:旨在提升训练速度。(原文位置:2. ChatGLM技术 | 架构)
    2. RMSNorm与SwiGLU:旨在提升模型性能。(原文位置:同上)
    3. 旋转位置编码(RoPE扩展):适配GLM的二维位置编码需求。(原文位置:同上)
    4. 分组查询注意力(GQA):旨在降低推理KV缓存大小,为保持参数量,增大了前馈网络。(原文位置:同上)
  • 证据与替代方案
    • 报告对2、3、4项给出了明确的目的(解决瓶颈)。对于第1项,仅陈述了结果("长度外推能力获得轻微提升"),未提供消融实验证明其对速度的提升幅度,也未说明为何此设计不影响性能。未讨论为何未选择其他高效架构(如MLA, Mamba)。(原文位置:2. ChatGLM技术 | 架构)

3.3 训练动力学与稳定性(Training Dynamics)

  • 报告未讨论训练过程中的不稳定现象(loss spikes)、具体的稳定性技巧、课程学习策略、数据重采样或正则化细节。(原文位置:报告未提及)
  • 影响:缺失这些细节使外部复现面临训练发散风险,且无法评估其训练策略的鲁棒性。

3.4 训练配方透明度审计

  • 已披露:词表大小(15万)、预训练总token数(~10T)、上下文长度目标(128K/1M)。
  • 未披露/模糊
    • 数据混合比例与采样策略 (关键缺口)
    • Batch size / 训练序列长度 (关键缺口)
    • 学习率与调度策略、优化器(如AdamW)的具体参数(beta1, beta2)、权重衰减率 (关键缺口)
    • 精确的训练步数(仅提供token总数) (关键缺口)
    • 并行策略与基础设施细节(如GPU型号、数量) (关键缺口)
    • 去重/过滤的具体阈值与规则 (关键缺口)
    • 合成数据的使用与比例 (关键缺口)
    • 评测时的推理设置(温度、top-p等)(关键缺口)
  • 影响评估 :上述关键缺口的缺失,使得这份报告在工程上无法被外部独立复现。任何性能对比的归因(是源于数据、架构还是超参)都变得高度模糊,严重削弱了其作为技术报告的可信度与学术价值。

3.5 "魔法常数(Magic Numbers)"审计

  1. DPO/RLHF的beta参数:报告未提及具体使用的对齐算法及超参。(原文位置:报告未提及)
  2. 数据过滤的质量分数阈值:未披露。(原文位置:报告未提及)
  3. 长上下文位置编码插值系数(如果有):LongAlign方案细节未公开。(原文位置:报告未提及)
  4. SFT/RLHF数据的拒绝采样阈值:未披露。(原文位置:报告未提及)
  • 影响:这些"魔法常数"通常是决定对齐效果和长上下文性能的关键。其缺失导致:1) 无法验证对齐效果的稳健性;2) 无法公平对比不同工作的长上下文扩展方法;3) 无法复现其对齐流水线。

3.6 对齐(Post-training)流水线审计

  • 拆解:报告提及了"监督微调(SFT)和基于人类反馈的强化学习(RLHF)"。(原文位置:2. ChatGLM技术 | 对齐)
  • 数据来源 :提及"内部标注与通过严格质量控制获取的第三方专有数据",但未披露具体比例、规模及"质量控制"标准。(原文位置:同上)
  • 风险项评估 :由于数据细节和训练目标的严重缺失(见3.4, 3.5),无法基于报告信息排除以下风险:合成数据偏见、奖励黑客、过度拟合评测基准(如AlignBench)、以及在未覆盖价值场景上的冲突。

四、评测设计是否"真正验证了主张"

4.1 逐主张对齐评测

  • A1, A2, A3, A4, A7, A8, A9 :这些主张主要由对应的基准测试(表2-8)分数直接验证,属于直接实验证据
  • A5(全工具超越) :仅由表9的有限案例验证,属于相关性展示,且案例数量少,不足以支持"超越"的普遍性结论。
  • B1(效率成本更低)未提供任何系统指标证据,属于无证据主张。
  • E1(长上下文能力) :由LongBench-Chat验证,但该基准包含合成任务,未提供真实超长文档(如整本书)的问答案例 ,结论存在从合成任务向真实场景的外推

4.2 对比公平性与评测可信度审计

  • 对比版本:报告中对比了GPT-4 (0613/0603)、GPT-4 Turbo (1106)、Claude 3 Opus等,通常指明了版本,这较好。(原文位置:3.1, 3.2, 3.3等章节)
  • 关键缺口 :报告未披露 所有模型(包括GLM-4自身)在评测时的推理设置 (如温度、top-p、提示模板、解码次数)。例如,HumanEval常用temperature=0.2, top_p=0.95,但报告未说明。(原文位置:报告未提及)
  • 影响 :由于解码策略对分数有显著影响,缺失此信息使得分数对比的可信度存疑,无法确保公平对比。
  • 统计显著性 :报告未进行 多次运行以计算置信区间或统计显著性检验。在分数接近时(如MMLU的83.3 vs 86.4),无法判断差异是否显著。(原文位置:报告未提及)

4.3 基准含金量与"刷榜风险"

  • 高刷榜风险基准 :MMLU、GSM8K、MATH等传统学术基准存在较大的污染风险,报告未提供任何污染检测分析。(原文位置:报告未提及)
  • 反映真实能力基准:报告使用了HumanEval(但有污染争议)、NaturalCodeBench (NCB,源自真实用户提示)、LongBench-Chat(混合任务)、AlignBench(中文对齐,但依赖GPT-4评分)。其中NCB较新,污染风险可能较低。
  • 结论 :报告在未讨论污染检测的情况下宣称在传统基准上取得SOTA,其"刷榜风险"未被排除。

4.4 数据污染(Contamination)与泄漏审计

  • 检测方法 :报告未提及任何针对训练数据污染基准测试的检测方法。(原文位置:报告未提及)
  • 风险 :因此,完全无法排除其训练数据中包含MMLU、GSM8K等评测题目的可能性,这使其在相应基准上的高分解释力大打折扣。

4.5 失败案例与边界条件

  • 报告未提供任何模型生成内容的失败案例分析、错误类型归纳或对抗性评测结果。(原文位置:报告未提及)
  • 影响 :缺失失败案例使得无法评估模型能力的边界和薄弱环节,削弱了对模型稳健性的理解。

五、与真实文献/其他技术报告的对比定位

5.1 主流一致性

  • 缩放定律与涌现:报告引用了自身工作[12],结论"涌现能力由具有较低预训练损失的模型所展现",这与主流关于缩放律的观察一致,但提供了不同的解释视角。(原文位置:2. ChatGLM技术 | 大语言模型的涌现能力)
  • 长上下文扩展 :采用"位置编码扩展 + 长文本持续训练"的方案,与Meta的LLaMA系列等采用的position interpolationcontinued pre-training路线一致。(参考报告引用[5, 47]:Chen et al., 2023; Xiong et al., 2023)
  • 后训练对齐流程:采用"SFT + RLHF"作为标准对齐流程,与InstructGPT、LLaMA2等路线一致。(参考报告引用[29]: Ouyang et al., 2022 (InstructGPT))
  • 高效架构:采用RMSNorm, SwiGLU, RoPE,已成为Transformer架构的社区最佳实践。

5.2 竞争或反对证据

  • 关于数据配方的有效性 :报告强调数据质量和多样性重要,但未确立基础原理。这与其他工作(如LIMA: Less Is More for Alignment)强调高质量、少量数据即可实现较好对齐的观点存在张力,但报告未就此展开讨论或对比。(参考报告引用[60]: Zhou et al., 2023 (LIMA))
  • 检索到的质疑 :当前未检索到 直接针对GLM-4系列模型核心主张的公开质疑论文。
    • 检索说明:基于报告提及的模型名"GLM-4"、"ChatGLM"及作者机构"THUDM"进行假设性检索,未发现系统性批判文章。

5.3 性能/效率性价比与生态定位

  • 效率判断 :由于完全缺失训练成本(FLOPs)和推理效率(吞吐/延迟)的量化数据,无法判断GLM-4是"暴力算力堆砌"还是"高计算效率"。
  • 开源生态推动力
    • 已释放:GLM-4-9B系列模型权重。(原文位置:摘要)
    • 未完全释放:完整的训练代码、数据配方、详尽超参。(原文位置:全文,见3.4审计)
    • 定位 :其开源了中等规模(9B)的强竞争力模型,并支持1M上下文,显著推动了开源生态,尤其在中长上下文和应用层面。但最大规模模型的训练细节不透明,限制了其在研究社区的完全复现。

六、系统性质疑(Top 3关键主张)

主张A4:GLM-4中文对齐能力超越GPT-4。

  1. 必要假设:假设AlignBench能全面、无偏地衡量中文对齐能力;假设GPT-4作为评分器是公平的。
  2. 证据链断点 :缺实验证明AlignBench评分结果与真实中文用户偏好高度相关;缺实验证明使用其他评分器(如Claude 3, Gemini)或人工评估会得出相同结论。
  3. 工程落地风险:在真实部署中,可能因文化差异、价值取向细微差别或对抗性提示,出现与评测结果不符的对齐失败。
  4. 更简单替代解释 :GLM-4的表现可能源于过度拟合AlignBench的评测分布对齐了GPT-4评分器的偏好,而非获得了更优的泛化中文对齐能力。
  5. 避重就轻审计 :报告未提供在其他独立中文对话数据集上的对比结果,也未讨论使用GPT-4作为评分器可能带来的循环依赖问题。

主张B1:GLM-4-Air具有更低的延迟与推理成本。

  1. 必要假设:假设在相同硬件、相同工作负载下,GLM-4-Air比GLM-4或竞品有更好的系统指标。
  2. 证据链断点完全缺乏任何延迟(P50/P99)、吞吐(tokens/s)、显存占用或单位推理成本的量化数据。
  3. 工程落地风险:实际部署中,其延迟和成本优势可能因硬件差异、批量大小、上下文长度变化而消失,甚至更差。
  4. 更简单替代解释 :此主张可能仅为市场宣传,无实际工程优化支撑。
  5. 避重就轻审计:报告完全回避了任何系统层面的性能指标对比,是典型的"能力基准分数"偷换"系统指标"。

主张C1 & 架构选型:数据与架构改进共同导致了能力提升。

  1. 必要假设:假设约10T token的数据质量优于前代;假设架构改进(RMSNorm, SwiGLU等)是关键贡献者。
  2. 证据链断点 :缺乏消融实验。例如,未展示在相同数据量下,新旧架构的对比;或相同架构下,新旧数据配方的对比。
  3. 工程落地风险:无法确定成功的关键因素,导致后续改进方向不明确。
  4. 更简单替代解释 :性能提升可能主要源于数据规模的扩大和质量的提升,架构改进的边际贡献可能很小。
  5. 避重就轻审计:报告未提供任何消融研究(Ablation Study)来分离数据、架构、训练策略等因素的贡献,使得技术归因模糊。

七、给作者的"可操作追问清单"

  1. (针对C1, 3.4) 请披露预训练数据的详细混合配方:中、英、其他语言的具体token百分比;网页、书籍、代码、论文等各领域的采样权重。
  2. (针对3.4, 3.5) 请完整披露基础模型的训练超参:批量大小、序列长度、学习率及调度策略、优化器参数(beta1, beta2, epsilon)、权重衰减率、dropout率、训练总步数。
  3. (针对B1, 4.2) 请在相同硬件(如A100/H100)和相同上下文长度下,提供GLM-4、GLM-4-Air及GPT-4 Turbo API的端到端延迟(P50/P99)、吞吐(tokens/s/GPU)和峰值显存占用的对比曲线。
  4. (针对A5, 4.1) 请扩大全工具评估的规模,发布一个包含至少100个跨领域复杂任务的评测集(Web, Python, 混合,作图),并报告GLM-4 All Tools与GPT-4 All Tools的通过率及详细的错误案例分析。
  5. (针对A4, 6) 请补充在AlignBench之外的独立中文对话数据集(如构造一个涵盖敏感、模糊、价值观冲突场景的新集)上进行人工评估的结果,以验证其中文对齐能力的泛化性。
  6. (针对3.2, 6) 请提供架构选型的消融实验,例如:对比仅保留QKV偏置 vs 保留全部偏置对训练速度和最终性能的影响;对比使用GQA vs MHA在相同参数量下的推理速度与精度差异。
  7. (针对4.4) 请说明对MMLU、GSM8K、HumanEval等基准训练数据污染风险的评估方法及结论。是否进行了时间切分或基于题目语义的去重?
  8. (针对3.6, D2) 请披露对齐阶段(SFT/RLHF)使用的数据规模、人工标注与第三方数据的比例、以及红队测试的规模、流程和迭代次数。
  9. (针对E1, 3.5) 请公开"LongAlign"方案的技术细节,包括位置编码插值/外推的具体方法、长文本训练数据的构成、以及在大海捞针(NIAH)等测试上的详细表现。
  10. (针对F2) 请明确"已采用并即将公开"的关键技术(如LongAlign, ChatGLM-Math, Self-Contrast)的具体开源时间表,并承诺发布可复现的训练代码和配方。

八、结论(限制性结论)

在报告证据范围内可确认的结论:

  1. (基于A1,A2,A3,A7,A8,A9证据) GLM-4模型在多个公开学术基准、指令跟随、代码、函数调用及智能体基准测试上,取得了与GPT-4、Claude 3 Opus、Gemini 1.5 Pro等前沿模型相近的分数
  2. (基于A4证据) 在特定的中文对齐评测基准AlignBench上,GLM-4的得分超过了GPT-4和GPT-4 Turbo。
  3. (基于F1事实) GLM-4-9B系列模型已开源,提供了可公开访问的模型权重。
  4. (基于架构描述) GLM-4采用了当前社区公认的一系列高效架构组件(如RMSNorm, SwiGLU, RoPE, GQA)。

不确定性清单(关键缺失证据):

  1. 效率主张不可核验:GLM-4-Air"更低延迟与成本"的主张完全无量化证据支持。
  2. 可复现性严重不足:训练数据配方、超参数、对齐流水线细节等关键工程信息缺失,模型无法被外部独立复现。
  3. 数据污染风险未排除:未提供任何针对基准测试数据污染的检测与分析,传统基准高分的解释力存疑。
  4. 评测公平性存疑:未统一披露所有对比实验的推理设置(温度、提示等),对比的严格性不足。
  5. 归因模糊:缺乏消融实验,无法区分模型能力提升是源于数据规模、数据质量、架构改进还是训练技巧。
  6. 安全与对齐流程透明度低:红队流程、对齐数据构成、安全评估细节披露不足,其安全性的实际深度难以评估。
  7. 长上下文与全工具能力泛化性证据薄弱:依赖有限评测任务,缺乏真实场景、大规模、对抗性的测试证据。
相关推荐
星爷AG I2 小时前
9-24 视觉叙事(AGI基础理论)
前端·人工智能
zy_destiny2 小时前
【工业场景】用YOLOv26实现8种道路隐患检测
人工智能·深度学习·算法·yolo·机器学习·计算机视觉·目标跟踪
(; ̄ェ ̄)。2 小时前
机器学习入门(二十)支持向量机SVM
人工智能·机器学习·支持向量机
铁手飞鹰2 小时前
[深度学习]Vision Transformer
人工智能·pytorch·python·深度学习·transformer
Web3VentureView2 小时前
目标:覆盖全网主流公链,SYNBO 正式开启公链生态媒体合作矩阵计划
大数据·网络·人工智能·区块链·媒体·加密货币
香芋Yu2 小时前
【深度学习教程——02_优化与正则(Optimization)】09_为什么Dropout能防止过拟合?正则化的本质
人工智能·深度学习
易营宝2 小时前
Yandex广告投放效果怎么样?B2B外贸品牌实测报告
人工智能·seo
会飞的老朱2 小时前
专精特新科技企业,如何用数智化打通管理全链路?
人工智能·科技·oa协同办公
AI_56782 小时前
Git冲突治理白皮书:智能标记与可视化协同的下一代解决方案
大数据·人工智能·git·机器学习