【NLP 71、常见大模型的模型结构对比】

三到五年的深耕,足够让你成为一个你想成为的人

------ 25.5.8

模型名称 位置编码 Transformer结构 多头机制 Feed Forward层设计 归一化层设计 线性层偏置项 激活函数 训练数据规模及来源 参数量 应用场景侧重
GPT-5 (OpenAI) RoPE动态相对编码 混合专家架构(MoE) 128头 MoE专家路由 RMSNorm GeGLU 超10万亿token(互联网+专有数据) 1.8万亿 金融风控、医疗诊断、多媒体生成
DeepSeek-V3 ALiBi 稀疏MoE架构 64头 稀疏激活 LayerNorm SwiGLU 5万亿token(学术论文+代码库) 6710亿 STEM科研、代码开发、教育题库
Google Gemini Ultra 绝对位置编码 时空注意力架构 256头 多模态跨模态融合 GroupNorm ReLU 8万亿token(视频+文本多模态数据) 1.2万亿 工业质检、实验室自动化、视频分析
百度文心一言4.0 绝对位置编码 搜索增强架构 96头 动态知识注入 RMSNorm GELU 4万亿token(百度搜索+古籍数据库) 2600亿 舆情分析、古籍处理、金融投研
华为盘古3.0 ALiBi 分层架构(L0-L2) 128头 行业知识蒸馏 LayerNorm GeGLU 行业专有数据(气象、矿山、制药) 1.1万亿 气象预测、矿山安全、药物研发
Anthropic Claude 3 RoPE 分步验证架构 64头 道德对齐模块 RMSNorm Swish 3万亿token(伦理对齐数据集) 5200亿 法律文书、心理咨询、学术辅助
阿里通义千问 旋转位置编码 MoE+3D生成架构 128头 多模态融合 LayerNorm SwiGLU 6万亿token(电商数据+3D模型库) 1.1万亿 电商客服、供应链优化、3D建模
星火大模型(科大讯飞) 相对位置编码 端云协同架构 96头 语音增强模块 RMSNorm GELU 2.5万亿token(教育+医疗专有数据) 890亿 教育辅导、医疗慢病管理、方言交互
豆包大模型(字节) 动态窗口编码 稀疏MoE+轻量化 32头 情感交互模块 LayerNorm ReLU 3万亿token(短视频+社交语料) 420亿 短视频生成、移动端实时推理
悟道大模型 双向相对编码 中英双语预训练架构 256头 多模态生成 GroupNorm GeGLU 7万亿token(多语言+文化遗产数据) 1.75万亿 文化遗产数字化、工业设计
相关推荐
阿杰学AI23 分钟前
AI核心知识116—大语言模型之 目标驱动的可控架构 (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·机械学习·目标驱动的可控架构
sp_fyf_202425 分钟前
【大语言模型】 是什么在驱动表示层操控?——关于操控模型拒绝机制的案例研究
人工智能·深度学习·机器学习·语言模型·自然语言处理
龙文浩_10 小时前
Attention Mechanism: From Theory to Code
人工智能·深度学习·神经网络·学习·自然语言处理
宝贝儿好11 小时前
【LLM】第二章:文本表示:词袋模型、小案例:基于文本的推荐系统(酒店推荐)
人工智能·python·深度学习·神经网络·自然语言处理·机器人·语音识别
DevOpenClub19 小时前
NLP 命名实体识别 API 接口
人工智能·自然语言处理
极光代码工作室19 小时前
基于NLP的智能客服系统设计与实现
python·深度学习·机器学习·ai·自然语言处理
stereohomology20 小时前
大语言模型的认知边界 & 在认知边界处的系统性崩溃
人工智能·语言模型·自然语言处理
搜狐技术产品小编202320 小时前
智能代码审查基于大语言模型的自动化代码质量保障平台设计与实践
运维·人工智能·语言模型·自然语言处理·自动化
枫叶林FYL20 小时前
【Python高级工程与架构实战】项目四:生产级LLM Agent框架:基于PydanticAI的类型安全企业级实现
人工智能·python·自然语言处理
stereohomology1 天前
大语言模型对大语言模型进行的批评和自我批评
人工智能·语言模型·自然语言处理