国产百亿大模型再增一员!400 亿参数孟子 GPT 发布,各项任务平均提升 10-15%

刚刚,国产大模型明星选手孟子 GPT 上新!

400 亿参数通用大模型正式发布,已开启邀测。

数据显示,孟子 GPT-40B 版本全面领先 7B 版本,大约提升 10-15 个百分点

并超越部分国内大模型,在多语言任务等方面接近 ChatGPT-3.5。

孟子 GPT 来自澜舟科技,其创始人为 NLP 领域大牛周明

自 21 年成立以来,澜舟科技先后发布孟子系列模型、MChat 以及多个垂直领域模型,并拿下数亿元融资。

这次发布是孟子 GPT 上新。除了基础大模型以外,澜舟科技还同步上线了行业大模型,以及基于大模型的产品应用。

分别是:

  • 基于孟子 GPT 打造的金融大模型

  • 基于孟子 GPT 打造的会议内容分析平台 "澜舟智会"

基于这三方面上新,澜舟科技也表示,未来将全面拥抱 MaaS 服务,提供基础模型、大模型训练框架 / 工具包等服务。

使用更成熟预训练技术

据发布会介绍,孟子 GPT-40B 主要在中文及多语言能力、写作、多轮对话等方面做了提升。

通过网页、百科、社交媒体、新闻以及高质量开源数据集,孟子 GPT-40 中文能力更加突出。

并且基于万亿 tokens 多语言语料联合训练,更进一步提升了英语等语言能力。

在底层算法上,澜舟表示使用了更成熟的预训练技术,利用 50 万指令数据精调,基于 70 亿参数量的奖惩函数进行强化学习。

基于 FlashAttention 的高效注意力计算,训练速度提升 8.5 倍 。基于 TGI 等加速框架,推理速度提升 4.6 倍

在孟子 GPT-40B 基础上,还能更进一步训练出行业大模型。

同步发布的澜舟智会,能提取出会议录音 / 视频的核心内容,生成总结和摘要,并且能对要点进行问答。

就在最近,孟子大模型还登顶中文大语言模型测评榜单 C-Eval。

澜舟已拿下数亿元融资

澜舟科技是以 NLP 技术为基础的认知智能公司,由 AI 大牛周明创办,成立于 2021 年 6 月。

周明,当今 NLP 领域成就最高的华人之一,他不仅是中国第一个中英翻译系统的研制者,还在 2019 年成为 AI 语言领域最高级顶会 ACL(国际计算语言协会)主席。

1991 年在 NLP 重镇哈工大拿到博士学位后,周明进入清华任教;1999 年被微软亚洲研究院创始院长李开复挖走,后来不久成为 NLP 研究组负责人。

2020 年离开 MSRA 加盟创新工场担任首席科学家时,周明已担任 MSRA 副院长多年。

澜舟科技成立以来,主打加速 AI 落地,在轻量化大模型、垂直领域大模型上都做了颇多探索。

据介绍,除了孟子大模型外,目前澜舟科技已经开源了 20 个左右大模型。

今年 3 月,澜舟科技最新拿下 Pre-A 轮融资,由北京中关村科学城公司领投,斯道资本和创新工场跟投。这是澜舟科技收获的第 2 轮融资,2 轮累计总额数亿元。

--- ---

「量子位智库 · 仿生机器人沙龙」招募中

9 月 6 日,「量子位智库 · 仿生机器人沙龙」将在北京中关村举办,欢迎全行业仿生机器人玩家参与 ~

点击图片了解详情,企业报名可联系活动负责人王琳玉(微信:iris_wang17,请备注企业 + 姓名)。沙龙观众通道后续开放,敬请期待 ~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关推荐
肥猪猪爸17 分钟前
使用卡尔曼滤波器估计pybullet中的机器人位置
数据结构·人工智能·python·算法·机器人·卡尔曼滤波·pybullet
蚂蚁数据AntData38 分钟前
DB-GPT V0.6.2 版本更新:牵手libro社区、GraphRAG图谱构建能力增强等
gpt
LZXCyrus1 小时前
【杂记】vLLM如何指定GPU单卡/多卡离线推理
人工智能·经验分享·python·深度学习·语言模型·llm·vllm
我感觉。1 小时前
【机器学习chp4】特征工程
人工智能·机器学习·主成分分析·特征工程
YRr YRr1 小时前
深度学习神经网络中的优化器的使用
人工智能·深度学习·神经网络
DieYoung_Alive1 小时前
一篇文章了解机器学习(下)
人工智能·机器学习
夏沫的梦1 小时前
生成式AI对产业的影响与冲击
人工智能·aigc
goomind1 小时前
YOLOv8实战木材缺陷识别
人工智能·yolo·目标检测·缺陷检测·pyqt5·木材缺陷识别
只怕自己不够好1 小时前
《OpenCV 图像基础操作全解析:从读取到像素处理与 ROI 应用》
人工智能·opencv·计算机视觉
幻风_huanfeng1 小时前
人工智能之数学基础:线性代数在人工智能中的地位
人工智能·深度学习·神经网络·线性代数·机器学习·自然语言处理