中国国内首个突破100B超参的开源 LLM 诞生了——Qwen 110B

好吧,在 2024 年 4 月 20 日,官员们通过 X (以前称为 Twitter)宣布了 Qwen-1.5 110。首先,它旨在增强用户的对话体验。此外,它还具有多种应用的潜力。而阿里巴巴则通过显着地踏入开源社区开始了其人工智能之旅。此外,由于其巨大的可扩展性和复杂性,它有望带来用户肯定会最喜欢的引人入胜的对话。我觉得这会是国内首个最接近企业级的 开源 LLM。目前可以在魔塔社区和 Huggingface中找到并下载。

中国北京,2024年5月9日 ------ 阿里巴巴集团旗下数字技术和智能骨干阿里云今日宣布,其专有大型语言模型(LLM)系列Qwen(又称"通义千问")迎来了一个重要的里程碑。自去年6月以来,Qwen家族通过阿里云的生成式AI平台Model Studio吸引了超过90,000家企业部署,进一步证明了其领导地位,在消费电子、汽车和游戏等行业的大力采用下,Qwen家族成为中国最受欢迎的LLM之一。

越来越多地采用Qwen 自去年6月推出AI开发平台以来,Qwen系列已有超过90,000名企业用户通过Model Studio部署。超过220万企业用户还从阿里巴巴的智能协作工作场所和应用程序开发平台钉钉访问了Qwen驱动的AI服务。

与此同时,开源的 Qwen 系列拥有 5 亿到 1100 亿参数的一系列模型,在 Hugging Face 和 Github 等平台上的下载量超过 700 万次。

此外,由阿里云领导的中国最大的人工智能模型社区ModelScope目前拥有4000多个模型,并在过去几年中获得了500万强大的开发者群体。

Qwen2.5 简介

新发布的 Qwen2.5 与前身 Qwen2.0 相比,在推理、代码理解和文本理解方面有了显著的进步,现在可以通过 Model Studio 获得。根据大型模型评估系统 OpenCompass 的数据,Qwen2.5 在 SOTA(State-of-The-Art)LLM 中展示了各个类别的竞争结果。

作为开源社区的忠实贡献者,阿里云还提供各种尺寸的 Qwen 模型。其中包括拥有惊人的 1100 亿个参数的 Qwen1.5-110B,它在 OpenLLM 排行榜的预训练模型类别中取得了最佳性能,以及 CodeQwen1.5-7B,一个拥有 70 亿个参数的代码优化版本,目前在 Hugging Face 的 Big Code Models 排行榜中位居基础模型之首.该公司还计划在未来几个月内分享 Qwen2.0 的 70 亿参数和 720 亿参数变体。

QWEN-1.5 110B核心特点

现在,让我们深入探讨阿里巴巴带有中国口音的开源机器人的主要功能。

大规模

好吧,Qwen-1.5 110B 将面临激烈的竞争,因为它位于 LLM 巨头的主要名单中。它拥有超过 1100 亿个参数计数,有助于它以更人性化的方式做出响应。此外,它还提供了更多的深度,增强了整体对话体验。

开源可访问性

此外,它是一个开源模型,允许开发人员和研究人员在遇到任何需要改进的地方时为 Qwen-1.5 做出贡献。

专注于中国口音和语言

因此,阿里巴巴的主要重点是迎合中国观众。众所周知,中国拥有最多的人口,这个国家正在为全球数百万企业和制造业做出巨大贡献。然而,他们的大多数人不会说或理解英语或任何国际语言。然而,这可能是阿里巴巴主要以中文加速Qwen-1.5 110B的原因。这为基于语言的工具、翻译软件和中文法学硕士带来了一些机会和进步。同时也支持其他国家的语言。

扩展上下文

其次,Qwen-1.5 的与众不同之处在于它处理扩展上下文的能力。至少它有 32K 的上下文长度。这些功能将帮助用户建立和维护更长的对话,而不会变得无关紧要。

结语

在此之前国内企业使用的多为闭源模型,而开源则是 Yi 34B(基于Llama)。随着今年xai 的 Grok 开源之后,海外的企业级 LLM 在开源的发展上就变得更加激烈,并且逐步接近甚至在某些方面超越 GPT 4。并且美国白宫也正在考虑限制开源 AI流向中国,这对于国内 AI 发展无疑是一场严峻的挑战和困境,值得庆幸的是还有像阿里巴巴、商汤等这样既有企业充沛资源,而且也有科研探讨和知识共享精神的企业存在,让我们在国际竞技舞台上仍有先发优势。

相关推荐
Ronin-Lotus3 小时前
深度学习篇---剪裁&缩放
图像处理·人工智能·缩放·剪裁
cpsvps4 小时前
3D芯片香港集成:技术突破与产业机遇全景分析
人工智能·3d
国科安芯4 小时前
抗辐照芯片在低轨卫星星座CAN总线通讯及供电系统的应用探讨
运维·网络·人工智能·单片机·自动化
AKAMAI5 小时前
利用DataStream和TrafficPeak实现大数据可观察性
人工智能·云原生·云计算
山顶夕景5 小时前
【LLM】Kimi-K2模型架构(MuonClip 优化器等)
大模型·llm·agent·强化学习·智能体
Ai墨芯1115 小时前
深度学习水论文:特征提取
人工智能·深度学习
无名工程师5 小时前
神经网络知识讨论
人工智能·神经网络
nbsaas-boot5 小时前
AI时代,我们更需要自己的开发方式与平台
人工智能
SHIPKING3935 小时前
【机器学习&深度学习】LLamaFactory微调效果与vllm部署效果不一致如何解决
人工智能·深度学习·机器学习
jonyleek6 小时前
如何搭建一套安全的,企业级本地AI专属知识库系统?从安装系统到构建知识体系,全流程!
人工智能·安全