大模型“套壳”新宠:再见LLaMA,你好通义千问!

大数据产业创新服务媒体

------聚焦数据 · 改变商业


在全球人工智能的大潮中,一场关于大模型的战役正悄然展开。名为"百模大战"的竞赛,正是国内外科技巨头和新兴力量在AI领域的一次明争暗斗。但在这场看似繁荣的竞争背后,隐藏着一个不容忽视的事实:大部分国内自研大模型,不过是西方开源模型的"套壳"产品。

这一现象引发了一连串问题:我们真的在自主研发大模型吗?国内AI领域的创新能力究竟在哪里?是时候揭开这层粉饰的面纱,正视国内大模型领域的真实面貌了。

国内"百模大战",大部分都是套壳LLaMA?

全球大模型有两条主流发展路线:闭源与开源。

闭源派,以OpenAI的GPT系列为旗帜,这代表了商业化和专有技术的结合。而开源派则以Meta的羊驼(LLaMA)系列模型为代表,象征着知识共享和技术民主化。

国内的AI领域迅速响应,一时间,形成了"百模大战"的局面。但参与这场战斗的大模型,有多少是建立在自主创新之上?仔细观察不难发现,大多数所谓的自研大模型,其实只不过是站在开源巨人的肩膀上稍作调整的产物。

最典型的例子便是李开复零一万物,其推出的"Yi"大模型,这款模型被揭露只是对LLaMA进行了表面上的修改------仅仅改变了两个张量的名称。这种抄袭式的创新,在国内AI界并非孤例,而是一个普遍现象。零一万物的做法,不过是撕开了国内大模型领域遮掩已久的一块遮羞布。

那么,这种"套壳"现象背后,反映了什么呢?

它暴露了国内在原始创新方面的短板,尽管拥有庞大的市场和资金投入,但在核心技术的原创性上,我们似乎还在追赶的路上。这种跟随式的创新策略,虽然能短期内迅速填补市场空白,但从长远来看,缺乏持续的创新动力。

同时,这也暴露了国内AI领域对于"快速见效"的渴望。在快速成长的市场驱动下,企业可能更倾向于采取快速复制、轻微修改的方式来抢占市场,而非投入时间和资源进行深层次的技术创新。这种策略虽然能在短期内带来利益,但却可能牺牲了长期的技术积累和行业健康发展。

这一现象也反映出国内AI行业在技术自信上的缺失,在全球AI技术竞赛中,我们似乎更多地处于跟随者的位置,而非领跑者。这种局面需要通过加强原始创新、技术积累和人才培养来逐步改变。

国内要在大模型领域实现对美国同行的赶超,不仅要在闭源模型上追赶OpenAI的GPT-4,还要在开源领域追赶Meta的LLaMA。

阿里开源通义千问,参数规模追平"羊驼2"

2023年2月,Meta首次发布了羊驼系列模型。在这个初始版本中,羊驼系列包括了四种不同规模的模型:参数量分别为7亿、13亿、33亿和65亿。

7月,Meta公布最新大模型 Llama 2(羊驼 2),包含 7B、13B 和 70B 三种参数变体,可免费用于商业或者研究。

值得欣喜的是,国内厂商,也在开源大模型领域积极布局。

近日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现"全尺寸、全模态"开源。

可以发现,在参数规模上,阿里通义千问追平了Meta的羊驼2,都是700亿参数规模。

还有一点值得关注,就是中国的一些大模型创业公司,也在推出开源大模型。比如,7月份,智谱AI开源ChatGLM-6B 和 ChatGLM2-6B;同月,百川智能开源了Baichuan-7B、Baichuan-13B。

中国拥有自己的开源大模型生态,对技术和产业的自主可控具有深远的意义。

这些开源大模型为中国科技企业提供了一个强大的技术基础,使它们能够在全球AI竞争中更加自信地展现自己的实力。这些开源模型的存在,为中国的研究者和开发者提供了更多的选择和灵活性,促进了国内AI技术的快速发展和创新。这也有助于减少对外国技术的依赖,增强了中国在关键技术领域的自主性和安全性。

中国在大模型领域的这一系列动作,不仅是技术竞赛中的一次闪亮登场,更是对全球AI格局的一次重要贡献。它不仅展示了中国科技企业在大模型领域的实力和创新能力,更为全球AI技术的发展和应用开辟了新的道路。

随着更多的中国企业和研究机构加入这场开源大模型的竞赛,我们有理由相信,中国将在全球AI舞台上扮演越来越重要的角色。

开源与闭源,哪条才是正确的路线?

在大模型领域,到底是应该开源还是闭源发展呢?

如果从商业化角度,还不好评判。

但是,从人类整体利益来看,开源的大模型路线,肯定要更加"安全"。主要表现在:

1、开源大模型,更容易被大众所理解、所监督。

开源大模型的透明性使其成为民主化科技的典范,它们不仅为广泛的研究者和开发者群体提供了易于理解和使用的工具,还允许普罗大众参与监督。

这种开放的交流和协作模式使得最新的技术进展和知识能够迅速普及,确保了社会各界对于人工智能发展方向的知情权和发言权。这种互动不仅推动了技术的快速进步,还有助于增强公众对人工智能技术的信任和接受度。

2、避免AGI被某个科技巨头所垄断。

大模型的最终目标,就是AGI,而如此强大的力量,肯定不能被某个逐利的商业公司所掌控。

当初OpenAI成立的初衷,就是为了避免人工智能被谷歌所垄断。OpenAI这个名字中的"Open"本身就是开放、开源的意思。只是现在OpenAI越来越封闭,跟他成立的初衷背道而驰了。

为了人类整体利益,大模型应该至少保持一条开源的技术路线,作为人类的Plan B 。

3、开源大模型,有利于大模型产业的繁荣和创新。

开源大模型为初创公司提供了一个强大的创新平台,降低了进入人工智能领域的门槛。这些公司能够在现有的先进模型基础上,进行定制化的改进和应用开发,从而快速实现技术创新。

这种模式不仅促进了技术多样性和应用创新,还为整个AI产业带来了活力和竞争力,加速了新技术的商业化进程,有力推动了整个行业的健康发展和繁荣。

接下来,我们来看两个基于阿里通义千问开源大模基础上,进行应用创新的例子。

案例1:大模型+机器人=具身智能

在智能技术飞速发展的当下,具身智能逐渐走入我们的生活。浙江有鹿机器人科技有限公司,一个专注于结合大模型和具身智能的初创企业,就在这一领域取得了显著进展。

创始人兼CEO陈俊波带领着团队,依托于自主研发的第二代具身智能大模型,致力于将高度适配且可泛化的通用智能大脑集成到每一台专业设备中。

有鹿机器人的愿景是让传统专业设备智能化,而这正是具身智能时代的最大机遇。国内拥有数万家传统专业设备生产商,他们迫切需要人工智能系统来升级现有产品。有鹿机器人为这些设备提供了一个通用的人工智能大脑,不仅减少了为每种型号单独开发智能系统的成本,还提高了产品的智能化水平。

有鹿机器人目前在路面清洁机器人中成功集成了通义千问开源模型Qwen-7B。这款智能清洁机器人能够通过自然语言与用户实时互动,理解并执行用户的指令。这一创新不仅提高了机器人的工作效率,还增强了其在实际应用场景中的灵活性。

陈俊波解释道,他们选择了通义千问模型的原因有多个:首先,它是目前在中文领域性能最优秀的开源大模型之一;其次,提供了易于使用的工具链,方便进行快速实验和fine-tune;再者,量化模型无损失,适合部署在嵌入式设备上;最后,通义千问提供的服务响应迅速,能满足企业的多样需求。

有鹿机器人的成功案例表明,开源大模型在具身智能领域的应用前景广阔。对于需要不断进化和适应新数据的应用场景,开源模型无疑是更优选择。这不仅推动了具身智能的发展,也为相关行业带来了革命性的变革。

案例2:心理大模型

在现代社会,人们面临着越来越多的心理压力和挑战,心理健康成为了大众关注的焦点。针对这一需求,华东理工大学的X-D Lab(心动实验室)团队,以颜鑫为核心成员,致力于开发能够抚慰和治愈当代人心灵的AI应用。

他们基于通义千问开源模型,开发出了一系列针对心理健康、医疗健康、教育/考试等领域的大模型,包括心理健康大模型MindChat(漫谈)、医疗健康大模型Sunsimiao(孙思邈)和教育/考试大模型GradChat(锦鲤)。

特别地,MindChat作为一款心理咨询工具,像一个AI心理咨询师,为用户提供及时、安全且方便的心理评估服务。通过阿里云魔搭社区,用户可以体验到这款模型的实际效果。MindChat通过分析用户的文字内容和语音语调,能共情用户,为他们提供个性化的建议,甚至在必要时推荐真正的人类专家或心理专家介入。

这个项目的起源源于颜鑫与其老师的一次饭桌对话,讨论到社会普遍的孤独感和心理健康问题。基于此,他们决定开发出能够提供情绪出口和保持与社会连接的心理大模型。

目前,已有超过20万人次使用了他们的大模型,提供了超过100万次的问答服务,帮助众多人解决了升学、考研、就业、职场等方面的压力。

此外,团队也高度重视用户隐私保护,采用分布式架构存储与分析训练数据,确保用户信息安全。颜鑫强调,选择开源模型是为了实现技术的持续性和适应性,特别是在心理和医疗这样高度注重隐私的领域。他们选择通义千问模型,是因为它的智能性能在中文领域表现最佳,提供了易用的工具链,支持快速实验和fine-tune,以及量化模型在部署上的高效性。

最终,X-D Lab采取了开闭源相结合的策略,既反哺开源社区,又以闭源API的方式为真实场景提供服务,确保了他们的技术既有创新性又能满足实际应用的需求。通过这种方式,他们希望让大模型技术服务于更广泛的社会群体,特别是那些在心理健康领域寻求帮助的人们。

需要指出的是,开源大模型是一个好事,但有一个关键前提,就是开源出来的大模型,本身是很强大的。并且,这个开源大模型还会持续演进,推动整个开源生态的技术进步。以通用千问开源的模型为例,现在只开源了700亿参数规模的大模型,这是不够的。相信接下来,我们将见到一些千亿参数规模的开源大模型。

在探索人工智能的广阔海洋中,开源大模型犹如一座灯塔,照亮了前行的道路。这不仅是技术进步的象征,更是人类智慧共享的胜利。开源大模型的出现,打破了知识和技术的壁垒,让更多的研究者、企业乃至普通大众,能够共享这一切代的科技成果,共同推动人工智能领域的发展。

然而,我们也应该意识到,开源大模型的旅程才刚刚开始。未来的路上,我们需要更多的创新、合作与智慧的碰撞,以不断提升这些模型的能力和适用性。

我们期待着看到更加强大、更加智能的开源大模型的诞生,它们将不仅仅是技术的革新,更是人类对未知世界探索的伙伴,携手共创一个更加智慧、更加美好的未来。让我们期待着在这条充满挑战与机遇的道路上,共同见证人工智能带给世界的更多奇迹。

文:一蓑烟雨 / 数据猿

相关推荐
ibrahim8 小时前
Llama 3.2 900亿参数视觉多模态大模型本地部署及案例展示
ai·大模型·llama·提示词
算力魔方AIPC11 小时前
Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑
人工智能·llama
三月七(爱看动漫的程序员)2 天前
LEAST-TO-MOST PROMPTING ENABLES COMPLEX REASONING IN LARGE LANGUAGE MODELS---正文
人工智能·gpt·学习·机器学习·语言模型·自然语言处理·llama
码狂☆2 天前
源码编译llama.cpp for android
android·人工智能·llama
Ambition_LAO2 天前
LLaMA-Factory QuickStart 流程详解
llm·llama
宇梵文书C2 天前
在CFFF云平台使用llama-factory部署及微调Qwen2.5-7B-Instruct
llm·llama·cfff
CSBLOG3 天前
Day27 - 大模型微调,LLaMA搭建
人工智能·深度学习·llama
python_知世4 天前
基于LLaMA-Factory微调Llama3
人工智能·深度学习·程序人生·自然语言处理·大语言模型·llama·大模型微调
handsomelky4 天前
ollama本地部署大语言模型记录
人工智能·语言模型·自然语言处理·chatgpt·llama·ollama·gemma
曦云沐4 天前
Llama3模型详解 - Meta最新开源大模型全面解析
开源·llama