最被低估的国产 AI,在海外杀疯了。

刷到一条最近挺火的消息,在校学生使用 AI 视频工具搞了个 AI 视频短片《电火花之舞》,在 MIT 的全球 AI 电影黑客马拉松中拿了"最佳叙事奖"。

这片子靠着超走心的情感表达和细腻的画面直接把评委给征服了,在海外社交平台上也炸开了锅。

网友们一边惊叹它那突破性的艺术表现力,一边在相关话题下疯狂点赞 AI 视频工具的进化之快,效果炸裂,评论区刷爆。

看了一下,这个被疯狂点赞的 AI 视频工具正是 MiniMax 旗下的 ------海螺 AI

现在不管是视频生成的效果,还是全球用户的访问量,都说明了海螺 AI 在 AI 视频赛道领跑者的技术实力。

而且就在获奖两周前,这家伙跟 MiniMax 家另一款出海产品 Talkie 一块儿被 a16z(硅谷那家扛把子风投机构 Andreessen Horowitz)选进了全球 AI Web 产品 Top50 和 AI 应用 Top50 榜单。

海螺 AI 力压可灵和 Open AI 的 Sora 稳居全球 AI 视频赛道头把交椅。

这一系列的亮眼成绩,再次把这个被低估了的国产大模型公司 MiniMax 推到了大家眼前。

今天,来挖挖 MiniMax 这家低调的国产 AI 公司。

01、多模态技术,频频创新

早在 25 年 1 月,MiniMax 就接连发布了一系列涵盖各个领域的大模型。

在视频赛道,MiniMax 推出了 S2V-01 视频模型,通过单图主体参考架构,只需输入一张图片, 即可实现视觉细节的精确动态还原,同时具备高自由度和组合性。不用等待太长时间,就能生成高可用的效果。

还有 I2V-01-Director、T2V-01-Director 共同组成 01-Director 系列模型,「镜头控制」模型让普通用户也获得了全新的创作自由,让普通人如专业导演一样,自如控制镜头语言。

在语音赛道,MiniMax 推出了 T2A-01 系列语音模型,支持声音克隆,仅需 10 秒音频即可精准克隆声音,保留情感底色。

模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动。用户可选择自动情绪检测或手动控制,获得完美表达。

支持 17 种以上语言,能自然呈现地区特色口音。还可以通过高级参数控制自定义音调、速度和情感基调,添加专业效果。

02、开源模型完成技术突破

年初发布的 MiniMax-01 系列开源模型,包括基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。

在发布之初就在海外引起了一波热议。被海外科技媒体、投资人及研究员认为:是一个来自中国的可以与 OpenAI "掰手腕"的顶尖开源模型。

MiniMax-Text-01 开源 模型

① 参数规模:4560 亿总参数,单次激活 459 亿,支持 400 万 Token 上下文(相当于全系列《哈利波特》的 3 倍)。长文本处理能力是 GPT 的 32 倍 Claude-3.5 的 20 倍。

风险投资公司 Menlo Ventures 的 VC @deedydas 说:这个开源的模型比 GPT4o 便宜 10 倍,效果与 SOTA 模型相当,在 4M token 上下文中实现了"大海捞针"!

② 架构突破:全球首次大规模应用线性注意力机制(Lightning Attention),计算复杂度从传统 Transformer 的二次方降至线性。

Transformer 的二次计算复杂度,随着 token 长度增加,算力需求就会迅速飙升,这就导致模型能处理的输入长度很有限。

但偏偏长文本处理能力又是 AI 发展的一个刚需。虽然我们可以靠硬件升级稍微缓解一下,但根本问题还是没解决。

现在很多人都在关注一种基于 Transformer 改进的"稀疏注意力机制",MiniMax 认为这种方法本质上还是对完整注意力(full attention)的一种有损逼近,而线性注意力机制则可以做到无损优化。

想要了解 MiniMax 押注的⾮共识线性注意力⽅向更多相关的信息,建议听一下这个播客,了解更多 MiniMax 在架构突破上的探索。

③ 性能对标:在MMLU(通用知识测试)、IFEval(指令遵循)等核心任务中,追平 GPT-4o 和 Claude-3.5-Sonnet,长文本衰减率优于谷歌 Gemini。

MiniMax-VL-01 开源 模型

MiniMax-VL-01 在 MiniMax-Text-01 的基础上,使用了 303M 参数的 ViT(视觉 Transformer)作为视觉编码器,并通过一个随机初始化的两层式 MLP(多层感知机)投影器来执行图像适应。

使得模型能够将图像转换为语言模型可理解的 token 形式,该模型能够进行图文匹配、图像描述生成和视觉问答等任务。

在多个基准测试中,MiniMax-VL-01 的表现与其他顶尖模型媲美,甚至在某些指标上达到最佳。

03、技术驱动,是唯一出路?

MiniMax 创始人闫俊杰 1 月 17 日在《晚点》访谈中谈到了关于大模型技术突破、开源的思考,有助于重新理解国产大模型的破局之道。

闫俊杰说:"不能套用上一代做移动互联网产品的方法论来思考 AI 产品,模型才是产品出现的驱动力。"

好的 AI 产品、用户的增长是源自好的模型,本质是技术驱动。而 DeepSeek 和海螺 AI 的爆火以及实现用户飞速增长就是这一观点很好的印证。

闫俊杰还说:"我们认为真正有价值的事,不是当前做得怎么样,而是技术进化速度。而开源会加速技术进化。"所以 MiniMax 积极拥抱开源"

在 AI 行业卷的飞起的当下,MiniMax 的道路显得尤为独特而珍贵,以技术创新为核心驱动力,持续攻坚多模态技术和模型迭代,将"创新"融入到发展脉络的每个阶段。

S2V-01、MiniMax-01 以及 T2A-01-HD 等高质量模型的推出,既让中国在 AI 技术创新上站住了脚,也让海螺 AI 等产品在国际市场中获得了更多可能性和更好口碑。

三年时间里,MiniMax 用坚持和专注为自己赢得了行业地位,也为中国 AI 企业树立了"唯有把技术做深、做透,才能在未来走得更远"的最好注脚。

2025,中国 AI 加油,MiniMax 加油。

相关推荐
进取星辰5 分钟前
PyTorch 深度学习实战(28):对比学习(Contrastive Learning)与自监督表示学习
人工智能·深度学习
阿珊和她的猫9 分钟前
AIGC 与 Agentic AI:生成式智能与代理式智能的技术分野与协同演进
人工智能·aigc
飞凌嵌入式10 分钟前
从DeepSeek到Qwen,AI大模型的移植与交互实战指南
人工智能·aigc·嵌入式
不吃香菜?11 分钟前
OpenCV图像处理基础到进阶之高阶操作
图像处理·人工智能·opencv
沐雪架构师34 分钟前
LLaMA Factory微调后的大模型在vLLM框架中对齐对话模版
人工智能
不吃香菜?35 分钟前
opencv图像处理之指纹验证
人工智能·opencv·计算机视觉
AIGC大时代38 分钟前
DeepSeek学术仿写过程中如何拆解框架?
人工智能·chatgpt·智能写作·deepseek·aiwritepaper
云狐创意1 小时前
小豆包api:gpt-4o模型api已接入,出图更稳定
人工智能·程序人生
郝YH是人间理想1 小时前
OpenCV基础——轮廓检测、模板匹配、图像均衡化
开发语言·图像处理·人工智能·python·opencv·计算机视觉
十九万里1 小时前
基于 OpenCV + Haar Cascade 实现的极简版本人脸标注(本地化)
人工智能·后端