刷到一条最近挺火的消息,在校学生使用 AI 视频工具搞了个 AI 视频短片《电火花之舞》,在 MIT 的全球 AI 电影黑客马拉松中拿了"最佳叙事奖"。
这片子靠着超走心的情感表达和细腻的画面直接把评委给征服了,在海外社交平台上也炸开了锅。
网友们一边惊叹它那突破性的艺术表现力,一边在相关话题下疯狂点赞 AI 视频工具的进化之快,效果炸裂,评论区刷爆。
看了一下,这个被疯狂点赞的 AI 视频工具正是 MiniMax 旗下的 ------海螺 AI
现在不管是视频生成的效果,还是全球用户的访问量,都说明了海螺 AI 在 AI 视频赛道领跑者的技术实力。
而且就在获奖两周前,这家伙跟 MiniMax 家另一款出海产品 Talkie 一块儿被 a16z(硅谷那家扛把子风投机构 Andreessen Horowitz)选进了全球 AI Web 产品 Top50 和 AI 应用 Top50 榜单。
海螺 AI 力压可灵和 Open AI 的 Sora 稳居全球 AI 视频赛道头把交椅。
这一系列的亮眼成绩,再次把这个被低估了的国产大模型公司 MiniMax 推到了大家眼前。
今天,来挖挖 MiniMax 这家低调的国产 AI 公司。
01、多模态技术,频频创新
早在 25 年 1 月,MiniMax 就接连发布了一系列涵盖各个领域的大模型。
在视频赛道,MiniMax 推出了 S2V-01 视频模型,通过单图主体参考架构,只需输入一张图片, 即可实现视觉细节的精确动态还原,同时具备高自由度和组合性。不用等待太长时间,就能生成高可用的效果。
还有 I2V-01-Director、T2V-01-Director 共同组成 01-Director 系列模型,「镜头控制」模型让普通用户也获得了全新的创作自由,让普通人如专业导演一样,自如控制镜头语言。
在语音赛道,MiniMax 推出了 T2A-01 系列语音模型,支持声音克隆,仅需 10 秒音频即可精准克隆声音,保留情感底色。
模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动。用户可选择自动情绪检测或手动控制,获得完美表达。
支持 17 种以上语言,能自然呈现地区特色口音。还可以通过高级参数控制自定义音调、速度和情感基调,添加专业效果。
02、开源模型完成技术突破
年初发布的 MiniMax-01 系列开源模型,包括基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。
在发布之初就在海外引起了一波热议。被海外科技媒体、投资人及研究员认为:是一个来自中国的可以与 OpenAI "掰手腕"的顶尖开源模型。
MiniMax-Text-01 开源 模型
① 参数规模:4560 亿总参数,单次激活 459 亿,支持 400 万 Token 上下文(相当于全系列《哈利波特》的 3 倍)。长文本处理能力是 GPT 的 32 倍 Claude-3.5 的 20 倍。
风险投资公司 Menlo Ventures 的 VC @deedydas 说:这个开源的模型比 GPT4o 便宜 10 倍,效果与 SOTA 模型相当,在 4M token 上下文中实现了"大海捞针"!
② 架构突破:全球首次大规模应用线性注意力机制(Lightning Attention),计算复杂度从传统 Transformer 的二次方降至线性。
Transformer 的二次计算复杂度,随着 token 长度增加,算力需求就会迅速飙升,这就导致模型能处理的输入长度很有限。
但偏偏长文本处理能力又是 AI 发展的一个刚需。虽然我们可以靠硬件升级稍微缓解一下,但根本问题还是没解决。
现在很多人都在关注一种基于 Transformer 改进的"稀疏注意力机制",MiniMax 认为这种方法本质上还是对完整注意力(full attention)的一种有损逼近,而线性注意力机制则可以做到无损优化。
想要了解 MiniMax 押注的⾮共识线性注意力⽅向更多相关的信息,建议听一下这个播客,了解更多 MiniMax 在架构突破上的探索。
③ 性能对标:在MMLU(通用知识测试)、IFEval(指令遵循)等核心任务中,追平 GPT-4o 和 Claude-3.5-Sonnet,长文本衰减率优于谷歌 Gemini。
MiniMax-VL-01 开源 模型
MiniMax-VL-01 在 MiniMax-Text-01 的基础上,使用了 303M 参数的 ViT(视觉 Transformer)作为视觉编码器,并通过一个随机初始化的两层式 MLP(多层感知机)投影器来执行图像适应。
使得模型能够将图像转换为语言模型可理解的 token 形式,该模型能够进行图文匹配、图像描述生成和视觉问答等任务。
在多个基准测试中,MiniMax-VL-01 的表现与其他顶尖模型媲美,甚至在某些指标上达到最佳。
03、技术驱动,是唯一出路?
MiniMax 创始人闫俊杰 1 月 17 日在《晚点》访谈中谈到了关于大模型技术突破、开源的思考,有助于重新理解国产大模型的破局之道。
闫俊杰说:"不能套用上一代做移动互联网产品的方法论来思考 AI 产品,模型才是产品出现的驱动力。"
好的 AI 产品、用户的增长是源自好的模型,本质是技术驱动。而 DeepSeek 和海螺 AI 的爆火以及实现用户飞速增长就是这一观点很好的印证。
闫俊杰还说:"我们认为真正有价值的事,不是当前做得怎么样,而是技术进化速度。而开源会加速技术进化。"所以 MiniMax 积极拥抱开源"
在 AI 行业卷的飞起的当下,MiniMax 的道路显得尤为独特而珍贵,以技术创新为核心驱动力,持续攻坚多模态技术和模型迭代,将"创新"融入到发展脉络的每个阶段。
S2V-01、MiniMax-01 以及 T2A-01-HD 等高质量模型的推出,既让中国在 AI 技术创新上站住了脚,也让海螺 AI 等产品在国际市场中获得了更多可能性和更好口碑。
三年时间里,MiniMax 用坚持和专注为自己赢得了行业地位,也为中国 AI 企业树立了"唯有把技术做深、做透,才能在未来走得更远"的最好注脚。
2025,中国 AI 加油,MiniMax 加油。