「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。
月之暗面发布Kimi视觉思考模型 k1
超过全球多个标杆模型
12月16日,月之暗面正式发布AI人工智能助手Kimi的视觉思考模型 k1。基于强化学习技术,支持端到端图像理解和思维链技术,训练分预训练和强化学习后训练两个阶段,能力扩展到数学之外的物理、化学等基础科学领域,k1模型在基础科学学科的基准测试中表现优异,超越包括OpenAI o1、GPT-4o以及Claude 3.5 Sonnet在内的多款知名模型,在教育领域的拍照搜题等方面表现出色,还可用于日常生活中识别动植物、计算卡路里等,也能进行古代文献分析等。
用户可以在最新版"Kimi智能助手"的Android、iPhone手机App以及网页版kimi.com上体验到这一创新功能。用户只需在App或网页版中找到"Kimi视觉思考版",即可通过拍照或上传图片的方式,享受模型带来的智能化解题体验。
使用地址:https://kimi.moonshot.cn/
无问芯穹正式开源其首个端侧全模态理解开源模型Megrez-3B-Omni
具备图片、音频、文本三种模态数据的处理能力
12月16日,无问芯穹宣布正式开源其首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源纯语言版本模型Megrez-3B-Instruct。 其中Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型300%。作为一个全模态模型,具备图片、音频、文本三种模态数据处理能力,并在三个模态的多种测评基准中取得了最优性能。
Github: https://github.com/infinigence/Infini-Megrez
HuggingFace:https://huggingface.co/Infinige
谷歌发布最新视频生成模型Veo 2
谷歌版sora
12月17日,谷歌deepmind正式发布了视频生成模型 Veo 2,新模型可以更好地理解现实世界物理、人类运动及表达的细微差别,进一步提升整体细节和逼真度。可以生成分辨率最高 4K(4096 x 2160 像素),时长为 2 分钟的视频片段,相比较 OpenAI 的 Sora 模型,分辨率是后者的 4 倍,时长是后者的 6 倍。
Veo2加入GoogleLabs视频生成工具,计划明年扩展至YouTubeShorts。不过 Veo 2 现在还未正式开放,需要填表排队,等待正式上线。
排队链接:https://labs.google/fx/tools/video-fx
DeepSeek开源DeepSeek-VL2模型
DeepSeek-VL2是一系列大型Mixture-of-Experts(MoE)视觉语言模型
DeepSeek开源DeepSeek-VL2模型,采用MoE架构,数据量是前代一倍,新增多项能力。支持动态分辨率,仅使用一个 SigLIP-SO400M 作为图像编码器,通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。最高1152x1152,和 1:9 或 9:1 的极端长宽比,适配更多应用场景。DeepSeek-VL2 模型还得益于更多科研文档数据的学习,可以轻松理解各种科研图表,并通过 Plot2Code,根据图像生成 Python 代码。
模型下载:https://huggingface.co/deepseek-ai
GitHub主页:https://github.com/ deepseek-ai/DeepSeek-VL2
字节跳动发布豆包视觉理解模型
一元钱就可处理284张720P的图片
12月18日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。
预计2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线。
访问扣子平台,创建智能体,选择豆包视觉理解模型
然后填写申请体验链接的相关信息并提交申请。
访问https://www.coze.cn/open-platform/realtime/playground
谷歌发布Gemini2.0 Flash Thinking
Gemini 2.0 Flash Thinking的思考速度是o1-mini的两倍
谷歌宣布推出 Gemini2.0 Flash Thinking模型。比基础版本的 Gemini2.0 Flash模型具备更强的推理能力。新模型支持32,000个输入标记(大约50到60页文本),输出响应可以达到8,000个标记。谷歌在其 AI 工作室的侧边面板中表示,这一模型特别适用于 "多模态理解、推理" 以及 "编码"。
谷歌首席执行官桑达尔・皮查伊在社交媒体 X 上表示:"这是我们迄今为止最具深度的模型。"
可在 https://aistudio.google.com/ 中使用,
在模型下拉菜单中选择 Gemini 2.0 Flash Thinking experimental 模型来体验
快手可灵AI视频生成推出1.6模型
可灵1.6能够生成1080p分辨率的电影级视频
12月19日,快手可灵AI宣布基座模型再升级,推出可灵1.6模型,在文本响应度、画面美感及运动合理性上均有明显提升,画面更稳定更生动,对运动、时序类动作、运镜等文字描述响应更好。且动态质量进一步增强。可灵AI发布半年来已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。
使用链接:https://klingai.kuaishou.com/
Meta和斯坦福大学的团队联手开源Apollo模型
用于解决视频理解领域评估效率低下的问题
Meta和斯坦福大学的团队联手,从评估基准、模型设计到开源模型, 做出了全方位的探索,创建ApolloBench用于解决视频理解领域评估效率低下的问题, 提出了模型设计的拓展一致性,发现了驱动LMM性能的关键因素,开源了Apollo模型。 Apollo-3B超越7B模型,7B变体最佳,新基准高效评估,设计决策可跨规模迁移,Apollo模型性能优越。
模型链接: https://huggingface.co/Apollo-LMMs
美国 AI 视频生成初创公司Pika推出视频生成模型 Pika 2.0
提供了更好的定制化和对输出的控制
美国 AI 视频生成初创公司 Pika 推出新版视频生成模型 Pika 2.0,强调可定制性,新增"场景配料"功能,Pika 2.0引入了场景元素功能,允许用户上传和自定义角色、物体和场景等元素,通过高级图像识别技术无缝集成到场景中,给予创作者更细粒度的控制权。
Pika 由两位华人女生 Demi Guo 和 Chenlin Meng 共同创立。今年 6 月,Pika 宣布完成了总额 8000 万美元的第五轮(B 轮)融资,总估值超过 4.7 亿美元,较上轮翻了一倍。用户超1100万。其亲民路线和灵活订阅制吸引多样化用户,与竞争对手形成对比。
Pika 2.0模型的官方地址链接:pika.art