OpenAI Sora乱炸全场，Google Gemini大更新(免费试用)；月之暗面开放平台公测赠token；天工AI升级后更好用了

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

🉑 文本生成视频模型 Sora 横空出世！OpenAI 再度炸场

twitter.com/sama

twitter.com/OpenAI

2月16日，在毫无预热的情况下，Sam Altman 和 OpenAI 官方账号在X平台上发布了 Sora 生成的视频，并开始根据网友提供的 Prompt 进行现场创作和分享。然后，果不其然的，又炸场了！！

可以点击这里查看生成视频和提示词。目前只有 OpenAI 官方和极少数的测试大佬拥有 Sora 的使用权限，我等围观群众还只能望「视频」兴叹。但陆续放出的这些视频足以让大家震惊了，甚至部分相关从业者已经开始焦虑和哀嚎 (#｀-_ゝ-)

openai.com/sora

openai.com/research/vi...

简单来说，OpenAI Sora模型可以根据用户输入的文本描述，生成长达 60 秒的连贯流畅的视频 。更重要的是，它在视频的真实性、长度、稳定性、一致性、分辨率以及对文本的理解方面，都展现出了目前最佳的水平 ⋙ 快速了解 Sora

那么Sora是如何做到的呢？OpenAI 官网随后发布了 Sora 的技术报告「Video generation models as world simulators 」，阐述了 Sora 的技术原理 ⋙ 技术报告的中文翻译版

各平台信息流里已经铺满了 Sora (￣︶￣*))

大家在密切讨论为什么 Sora 还是诞生在 OpenAI，它背后神秘且强大的缔造团队，对视频创作领域的巨大影响，可能存在的创业投资机会和时间窗口，以及更多的原理解释和科普文章......

🉑 Google 先后发布 Gemini Ultra 1.0 和 Gemini Pro 1.5，基本追平 GPT-4

blog.google/products/ge...
补充一份背景：Gemini 是 Google 在2023年底发布的大模型矩阵，Ultra、Pro、Nano 三个版本有各自特点和适用场景，其中功能最强大的是 Ultra

2月8日，终于传来了 Gemini Ultra 正式发布的消息。👆 官方博客包含以下三个信息要点：

已有聊天机器人 Bard 正式更名为 Gemini

推出聊天机器人 Gemini Advanced ，使用的就是最新发布的 Ultra 1.0 大模型，也是 Google 当前最强大的大模型

推出 Gemini 移动版 ，Android 和 iOS 系统用户陆续可以在手机端进行体验 ⋙ 官方中文报道

gemini.google.com

gemini.google.com/advanced

根据 Google 官方博客介绍，Gemini Advanced 具备完成编码、逻辑推理、遵循细微指令、协作完成创意项目等复杂任务的能力，还允许用户完成更长更详细的对话，并且能够理解之前提示的上下文。

Gemini Advanced 可以免费试用两个月，点击 👆 上方链接即可申请，正式购买价格是 19.99 美元/月

Gemini 的移动端体验，在 Android 和 iOS 系统间有点差别。

Android 手机的 Gemini 是一个新型智能助手，可以基于生成式AI与用户进行协作。

比如，安装后可以点击电源按钮激活应用，帮助完成一系列的生成任务，包括为刚拍的照片生成标题、对正在阅读的文章进行问答...... 未来，Android 手机中许多 Google Assistant 语音功能都可以通过 Gemini 应用程序进行使用，包括设置定时器、拨打电话和控制智能家居设备等。

iOS 手机则可以从 Google 应用程序直接访问 Gemini，点击切换按钮就可以开始与 Gemini 进行聊天啦！

blog.google/technology/...

2月15日，Google 再次发布重大更新，推出了下一代基础模型 Gemini 1.5。

Gemini 1.5 在 Gemini 1.0 的基础上有多方面的显著改进，其中最亮眼的是支持 100 万token 的上下文 (是目前基础大模型中最长的)，并且采用了更为高效的 MoE (Mixture-of-Experts) 架构。

Gemini 1.5 Pro 是 1.5 系列推出的第一个大模型，上下文窗口容量为128万，与之前发布的最强大模型 Gemini Ultra 1.0 效果相当但使用的计算资源更少 👍 目前陆续开放给开发者和企业用户使用。

Gemini 1.5 Pro 的长上下文窗口意味着，可以支持1小时的视频，11小时的音频，超过 30,000 行代码或者超过 700,000 个词的文本了......

Google 还表示，在研究中成功测试的 token 上限是 1000 万......

deepmind.google/technologie...

👆 这个链接是 Google DeepMind 关于 Gemini 信息的汇总页面，有各大模型信息的详细介绍。这张图片总结了 Gemini 大模型矩阵当前信息。

🉑 月之暗面 (MoonShot AI) 大模型再次升级，开放平台启动公测，并有消息称正在进行两亿美元融资

www.moonshot.cn

1月26日，月之暗面通过其官方公众号发布了「基础模型能力全面升级」的消息。moonshot-v1-20240123 版本大模型的能力升级包含以下几个方面：

联网搜索能力：更精准地联网获取高质量信息

上下文学习能力：通过示例理解复杂任务需求

K12教育支持：强化K12教育问题解答

文学创作能力：提升作品文学性和字数控制

语言翻译能力 ：提供地道的中英文互译 ⋙ 更多官方详细介绍

platform.moonshot.cn/

2月5日，Moonshot AI 开放平台正式启动公开测试 (链接 👆)

Moonshot AI 开放平台 API 与 OpenAI 兼容，开发者可以快速接入模型，丝滑迁移

Moonshot AI 开放平台 API 还兼容以下开源仓库：Huggingface Space 、OpenAI Translator 、LlamaIndex 、LangChain 、Koishi 、 Nonebot2

Moonshot AI 开放平台提供的三个基础模型：moonshot-v1-8k / 32k / 128k，每千个 token 的定价为 0.012 元 / 0.024 元 / 0.060 元

开发者注册后都可以获得价值 15 元的体验包 ，相当于 125 万 tokens(8k模型)、 62.5 万 tokens(32k模型) ⋙ 更多官方详细介绍

2月3日 | AI 科技评论独家获悉，月之暗面近日正在进行 2 亿美元融资，本轮投资由蚂蚁和阿里集团共同投资，投前估值预计 15 亿美元 ⋙ 详细信息

🉑 昆仑万维发布新版 MoE 大语言模型「天工2.0」，天工 App 迎来重大升级

home.tiangong.cn
昆仑万维围绕「天工」系列大模型，推出了百亿级开源大语言模型系列「天工Skywork-13B 」、AI Agent 开发平台「天工SkyAgents 」、多模态大语言模型「天工Skywork-MM」

以及，天工AI搜索真的很好用！(虽然被说是像素级复刻 Perplexity 吧 😏)

2月6日，昆仑万维正式发布新版 MoE 大语言模型「天工2.0」，这是自其去年4月发布「天工」大模型以来的最大规模版本升级 。「天工2.0」采用了业内顶尖的 MoE 专家混合模型架构，应对复杂任务能力更强，速度更快、效率更高，灵活、多样、可扩展性更强。

移动端「天工AI智能助手」App，伴随着「天工2.0」大模型的重磅升级，也迎来了版本的全面更新。官方介绍这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用，已经可以下载并使用了~

强大的多模态能力：能够满足图文对话、图文创作、知识问答等多种用户需求，生成的图像在内容丰富度、精细度和图像质量上均提升明显

支持 100K 超长上下文窗口：支持最高 100K (超过15万汉字) 的文本对话，并能够通过扩展技术可以支持 200K 超长文档理解

搜得更准、写得更好、读得更快：能针对用户的不同需求提供更准确、更具体的回答与追问建议

丰富有趣的AI Agent ：新增了如AI绘画、数据分析、AI伴侣、AI算命、热梗百科等多款官方 AI Agent ⋙ 官方详细信息

👀 通义千问 Qwen 1.5 来了，开源大模型增加到6款，支持多平台调用

Model Scope modelscope.cn/organizatio...

GitHub github.com/QwenLM/Qwen...

HuggingFace huggingface.co/Qwen

2月6日，通义千问推出开源模型1.5版本「Qwen1.5」，并且开源了 0.5B、1.8B、4B、7B、14B、72B 共6个不同规模的Base 和 Chat 模型，并同步放出了各尺寸模型对应的量化模型。

值得注意的是，Qwen1.5 的代码已经合并到了 HuggingFace transformers 中，开发者可以直接使用 transformers>=4.37.0 而无需指定 trust_remote_code 选项即可进行开发。

此外，vLLM、SGLang (用于部署)、AutoAWQ、AutoGPTQ (用于量化)、Axolotl、LLaMA-Factory (用于微调）、llama.cpp (用于本地 LLM 推理）等框架均已支持 Qwen1.5 ，还可以在 Ollama 和 LMStudio 等平台上使用 ⋙ 模型测评结果与开发者建议

👀 超拟人大模型CharacterGLM，6B版本开源，App 已经上架

CharacterGLM-66B 版本API maas.aminer.cn/dev/api#cha...

CharacterGLM-6B 版本开源 github.com/thu-coai/Ch...

2月6日，清华 CoAI 团队、聆心智能团队、GLM 技术团队共同推出 CharacterGLM，专门用于定制中文AI角色，参数大小从 6B 到 66B。

CharacterGLM 克服了大部分大模型在构建AI角色时的刻板僵硬等弱点，支持基于人设的角色扮演、超长多轮的记忆、千人千面的角色对话 ，广泛应用于情感陪伴、游戏智能NPC、网红/明星/影视剧IP分身、数字人/虚拟主播、文字冒险游戏等拟人对话或游戏场景 ⋙ 官方详细介绍以及论文信息

🉑 面壁发布端侧旗舰 MiniCPM，2B 小钢炮超越 Mistral-7B

github.com/OpenBMB/Min...

huggingface.co/openbmb/Min...

MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型，主体语言模型 MiniCPM-2B 仅有 24亿 (2.4B) 的非词嵌入参数量，总计 2.7B 参数量。

经过 SFT 后，在公开综合性评测集上，MiniCPM 与 Mistral-7B相近 (中文、数学、代码能力更优)，整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型

经过 DPO 后，在当前最接近用户体感的评测集 MTBench 上，MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型

经过 Int4 量化后，MiniCPM 可在手机上进行部署推理，流式输出速度略高于人类说话速度；MiniCPM-V 也直接跑通了多模态大模型在手机上的部署 ⋙ 官方详细介绍

shengdinghu.notion.site/MiniCPM-c80...

在这篇技术博客中，团队详细介绍了 MiniCPM 优秀且独到的训练策略，从 Hyper-parameters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五个方面进行了模型沙盒研究。

不过，正如 @良睦路程序员在视频中展示的那样，这些策略并没有体现在已经发布的项目代码中。期待项目团队或开源社区大佬可以展示这部分的详细实现方法呀！

👀 商汤发布「日日新SensNova 4.0」，全面对标 GPT-4

platform.sensenova.cn

2月2日，商汤推出了多维度全面升级后的大模型体系「日日新SenseNova 4.0」，拥有更全面的知识覆盖&更可靠的推理能力，更优越的长文本理解力，更稳定的数字推理能力，更强的代码生成能力，并支持跨模态交互。

日日新·商量大语言模型-通用版本（SenseChat V4），支持 128K 语境窗口长度，综合整体评测成绩水平比肩 GPT-4。
日日新·商量大语言模型Function call & Assistants API 版本 ，支持不同模态工具调用，可以将大模型与各类应用服务工具进行连接，显著降低开发者使用大模型的门槛 ⋙ 官方详细介绍

raccoon.sensetime.com/office

为了展示其将大模型能力转化为产品应用的便捷性，官方公布了一款基于最新发布的日日新·商量大语言模型 Function call & Assistants API 版本开发的数据分析工具「办公小浣熊」，可以通过自然语言的输入将数据转化为有意义的分析结果和可视化图表。
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！

OpenAI Sora乱炸全场，Google Gemini大更新(免费试用)；月之暗面开放平台公测赠token；天工AI升级后更好用了 | ShowMeAI日报