碎碎念:关于小模型或者端侧大模型

今年有个有趣的现象,大厂分别推出能够在端侧运行的小模型

Microsoft:Phi-3 Vision 4.2b,支持 文本、图像输入,可以运行在 surface 上

Google:Gemini Nano 1.8b/3.2b,支持文本,可以运行在手机上

Apple:Apple Intelligence 3b,支持文本图像,可以运行在手机上

意味着,大厂们都想通过大模型来强化自家系统的竞争力,端侧的大模型可以更快的响应用户,体验上更加丝滑,也可以结合云端大模型来提供更加准确和高质量的回答。

且,端侧大模型不仅仅可以用于 chat 场景,也可以用于端侧推理和决策,作为其他功能的基石,因为端侧没有隐私和 token 费用问题,可以更加放开手脚去做

例如 windows recall 功能,其通过定期的截图和系统级的一些 meta 信息,来理解、存储、分析用户行为,可以解决用户 "我上周看到的手机是在哪个网站" 这种跨时间和涉及隐私的问题。

我的观点一直是,一个有足够用户数据和算力的 算法/模型,一定是比用户更懂自己的。

一个简单的例子,单词记忆,在 qwerty learner 中用户是通过键盘输入来记忆单词的,那算法就可以拿到用户输入的速度、字母间的延迟等信息,来了解用户对每个单词的记忆程度,来更加合理的安排后续的复习甚至是学习计划,这一定比用户自己安排的复习计划质量更高

这个过程中,会有大量的模型调用和隐私信息,而端侧模型都没有这个问题,可以更加深入的去做。

另一个问题,既然说越大的模型成本越高,为什么是大模型风风火火一年多后,才有高质量的小模型? 以及为什么创业公司不能从小模型做起?

这两个其实是一个问题。

目前绝大多数小模型都是在大模型的基础上,通过知识蒸馏等类似技术训练而来,小模型的能力依赖于大模型能力的发展。但该训练速度非常快,微软的 phi-3 Vision 仅训练了 1.5 天,即小模型可以很快的跟上大模型的发展。

当大模型成为用户的刚需和生态的基石,端侧硬件发展也会跟上,我们未来肯定会看到更快 更强 更大的模型在端侧运行

最后,让我们抛开一切限制想象一下,未来我们会有一个终端,它可以不间断采集我们的屏幕、生活、声音等信息,我们也可以主动去加载不同的知识库,并在端侧进行储存和索引。其也拥有调用系统和互联网服务进行行动的能力,也能通过多层调用进行逻辑长考的能力。

那么,"还有贾维斯什么事?",那么,"还有人类什么事",那么.....

相关推荐
x-cmd6 小时前
[250401] OpenAI 向免费用户开放 GPT-4o 图像生成功能 | Neovim 0.11 新特性解读
人工智能·gpt·文生图·openai·命令行·neovim
几米哥7 小时前
OpenManus进阶指南:如何配置DeepSeek模型和百度搜索提升中文体验
开源·aigc·deepseek
墨风如雪7 小时前
DeepSite 深度解析:零门槛 AI 编程神器,免费打造你的专属应用与游戏
aigc
AIGC-Lison7 小时前
【CSDN首发】Stable Diffusion从零到精通学习路线分享
人工智能·ai·stable diffusion·aigc·sd
鸿蒙布道师19 小时前
OpenAI战略转向:开源推理模型背后的行业博弈与技术趋势
人工智能·深度学习·神经网络·opencv·自然语言处理·openai·deepseek
EdisonZhou1 天前
使用MCP C# SDK开发MCP Server + Client
llm·aigc·asp.net core·.net core
Java中文社群1 天前
超实用!Prompt程序员使用指南,大模型各角色代码实战案例分享
后端·aigc
紫电青霜_FullStack1 天前
浅谈用Azure AI Search实现RAG (1)---基本概念
openai
ssshooter1 天前
2025 最新 AI 模型深度对比:ChatGPT、Claude、Gemini到底选谁?
程序员·aigc·openai
修复bug1 天前
trae.ai 编辑器:前端开发者的智能效率革命
人工智能·编辑器·aigc