碎碎念:关于小模型或者端侧大模型

今年有个有趣的现象,大厂分别推出能够在端侧运行的小模型

Microsoft:Phi-3 Vision 4.2b,支持 文本、图像输入,可以运行在 surface 上

Google:Gemini Nano 1.8b/3.2b,支持文本,可以运行在手机上

Apple:Apple Intelligence 3b,支持文本图像,可以运行在手机上

意味着,大厂们都想通过大模型来强化自家系统的竞争力,端侧的大模型可以更快的响应用户,体验上更加丝滑,也可以结合云端大模型来提供更加准确和高质量的回答。

且,端侧大模型不仅仅可以用于 chat 场景,也可以用于端侧推理和决策,作为其他功能的基石,因为端侧没有隐私和 token 费用问题,可以更加放开手脚去做

例如 windows recall 功能,其通过定期的截图和系统级的一些 meta 信息,来理解、存储、分析用户行为,可以解决用户 "我上周看到的手机是在哪个网站" 这种跨时间和涉及隐私的问题。

我的观点一直是,一个有足够用户数据和算力的 算法/模型,一定是比用户更懂自己的。

一个简单的例子,单词记忆,在 qwerty learner 中用户是通过键盘输入来记忆单词的,那算法就可以拿到用户输入的速度、字母间的延迟等信息,来了解用户对每个单词的记忆程度,来更加合理的安排后续的复习甚至是学习计划,这一定比用户自己安排的复习计划质量更高

这个过程中,会有大量的模型调用和隐私信息,而端侧模型都没有这个问题,可以更加深入的去做。

另一个问题,既然说越大的模型成本越高,为什么是大模型风风火火一年多后,才有高质量的小模型? 以及为什么创业公司不能从小模型做起?

这两个其实是一个问题。

目前绝大多数小模型都是在大模型的基础上,通过知识蒸馏等类似技术训练而来,小模型的能力依赖于大模型能力的发展。但该训练速度非常快,微软的 phi-3 Vision 仅训练了 1.5 天,即小模型可以很快的跟上大模型的发展。

当大模型成为用户的刚需和生态的基石,端侧硬件发展也会跟上,我们未来肯定会看到更快 更强 更大的模型在端侧运行

最后,让我们抛开一切限制想象一下,未来我们会有一个终端,它可以不间断采集我们的屏幕、生活、声音等信息,我们也可以主动去加载不同的知识库,并在端侧进行储存和索引。其也拥有调用系统和互联网服务进行行动的能力,也能通过多层调用进行逻辑长考的能力。

那么,"还有贾维斯什么事?",那么,"还有人类什么事",那么.....

相关推荐
好评笔记16 小时前
AIGC视频扩散模型新星:Video 版本的SD模型
论文阅读·深度学习·机器学习·计算机视觉·面试·aigc·transformer
AIGC大时代18 小时前
方法建议ChatGPT提示词分享
人工智能·深度学习·chatgpt·aigc·ai写作
正在走向自律20 小时前
AI 写作(六):核心技术与多元应用(6/10)
人工智能·aigc·ai写作
寻道码路20 小时前
探秘 Docling:多格式文档解析转换大揭秘,赋能 AI 应用新生态
人工智能·aigc·ai编程
好评笔记1 天前
AIGC视频生成模型:Stability AI的SVD(Stable Video Diffusion)模型
论文阅读·人工智能·深度学习·机器学习·计算机视觉·面试·aigc
算家云1 天前
TangoFlux 本地部署实用教程:开启无限音频创意脑洞
人工智能·aigc·模型搭建·算家云、·应用社区·tangoflux
五月君1 天前
Windsurf 发布Wave 2,Web实时搜索、URL上下文、自动化记忆等一大波新功能来袭!
aigc
格砸1 天前
Trae使用体验,未来已至?
人工智能·openai·trae
多森1 天前
Cursor太贵?字节Trae可免费用Claude,10分钟带你实现全栈开发
aigc
程序员海军2 天前
字节跳动推出AI编程神器Trae,比Cursor更懂中文开发者!
前端·openai·trae