碎碎念:关于小模型或者端侧大模型

今年有个有趣的现象,大厂分别推出能够在端侧运行的小模型

Microsoft:Phi-3 Vision 4.2b,支持 文本、图像输入,可以运行在 surface 上

Google:Gemini Nano 1.8b/3.2b,支持文本,可以运行在手机上

Apple:Apple Intelligence 3b,支持文本图像,可以运行在手机上

意味着,大厂们都想通过大模型来强化自家系统的竞争力,端侧的大模型可以更快的响应用户,体验上更加丝滑,也可以结合云端大模型来提供更加准确和高质量的回答。

且,端侧大模型不仅仅可以用于 chat 场景,也可以用于端侧推理和决策,作为其他功能的基石,因为端侧没有隐私和 token 费用问题,可以更加放开手脚去做

例如 windows recall 功能,其通过定期的截图和系统级的一些 meta 信息,来理解、存储、分析用户行为,可以解决用户 "我上周看到的手机是在哪个网站" 这种跨时间和涉及隐私的问题。

我的观点一直是,一个有足够用户数据和算力的 算法/模型,一定是比用户更懂自己的。

一个简单的例子,单词记忆,在 qwerty learner 中用户是通过键盘输入来记忆单词的,那算法就可以拿到用户输入的速度、字母间的延迟等信息,来了解用户对每个单词的记忆程度,来更加合理的安排后续的复习甚至是学习计划,这一定比用户自己安排的复习计划质量更高

这个过程中,会有大量的模型调用和隐私信息,而端侧模型都没有这个问题,可以更加深入的去做。

另一个问题,既然说越大的模型成本越高,为什么是大模型风风火火一年多后,才有高质量的小模型? 以及为什么创业公司不能从小模型做起?

这两个其实是一个问题。

目前绝大多数小模型都是在大模型的基础上,通过知识蒸馏等类似技术训练而来,小模型的能力依赖于大模型能力的发展。但该训练速度非常快,微软的 phi-3 Vision 仅训练了 1.5 天,即小模型可以很快的跟上大模型的发展。

当大模型成为用户的刚需和生态的基石,端侧硬件发展也会跟上,我们未来肯定会看到更快 更强 更大的模型在端侧运行

最后,让我们抛开一切限制想象一下,未来我们会有一个终端,它可以不间断采集我们的屏幕、生活、声音等信息,我们也可以主动去加载不同的知识库,并在端侧进行储存和索引。其也拥有调用系统和互联网服务进行行动的能力,也能通过多层调用进行逻辑长考的能力。

那么,"还有贾维斯什么事?",那么,"还有人类什么事",那么.....

相关推荐
杰说新技术1 小时前
Meta AI最新推出的长视频语言理解多模态模型LongVU分享
人工智能·aigc
热爱跑步的恒川7 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
火山引擎边缘云15 小时前
创新实践:基于边缘智能+扣子的智慧婴儿监控解决方案
物联网·aigc·边缘计算
算家云15 小时前
如何在算家云搭建Aatrox-Bert-VITS2(音频生成)
人工智能·深度学习·aigc·模型搭建·音频生成·算家云
bytebeats16 小时前
我用 Spring AI 集成 OpenAI ChatGPT API 创建了一个 Spring Boot 小程序
spring boot·chatgpt·openai
AI绘画小3321 小时前
【comfyui教程】comfyui古风一键线稿上色,效果还挺惊艳!
人工智能·ai作画·stable diffusion·aigc·comfyui
AI绘画月月1 天前
【comfyui教程】ComfyUI有趣工作流推荐:快速换脸,创意随手掌握!
人工智能·ai作画·stable diffusion·aigc·comfyui
AI绘画咪酱1 天前
【AI绘画】AI绘图教程|stable diffusion(SD)图生图涂鸦超详细攻略,教你快速上手
人工智能·ai作画·stable diffusion·aigc·midjourney
过去式的马马马1 天前
文多多AIPPT
ai作画·aigc·文心一言·ai编程·dall·e 2
逐星ing1 天前
【AIGC】腾讯云语音识别(ASR)服务在Spring Boot项目中的集成与实践
aigc·腾讯云·语音识别