碎碎念:关于小模型或者端侧大模型

今年有个有趣的现象,大厂分别推出能够在端侧运行的小模型

Microsoft:Phi-3 Vision 4.2b,支持 文本、图像输入,可以运行在 surface 上

Google:Gemini Nano 1.8b/3.2b,支持文本,可以运行在手机上

Apple:Apple Intelligence 3b,支持文本图像,可以运行在手机上

意味着,大厂们都想通过大模型来强化自家系统的竞争力,端侧的大模型可以更快的响应用户,体验上更加丝滑,也可以结合云端大模型来提供更加准确和高质量的回答。

且,端侧大模型不仅仅可以用于 chat 场景,也可以用于端侧推理和决策,作为其他功能的基石,因为端侧没有隐私和 token 费用问题,可以更加放开手脚去做

例如 windows recall 功能,其通过定期的截图和系统级的一些 meta 信息,来理解、存储、分析用户行为,可以解决用户 "我上周看到的手机是在哪个网站" 这种跨时间和涉及隐私的问题。

我的观点一直是,一个有足够用户数据和算力的 算法/模型,一定是比用户更懂自己的。

一个简单的例子,单词记忆,在 qwerty learner 中用户是通过键盘输入来记忆单词的,那算法就可以拿到用户输入的速度、字母间的延迟等信息,来了解用户对每个单词的记忆程度,来更加合理的安排后续的复习甚至是学习计划,这一定比用户自己安排的复习计划质量更高

这个过程中,会有大量的模型调用和隐私信息,而端侧模型都没有这个问题,可以更加深入的去做。

另一个问题,既然说越大的模型成本越高,为什么是大模型风风火火一年多后,才有高质量的小模型? 以及为什么创业公司不能从小模型做起?

这两个其实是一个问题。

目前绝大多数小模型都是在大模型的基础上,通过知识蒸馏等类似技术训练而来,小模型的能力依赖于大模型能力的发展。但该训练速度非常快,微软的 phi-3 Vision 仅训练了 1.5 天,即小模型可以很快的跟上大模型的发展。

当大模型成为用户的刚需和生态的基石,端侧硬件发展也会跟上,我们未来肯定会看到更快 更强 更大的模型在端侧运行

最后,让我们抛开一切限制想象一下,未来我们会有一个终端,它可以不间断采集我们的屏幕、生活、声音等信息,我们也可以主动去加载不同的知识库,并在端侧进行储存和索引。其也拥有调用系统和互联网服务进行行动的能力,也能通过多层调用进行逻辑长考的能力。

那么,"还有贾维斯什么事?",那么,"还有人类什么事",那么.....

相关推荐
营赢盈英11 小时前
404 error when doing workload anlysis using locust on OpenAI API (GPT.35)
人工智能·python·openai·locust
Hoper.J13 小时前
3. 进阶指南:自定义 Prompt 提升大模型解题能力
语言模型·llm·prompt·aigc
CaiYongji16 小时前
深度!程序员生涯的垃圾时间(上)
人工智能·gpt·chatgpt·openai
陈敬雷-充电了么-CEO兼CTO17 小时前
自然语言处理系列六十八》搜索引擎项目实战》搜索引擎系统架构设计
人工智能·gpt·搜索引擎·ai·自然语言处理·chatgpt·aigc
⊙月17 小时前
CMU 10423 Generative AI:lec5(Encoder-only Transformers + 阅读材料Bert, ViT)
人工智能·深度学习·aigc·bert
清图21 小时前
智能营销才是营销的未来
人工智能·chatgpt·ai作画·stable diffusion·aigc·dall·e 2·ai-native
soso19682 天前
AIGC人工智能Prompt最佳实践
人工智能·prompt·aigc
人工智能培训咨询叶梓2 天前
AnyGPT:多模态语言模型,任意处理语音、图像和音乐
人工智能·计算机视觉·ai·语言模型·自然语言处理·aigc·多模态
营赢盈英2 天前
How to see if openAI (node js) createModeration response “flagged“ is true
javascript·ai·node.js·openai·api
喜好儿aigc2 天前
Adobe Firefly 视频模型测试版即将推出,具备文本、图像或视频添加元素的多种功能
adobe·aigc·adobe firefly