豆包手机是如何完成任务操作的

今天刷抖音看到了豆包手机的视频,正好之前实习的时候做过豆包的微调,没想到这么快就落地了,于是对于底层的原理很好奇故进行一个总结,肯定有不少问题,而且很浅,如果有大佬希望能赐教(虽然准备秋招找开发岗,但还是想紧跟AI潮流哈哈)

  1. 用户输入需求,点击发送后发送给服务器
  2. 服务器调用大模型首先去除需求中的无效语气词等token,然后将干净的需求通过查token表拆分成一系列token
  3. 模型输入为token序列通过attention和各种卷积提取特征,结合微调任务中类似的操作计算可能会执行的任务概率,通过softmax输出最可能执行的任务,应该是使用解码器每次输出一个token,然后根据输入和已生成得token预测下一个token,softmax应该说1*5w这种级别,因为要尽可能覆盖所有token。最后将预测结果并转换为用户指令和内核指令返回给手机客户端。
  4. 手机客户端依次执行指令,例如click()打开某个app,每执行一条指令都会得到结果,此时部署在手机上的图像识别模型捕捉结果,输出下一条指令最大概率需要操作的位置(x,y)
  5. 在(x,y)位置执行下一条指令,得到返回结果,重复步骤4

我觉得主要难点在第2条,虽然我之前接触过nlp模型,但是完全没法想象服务器端的大模型参数量是多么庞大,每次预测结果可能有好几百个词吧,一次生成一个token串行100次都能实现实时响应那得是多大的内存和多少cpu并行。

相关推荐
修己xj5 小时前
告别手动画图:用自然语言生成可直接发布的 SVG+PNG 技术图
aigc
用户51914958484510 小时前
Windows 渗透测试载荷加载器 POC 工具集
人工智能·aigc
AI创界者11 小时前
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
人工智能·macos·aigc·音视频
英勇无比的消炎药12 小时前
一行命令背后:TinyRobot CLI 如何重构 AI 对话接入的效率范式
vue.js·aigc
用户51914958484512 小时前
Flowise预认证任意文件上传漏洞分析(CVE-2025-26319)
人工智能·aigc
DigitalOcean13 小时前
砍掉 60% AI 推理成本:深度解构 DigitalOcean 推理路由器的 MoE 门控与智能分流机制
llm·aigc·agent
Vergelight13 小时前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
AI袋鼠帝14 小时前
终于找到一键做爆款AI短视频的办法了!OiiOii 2.0升级实测【保姆级教程】
人工智能·aigc
星纬智联技术19 小时前
AI搜索引擎引用逻辑的三个新变化:从相关性到可信度的结构性迁移
人工智能·aigc·geo
后端小肥肠1 天前
小红书笔记爆了 17 万后,我用 Obsidian + Skill 实现了“一句话选品”
人工智能·aigc·agent