豆包手机是如何完成任务操作的

今天刷抖音看到了豆包手机的视频,正好之前实习的时候做过豆包的微调,没想到这么快就落地了,于是对于底层的原理很好奇故进行一个总结,肯定有不少问题,而且很浅,如果有大佬希望能赐教(虽然准备秋招找开发岗,但还是想紧跟AI潮流哈哈)

  1. 用户输入需求,点击发送后发送给服务器
  2. 服务器调用大模型首先去除需求中的无效语气词等token,然后将干净的需求通过查token表拆分成一系列token
  3. 模型输入为token序列通过attention和各种卷积提取特征,结合微调任务中类似的操作计算可能会执行的任务概率,通过softmax输出最可能执行的任务,应该是使用解码器每次输出一个token,然后根据输入和已生成得token预测下一个token,softmax应该说1*5w这种级别,因为要尽可能覆盖所有token。最后将预测结果并转换为用户指令和内核指令返回给手机客户端。
  4. 手机客户端依次执行指令,例如click()打开某个app,每执行一条指令都会得到结果,此时部署在手机上的图像识别模型捕捉结果,输出下一条指令最大概率需要操作的位置(x,y)
  5. 在(x,y)位置执行下一条指令,得到返回结果,重复步骤4

我觉得主要难点在第2条,虽然我之前接触过nlp模型,但是完全没法想象服务器端的大模型参数量是多么庞大,每次预测结果可能有好几百个词吧,一次生成一个token串行100次都能实现实时响应那得是多大的内存和多少cpu并行。

相关推荐
Mintopia1 天前
🤖 AI 对话斜街的文件处理秘笈:PDF、图片与 ClaudeCod 的花式对接之道
人工智能·llm·aigc
Mintopia1 天前
🌌 多模态 AI 的崛起:语言、图像与视频的融合革命
人工智能·llm·aigc
猫头虎1 天前
MiniMax M2.1与GLM4.7的对比分析:哪个更强?
开源·prompt·aigc·开放原子·ai编程·ai写作·开源协议
love530love1 天前
【笔记】把已有的 ComfyUI 插件发布到 Comfy Registry(官方节点商店)全流程实录
人工智能·windows·笔记·python·aigc·comfyui·torchmonitor
桂花饼1 天前
编程之王易主?Claude Opus 4.5 碾压 GPT-5.1/Gemini 3,小镜AI 更是把价格打到了 0.55元!
aigc·nano banana 2·图像生成api·openai兼容接口·gemini 3 pro·claude opus 4.5·sora2 pro
小程故事多_802 天前
RAG终将被取代?长上下文、Agent记忆与Text2SQL的技术博弈
人工智能·aigc
厚德云2 天前
全球首款填空式AI绘画提示词工具PromptFill正式发布
人工智能·ai作画·云计算·aigc·ai绘画
安思派Anspire2 天前
2026年AI技能将迎来爆发
aigc·openai
Mintopia2 天前
🤖 2025 年的人类还需要 “Prompt 工程师” 吗?
人工智能·llm·aigc
Mintopia2 天前
意图驱动编程(Intent-Driven Programming)
人工智能·llm·aigc