Agent学习——小米MiMo-V2-Flash使用方法

一、MiMo-V2-Flash的亮点

①API 定价为输入 $0.1/M tokens,输出 $0.3/M tokens,且目前限时免费,推理成本仅为Claude 4.5 Sonnet的2.5%。

②在多个Agent测评基准中保持全球开源模型Top 2,代码能力强。

③使用场景多为智能通场景设计,支持深度思考和联网搜索。

④架构上使用混合注意力机制和多层MTP进行推理加速。

⑤模型权重和推理代码使用的是MIT协议,适用商业场景。
二、技术剖析

①窗口大小为128

②原生支持32K 上下文,外扩技术支持可达256K的上下文处理

多层MIT推理加速,并行效率倍增
三、在线体验

①体验链接:https://aistudio.xiaomimimo.com

②API地址(限时免费哦!各位白嫖党抓紧机会!!!):https://platform.xiaomimimo.com/

③收费定价:输入 0.1/M tokens,输出 0.3/M tokens

③本地部署:

a.模型权重:https://hf.co/XiaomiMiMo/MiMo-V2-Flash

b.GitHub仓库:https://github.com/xiaomimimo/MiMo-V2-Flash

四、模型效果

从公布的基准测试图中看,性能上有了些许提升,主要的提升应该还是在Agent场景、推理效率的提升和价格吧!但是目前架不住他免费呀!!!
五、调用方法

由于MiMo-V2-Flash 已封装成 OpenAI-Compatible HTTP 服务,启动后直接用**OpenAI SDK 或curl -i http://localhost:9001/v1/chat/completions**,模型路径、推理参数全部在启动命令里一次性配好,无需再写 .from_pretrained()。以下是四种不同场景的调用方式:

python 复制代码
# ①启动服务
pip install sglang
python3 -m sglang.launch_server \
  --model-path XiaomiMiMo/MiMo-V2-Flash \
  --served-model-name mimo-v2-flash \
  --tp-size 8 --trust-remote-code \
  --host 0.0.0.0 --port 9001


# ②API调用
from openai import OpenAI

client = OpenAI(base_url="http://localhost:9001/v1", api_key="dummy")

response = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[{"role": "user", "content": "Nice to meet you MiMo"}],
    max_tokens=4096,
    temperature=0.8,
    top_p=0.95,
    stream=True,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)

for chunk in response:
    print(chunk.choices[0].delta.content or "", end="")

# ③curl方式
curl http://localhost:9001/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2-flash",
    "messages": [{"role": "user", "content": "Nice to meet you MiMo"}],
    "max_tokens": 4096,
    "temperature": 0.8,
    "top_p": 0.95,
    "stream": true,
    "chat_template_kwargs": {"enable_thinking": true}
  }'


# ④JaveScript方式
const { OpenAI } = require('openai');
const client = new OpenAI({ baseURL: 'http://localhost:9001/v1', apiKey: 'dummy' });

const stream = await client.chat.completions.create({
  model: 'mimo-v2-flash',
  messages: [{ role: 'user', content: 'Nice to meet you MiMo' }],
  max_tokens: 4096,
  temperature: 0.8,
  top_p: 0.95,
  stream: true,
  chat_template_kwargs: { enable_thinking: true }
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

使用流程:启动服务一次 → 拿到 http://localhost:9001/v1 → 当成 OpenAI 接口 用即可,模型、推理参数全部在启动命令里配置完成,无需再加载模型或写 .from_pretrained(

重要的事情说三遍:限时免费!限时免费!!限时免费!!!

相关推荐
Swift社区2 分钟前
如何设计 Agent 的权限系统与业务系统解耦?
人工智能·agent
阿里云大数据AI技术26 分钟前
DeepSeek-V4来啦!PAI已支持一键部署,共同迈向百万上下文普惠时代!
人工智能·agent·deepseek
knight_9___2 小时前
RAG面试篇9
java·人工智能·python·算法·agent·rag
薛定谔的猫3693 小时前
深入浅出 MCP (Model Context Protocol):开启 AI Agent 的标准化连接时代
ai·llm·agent·技术分享·mcp
kuokay3 小时前
一文说清RLHF(人类反馈强化学习)
大模型·agent
bug菌5 小时前
终端 Agent 的真正升级:不是堆功能,而是打通具身智能链路!
agent
花千树_0105 小时前
McpAgentExecutor:用几行代码让模型自主调用 HTTP 工具多步推理
人工智能·agent
YJlio5 小时前
1 1.2 Windows 账户的分类:管理员 / 标准 / 来宾 + 微软账户 vs 本地账户
人工智能·python·microsoft·ai·chatgpt·openai·agent
kyriewen5 小时前
智能体走向“企业操作系统”,Google 扔出五把钥匙
google·agent·ai编程
knight_9___5 小时前
RAG面试篇8
人工智能·python·面试·agent·rag