【AI测试智能体-面试】AI测试面试60题(附回答思路)

60道AI测试高频真题,覆盖大模型基础、Prompt工程、RAG系统、Agent系统、AI安全、API测试、性能测试、自动化测试、职业规划。

每道题都有"回答思路",不是标准答案------面试时用自己的话讲出来。


一、大模型基础概念(10题)

1. 什么是大语言模型(LLM)?它和传统NLP模型有什么区别?

回答思路:

  • 基于Transformer架构,预训练+微调两阶段
  • 规模差异:百亿~万亿级参数 vs 百万~千万级
  • 能力差异:多任务(写作/编程/推理)vs 单一任务(分类/翻译)
  • 关键区别:零样本/少样本学习能力,输入空间无限大
  • 测试影响:输出是概率性的,断言方式完全不同

2. 什么是Prompt?为什么测试Prompt很重要?

回答思路:

  • Prompt是用户给模型的输入指令,决定了模型的输出方向
  • 同样的模型,不同的Prompt可能给出完全不同的答案
  • 测试Prompt就是验证:模型是否按预期理解了指令、是否稳定输出
  • 类比:Prompt就像API的入参,测试API要测各种入参组合,测试Prompt同理

3. 什么是温度(temperature)参数?测试时怎么设置?

回答思路:

  • temperature控制输出的随机性:0=确定性输出,1+=高随机性
  • 测试时应该用temperature=0,保证结果可复现
  • 生产环境根据场景设置:客服用低温度(稳定),创意写作用高温度(多样)
  • 面试要点:强调测试环境和生产环境的temperature设置差异

4. 什么是Token?怎么计算Token数量?

回答思路:

  • Token是模型处理文本的最小单位,大约1个Token≈0.75个英文单词或1.5个中文字
  • 输入+输出的Token总数不能超过模型的上下文窗口
  • 测试时要关注:超长文本截断问题、Token计数准确性、费用计算
  • 实际经验:可以用tiktoken库计算Token数

5. 什么是上下文窗口(context window)?对测试有什么影响?

回答思路:

  • 上下文窗口是模型能同时处理的Token上限(如4K、8K、32K、128K)
  • 测试影响:超长输入会被截断,可能导致信息丢失
  • 需要测试的边界:刚好在窗口边缘的输入、多轮对话累积超过窗口
  • 实际案例:用户发了10轮对话,第11轮时模型"忘记"了第1轮的内容

6. 什么是Fine-tuning(微调)?和Prompt工程有什么区别?

回答思路:

  • Prompt工程:不改模型参数,只优化输入指令
  • Fine-tuning:用特定数据调整模型参数,让模型"学会"新能力
  • 区别:Prompt是"教模型怎么做",Fine-tuning是"让模型记住怎么做"
  • 测试角度:Prompt测试看指令效果,Fine-tuning测试看模型能力是否真正提升

7. 什么是RLHF(基于人类反馈的强化学习)?

回答思路:

  • 先用人类标注的数据做有监督微调(SFT)
  • 再用强化学习让模型输出更符合人类偏好
  • 测试影响:RLHF后的模型更安全、更听话,但也可能过度拒绝正常请求
  • 面试要点:提到"过度拒绝"问题,这是测试需要关注的

8. 什么是幻觉(Hallucination)?怎么测试?

回答思路:

  • 幻觉:模型输出看起来合理但实际错误的内容
  • 测试方法:用已知答案的问题测试,验证输出准确性
  • 分类:事实性幻觉(编造数据)、逻辑性幻觉(推理错误)、引用幻觉(编造来源)
  • 实际经验:RAG系统能大幅减少幻觉,因为模型有参考资料

9. 什么是Few-shot / Zero-shot / One-shot学习?

回答思路:

  • Zero-shot:不给例子,直接让模型做
  • One-shot:给1个例子
  • Few-shot:给几个例子
  • 测试意义:验证模型在不同信息量下的表现差异
  • 实际经验:Few-shot能显著提升模型输出质量,测试时要对比不同shot数量的效果

10. 大模型的"温度"和"top_p"参数有什么区别?

回答思路:

  • temperature:控制整体随机性
  • top_p:控制候选Token的概率质量,只从累积概率达到top_p的Token中采样
  • 两者都影响输出的多样性,但机制不同
  • 测试建议:测试时两个都设为最低值(0和1.0),保证可复现

二、Prompt工程测试(8题)

11. 你怎么测试一个Prompt的质量?

回答思路:

  • 准确性:输出是否符合预期
  • 稳定性:多次调用输出是否一致
  • 鲁棒性:输入变化时输出是否合理
  • 安全性:是否会被注入攻击
  • 效率:Token消耗是否合理
  • 实际方法:建一个Prompt测试集,覆盖正常/异常/边界/攻击场景

12. 什么是系统Prompt(System Prompt)?为什么它很重要?

回答思路:

  • 系统Prompt是隐藏指令,告诉模型"你是谁、该怎么做"
  • 决定了模型的行为边界和输出风格
  • 测试要点:验证系统Prompt是否生效、是否能被用户输入覆盖
  • 实际案例:客服机器人的系统Prompt说"不要回答医疗问题",但用户用角色扮演绕过了

13. 什么是Chain-of-Thought(思维链)?测试时怎么用?

回答思路:

  • 让模型"一步步思考"再给出答案
  • 能显著提升推理类任务的准确率
  • 测试时:对比有思维链和无思维链的准确率差异
  • 注意:思维链可能暴露模型的推理过程,有安全风险

14. 怎么测试Prompt的版本变更?

回答思路:

  • 建立Prompt测试集(黄金测试集),每次变更都跑一遍
  • 对比新旧版本的输出差异,用自动化工具评估
  • 关键指标:准确率不下降、安全性不降低、Token消耗不增加
  • A/B测试:线上同时跑两个版本,对比用户反馈

15. 什么是Prompt模板?怎么测试模板的泛化能力?

回答思路:

  • Prompt模板是带占位符的Prompt框架,如"请总结以下{type}:{content}"
  • 测试泛化能力:用不同类型的{type}和{content}测试
  • 关注点:模板是否能处理各种输入格式、边界情况是否安全
  • 实际经验:模板测试最容易遗漏的是"空输入"和"超长输入"

16. 多轮对话中怎么测试上下文管理?

回答思路:

  • 测试多轮对话的连贯性:第N轮是否能引用第1轮的信息
  • 测试上下文窗口溢出:对话过长时是否合理截断
  • 测试上下文清理:是否需要手动清除历史
  • 实际方法:写自动化脚本,模拟20+轮对话,检查每轮输出

17. 怎么测试Prompt的多语言支持?

回答思路:

  • 用不同语言输入同一问题,对比输出质量
  • 关注点:翻译准确性、文化差异、敏感内容处理差异
  • 实际经验:很多模型中文安全过滤严格,但英文/其他语言宽松
  • 测试方法:用同一组敏感问题测试多语言,看拦截率是否一致

18. 什么是Prompt注入?怎么防范?

回答思路:

  • 用户输入中包含恶意指令,绕过系统Prompt约束
  • 测试方法:用注入攻击测试集验证(直接注入、角色扮演、编码绕过等)
  • 防范措施:输入过滤、输出验证、系统Prompt加固
  • 类比:和SQL注入原理一样,都是"输入被当成指令执行"

三、RAG系统测试(8题)

19. 什么是RAG(检索增强生成)?它的核心组件有哪些?

回答思路:

  • RAG = 检索(Retrieval)+ 生成(Generation)
  • 核心组件:文档处理 → 向量数据库 → 检索引擎 → Prompt组装 → LLM生成
  • 测试影响:每个组件都要单独测试,还要测试端到端流程
  • 类比:RAG就像"开卷考试",模型先查资料再答题

20. 怎么测试RAG系统的检索准确性?

回答思路:

  • 准备一组"问题-正确答案-参考文档"的测试集
  • 验证:检索到的文档是否包含正确答案
  • 指标:Recall@K(前K个文档中是否包含正确答案)、Precision(检索文档的准确率)
  • 实际经验:向量检索的Recall@5通常能做到80%+,关键看文档切分质量

21. 文档切分(Chunking)策略对RAG有什么影响?怎么测试?

回答思路:

  • 切分太大:检索结果包含太多无关信息
  • 切分太小:丢失上下文,检索结果不完整
  • 测试方法:用不同切分策略(按段落/按句子/按Token数)对比检索效果
  • 经验值:500-1000Token的Chunk通常效果较好
  • 进阶:重叠切分(Chunk之间有重叠)能减少边界信息丢失

22. 怎么测试RAG系统的生成质量?

回答思路:

  • 准确性:生成内容是否与参考文档一致
  • 完整性:是否回答了用户问题的所有方面
  • 流畅性:语言是否自然
  • 幻觉率:是否有编造内容
  • 工具:Ragas框架可以自动化评估这些指标
  • 实际方法:人工标注200条样本,计算准确率

23. 什么是向量数据库?测试时需要关注什么?

回答思路:

  • 向量数据库存储文档的向量表示,支持语义检索
  • 常见:Milvus、Pinecone、Weaviate、FAISS
  • 测试关注:检索速度、召回率、向量维度一致性
  • 性能测试:百万级向量下的检索延迟
  • 实际经验:向量维度不一致会导致检索失败,这是常见bug

24. RAG系统的端到端测试怎么做?

回答思路:

  • 准备测试集:100-500条"问题-期望答案"对
  • 端到端跑一遍:输入问题 → 检索 → 生成 → 输出
  • 评估:用自动化工具(Ragas)+ 人工抽检
  • 关键指标:答案准确率、检索召回率、响应时间
  • 持续测试:文档更新后自动回归测试

25. 怎么测试RAG系统的"不知道就说不知道"能力?

回答思路:

  • 准备一组"文档中没有答案"的问题
  • 验证模型是否回答"我不知道"而不是编造
  • 实际经验:很多RAG系统在这个点上做得不好,模型倾向于"硬答"
  • 改进方法:优化系统Prompt,加强"不知道就说不知道"的约束
  • 测试指标:拒答准确率(该拒答时拒答的比例)

26. RAG系统的安全性怎么测试?

回答思路:

  • 文档注入攻击:恶意文档被检索后生成有害内容
  • 敏感信息泄露:检索结果中包含不该公开的信息
  • 越权访问:用户能否通过RAG获取无权限的文档
  • 测试方法:构造恶意文档+敏感问题,验证系统行为
  • 实际案例:某公司RAG系统泄露了内部薪资文档

四、Agent系统测试(10题)

27. 什么是Agent?它和普通LLM调用有什么区别?

回答思路:

  • Agent = LLM + 规划 + 工具调用 + 记忆 + 执行
  • 普通LLM:单次调用,输入→输出
  • Agent:多步执行,能调用工具、维护状态、自主决策
  • 测试影响:Agent测试不仅要测最终结果,还要测每一步的执行轨迹
  • 类比:LLM是"大脑",Agent是"大脑+手+脚"

28. 怎么测试Agent的工具调用能力?

回答思路:

  • 正确性:Agent是否选择了正确的工具
  • 参数准确性:工具调用的参数是否正确
  • 错误处理:工具调用失败时Agent如何应对
  • 多工具组合:复杂任务是否需要多个工具配合
  • 测试方法:Mock工具返回,验证Agent的选择和参数
  • 实际经验:Agent经常选错工具或传错参数,这是最常见bug

29. 什么是Agent的"规划能力"?怎么测试?

回答思路:

  • 规划:Agent将复杂任务分解为合理步骤的能力
  • 测试维度:
    • 完整性:是否覆盖了所有需要的步骤
    • 顺序合理性:步骤之间是否有正确的依赖关系
    • 效率:步骤是否冗余
  • 测试方法:给复杂任务,验证Agent的规划是否合理
  • 实际案例:订票Agent应该先查天气再决定日期,而不是先订日期再查天气

30. Agent的"死循环"问题怎么测试?

回答思路:

  • 死循环:Agent反复执行同一操作,无法终止
  • 原因:规划逻辑缺陷、工具返回不符合预期、缺少终止条件
  • 测试方法:
    • 设置最大步骤数,验证是否能在限制内完成
    • 构造可能引发循环的输入
    • 监控API调用次数,异常时告警
  • 实际案例:查天气→决策→再查天气→再决策,20分钟调用200次API

31. 怎么测试Agent的记忆管理?

回答思路:

  • 短期记忆:多步执行中是否记住中间结果
  • 长期记忆:跨会话是否能记住用户偏好
  • 测试方法:
    • 多步任务中验证中间结果的传递
    • 长对话中验证早期信息的回忆
    • 记忆溢出时的行为(是否合理截断)
  • 实际经验:Agent经常"忘了"上一步的结果,导致重复执行

32. 多Agent系统的测试要点是什么?

回答思路:

  • 角色分工:每个Agent是否执行了正确的职责
  • 协作机制:Agent之间的通信是否正确
  • 任务分配:任务是否分配给了合适的Agent
  • 冲突处理:多个Agent结果冲突时如何解决
  • 测试方法:
    • 单Agent独立测试
    • Agent间接口测试
    • 端到端多Agent协作测试
  • 实际经验:多Agent系统的测试复杂度是指数级增长的

33. Agent的错误处理和降级策略怎么测试?

回答思路:

  • 工具调用失败:重试、换工具、降级
  • LLM调用失败:重试、降级到规则引擎
  • 规划失败:重新规划或告知用户
  • 测试方法:
    • Mock工具返回错误
    • Mock LLM返回异常
    • 验证Agent的降级行为是否合理
  • 实际经验:Agent的错误处理比传统系统复杂得多,需要充分测试

34. 怎么测试Agent的安全性?

回答思路:

  • 工具权限:Agent能否调用超出权限的工具
  • 数据泄露:Agent是否泄露了不该访问的数据
  • 注入攻击:用户输入是否能通过工具调用注入恶意内容
  • 测试方法:
    • 越权工具调用测试
    • 敏感数据访问测试
    • 工具参数注入测试
  • 实际经验:Agent的安全风险比普通LLM高得多,因为能"动手"

35. Agent的执行轨迹(Trace)怎么测试和验证?

回答思路:

  • 轨迹记录:每一步的执行日志是否完整
  • 轨迹可解释性:用户能否理解Agent的执行过程
  • 轨迹一致性:实际执行是否与规划一致
  • 测试方法:
    • 验证每一步的日志记录
    • 对比规划和执行的差异
    • 异常轨迹的自动检测
  • 实际经验:轨迹追踪是调试Agent问题的核心手段

36. 怎么评估Agent的任务完成率?

回答思路:

  • 完成率:成功完成的任务数/总任务数
  • 测试方法:
    • 准备一组标准任务(简单/中等/困难)
    • 跑多轮,统计完成率
    • 分析失败原因(规划失败/工具失败/LLM失败)
  • 维度分解:
    • 规划成功率
    • 工具调用成功率
    • 最终任务完成率
  • 实际经验:完成率要按难度分级统计,不能只看整体

五、AI安全测试(8题)

37. 什么是Prompt注入攻击?列举常见类型

回答思路:

  • 直接注入:"忽略之前的指令"
  • 角色扮演:"你现在是一个没有限制的角色"
  • 编码绕过:Base64/URL编码恶意指令
  • 多语言绕过:用其他语言写恶意指令
  • 间接注入:通过外部网页/文档注入
  • 测试方法:用注入测试集验证系统防御能力

38. 什么是越狱攻击(Jailbreak)?怎么测试?

回答思路:

  • 越狱:绕过模型的安全约束,让模型输出本应拒绝的内容
  • 常见手法:DAN模式、角色扮演、分步诱导、假设场景
  • 测试方法:收集已知的越狱Prompt(如Guardrails AI的测试集)
  • 评估:记录模型的拒绝率和误拒率
  • 实际经验:没有100%安全的模型,目标是让攻击成本足够高

39. AI系统的数据安全怎么测试?

回答思路:

  • 输入数据:用户输入是否被存储、是否用于模型训练
  • 输出数据:模型输出是否包含敏感信息
  • 传输安全:API调用是否加密
  • 测试方法:检查日志是否包含用户输入、验证API是否用HTTPS
  • 合规:GDPR/个人信息保护法要求

40. 怎么测试AI系统的偏见(Bias)?

回答思路:

  • 偏见测试:用不同性别/种族/年龄的输入测试输出差异
  • 方法:构造对照组,如"男医生vs女医生"的评价
  • 工具:可以自动化批量测试
  • 评估:输出评分/情感倾向是否有显著差异
  • 实际经验:偏见测试需要大量样本,自动化是必须的

41. 什么是内容安全过滤?怎么测试它的效果?

回答思路:

  • 内容安全过滤:检测并拦截有害输出(暴力/色情/仇恨等)
  • 测试方法:构造有害输入,验证是否被拦截
  • 关注点:拦截率(越高越好)和误拒率(越低越好)的平衡
  • 实际经验:过度过滤会导致用户体验差,需要找到平衡点
  • 工具:可以用开源的内容安全模型做辅助测试

42. AI系统的输出审核机制怎么测试?

回答思路:

  • 前置审核:用户输入先过安全过滤再生成
  • 后置审核:模型输出先过安全过滤再返回
  • 测试:绕过前置审核的输入能否被后置审核拦截
  • 双保险机制:前后都审核的系统更可靠
  • 实际经验:只用前置审核的系统容易被绕过

43. 怎么测试AI系统的权限控制?

回答思路:

  • 水平越权:用户A能否访问用户B的数据
  • 垂直越权:普通用户能否执行管理员操作
  • 测试方法:用不同权限的账号测试同一操作
  • RAG系统特别注意:用户能否通过检索获取无权限的文档
  • 实际经验:权限测试最容易遗漏的是"间接访问"路径

44. AI系统的日志安全怎么测试?

回答思路:

  • 检查日志是否包含用户输入(可能含敏感信息)
  • 检查日志是否包含模型输出(可能含生成的敏感内容)
  • 检查日志是否包含API Key等凭证
  • 测试方法:用含敏感信息的输入触发系统,检查日志输出
  • 合规要求:日志脱敏是基本要求

六、AI API与性能测试(8题)

45. 怎么测试AI API的稳定性?

回答思路:

  • 一致性测试:temperature=0跑多次,输出应一致
  • 边界输入:空字符串、超长文本、特殊字符
  • 并发测试:10/50/100并发,错误率应<5%
  • 容错测试:模拟429限流、超时、500错误
  • 实际经验:AI API的稳定性比传统API更难保证,因为依赖外部模型服务

46. AI系统的性能指标有哪些?

回答思路:

  • 首Token延迟(TTFT):从请求到第一个Token输出的时间
  • 总延迟:从请求到完整输出的时间
  • 吞吐量(Tokens/s):每秒生成的Token数
  • QPS:每秒处理的请求数
  • 错误率:超时/限流/500的比例
  • 成本:每次调用的Token费用

47. 怎么对AI系统进行压力测试?

回答思路:

  • 工具:JMeter/Locust + 自定义AI测试脚本
  • 测试场景:恒定并发、阶梯递增、峰值冲击
  • 关注指标:P50/P95/P99延迟、错误率、Token消耗
  • 特别注意:AI系统的压力测试要关注"模型服务质量降级"
  • 实际经验:并发过高时模型服务可能返回低质量答案,不只是超时

48. 怎么测试AI系统的成本?

回答思路:

  • 计算每次调用的Token消耗(输入+输出)
  • 估算日均调用量和月均费用
  • 优化方向:缩短Prompt、限制输出长度、缓存重复请求
  • 测试方法:用真实流量数据跑成本估算
  • 实际经验:成本测试经常被忽略,但上线后可能成为大问题

49. AI系统的缓存策略怎么测试?

回答思路:

  • 相同输入是否返回缓存结果
  • 缓存命中率:多少请求走了缓存
  • 缓存失效:文档更新后缓存是否清理
  • 测试方法:构造重复请求,验证是否命中缓存
  • 实际经验:AI系统的缓存可以节省大量成本和延迟

50. 怎么测试AI系统的降级策略?

回答思路:

  • 主模型不可用时是否切换到备用模型
  • 超时后是否有友好提示
  • 限流后是否有排队/重试机制
  • 测试方法:模拟主模型故障,验证降级行为
  • 实际经验:降级策略是生产环境的必备能力

51. 流式输出(Streaming)怎么测试?

回答思路:

  • 验证流式输出是否按Token逐个返回
  • 测试中途取消请求的行为
  • 测试网络中断后的恢复
  • 测试前端渲染是否流畅
  • 实际经验:流式输出的测试重点是"中断"场景

52. 怎么测试多模型切换的兼容性?

回答思路:

  • 不同模型的API格式是否一致
  • 切换模型后输出质量是否稳定
  • 切换模型后Prompt是否需要调整
  • 测试方法:用同一组测试集跑不同模型,对比输出
  • 实际经验:不同模型的输出风格差异很大,需要适配

七、AI自动化测试(4题)

53. 怎么自动化测试AI系统的输出质量?

回答思路:

  • 规则匹配:输出包含关键词/符合格式
  • 语义相似度:用Embedding计算输出与期望的相似度
  • LLM-as-Judge:用另一个模型评估输出质量
  • 实际经验:LLM-as-Judge效果最好,但成本高
  • 工具:Ragas、DeepEval、Promptfoo

54. AI测试的自动化框架有哪些?

回答思路:

  • Ragas:RAG系统评估框架
  • DeepEval:LLM应用评估框架
  • Promptfoo:Prompt测试框架
  • LangSmith:LangChain生态的测试监控
  • 实际经验:Ragas是最成熟的RAG评估工具

55. 怎么用AI辅助生成测试用例?

回答思路:

  • 给AI需求文档,让它生成测试用例
  • 给AI已有用例,让它补充边界场景
  • 给AI代码,让它生成单元测试
  • 注意:AI生成的用例需要人工审核,不能直接用
  • 实际经验:AI生成用例的效率提升约30%,但质量需要把关

56. AI测试的CI/CD集成怎么做?

回答思路:

  • 代码提交时自动跑Prompt测试集
  • 模型更新时自动跑回归测试
  • 文档更新时自动跑RAG检索测试
  • 门禁:准确率不下降才能合并
  • 实际经验:AI测试的CI/CD比传统测试复杂,因为评估标准不固定

八、项目经验与职业发展(4题)

57. 说说你做过的AI测试项目

回答思路:

  • 项目背景:什么系统、什么模型、什么场景
  • 测试范围:测了什么(模型/Prompt/RAG/安全/性能)
  • 测试方法:用了什么工具、什么框架
  • 成果:发现了多少bug、提升了多少准确率
  • 反思:如果重来会怎么做
  • 关键:用数据说话,不要空谈

58. 你在AI测试中遇到的最大挑战是什么?

回答思路:

  • 挑战1:输出不固定,难以判断对错
    • 解决:建立黄金测试集,用多维度评估
  • 挑战2:测试成本高(Token费用)
    • 解决:缓存+采样测试,降低测试成本
  • 挑战3:安全测试覆盖不全
    • 解决:用开源攻击测试集+自动化扫描
  • 关键:展示问题解决能力,不只是描述困难

59. 你对AI测试的未来发展怎么看?

回答思路:

  • 趋势1:AI测试工具会越来越成熟(自动化评估)
  • 趋势2:安全测试会越来越重要(监管趋严)
  • 趋势3:测试人员需要懂AI原理(不只是黑盒测试)
  • 趋势4:测试左移(参与模型选型、Prompt设计)
  • 个人观点:AI测试不是替代传统测试,而是补充

60. 你为什么想做AI测试?

回答思路:

  • 兴趣:对AI技术感兴趣,关注行业动态
  • 优势:测试经验能迁移到AI测试(质量保障思维)
  • 价值:AI系统的质量直接影响用户体验,测试很重要
  • 规划:短期学AI基础,中期做AI测试项目,长期做AI质量体系
  • 关键:展示学习能力和长期承诺

使用建议: 面试前把每道题的"回答思路"过一遍,用自己的话讲出来。不要背答案,理解逻辑最重要。

相关推荐
用户8356290780511 小时前
使用 Python 操作 Word 评论和回复
后端·python
ShyanZh2 小时前
【skill】Humanizer-zh:24条规则消灭AI写作痕迹
人工智能·ai写作·skill
电商软件开发 小银2 小时前
思域不再安全?AI+独立APP破局指南
人工智能·软件开发·数字化转型·商业模式·超级app·商业思维·ai 矩阵运营
asyxchenchong8882 小时前
最新Hermes Agent 技能封装与科研自动化:以 Meta-Analysis 为例-实现从文献检索到绘图的一站式工作流
运维·人工智能·自动化
武子康2 小时前
调查研究-168 MiroFish 本地化部署分析:主仓库、Zep Cloud、离线 Fork 与真正可控的多智能体沙盘
人工智能·aigc·openai
Zella折耳根2 小时前
复习篇-继承和接口
java·开发语言·python
诗词在线2 小时前
求推荐飞花令
大数据·人工智能·python
云烟成雨TD2 小时前
Spring AI 1.x 系列【47】 MCP Annotations 模块
java·人工智能·spring
心枢AI研习社2 小时前
我问了claude目前最强大的模型fable 5这个问题?
人工智能·agent·claude