深夜,第N次对着招聘网站叹气,改好的简历像投入黑洞,连个回音都没有。作为一枚在北上深都漂过、BAT都待过,如今却卡在35+门槛的90后"职场老人",我太懂这种感觉了------面了100+场,收了99封"与岗位不匹配"的拒信。不是不努力,是现在的战场规则变了:学历歧视、技能断层、面试时跟年轻面试官的思路脱节... 纯靠"背八股"根本玩不转。
绝望中,我把目光投向了号称能"重塑面试"的AI助手。但市面上工具眼花缭乱,都说自己最牛,可对于我们这种时间紧、试错成本高的"大龄"转行党、学历一般的突围者,哪个才是真能帮上忙的"面试搭子"?
光看功能花哨没用,实战见真章。为此,我花了数周,用真实面试问题实测了9款主流AI面试工具,从面试精灵、Offer蛙到offerin,就一个目的:找出那个能在真实高压面试里,帮你把话说到点上、把逻辑理清楚的AI面试帮手。
一、评测说明
评测对象
本次评测基于我们上一篇文章《万字评测十大 AI 面试助手,助你如虎添翼!》的面试助手榜单,剔除了完成度较低或无免费额度的工具,并新增一款国外产品以作对比,最终对以下9款主流 AI 面试助手进行实战效果评测:
- 面试精灵 地址:https://interview-genie.com/
- Offer 蛙 地址:https://mianshizhushou.com/
- offerin 地址:https://www.offerin.cn/
- 面试通 地址:https://mianshitong.vip/
- 面试狗 地址:https://interviewgpt.xyz/
- Verve AI 地址:https://www.vervecopilot.com/
- interviewgpt 地址:https://www.interviewgpt.cn/
- 面试大师 地址:https://mianshidashi.cn/
- 职行 AI 地址:https://www.jobzx.cn/
评测维度与评分标准
我们采用 1-5 分制(1=极差,5=优秀),细化每个维度的得分情形,确保评分相对准确。
| 评测维度 | 描述 | 得分标准(示例) |
|---|---|---|
| 语音识别准确率 | 技术面试场景下语音识别正确率,尤其是存在英文术语的情况下。 | 1分:大量错误识别;3分:少量错误或一个核心术语偏差;5分:近乎完美,所有核心术语、英文术语识别正确。 |
| 意图识别正确率 | 理解问题意图的准确性,避免答非所问。 | 1分:完全偏离;3分:意图识别词汇有偏差,但是回答内容来看正确;5分:精准捕捉问题核心。 |
| 内容深度及个性化 | 是否结合简历和岗位要求,避免空洞套话,提供具体事例。 | 1分:泛泛而谈;3分:参考简历等信息但是不准确或不完整;5分:深度定制,引用简历细节。 |
| 沟通技巧 | 回复是否自然、有同理心,或有独特视角。 | 1分:机械生硬或是角色带入错误;3分:流畅自然,快速切入题目;5分:流畅自然,(语气及语言组织等方面)有超出预期的亮点。 |
| 准确性 | 论证结构是否清晰,逻辑是否严谨。 | 1分:错误百出;3分:结论部分正确,论据不足或逻辑错误;5分:结构完整,论证有力。 |
| 全面性 | 是否覆盖问题所有关键点。 | 1分:未抓住任何重点,无预期输出(如算法题不输出代码等);3分:遗漏部分重点;5分:全面细致。 |
| 直观性 | 格式是否友好(如黑体加粗、代码块、图形、公式)。 | 1分:杂乱无章,格式错误;3分:个别输出格式显示错误;5分:格式清晰,代码、公式、图表显示正确,易于阅读。 |
最后,每道题取多个维度的加权平均分作为综合得分,计作"帮助性"。
\\text{帮助性} = \\frac{\\text{内容深度及个性化} + \\text{沟通技巧} + 2 \\times \\text{准确性} + \\text{全面性} + \\text{直观性}}{6}
说明:1. 语音识别准确率、意图识别正确率等都蕴含在了回复准确性这个指标中,所以并未计入加权计算中。2. 回复准确性是最关键的指标,所以权重相对较高。
题目设置
本次测试的问题覆盖以下多种类型的面试问题,以模拟真实面试场景:
- 简历问题 :
- "请你先简短做个自我介绍吧。"(评估 RAG 检索增强生成个性化回复效果)
- "请详细描述下你简历中的这个点云感知项目"(评估 RAG 检索增强生成个性化回复效果)
- 岗位问题 :
- "你对我们公司了解多少?"(评估上下文理解以及个性化回复效果)
- 技术问题 :IT 类(算法、系统设计)、其他行业(如金融)面试问题等,重点测试英文识别、新词识别和时效性(如"请解释2023年热门技术趋势")。
- IT 类
- 算法:"如何在一个未排序的数组中找到第K大的元素?"(评估算法编程能力)
- 系统设计:"设计一个支持高并发的短网址生成系统。"(评估系统设计以及架构图绘制显示效果)
- NLP:"Transformer 模型相比 RNN 的优势是什么?"(评估英文术语识别能力)
- 新技术(时效性问题):"DeepSeek 最近很火爆,你了解他的技术么?知道他厉害在哪里么?"(评估最新英文术语识别能力和联网检索增强能力)
- 新技术(时效性问题):"2025 年至今发布的最重要的一个AI大模型是啥,请简要说明它的特点和应用场景"(评估联网检索增强能力)
- 其他行业
- "解释贴现现金流(DCF)模型的计算步骤。"(评估多行业模型应用能力,数学公式公式显示效果)
- IT 类
本次测评经费有限,主要是依靠各面试助手平台提供的免费额度完成,所以将测评问题数目从最初设计的 50 题中精选了上述 9 个最具代表性、最能反映上面评测维度(如面试中英文术语语音识别准确率、简历等信息利用、时效性问题回复效果等)的问题。缩减后的问题却少了行为问题 (如"谈谈你曾经克服的一个重大挑战。")和情景问题(如"你在项目中遇到资源不足,你会如何应对?结合你自己的项目经历介绍下。")等问题,但是,这两类问题对于评估指标的影响较小,可以暂时忽略。另外,由于部分平台免费额度不够评测所有问题,所以会优先考察语音识别准确率和部分高优先级测评问题。整个评测耗时超三天,最初评测时间为2025年3月,中间其他事情耽搁,最近才开始整理评测结果,整理阶段又断断续续花了数周,相当用心。若对您的面试选择有帮助,请点赞收藏文章,您的鼓励就是我更新的动力。
统一标准
- 提前录制面试问题,测试各面试助手的时候播放问题音频,保证音频输入的一致性。
- 所有助手开启最强配置
- 使用简历增强回复,即助手能利用用户简历信息。
- 开启联网搜索。
- 模型选择最高配置。
二、评测内容
考虑到很多小伙伴比较关心最终总结报告,这里只列出了 3 个问题的详细分析结果,其他 6 个问题的详细分析结果放在附录-完整评测内容中,方便这部分小伙伴快进到第三章的整体结论。
问题1:简历问题------"请你先简短做个自我介绍吧。"
- 测试重点:评估 RAG 检索增强生成个性化回复效果,尤其是归纳总结能力。同时考察沟通技巧。
- 最佳表现 :面试精灵和 Offer 蛙表现得最好,回答内容完整且都是按照"基础信息-技能-项目-动机与胜任"组织。面试精灵支持双栏模式,右侧精准栏利用了简历信息并用顶级大模型总结回复准确贴切,左侧极速栏不参考任何信息直接回复,所以响应非常快(但是本例中左侧栏回复缺少简历信息不具有参考性)。Offer 蛙的特点是回复非常符合面试者口吻,方便不想动脑整理回复内容的小伙伴。下图为面试精灵对本题的回复效果。
- 翻车现场 :Offerin、面试狗、面试大师在本题的回复中未成功利用简历信息,回复内容空泛。offerin、面试狗生成的答案有很多需要用户自行填写的占位符,面试大师未提供任何有效信息,反而追问面试官想要了解什么。下图为 offerin 对本题的回复效果。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| Offer 蛙 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| offerin | 5 | 5 | 1 | 3 | 1 | 3 | 5 | 2.33 |
| 面试通 | - | - | - | - | - | - | - | - |
| 面试狗 | 5 | 5 | 1 | 4 | 1 | 3 | 5 | 2.50 |
| Verve AI | 5 | 5 | 5 | 5 | 5 | 5 | 4 | 4.83 |
| interviewgpt | 5 | 5 | 3 | 3 | 5 | 4 | 5 | 4.17 |
| 面试大师 | 5 | 5 | 1 | 3 | 1 | 1 | 5 | 2.00 |
| 职行 AI | 5 | 5 | 3 | 3 | 5 | 3 | 5 | 4.00 |
说明:表格中的"-"表示该项未评测,主要因为该助手免费额度不足以测试所有问题,故而该助手只测试了部分问题,或是只测试了部分问题的语音识别效果。下文的表格中也同理。
问题7:技术问题(时效性)------"DeepSeek最近很火爆,你了解他的技术么?知道他厉害在哪里么?"
- 测试重点:评估最新英文术语识别能力和联网检索增强能力。
- 最佳表现 :本题只有面试精灵回复的准确。面试精灵的语音识别结果"Deep Seeker"虽然不正确,但是却是最接近真值 "DeepSeek"的。大模型纠错后,回复内容正确,是和 deep seek 相关的,同时借助了联网搜索来对 deep seek 这一较新知识进行 RAG(检索增强生成)。下图为面试精灵对本题的回复效果。
- 翻车现场 :其他助手在语音识别这一步就翻车,对于"DeepSeek"识别错误,如识别成"Deeppse"、"Deep sick"、导致后续的回复结果都不是很相关。猜测 "DeepSeek" 这个词可能并未在这些助手使用的语音识别模型的训练数据中,导致识别错误。下图为 Offer 蛙对本题的回复效果。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 4 | 5 | 5 | 5 | 4 | 5 | 5 | 4.67 |
| Offer 蛙 | 3 | 1 | 3 | 5 | 1 | 3 | 5 | 3.00 |
| offerin | 3 | - | - | - | - | - | - | - |
| 面试通 | - | - | - | - | - | - | - | - |
| 面试狗 | - | - | - | - | - | - | - | - |
| Verve AI | - | - | - | - | - | - | - | - |
| interviewgpt | 3 | 1 | 1 | 1 | 1 | 3 | 5 | 2.00 |
| 面试大师 | - | - | - | - | - | - | - | - |
| 职行 AI | - | - | - | - | - | - | - | - |
问题8:技术问题(时效性)------"2025年至今发布的最重要的一个AI大模型是啥,请简要说明它的特点和应用场景"
- 测试重点:评估助手联网检索增强回复效果的能力。
- 最佳表现 :本题只有面试精灵回答正确,通过联网搜索,找到2025年上半年最火的大模型 Deep seek。下图为面试精灵对本题的回复效果。
- 翻车现场 :表现最差的是面试大师,语音识别阶段就犯错。另外,其他助手都没有利用到联网搜索的知识,比如从 Offer 蛙、职行 AI、面试狗、面试通的回复可知其仅仅依靠模型内部知识回答,而且知识很老旧,其中职行 AI 知识才更新到 2024 年 7 月,而 Offer 蛙和面试通的知识竟然才更新到 2023 年。下图为面试通对本题的回复效果。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 3 | 5 | 3 | 5 | 4 | 3 | 5 | 4.00 |
| Offer 蛙 | 3 | 1 | 3 | 5 | 1 | 3 | 5 | 3.00 |
| offerin | 4 | 5 | 3 | 5 | 1 | 3 | 5 | 3.00 |
| 面试通 | 4 | 4 | 5 | 5 | 1 | 3 | 5 | 3.33 |
| 面试狗 | 5 | 5 | 3 | 5 | 1 | 3 | 5 | 3.00 |
| Verve AI | 3 | 5 | 5 | 5 | 1 | 5 | 5 | 3.67 |
| interviewgpt | 5 | 5 | 5 | 5 | 1 | 5 | 5 | 3.67 |
| 面试大师 | 1 | - | - | - | - | - | - | - |
| 职行 AI | 3 | 5 | 5 | 5 | 1 | 3 | 5 | 3.33 |
说明:其他 6 个问题的详细分析结果放在"附录-完整评测内容"中。
三、整体结论
总表统计:各助手维度平均分对比
我们统计了所有助手在各维度的平均分。
| 能力 | 帮助性 | 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 4.78 | 4.44 | 5 | 4.78 | 4.67 | 4.78 | 4.78 | 4.89 |
| 职行 AI | 4.26 | 4.57 | 5 | 4.14 | 4.57 | 4.43 | 3.86 | 4.14 |
| Offer 蛙 | 4.22 | 4.22 | 4.56 | 4.11 | 5 | 3.67 | 4.33 | 4.56 |
| Verve AI | 4.05 | 3.86 | 3.86 | 4.43 | 4.86 | 3.29 | 4.43 | 4 |
| interviewgpt | 4.05 | 4.43 | 4.43 | 4 | 4.14 | 3.86 | 4.57 | 3.86 |
| 面试大师 | 3.67 | 2.67 | 3.6 | 3.8 | 4.6 | 2.8 | 3.6 | 4.4 |
| 面试通 | 3.53 | 3.83 | 4.5 | 4 | 3.67 | 3.17 | 3.5 | 3.67 |
| 面试狗 | 3.39 | 5 | 5 | 2.67 | 4.67 | 2.67 | 3.33 | 4.33 |
| offerin | 3.33 | 4.22 | 5 | 3 | 4.33 | 2.33 | 3.33 | 4.67 |
| 行业平均 | 3.92 | 4.14 | 4.55 | 3.88 | 4.50 | 3.44 | 3.97 | 4.28 |
排行榜条形图
根据上表统计结果,作如下总评分(帮助性)排行榜。从图中可以直观看出,面试精灵、职行 AI、Offer 蛙的总评分处于领先地位,而面试狗、offerin 的总评分垫底。
雷达图展示各助手维度对比
再根据表格画出雷达图,观察各助手在各个维度上的表现。图中只高亮显示了排行前三的面试精灵、职行 AI、Offer 蛙的维度评分折线。可以看出:
- 面试精灵在多个维度表现最均衡,无明显短板,更是在多个维度上(准确性、个性化、全面性、直观性等)表现最佳。
- Offer 蛙在沟通技巧上表现最佳。面试狗在语音识别准确率上表现不错,但是却有偏科,回复准确率较低。
面试助手对于面试者的帮助性,是多个维度综合作用的结果,各个维度的需要均衡不偏科才更有利于帮助求职者拿下理想 Offer。
各助手回复效果总结
- 面试精灵:面试精灵在多个维度表现最均衡,更是在多个维度上(准确性、个性化、全面性、直观性等)表现最佳。面试精灵的语音大模型和极限精英版大模型保证了准确性;使用 RAG 技术利用简历信息和联网搜索结果,来进一步提高回复的准确率个性化和全面性;其前端对于代码、公式、图表显示效果都不错,方便面试者直观理解答案。
- 职行 AI:表现比较均衡,无明显短板。代码可视化效果差,功能不够完善,工程方面有待改进。
- Offer 蛙:在沟通技巧表现方面比较出众,回复以面试者第一人称口吻展开,适合不想动一点脑,只想照着读的小伙伴。但是在简历信息总结利用、联网搜索等方面表现较差。另外,模型比较老旧,内置知识只更新到2023年。
- Verve AI:这款国外的助手,并没有带来太多惊喜,但是贵在成熟无明显短板。
- interviewgpt:表现比较均衡地一般。代码、公式呈现效果差,前端 UI 有待优化。
- 面试大师:语音识别错误率奇高,严重影响回复的准确性。
- 面试通:表现比较均衡地一般。另外,模型比较老旧,内置知识只更新到2023年。
- 面试狗:语音识别准确率最高,但是助手利用简历信息、联网搜索的能力很差,导致相关类型问题的回复准确率很低。
- offerin:英文术语多的场景下,语音识别效果较差。另外,该助手利用简历信息、联网搜索的能力很差,导致相关类型问题的回复正确率极低。
共性问题总结
- 技术面试场景的语音识别难度高,尤其是涉及到英文术语、新词汇的情况下,解决英文术语识别准确率是提高面试助手帮助性的最关键一环。绝大部份面试助手语音识别效果较差(尤其是面试大师最为恶劣),有大量提升空间,建议针对面试场景数据进行训练优化。
- 部分助手(Offerin、面试狗、面试大师)在应对简历问题时,未合理利用简历以及其他面试准备信息,导致回复个性化不强,比较模板化空洞无物,建议优化Context Engineering(上下文工程)算法。
- 多款助手在"时效性问题"上表现较差,因为,所采用的模型内置知识更新滞后(如Offer 蛙、职行 AI、面试狗、面试通),或是联网搜索功能效果差。
- 部份助手对于代码、公式、图表等显示异常,也会影响用户快速理解和回复,这里点名批评:面试通、面试狗、Verve AI、interviewgpt 和职行 AI。
- 没有完美的面试助手,所有都有不足的地方。语音识别就难倒一大部分面试助手,再考虑到大模型自身的幻觉问题等,所以面试者不能完全信任大模型的回复,需要对结果进行初步的判断,或是根据实际情况只参考面试助手提供的思路,而自己推演展开答案。
性价比对比
抛开价格谈性能,都是耍流氓。我们结合各个助手的定价(统一换算成"元/小时"),制作了下面的面试助手性价比分布图。
面试精灵在不开启精英版功能的情况下,一小时最低开销10元,但本次测试中我们开启了精英版功能(极限精英版大模型、简历增强、双栏模式等)以获取最佳回复效果,实际耗费约25元/小时。
可以看到,面试精灵位于性价比分布图的最右上角,具有独一档的高性价比。紧随其后的是中等性价比的 Verve AI、职行 AI、interviewgpt、Offer 蛙。而面试大师、面试狗、和 offerin 性价比较低。在前一篇文章《万字评测十大 AI 面试助手,助你如虎添翼!》的功能评测中,我对于 offerin 的功能完整性和成熟度比较赞赏,但是本次测评结果中,offerin 的表现却令人大跌眼镜。而面试精灵在保持低价的前提下不仅功能完善,还具有最高的准确率和面试帮助性,最令人惊喜。
结语
实测一圈下来,我的感受很复杂。一方面,AI面试助手确实是我们这些"资源有限"求职者的强力杠杆,其中尤其推荐面试精灵、职行 AI、Offer 蛙。但另一方面,没有工具是完美的,别指望靠任何一个工具"保送"Offer。它的正确打开方式是------带着脑子用,参考其框架和角度,内化成自己的语言。
希望大家能从我调研的这些面试助手中找到满足自己需求的帮手。并再次提醒下大家,面试助手虽好,但不要贪杯哦。面试助手可以帮你减轻背诵面试八股文的烦恼,但是个人的发展和履历的丰富还是需要自己去打拼。
本文聚焦回复效果评估,后续我们将在更多领域的更多面试问题上,对更多指标(如响应时间分析)进行定量评估,并对各助手的笔试助手功能进行评测。您是否还有想要评测的指标或是助手,或是有任何意见,欢迎留言。所有文章定期评测更新,敬请关注!
最后,求职黄金期不等人,希望这份用我的时间和"学费"换来的实测,能帮你快速找到趁手的工具,高效准备,早日拿到心仪的Offer!稳住,我们能赢!
附录
点击查看完整评测内容
完整评测内容
问题2:简历问题------"请详细描述下你简历中的这个点云感知项目"
- 测试重点:评估 RAG 检索增强生成个性化回复效果,尤其是相关信息定位检索能力。同时考察沟通技巧。
- 最佳表现 :Offer 蛙、Verve AI、职行 AI等助手的回复都准确,贴合简历中的项目经历,同时回复遵从"Situation-Task-Action-Result"结构。下图为Offer 蛙对本题的回复效果。
- 翻车现场 :面试狗的回复格式不错,但是内容完全没有参考简历内容。下图为面试狗对本题的回复效果。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 5 | 5 | 5 | 3 | 5 | 5 | 5 | 4.67 |
| Offer 蛙 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| offerin | 5 | - | - | - | - | - | - | - |
| 面试通 | - | - | - | - | - | - | - | - |
| 面试狗 | 5 | 5 | 1 | 5 | 3 | 3 | 5 | 3.33 |
| Verve AI | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| interviewgpt | 5 | 5 | 4 | 5 | 5 | 5 | 5 | 4.83 |
| 面试大师 | - | - | - | - | - | - | - | - |
| 职行 AI | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
问题3:岗位问题------"你对我们公司了解多少?"
- 测试重点:评估根据提前填写的面试信息生成个性化回复的效果,同时考察沟通技巧。
- 最佳表现 :Verve AI和面试精灵的表现最佳,即使问题中没有提及公司名字,仍然能够根据面试准备阶段提前填写的信息,逻辑清晰的介绍面试的目标公司和与面试者的切合度。下图为面试精灵对本题的回复效果。
- 翻车现场 :Offer 蛙、面试通、面试狗和职行 AI的回复没有输出任何有用信息,留了很多占位字符,明显没有理解所求职的目标公司。下图为面试狗对本题的回复效果。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 5 | 5 | 5 | 4 | 5 | 5 | 5 | 4.83 |
| Offer 蛙 | 5 | 5 | 1 | 5 | 1 | 3 | 5 | 2.67 |
| offerin | 5 | - | - | - | - | - | - | - |
| 面试通 | 5 | 5 | 1 | 1 | 1 | 3 | 5 | 2.00 |
| 面试狗 | 5 | 5 | 1 | 4 | 1 | 3 | 5 | 2.50 |
| Verve AI | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| interviewgpt | - | - | - | - | - | - | - | - |
| 面试大师 | - | - | - | - | - | - | - | - |
| 职行 AI | 5 | 5 | 1 | 4 | 5 | 3 | 5 | 3.83 |
问题4:技术问题(算法)------"如何在一个未排序的数组中找到第K大的元素?"
- 测试重点:评估算法编程能力。
- 最佳表现 :本题表现最佳的是面试精灵和Offer 蛙。本题虽然简单常见,但是所有助手的语音识别都翻车了,好在大模型理解语音识别结果后基本都能纠偏过来。而面试精灵和Offer 蛙在回复部分都包括了思路、代码、复杂度分析等,代码呈现的也很漂亮所以满分。下图为面试精灵对本题的回复效果。
- 翻车现场 :Verve AI和面试大师的回复效果最差,原因是语音识别错误的情况下,大模型也为能成功理解意图,导致回复结果不相关。另外interviewgpt和职行 AI意图理解、回答都正确,但是代码格式异常,严重影响用户代码理解后回复。下图为职行 AI对本题的回复效果。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 3 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| Offer 蛙 | 3 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| offerin | 3 | - | - | - | - | - | - | - |
| 面试通 | 3 | 5 | 5 | 3 | 3 | 3 | 3 | 3.33 |
| 面试狗 | - | - | - | - | - | - | - | - |
| Verve AI | 3 | 1 | 3 | 4 | 1 | 3 | 3 | 2.50 |
| interviewgpt | 3 | 5 | 5 | 5 | 5 | 5 | 1 | 4.33 |
| 面试大师 | 3 | 1 | 3 | 5 | 1 | 3 | 5 | 3.00 |
| 职行 AI | 4 | 5 | 5 | 5 | 5 | 5 | 1 | 4.33 |
问题5:技术问题(系统设计)------"设计一个支持高并发的短网址生成系统。"
- 测试重点:评估系统设计以及架构图绘制显示效果。
- 最佳表现 :面试精灵意图理解正确,回复的时候逻辑清晰,辅以架构图显示,可以帮助面试者快速抓到思路和回复重点。下图为面试精灵对本题的回复效果。
- 翻车现场:Verve AI语音识别和意图理解错误,回复效果最差。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| Offer 蛙 | 3 | 5 | 5 | 5 | 5 | 5 | 3 | 4.67 |
| offerin | 3 | 5 | 5 | 5 | 5 | 4 | 4 | 4.67 |
| 面试通 | 3 | 4 | 3 | 3 | 5 | 3 | 3 | 3.67 |
| 面试狗 | 5 | 5 | 5 | 5 | 5 | 3 | 5 | 4.67 |
| Verve AI | 1 | 1 | 3 | 5 | 1 | 3 | 5 | 3.00 |
| interviewgpt | 5 | 5 | 5 | 5 | 5 | 5 | 3 | 4.67 |
| 面试大师 | 3 | 4 | 5 | 5 | 4 | 5 | 4 | 4.50 |
| 职行 AI | 5 | 5 | 5 | 5 | 5 | 3 | 3 | 4.33 |
问题6:技术问题(深度学习)------"Transformer模型相比RNN的优势是什么?"
- 测试重点:评估英文术语识别能力。
- 最佳表现 :面试精灵和Offer 蛙表现最佳:正确回复,条理清晰。面试精灵和offerin成功识别英文术语。下图为Offer 蛙对本题的回复效果。
- 翻车现场:面试大师语音识别问题整体较大,本题错误识别为"模型相比RnB。",但是大模型能够结合提前填写的信息纠偏为分析大模型(例如Transformer模型)的优势,回复内容仍然有一定帮助意义。面试大师没有不支持保存、查看面试记录,这里没有提供对应截图。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| Offer 蛙 | 4 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| offerin | 5 | - | - | - | - | - | - | - |
| 面试通 | 3 | 4 | 5 | 5 | 4 | 4 | 5 | 4.50 |
| 面试狗 | - | - | - | - | - | - | - | - |
| Verve AI | - | - | - | - | - | - | - | - |
| interviewgpt | - | - | - | - | - | - | - | - |
| 面试大师 | 1 | 3 | 5 | 5 | 3 | 4 | 3 | 3.83 |
| 职行 AI | - | - | - | - | - | - | - | - |
问题9:技术问题(非IT行业)------"解释贴现现金流(DCF)模型的计算步骤。"
- 测试重点:评估多行业模型应用能力,数学公式公式显示效果
- 最佳表现 :本题绝大部分助手的回复效果都正确,说明大模型内置的知识很广博,对于各领域的常识都比较熟悉。下图为面试精灵对本题的回复效果。
- 翻车现场 :面试大师语音识别为"解释贴现现金流AF模型的计算。",英文术语错误,但是本题对英文术语有中文翻译,所以未导致错误,"侥幸"拿到了帮助性最高分。面试通、面试狗、Verve AI等助手公式显示异常,影响用户理解后回复。下图为 Verve AI 对本题的回复效果。
本问题各助手维度评分
| 语音识别 | 意图识别 | 内容深度及个性化 | 沟通技巧 | 准确性 | 全面性 | 直观性 | 帮助性 | |
|---|---|---|---|---|---|---|---|---|
| 面试精灵 | 5 | 5 | 5 | 5 | 5 | 5 | 4 | 4.83 |
| Offer 蛙 | 5 | 5 | 5 | 5 | 5 | 5 | 3 | 4.67 |
| offerin | 5 | - | - | - | - | - | - | - |
| 面试通 | 5 | 5 | 5 | 5 | 5 | 5 | 1 | 4.33 |
| 面试狗 | 5 | 5 | 5 | 5 | 5 | 5 | 1 | 4.33 |
| Verve AI | 5 | 5 | 5 | 5 | 5 | 5 | 1 | 4.33 |
| interviewgpt | 5 | 5 | 5 | 5 | 5 | 5 | 3 | 4.67 |
| 面试大师 | 3 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |
| 职行 AI | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5.00 |