Google创始人:未来一年绝大多数程序员将被AI取代;FeedbackStream:8分钟创建语音访谈智能体,输出高质量洞察

开发者朋友们大家好

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、OpenAI o3/o4-mini「幻觉」情况更严重

据 The Crunch 报道,OpenAI 近日推出的 o3/o4-mini 虽然在多方面有了不小的进步,然而新模型在「幻觉」内容(虚构的内容)方面,相较于旧模型会产生更多。

报道指出,据 OpenAI 的内部测试,o3 和 o4-mini 两款新模型比 OpenAI 此前的推理模型(o1、o1-mini、o3-mini)以及传统的「非推理」模型,都更容易产生幻觉。报道还表示,更令人担忧的是连 ChatGPT 的开发人员都不知道为何会这样:OpenAI 在 o3/o4-mini 的技术报告中表示,需要更多的研究内容来了解「为什么随着推理模型的发展,反而幻觉情况反而更糟糕」这一问题。

报道指出,尽管 o3/o4-mini 在编程和数学等方面优于以往的模型,但由于模型输出的答案总量增加,导致其会给出更多准确的判断,同时也不可避免地出现更多错误的内容甚至是「幻觉」。在 OpenAI 设计的内部基准测试 PersonQA(用于衡量模型对知识准确性的基准测试)中,o3 出现幻觉的比例达到 33%,约是前代推理模型 o1(16%)和 o3-mini(14.8%)的两倍。

在同一基准测试中,o4-mini 的表现更差,幻觉率高达 48%。另据第三方机构 Transluce 的测试,o3 在回答问题时经常会编造出某些「过程操作」。

据一次测试显示,o3 声称自己在一台 2021 款 MacBook Pro 上通过「ChatGPT 之外」的方式运行了生成的代码,并将结果复制到答案中。

另据斯坦福大学兼职教授 Kian Katanforoosh 告诉 TechCrunch,其团队测试 o3 的编程能力时发现,o3 经常会援引错误的网站链接,提供的网站实际上是不存在的。报道指出,提高模型准确性的一种办法即是「联网搜索」,OpenAI 的 GPT-4o 便是依靠联网搜索能力在 SimpleQA 中获得 90% 的准确率。( @APPSO)

2、Gemini 2.5 Flash: 在高尔顿板测试中,击败 OpenAI 多款模型

  • Gemini 2.5 Flash 在高尔顿板编码测试中表现卓越,仅需 5 次提示即完成任务,而 OpenAI 多个模型半小时内都未能完成;

  • 谷歌新推出的「dayhush」模型在网页开发领域展现惊人实力,性能超越 Gemini 2.5 Pro,被誉为「AI 编码的地震性突破」;

  • 在第七代 TPU Ironwood 支持下,谷歌 AI 编码能力正全面领先,无论是性能还是性价比都展现出明显优势。(@腾讯研究院)

3、谷歌发布 Gemma 3 全系 QAT 版模型

  • 谷歌发布 Gemma 3 全系 QAT(量化感知训练)优化版本,27B 模型显存占用从 54GB 降至 14.1GB,可在 RTX 3090 等消费级 GPU 上运行;

  • 通过 QAT 将量化过程融入训练阶段,模型压缩至 int4 格式后仍保持高性能,12B 版本仅需 6.6GB 显存,可在笔记本 GPU 上运行;

  • 官方已在多个平台上线模型,并与 Ollama、LM Studio 等开发工具合作,支持便捷部署和本地推理。(@腾讯研究院)

02 有亮点的产品

1、Lemni:可以为不同客户设置个性化服务的智能体

Lemni 是可为各类客户互动环节设置个性化服务的智能体。无论企业业务处于何种发展阶段,均能确保每次互动都实现个性化服务。从电话沟通、电子邮件支持,到主动联系客户,Lemni 都能满足需求。企业借助 Lemni 扩展业务时,无需额外增加员工数量。(@ Product Hunt)

2、FeedbackStream:可以深度调研的智能访谈产品

FeedbackStream 是一款基于 AI 技术的智能访谈产品,其核心优势在于利用自动化流程实现高效、高频的客户访谈,帮助企业在更短时间内获取比传统调研更系统、更全面的反馈。

通过 AI 驱动的自动化流程,FeedbackStream 能以远低于人工访谈的时间成本,规模化开展深度用户调研,输出高质量的访谈洞察。

  • 创建 AI 面试智能体(仅需 8 分钟)

  • 邀请目标用户参与访谈

  • AI 智能体自动执行访谈

  • 访谈结果直接发送至邮箱(@ Product Hunt)

03 有态度的观点

1、Google 前 CEO:AI 正迈向自主进化阶段

Google 前 CEO Eric Schmidt 近日警告,AI 正迅速接近一个临界点,届时它可能不再需要人类参与就能自我进化,在他看来,人类正处于一个新阶段的边缘,AI 不仅能独立学习和改进,还将取代高技能专业人员。「计算机现在正在进行自我改进......它们正在学习如何规划,且不再需要听从我们的指令,」Schmidt 说。

他描述了一种「递归式自我改进」的循环,即 AI 生成新假设,使用机器人实验室进行测试,并将结果反馈回循环,全程无需人类参与。Schmidt 认为 AI 实际上被低估而非被过度炒作。他表示,AI 已深度融入日常生活,但许多人仍未意识到这一影响的重要性。「人们将它们视为语言交流工具......有人用它寻求恋爱建议,有人用它获取心理咨询。」关于就业市场,Schmidt 预测将发生剧变:「未来一年内,绝大多数程序员将被 AI 程序员取代。」他还称 AI 很快将在数学等领域超越顶尖人类人才,实现「超级智能------比人类总和更聪明的计算机」。

不过,Schmidt 仍然强调 AI 本质上是工具,人类必须保持控制权。「科学家掌控大局,AI 辅助他们,这才是正确的秩序,」他指出,并补充说 AI 仍需依赖高质量的合成数据。「我们没有足够的数据,」他强调需要开放、可重复、经过同行评审的数据集来推动负责任的创新。(@ APPSO)

2、刘慈欣谈机器人跑半马:具身机器人将给社会带来颠覆性影响

据央视财经报道,在人形机器人半马开跑前夕,科幻小说《三体》《流浪地球》的作者刘慈欣接受专访。

刘慈欣表示,赛事更多的是一种展示,机器人跑步表现它很平衡的跑步移动功能,就像春晚上跳秧歌的机器人一样,向大众展示机器人目前的面貌、身形。

现在他觉得十分有用的、拥有巨大市场的看护机器人,能照顾老人、病人;家务机器人能够做家务。

刘慈欣坦言,现在的机器人达不到这个水平,但是一旦达到这个水平,市场也是巨大的,对我们的生活改变会是天翻地覆的。

他认为,具身机器人发展的终极目标,可能就是和真人完全不能分辨出来,这个技术一旦出现,对社会的影响可能是颠覆性的。

「当你真的没办法从智力上、外形上,分辨出机器人和真人,这个能带来什么样的影响,我认为即便科幻小说也很难想象。」刘慈欣说。(@ 快科技)

更多 Voice Agent 学习笔记:

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗......丨 RTE Meetup 回顾

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

相关推荐
Blossom.1185 分钟前
量子计算与经典计算融合:开启计算新时代
人工智能·深度学习·opencv·物联网·生活·边缘计算·量子计算
AI技术学长19 分钟前
深度学习-python猫狗识别tensorflow2.0
人工智能·深度学习·计算机视觉·图像识别·计算机技术·tensorflow2·猫狗识别
6confim22 分钟前
掌握 Cursor:AI 编程助手的高效使用技巧
前端·人工智能·后端
offerwa22 分钟前
LLM多模态能力应用实战指南
人工智能
offerwa24 分钟前
知识图谱与大模型结合实践指南
人工智能
offerwa24 分钟前
大模型Agent系统设计与实现指南
人工智能
AI偶然24 分钟前
AI智能体|扣子(Coze)搭建【一键转换为Word/pdf/Excel】工作流保姆级教学
人工智能·pdf·word
navyDagger26 分钟前
梯度下降定义、数学计算流程与实例演示(附代码与可视化图像演示)
人工智能·机器学习
RockLiu@80533 分钟前
ECA 注意力机制:让你的卷积神经网络更上一层楼
人工智能·神经网络·cnn
职教育人34 分钟前
2025年世界职业院校技能大赛实施方案(意见稿)
大数据·人工智能·世界职业院校技能大赛