Gemini 发布 iOS app,Live 语音聊天免费用;微信公众号上线 AI 音色克隆功能丨 RTE 开发者日报

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的技术新闻

1、AI 玩《我的世界》大比拼!Claude 新版本建筑水平惊艳全网

近日,一场别开生面的 AI 能力评测在《我的世界》平台上展开,吸引了大量关注。新旧两个版本的Claude3.5Sonnet 在游戏中展开建筑 PK,展现出明显的能力差异,新版本(暂称「Sonnet3.6」)的表现尤其亮眼。

这项由开发者 adi 发起的测试被戏称为「唯一可靠的评测基准」。评测基准研究者 Aidan McLau 认为这个方法恰好满足了当前 AI 评测的需求,并指出审美能力与智力水平密切相关。该项目很快获得了开源社区的支持,相关代码已在 GitHub 上线。

测试结果显示,各大模型都展现出独特的「个性」:

  • Sonnet3.6 在创意性方面略胜一筹,获得 2000 多名网友的投票支持
  • OpenAI 的 o1-preview虽然构建速度较慢,但在还原真实建筑(如泰姬陵)时表现出色
  • o1-mini 则无法完成相关任务
  • Llama3405B建造了象征自我的「火坑上的钻石墙」
  • 阿里的 Qwen2.5-14B 也展现出不俗实力

值得注意的是,AI 在游戏中的建造过程并不依赖视觉理解或直接控制输入设备,而是通过文本形式提供上下文并生成操作指令,类似于下盲棋。技术实现上主要依靠:

  • mineflayer 开源库:将 AI 生成的指令转换为可执行的 API 调用 mindcraft
  • 开源库:提供通用提示词和示例,支持各类模型接入游戏

项目组计划将这一评测机制进一步完善,打造类似 Lmsys 竞技场的评分系统,采用 Elo 算法根据人类用户投票进行排名。据悉,完整测试环境仅需 15 分钟即可搭建完成。(@AIbase 基地)

2、昆仑万维天工大模型 Skywork 4.0 O1 版将正式启动邀请测试

昆仑万维科技股份有限公司宣布,其最新研发的天工大模型 4.0O1 版(英文名:Skywork O1)将于 2024 年 11 月 27 日启动邀请测试。

天工大模型 4.0O1 版是国内首款具有中文逻辑推理能力的 o1 模型,它不仅在模型输出上内生了思考、计划、反思等能力,而且在标准评测集上,其推理能力相较于基座模型有了大幅上升,实现了模型推理能力的本质提升。

天工大模型 4.0O1 版包括两款模型:一款是基于开源 Llama3.18B 的开源模型,旨在加速国内开源社区复现 o1 的进程;另一款是进阶能力更强版的天工大模型 4.0O1 版,将在天工上线并开放测试和使用。(@AIbase 基地)

3、月之暗面发布 k0-math 数学推理模型

Kimi 发布了其新一代数学推理模型 k0-math,该模型在多个数学基准测试中展现出了卓越的性能,其数学能力可以与 OpenAI 的 o1 系列模型相媲美。

在中考、高考、考研以及入门级竞赛题的 MATH 测试中,k0-math 的初代模型成绩超过了 o1-mini 和 o1-preview 模型。在更高难度的 OMNI-MATH 和 AIME 竞赛级数学题库中,k0-math 的表现也达到了 o1-mini 最高成绩的 90% 和 83%。

此外,Kimi 探索版通过强化学习技术在搜索体验上取得了创新,特别是在意图增强、信源分析和链式思考三大推理能力上实现了突破。

Kimi 的创始人杨植麟博士表示,k0-math 模型和更强大的 Kimi 探索版将在未来几周内陆续上线 Kimi 网页版和 Kimi 智能助手 app,旨在帮助用户解决更具挑战性的数学问题和搜索调研任务。(@APPSO)

4、Grok-3 疑似证明黎曼假设,已被暂停训练

马斯克 xAI 实验室的研究员 Hieu Pham 在 X 上发文称其开发的人工智能模型 Grok-3 已经证明了数学界长期以来悬而未决的「黎曼猜想」。

「黎曼猜想」由德国数学家波恩哈德·黎曼于 1859 年提出,它是数学中一个重要而著名的未解决问题,被誉为 「猜想界皇冠」,多年来吸引了许多杰出数学家的关注和努力。

这一消息引起了广泛关注,因为如果证明被确认为正确,这将是一个极其重大的数学突破。

作为预防措施,团队决定暂停对 Grok-3 的进一步训练,以检查其证明的正确性。并且,如果证明确实无误,他们计划不再继续训练该 AI,因为担心其过于高级的智能可能对人类构成潜在威胁。

不过从评论区用户的反馈来看,这似乎只是一个「很幽默的玩笑」。(@APPSO)

5、英国运营商推出反诈黑科技!AI「奶奶」出马,专坑电话诈骗犯!

英国移动运营商 Virgin Media O2 日前推出了一项创新的反诈骗技术------一个名为「Daisy」的 AI 虚拟奶奶,专门设计用来应对日益猖獗的电话诈骗。这位虚拟奶奶的唯一任务,就是接听诈骗电话并尽可能拖住骗子的时间。

当诈骗分子拨打运营商设置的特定号码时,这位「难以与真人区分」的 AI 机器人就会接听电话。据 O2 透露,他们利用多项前沿 AI 技术和模型训练了这位听起来像老年女性的聊天机器人,著名的反诈 YouTuber Jim Browning 也参与了训练过程。

整个通话过程完全自动化:AI 会实时监听并将来电者的语音转换为文字,随后通过定制的大语言模型和角色性格层生成回应,最后再经由 AI 语音合成模型转化为自然的对话语音。这一切都在实时进行,无需人工干预。

虽然 Daisy 听起来像是一位容易上当的老年人,但她实际上是诈骗分子的噩梦。她可能会漫无边际地讲述孙子们的故事或自己的兴趣爱好,表现出对技术的一无所知,或者提供一些毫无用处的虚假银行信息。不管采用哪种方式,她的目的只有一个:耗费诈骗者的时间,让他们无暇去骚扰真实的受害者。

在一段演示视频中,Daisy 的表现令人忍俊不禁:她会问「网址是不是要输入三个 W 再加一个点?」,抱怨自己的屏幕上只能看到她的猫咪 Fluffy 的照片,然后慢慢转向一个永无止境的故事。这让诈骗者终于忍无可忍,气急败坏地说「你是专门来烦人的吧」,「都快一个小时了!」(@AIbase 基地)

02 有亮点的产品

1、谷歌 Gemini 发布 iOS 版 App,live 语音聊天免费用!

近日,谷歌为旗下的 Gemini 聊天机器人发布了独立的 iOS 版 app,说其「独立」,是因为此前 iOS 用户只能在谷歌 app 中的 Gemini 选项卡中使用 Gemini。

除了正常的文本聊天对话外,新发布的独立应用还支持另外两种模式:图片和语音。用户可以现拍一张照片或从相册添加一张图片,然后发送给 Geimini 进行聊天。同时,iOS 端的 Gemini 应用也支持文生图,输入你希望生成的图片描述,即可生成对应的图片。

语音模式则是 Gemini 一大亮点,谷歌官方称该功能为 Gemini Live,其实就是类似于 ChatGPT 语音模式的交互式对话功能,允许用户通过语音与 AI 进行自然对话。值得一提的是,Gemini Live 和 ChatGPT 的高级语音模式一样,也支持随时打断,这一点使得对话体验更加自然流畅。Gemini Live 功能在此前仅在 Android app 上可用(编者注:iOS 更换语言为英文后可以启用 Live)。

图片和语音功能所有用户均可使用。(@AI 信息 Gap)

2、Magic Quill 重新定义 AI 图像编辑!双画笔交互模式获赞 精准度惊人

近期备受关注的 AI 图像编辑工具 Magic Quill 凭借其独特的交互设计,在业内引发热议。该工具最大的亮点在于创新性地引入了「双画笔系统」,让用户能够通过增减画笔的灵活组合,实现前所未有的精准编辑体验。

Magic Quill 的核心优势在于其直观且高效的操作方式:

- 增加画笔: 用于添加新的图像元素

- 删减画笔: 用于移除不需要的部分

- 组合使用: 两种画笔可以配合使用,实现更精细的编辑效果(@AIbase 基地)

3、阿里通义实验室推出了代码模式,可一句话帮你生成应用

通义代码模式让用户能够通过简单的日常语言指令生成各种应用,包括小游戏和数据图表等。用户可访问通义网页版,点击「代码模式」开始体验全新交互方式。代码模式基于 Qwen2.5-Coder 开发,提升了 AI 编程性能和效率。( @AIbase 基地)

4、微信公众号上线 AI 音色克隆功能

微信公众号版本 2.29.1 更新了新功能:朗读音色。

  • 点击推文的「听全文」功能时,听到的不再是那个永远跟其他人一样,相同的男声。而是,AI克隆的作者的声音。
  • 微信会用作者的声音,来为读者朗读出这篇文章。
  • 点开以后「朗读音色」功能后,会有一个系统默认的音色,用户也可以创建自己的音色。
  • 点击创建新的音色,就会进入到一个新页面,会让用户现场朗读一句话。甚至会从用户的实际文章中抽取一些片段来让用户读,非常的有意思。
  • 克隆好的声音与真实声音非常相近,但仍会存在有一些TTS 的惯常情绪问题。(@数字生命卡兹克)

03 有态度的观点

1、Kimi 创始人杨植麟:Scaling laws 依然有效 强化学习是重点

月之暗面 Kimi 发布新一代数学推理模型 k0-math 及 Kimi 探索版,计划分批上线网页版和 APP。

创始人杨植麟强调强化学习在 AI 发展中的重要性,「AI 领域正在经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术,可以解决高质量数据缺乏的问题,将提升 AI 在各个领域和场景的推理能力和智能水平上限。」

杨植麟认为 Scaling laws 依然有效,但需更好的方法。「所有的好算法都是跟 Scaling 做朋友,如果你的算法能够释放 Scaling 的潜力,它就会持续变得更好。」他提出大模型需提升思考能力,数学是锻炼此能力的理想场景。因为杨植麟认为这是最适合锻炼 AI 思考能力的场景,是个不断思考不断试错的过程,而且不需要跟外界进行交互。

「AI 接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,而是我觉得思考会决定上限,交互是一个必要条件。」(@极客公园)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

材来源官方媒体/网络新闻

相关推荐
凡人的AI工具箱4 分钟前
每天40分玩转Django:Django类视图
数据库·人工智能·后端·python·django·sqlite
千天夜9 分钟前
深度学习中的残差网络、加权残差连接(WRC)与跨阶段部分连接(CSP)详解
网络·人工智能·深度学习·神经网络·yolo·机器学习
凡人的AI工具箱14 分钟前
每天40分玩转Django:实操图片分享社区
数据库·人工智能·后端·python·django
小军军军军军军17 分钟前
MLU运行Stable Diffusion WebUI Forge【flux】
人工智能·python·语言模型·stable diffusion
诚威_lol_中大努力中40 分钟前
关于VQ-GAN利用滑动窗口生成 高清图像
人工智能·神经网络·生成对抗网络
中关村科金1 小时前
中关村科金智能客服机器人如何解决客户个性化需求与标准化服务之间的矛盾?
人工智能·机器人·在线客服·智能客服机器人·中关村科金
逸_1 小时前
Product Hunt 今日热榜 | 2024-12-25
人工智能
Luke Ewin1 小时前
基于3D-Speaker进行区分说话人项目搭建过程报错记录 | 通话录音说话人区分以及语音识别 | 声纹识别以及语音识别 | pyannote-audio
人工智能·语音识别·声纹识别·通话录音区分说话人
DashVector1 小时前
如何通过HTTP API检索Doc
数据库·人工智能·http·阿里云·数据库开发·向量检索
说私域1 小时前
无人零售及开源 AI 智能名片 S2B2C 商城小程序的深度剖析
人工智能·小程序·零售