Runway 新增视频扩展画面功能;Anthropic 再获亚马逊投资 40 亿美元,聚焦 AI 芯片研发丨 RTE 开发者日报

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、亚马逊再度向 Anthropic 注资 40 亿美元,AI 芯片研发成为合作新焦点

亚马逊(Amazon)日前宣布向人工智能公司 Anthropic 追加投资 40 亿美元,这使得亚马逊对 Anthropic 的总投资额达到 80 亿美元。作为此次投资的重要组成部分,Anthropic 将主要依托亚马逊云计算服务(AWS)来训练其旗舰级生成式 AI 模型。

此次合作的一大亮点是双方在芯片领域展开深度合作。Anthropic 将与 AWS 旗下芯片制造部门 Annapurna Labs 共同开发新一代 Trainium 加速器。Anthropic 表示,公司工程师将与 Annapurna 的芯片设计团队密切合作,致力于提升硬件的计算效率,这些技术进展将用于训练其最先进的基础模型。(@AIbase 基地)

2、斯坦福大学、华盛顿大学研究:1000 个 AI 智能体预测人类行为,准确率最高可达 85%

据 The Decoder 今日报道,斯坦福大学、华盛顿大学和 Google DeepMind 的研究人员联合开发了一种 AI 智能体(AI Agent,也称「AI 代理」),能够在社会实验中逼真地模拟人类行为。

研究指出,这类模拟系统可以作为一个虚拟实验室,帮助验证经济学、社会学、组织学和政治科学中的理论。研究团队通过对 1000 多名具有代表性的美国人(覆盖多种年龄、性别、教育背景和政治立场)进行访谈,建立了这些 AI 智能体模型。

系统运行方式是将详细的访谈记录与 GPT-4o 模型结合。当用户向智能体提问时,系统会加载访谈记录并让 AI 模仿受访者的回答。为生成这些记录,研究团队对每位受访者进行了长达两小时的访谈,并通过 OpenAI 的 Whisper 技术将对话转录成文本。

研究团队设计了多个测试,评估 AI 对人类行为的预测能力,涵盖《通用社会调查》、大五人格评估以及若干行为经济学实验。

结果显示,基于访谈数据的 AI 在预测社会调查(GSS)问题时,准确率高达 85%,远超单纯依赖人口统计信息的 AI 智能体。

研究团队在五项社会科学实验中测试了人类与 AI 的表现,其中四项研究显示,AI 的结果与人类高度一致。相关系数高达 0.98,表明 AI 对人类行为有极强的模拟能力。(@IT 之家)

3、谷歌创新 AI 工具 SpeakFaster 帮助渐冻症患者大幅减少眼动打字操作

随着渐冻症(ALS)等运动障碍患者日常沟通的困难,传统的辅助性沟通工具往往无法高效解决眼动打字过程中按键操作频繁带来的眼疲劳和高时间成本。为了解决这一问题,谷歌研究团队开发了一款名为 SpeakFaster 的用户界面(UI),它利用大语言模型(LLM)和对话语境,帮助 ALS 患者显著提升沟通效率。

SpeakFaster 通过预测用户输入的首字母缩写,并根据对话上下文扩展为完整的短语,减少了眼动打字的按键次数高达 57%,文本输入速度较传统方法提升了 29%至 60%。该系统经过微调的 LLM 结合了三个不同的输入路径,使得用户即使在初始预测失败的情况下也能轻松找到合适的短语,从而加快了输入速度,减少了不必要的操作。

此外,研究表明,SpeakFaster 不仅在模拟实验中实现了显著的按键节省,还在 ALS 患者的实验中提高了打字速度,尤其在脚本场景下,ALS 患者的输入速度提高了 61.3%。尽管初期学习曲线稍显陡峭,但大多数用户在 15 次练习后已能够达到舒适的打字速度。(@AIbase 基地)

02 有亮点的产品

1、iOS 19 将大幅强化 Siri

据彭博社记者 Mark Gurman 最新一期的《 Power On 》报道,苹果将在明年推出的 iOS 19 中大幅强化 Siri。

Gurman 的报道指出,此次的升级将使 Siri 更像 OpenAI 的 ChatGPT,让其能够「处理更复杂的请求」。同时,Gurman 还表示,该功能最早要到 2026 年春季才会推出,这意味着该功能将作为 iOS 19.4 更新的一部分发布。

此前,Gurman 曾报道过,苹果公司依赖于内部大型语言模型,在对 Siri 进行真正的改造方面取得了进展。该公司正在内部积极运行和测试这项新服务,并将其称为「LLM Siri」。

另外,据 MacRumors 报道,在 iOS 18.4 中,Siri 将获得屏幕感知、更深入的每个应用程序控制以及一些其他增强功能,但它仍然不会直接提供成熟的类似 ChatGPT 的对话功能。(@APPSO)

2、Runway 新增视频扩展画面功能「Expand Video」 还可调整视频比例

近日,视频生成人工智能企业 Runway 宣布推出其最新功能 「Expand Video」,这一创新工具将帮助用户通过简单的文本提示,轻松在原始视频画面基础上生成额外的视觉内容。用户不仅可以自由调整视频的比例,还能确保扩展后的画面在视觉效果上的统一性,提升视频的灵活性和专业性。

「Expand Video」 功能的推出,让用户能够通过多次扩展,创造出如 「快速变焦(crash zoom)」 和 「拉远镜头(pull-back shot)」 等具有动态效果的摄像体验。这意味着,静态的视频画面可以通过这一功能转变为更加生动且富有电影感的动态序列。

官方表示,Expand Video 已开始逐步推出,很快将向 Gen-3Alpha Turbo 中的每个人提供。(@AIbase 基地)

3、可灵 AI 平台 1.5 模型升级:上线人脸模型功能 新增「标准模式」

快手旗下可灵 AI 平台宣布其 1.5 模型全新升级,引入了一系列创新功能,此次升级包括图生视频高品质模式的增强,支持运动笔刷和运镜,以及新增的标准模式,为用户提供了高性价比的选择。

在高品质模式中,用户可以为图片中的元素指定运动轨迹,添加运动轨迹和静止区域,实现更精细的控制。同时,平台提供了六种运镜方式,包括水平运镜、垂直运镜、拉远/推进和旋转运镜,以满足不同创作需求。

新推出的标准模式允许用户快速生成 720p 画质的视频,5 秒视频仅需 20 灵感值,10 秒视频仅需 40 灵感值,大大缩短了创作时间。

此外,可灵 AI 平台还推出了「人脸模型」功能,该功能面向钻石和铂金会员开放,并提供限时 5 折优惠。这一行业首发的视频模型定制功能,通过创新技术解决了人脸 ID 保持的难题,用户在训练结束后可以随时调用该人脸模型生成视频。

对于新用户,可灵 AI 也进行了体验升级,每月可领取包含灵感值和会员功能体验次数的惊喜体验包,有效期为一个月。会员用户每日登录可领取灵感值,一个月合计可领取 1980 灵感值。

同时,可灵 AI 的 API 能力也得到了免费升级,V1.5 高品质模型和 V1.0 模型视频延长功能「加量」不加价,为个人开发者和企业用户提供了更多的便利。(@AIbase 基地)

03 有态度的观点

1、Salesforce 首席执行官:大语言模型可能已接近技术上限,AI 的未来是智能体

据《商业内幕(Business Insider)》今日报道,Salesforce 的首席执行官 Marc Benioff 最近在「Future of Everything」播客中表示,他认为人工智能的未来在于自主代理(即俗称的「AI 智能体」),而不是目前用于训练 ChatGPT 等聊天机器人的大型语言模型(LLM)。「实际上,我们可能已经接近 LLM 的技术上限了。」

Benioff 提到,近年来社会对 ChatGPT 的热潮让许多人「错误高估」AI 的能力,他们从而会认为大语言模型是推动 AI 发展的核心动力。但他认为,真正具有潜力的方向是自主代理。这些代理可以独立完成任务,比如负责销售沟通或营销活动。对于想要提高效率、重塑工作模式的企业来说,这种技术的重要性甚至超过了 LLM 。

与此同时,英伟达 CEO 黄仁勋也表示,他相信未来我们会与「AI 智能体」和「AI 员工」并肩工作。

「现在我们拥有一系列强大的工具,能够提高生产力、帮助员工完成任务、提升利润率和收入,让企业变得更强大,并与客户建立更紧密的联系。」 Benioff 说。「但目前,我们还没进入那些科幻电影中描述的未来场景 ------ 或许有一天会达到,但至少今天还不是。」

Benioff 提到,公众对 AI 智能体的认知很多来自影视作品,比如 1984 年上映的《终结者》和 2002 年的《少数派报告》。前者讲述了由阿诺德・施瓦辛格饰演的赛博格刺客「终结者」,后者则设想了一个警方通过 AI 技术预判犯罪的未来世界。

不过,Benioff 警告称,一些行业人士和 AI 推崇者对人工智能能力的描述过于夸大,甚至虚构了治愈癌症或解决气候危机等「壮举」,误导了那些可以切实受益于 AI 技术的用户。

「这些所谓的'AI 布道者'在传播不实信息,这不仅无法帮助企业利用人工智能提高效益,反而对他们造成了损害。」 Benioff 说道。(@IT 之家)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

相关推荐
小嗷犬6 分钟前
【论文笔记】Visual Alignment Pre-training for Sign Language Translation
论文阅读·人工智能·机器翻译·多模态·手语翻译·手语识别
GPT祖弘17 分钟前
【Agent】Chatbot、Copilot与Agent如何帮助我们的提升效率?
人工智能·copilot
Ainnle18 分钟前
VS Code AI开发之Copilot配置和使用详解
人工智能·copilot
司南OpenCompass18 分钟前
CompassArena新升级:Judge Copilot提升竞技体验,新一代Bradley-Terry模型还原模型真实能力
人工智能·语言模型·大模型·大模型评测·opencompass
zaim120 分钟前
计算机的错误计算(一百九十二)
人工智能·ai·大模型·llm·错误·误差/error·余割/csc
敖行客 Allthinker32 分钟前
让 AMD GPU 在大语言模型推理中崭露头角:机遇与挑战
人工智能·语言模型·自然语言处理
赛逸展张胜43 分钟前
CES Asia是一个关于什么的展会?
大数据·人工智能·科技
XinZong1 小时前
【AIGC】深入解析变分自编码器(VAE):理论、数学原理、实现与应用
人工智能·aigc
Coovally AI模型快速验证1 小时前
YOLO11全解析:从原理到实战,全流程体验下一代目标检测
人工智能·yolo·目标检测·机器学习·计算机视觉·目标跟踪·yolo11
湫ccc2 小时前
《Opencv》基础操作详解(2)
人工智能·opencv·计算机视觉