AI一周资讯 251016-251023

原文:https://mp.weixin.qq.com/s/pQfIiB-FaNQzxLoZ6PnAbw

万里眼新一代超高速实时示波器:突破"卡脖子"难题,引领高端电子测量新潮流

在2025湾芯展上,新凯来子公司万里眼发布自主研发的新一代超高速实时示波器,带宽突破90GHz位居全球第二,采样率每通道200GSa/s,最大存储器深度4Gpts为同级别业界2倍,性能提升至原有国产示波器的500%,且是全球首个超高速智能与全面屏示波器。其团队平均年龄二十八九岁,目标攻克"卡脖子"难题,产品获高校等认可,华为和上海交大已进行测试或试用。高端示波器面临供给、效率、体验三大挑战,因西方国家限制对华高端仪器出口。万里眼产品覆盖无线、电子、数字领域,基于"慧眼"架构的90GHz示波器有超强性能、超高智能、超级体验三大突破,还具备80GHz带宽示波器校准CNAS资质,参与标准生态建设。一位老科学家高度评价其产品,万里眼将持续聚焦高端电子测量仪器与产业链共创未来。

苹果推出新一代M5芯片,AI性能大幅跃升!

苹果官网宣布推出新一代自研电脑芯片M5,各方面性能升级,AI性能显著提升。该芯片采用第三代3nm制程工艺,具备最高10核CPU、最高10核GPU、16核神经网络引擎,最高可选配32GB统一内存。亮点特性包括GPU每个核心增加神经网络加速器,基于GPU的AI峰值性能达M4的4倍以上,统一内存带宽提升。搭载M5芯片的14英寸MacBook Pro、iPad Pro、Apple Vision Pro于10月17日上午9点接受预购,10月22日发售,价格分别为12999元起、8999元起、29999元起。M5适合高效学生、商务用户、创作新锐,其CPU、GPU、神经网络引擎等性能均有显著提升。

谷歌Gemini 3.0 Pro:代码生成能力惊人,距构建操作系统仍有差距

谷歌Gemini 3.0 Pro展现的强大代码生成能力。海外爆火视频展示其仅用几行提示词,2分钟内一次尝试就生成用HTML构建的复刻苹果MacOS的WebOS,具备流畅动画等功能。该模型正处AI studio的A/B测试,部分用户可在One Shot条件下尝试。对比之下,网友用Claude 4.5 Sonnet操作结果不可用。此外,Gemini 3.0还生成Windows和Linux风格的WebOS,代码和演示公开在CodePen。它在前端设计方面也表现出色,能理解抽象描述生成含音乐音效的网页。不过,其生成的MacOS只是基本功能和前端设计演示,大模型距构建操作系统能力有差距,但构建原型演示愈发稳定强大。

阿里通义千问推出Qwen3 - VL 4B与8B版本,优势尽显!

2025年10月15日,阿里通义千问团队推出最强视觉语言模型系列Qwen3 - VL的4B与8B版本,均有Instruct与Thinking版本。该模型资源门槛更低,尺寸缩减降低VRAM占用,可在更广泛硬件设备部署;核心能力不减配,保留全部核心功能;基准性能优秀,超越Gemini 2.5 Flash Lite等模型,可与Qwen2.5 - VL - 72B媲美。自开源后收获全球AI开源社区认可,取得多项优异成绩。同时推出Qwen3 - VL Cookbook助用户上手。

OPPO ColorOS 16:重构AI战略,开启系统升级新征程

OPPO在2025年开发者大会上推出全新操作系统ColorOS 16,其AI技术架构围绕On - Device Compute端侧智能计算、PersonaX记忆共生引擎、Agent Matrix智能体生态框架三大核心底座重构,迈向AI OS新时代。系统在流畅体验、设计语言、跨设备协同和AI能力等维度全面升级,如搭载极光、潮汐、繁星三大引擎提升流畅度,引入"光场"UI设计等。ColorOS 16于10月15日起向审核通过用户推送,10月30日全量推送,OPPO Find X9系列等首批搭载。同时,公布"隐私安全智护体系",上线"一键出海"服务。其战略路径从"AI for System"迈入"System for AI",正朝"AI as System"推进。

谷歌更新旗舰视频生成模型Veo 3.1,功能升级但仍有不足

2025年10月16日凌晨,谷歌更新旗舰视频生成模型Veo 3.1,引发网友关注,用户已在Flow中生成超2.75亿个视频。该模型功能亮点包括更强的叙事与音频控制,使视频具电影质感,以及更丰富的输入与编辑能力,迈入「导演级」精控阶段。它已接入Gemini API与Vertex AI,普通用户可在Flow或Gemini中体验。测试效果流畅自然。5个月前谷歌推出的由Veo驱动的AI电影制作工具Flow,此次更新推出剪辑编辑新功能和增强创意能力。技术规格上,支持输出720p或1080p分辨率视频,帧率24fps,视频时长可选4 - 8秒,使用Extend功能最长可扩展至148秒。不过,此次更新更像「功能小升级」,成片质感进步有限,存在原生时长短、画面衔接偶有问题、音频提升一般、人物表演与复杂调度不足等问题。

Anthropic发布Claude Haiku 4.5:便宜快速的轻量级模型,营收前景可观

距上次新品发布仅两周,Anthropic发布轻量级模型Claude Haiku 4.5,主打"更便宜、更快速"。其编码性能与Claude Sonnet 4媲美,成本仅为其三分之一,推理速度提升一倍多,在部分任务上超越Claude Sonnet 4。该模型面向实时、低延迟任务场景,安全性高。早期客户评价积极。Claude Sonnet 4.5和Claude Haiku 4.5配合使用可为企业客户带来优势。Claude Haiku 4.5已全球上线,用户可通过多种渠道访问。近期Anthropic动作频繁,有报道称其到年底有望实现90亿美元年化营收目标,明年基准情况超200亿美元,最佳可达260亿美元,本月年化营收接近70亿美元。

火山引擎升级语音模型,AI 语音体验再突破

火山引擎升级了豆包·语音合成模型 2.0 和豆包·声音复刻模型 2.0。豆包语音合成模型 2.0 生成声音与真人几无差别,摆脱机械感且情感丰富,还有默认模式、语音指令、引入上文三种玩法升级。声音复刻模型 2.0 娱乐性强,能克隆动漫与真人声音,首创 Query - Response 能力。这两款模型应用场景广泛,涵盖短剧配音、情感陪伴等领域,在教育场景对公式朗读优化,准确率近 90%。其核心优势在于 AI 语音理解能力觉醒,模糊了 AI 和人的边界,未来或实现声音分身。

Anthropic发布Agent Skills:按需加载专业能力,开启Claude新玩法

2025年10月18日,Anthropic发布Agent Skills,即按需加载专业能力(提示词包、代码包),具有可组合、可移植、高效且包含代码等特点。Skills可官方预设或自行上传,Claude工作时按需加载,如处理Excel报表加载xlsx skill。它不仅有文字指令,还能附带Python脚本、Bash命令等在沙箱环境执行,甚至可组合使用。该功能可在Claude网站、API和Claude Code中使用,Claude apps的Pro、Max、Team、Enterprise用户均可使用,Anthropic提供公开skills。API新增了 /v1/skills 端点,使用需开启Code Execution Tool beta,定价为 $0.05/会话小时,最少计费5分钟;Claude Code是命令行工具,可从 anthropics/skills 市场安装,团队能通过版本控制共享。创建skills可使用"skill-creator"的skill,上传时拖拽 .zip 包。Skills能跨平台复用、团队共享、组合使用,Claude Agent SDK也支持,但存在安全性等问题,Anthropic提醒使用可信来源的skills。

Manus 1.5版本:AI构建产品新飞跃

昨日Manus正式推出1.5版本,在速度与推理质量上持续提升,将"上线部署"等传统人为环节纳入Agent执行能力,引入"内建浏览器",新增"Library"文件库并开放多人协同编辑,还区分旗舰版和轻量版以适配不同场景,平台数据显示任务完成时长大幅缩短且用户评价积极。实测中,通过自然语言指令让Manus 1.5基于歌曲《技能五子棋》重新填词并搭建可互动魔改的音乐网页应用,经两轮指令迭代落地。该版本体验更流畅,任务拆解等方面更稳定,"内建浏览器"让"用AI构建产品"更便捷。

百度开源PaddleOCR - VL:多模态文档解析全球领先

百度新发布并开源的多模态文档解析模型PaddleOCR - VL在OCR领域表现卓越。它参数量仅0.9B,在OmniDocBench V1.5榜单综合性能全球第一,发布16小时登顶抱抱脸Trending全球第一,四大核心能力全面SOTA。其文本识别支持109种语言,公式识别CDM得分高,表格理解可精准解析复杂表格,阅读顺序预测误差小。该模型在数据训练、架构设计和技术上均有创新,可作"文档工作助手",与RAG系统融合,是企业知识中台建设关键基础设施,标志中国模型在全球多模态文档解析赛道领先。

原文链接:全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

甲骨文推出全球最大云端AI超算,挑战云计算巨头

2025年10月20日消息,甲骨文在AI World 2025大会上推出全球最大云端AI超级计算机「OCI Zettascale10」,成为OpenAI「星际之门」集群的算力核心。该系统横跨多数据中心,由80万块NVIDIA GPU组成,峰值算力达16 ZettaFLOPS。甲骨文与OpenAI在德州阿比林共建「星际之门」集群,其定制的Acceleron RoCE网络架构提升了大模型训练效率,该架构降低通信延迟、具备故障自动切换功能,还削减了网络能耗与冷却成本。甲骨文计划2026年下半年提供Zettascale10集群服务,目前已开始接受预订,但16 ZFLOPS算力未经验证。面对微软、谷歌、亚马逊等云计算巨头竞争,甲骨文推出「多云通用积分」计划降低客户迁移门槛。

DeepSeek 开源 3B 参数量 OCR 模型 DeepSeek - OCR

2025 年 10 月 20 日,DeepSeek 开源新的 OCR 模型 DeepSeek - OCR,参数量 3B,刚上线就有 100 多次下载量,该项目由三位研究员完成,一作 Haoran Wei 有丰富 OCR 开发经验。此模型利用视觉模态压缩长文本上下文,采用端到端 VLM 架构,由 DeepEncoder 和 MoE 解码器组成。训练数据包括 OCR 1.0、2.0 数据和通用视觉数据,训练时先独立训练 DeepEncoder,再在 HAI - LLM 平台训练 DeepSeek - OCR。实验显示,其在视觉 - 文本压缩、OCR 实际性能上表现出色,还能深度解析多种图形,支持近 100 种语言识别。详情可以点击https://mp.weixin.qq.com/s/RWmTAk-SMadqi5BZEy9pqA

Vidu更新:新功能与APP升级,开启AI视频生成新体验

本次Vidu更新亮点颇多,10月21日全球正式上线Vidu Q2参考生功能,具备高一致性、速度快、价格优且无需邀请码;网页端首次单独上线视频延长功能,免费用户最长生成30秒,付费用户可达5分钟,支持多种视频生成方式;APP全面改版升级为一站式AI内容社交平台,降低创作门槛,有海量主体库。功能测试显示,其语义理解准确、多主体一致性好、运镜可实现商品多角度展示。相比上版本,推理生成速度快3倍且"加量不加价",在电商等行业应用前景广泛。用户可于10月21日登录Vidu官网(https://www.vidu.cn/create )体验新功能,也可在各大应用平台搜索"Vidu AI"下载全新改版APP。

谷歌与高德:AI 改写地图 APP,开启现实世界新体验

谷歌方面,即日起开发者可通过 Gemini API 调用谷歌地图工具,将位置感知功能整合进应用,该功能接通 2.5 亿个地点地理数据库,支持 Gemini 2.5 Flash - Lite 等部分模型,基于查询次数收费,玩法具个性化等特点,适用于多领域。用户可在谷歌 AI Studio 体验。高德则用 AI 重塑出行体验,其空间智能以导航地图 APP 为应用场景,7 月推出小高老师智能体,9 月推出高德扫街榜,让地图从"导航工具"变为"空间智能体"。二者均用 AI 完成对地图的升维改造。]

六大顶级大语言模型实盘交易大比拼

nof1.ai发起Alpha Arena实验,让OpenAI的GPT - 5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet、xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat这六大顶级大语言模型在真实交易市场实盘厮杀,各模型初始资金10000美元,接收相同市场数据和交易指令做决策。截至目前,DeepSeek V3.1盈利排第一,Grok 4次之,Gemini 2.5 Pro赔得最惨,不同时段各模型收益有波动。金融市场作为新型图灵测试,考验模型在不确定性中生存的能力,同时文档还展示了模型在11:14 - 11:15时的交易决策和账户情况。

Anthropic上线网页版Claude Code,编程新体验来袭!

2025年10月21日凌晨,Anthropic上线「Claude Code on the web」(网页版Claude Code)功能,用户可直接从浏览器委派编程任务。该版本目前处于Beta阶段,作为研究预览版向Pro和Max用户开放。其功能优势显著,可将多个编程任务交Claude在云端基础设施运行,适合处理漏洞积压等工作。具有并行运行编程任务(无需终端启动,可跨仓库并行、实时追踪进度并完成交付)、灵活的工作流(网页端适配现有流程,iOS应用已开放,后续优化移动端体验)、安全第一的云执行环境(隔离沙盒运行,限制网络和文件系统,确保访问授权仓库且支持自定义网络配置)三大亮点。

Adobe发布Adobe AI Foundry,开启企业生成式AI定制新时代

2025年10月21日,Adobe发布全新服务Adobe AI Foundry,将生成式AI带入企业定制时代。企业能通过该平台与Adobe合作构建基于自身品牌和知识产权训练的专属生成式AI模型,用于生成文本、图片、视频和3D场景。其底层由Adobe的Firefly系列模型支持,该模型于2023年推出且基于授权数据训练,Foundry服务在此基础上定制微调,让客户拥有"品牌模型",按使用量收费。此服务是Adobe企业级AI战略延伸,满足企业让Adobe深入参与创意流程的需求,自Firefly上线企业用户已生成超250亿创意资产,新模型可助品牌实现个性化营销。Adobe目标是为创意人员提供强大工具,而非取代他们。

搜狗与腾讯视频推出混元大模型AI分身应用,《许我耀眼》热度创新高

搜狗输入法和腾讯视频陆续推出基于腾讯混元大模型的AI分身应用。搜狗输入法推出行业首个电脑端AI陪伴助手"职场搭子",可在电脑端随时唤起"小婉",能理解对话、多轮交流和调用工具。腾讯视频在《许我耀眼》中推出主角AI分身"追剧搭子",以"文字回复 + 语音播报"交流,配主角同款声音。混元AI分身依托升级的角色扮演大模型,深度模拟角色特性,减少OOC问题。《许我耀眼》因AI分身互动玩法热度攀升,刷新腾讯视频都市剧热度纪录,更多应用体验可在官网创建。

OpenAI 重磅发布 AI 浏览器 ChatGPT Atlas

2025 年 10 月 22 日,OpenAI 发布 AI 浏览器 ChatGPT Atlas。此前山姆・奥特曼多次表达对浏览器的兴趣,还曾有潜在收购 Chrome 的意愿。目前仅发布 macOS 版,对 Free、Plus、Pro 和 Go 用户免费开放,后续将推出 Windows、iOS 和 Android 版本,下载地址为 https://chatgpt.com/atlas 。该浏览器将 ChatGPT 接入,能让其看到用户所在页面并通过侧边栏回答问题,目标是构建超级助理。它有诸多特色功能,如内置 ChatGPT 记忆和浏览器记忆功能、可让 ChatGPT 提供建议与执行功能、具备智能体模式,首次打开还能一键导入书签等。在安全方面,限制用户运行代码等操作,访问敏感网站需确认,虽经数千小时测试,但仍提醒谨慎使用。

谷歌AI Studio大更新:全新"vibe编程体验"一键生成AI应用

2025年10月22日谷歌AI Studio进行大更新,推出全新"vibe编程体验",可一键生成AI应用。其基于Gemini API基础设施,核心是帮助构建AI应用;启动界面提供"赋能"建议,还有"手气不错"按钮可生成创意应用想法。以构建AI主持问答游戏为例,不到1分钟可生成应用,生成中用户可与模型交流、提修改建议,还有保存到GitHub、部署应用等操作选项,且可随时编辑代码。体验免费,若用Cloud Run部署或非免费高级模型,需切换付费API密钥。此外,系统会制定应用构建计划,平台有"AI建议功能"。该体验直观、操作简单,对编程小白友好,性能强大,提升了模型能力。

腾讯开源混元世界模型1.1:解锁秒级3D世界创造新体验

腾讯正式发布并开源混元世界模型1.1版本(WorldMirror)。该模型新增支持多视图及视频输入,单卡即可部署,能秒级创造3D世界,让3D重建技术更普及。相较于7月推出的混元世界模型1.0,1.1版本解决了输入局限,支持多模态先验注入和多任务统一输出的端到端3D重建,还支持额外多模态先验输入,基于统一架构实现多种3D几何预测,性能超现有方法。它具有灵活处理输入、通用3D视觉预测、单卡部署秒级推理三大特性,架构设计含多模态先验提示等。在3D点云重建和端到端3D高斯重建任务中表现领先。开发者可克隆GitHub仓库本地部署,普通用户可在HuggingFace Space在线体验。

相关推荐
猴子吃桃_Q8 天前
AI一周资讯 251005-251015
ai一周资讯
猴子吃桃_Q18 天前
AI一周资讯 250926-251005
ai一周资讯
猴子吃桃_Q1 个月前
AI一周资讯 250918-250925
ai一周资讯