【AI News | 20250424】每日AI进展

AI Repos

1、y-gui

y-gui是一款基于Web的图形界面AI聊天工具，支持配置多个AI模型，并利用强大的模型上下文协议（MCP）实现高级集成。除了标准的聊天功能，y-gui还通过MCP连接Gmail进行邮件管理，集成Google Calendar进行日程安排，支持在聊天中直接生成图像，并提供可扩展的框架以添加更多MCP服务器和工具。该应用采用React前端和Cloudflare Workers后端架构，具备安全认证、暗/亮主题切换、实时更新和响应式设计，所有聊天数据存储在Cloudflare R2中。

AI News

1、即梦3.0海外版发布：电影级视觉与精准英文排版引领AI创作

字节跳动即梦AI推出即梦3.0海外版，主打电影级画面品质、2K分辨率输出、超逼真材质和精准英文排版。新版本在英文文本生成与字体控制方面表现卓越，支持文本到图像、图像到图像和文本到视频创作。其核心技术包括增强型扩散变换器和优化的OCR与排版模块，并针对英文提示进行优化。即梦3.0适用于数字艺术、广告、社交媒体和品牌设计等多种场景，用户可通过官网和移动应用体验，部分功能需订阅。社区对其视觉效果和英文排版能力给予高度评价，并期待未来在中文排版和硬件优化方面有所提升。

2、Perplexity发布全新iOS AI语音助手，便捷生活与工作

AI公司Perplexity推出一款专为iOS平台设计的全新AI语音助手，旨在提供类似Siri的便捷体验。用户可以通过语音指令轻松实现网页浏览和多款应用的操作，包括自动地图搜索、餐厅预订、草拟邮件、设置提醒和媒体播放等。该AI助手利用先进的AI技术和深度学习算法，精准理解用户语音指令并迅速执行，旨在帮助用户更高效地管理日常生活和工作，提升使用体验。

3、智谱多款大模型降价，"亿时代"来临，GLM-4-Plus降幅达90%

智谱BigModel开放平台宣布大幅下调旗下多款大模型产品价格，进入"亿时代"。其中，GLM-4-FlashX降至每亿tokens 10元，GLM-Z1-Air和AirX分别降至50元和500元每亿tokens，GLM-Z1-AirX推理速度远超DeepSeek-R1。旗舰模型GLM-4-Plus降价90%，至每百万tokens 5元，性能领先且价格极具竞争力。此次降价旨在以高性价比模型赋能更多企业和开发者，平台强调降价不降级，并已吸引大量用户接入，Tokens调用量快速增长。

4、DTVM开源：全球首个集成大模型开发框架的区块链虚拟机

全球首个集成大模型开发框架的区块链虚拟机DTVM正式开源。DTVM通过创新JIT引擎与全链路优化，性能较传统解释执行提升约30倍，并完全兼容以太坊生态。其延迟JIT编译技术显著降低智能合约首次调用延迟，复杂计算性能提升明显。DTVM无缝兼容六种主流编程语言，并通过简化可信计算基提升安全性。最重要的是，DTVM集成了基于大语言模型的AI工具套装SmartCogent，实现从编码、审计到部署的全流程AI驱动开发，逻辑漏洞检测和修复成功率显著提升，标志着Web3.0技术迈向AI原生开发时代。

5、Perplexity语音助手全新升级：多任务处理与实时交互再创新高

Perplexity AI在iOS应用中推出全新语音助手功能，支持设置闹钟、查找路线、发送消息、预订餐厅等多种任务，并集成实时搜索与多应用联动，提供无缝智能生活体验。该助手基于先进的ASR和上下文感知引擎，支持多模态输入和多语言交互，用户可通过语音、屏幕或摄像头进行操作。其应用场景广泛，涵盖日常生活管理、旅行导航、工作效率提升和教育研究等。Perplexity语音助手已登陆iOS和Android平台，并计划推出Mac版，旨在打造更智能、更便捷的AI助手生态。

6、Meta Ray-Ban智能眼镜推送实时翻译功能，支持四种语言及离线使用

Meta宣布Ray-Ban Meta智能眼镜的实时翻译功能已向全球用户开放，支持英语、法语、意大利语和西班牙语的实时双向翻译。用户通过语音指令即可启动，眼镜还能离线使用，只需提前下载语言包。该功能因其直观性和接近自然对话的体验受到好评。其背后是Meta AI对语音识别、自然语言处理和语音合成技术的深度整合。尽管在中等语速和简短句子中表现出色，但在快速对话或长篇发言时可能存在延迟。此次更新标志着智能穿戴设备实用性的提升。

7、昆仑万维开源Skywork-R1V 2.0：视觉与文本推理能力双重提升

昆仑万维开源了其多模态推理模型Skywork-R1V 2.0，该版本在视觉和文本推理能力上均显著提升，尤其在高考理科难题和通用任务中表现出色，刷新多项开源基准测试记录。R1V2.0在中文场景下表现突出，理科题目推理能力领先，文本推理方面也展现出专家级水平。其性能提升归功于新推出的多模态奖励模型Skywork-VL Reward和混合偏好优化机制（MPO）。昆仑万维已在Hugging Face和GitHub上开源R1V2.0的38B权重和完整报告，旨在推动多模态生态建设和通用人工智能的发展。

8、纳米AI发布MCP万能工具箱：一键集成百余AI服务与常用API

纳米AI推出MCP万能工具箱，旨在简化Model Context Protocol (MCP)的配置。该工具箱预配置了超过100个MCP服务，内置18个常用API密钥，涵盖高德地图、MiniMax多模态生成、Firecrawl深度搜索等功能，用户可通过简单调用实现复杂任务自动化。工具箱提供统一调用接口、内置密钥管理和安全沙箱环境，并兼容开源框架。目前处于内测阶段，需邀请码访问，但其便捷性有望加速MCP生态的普及，应用于内容创作、市场研究和企业自动化等多种场景。

9、OpenAI发布gpt-image-1 API：开放4o强大图像生成能力

OpenAI正式发布gpt-image-1 API，开放其4o模型强大的图像生成能力，被誉为"世界最强生图"工具。该API支持高保真图像生成、多样化视觉风格和强大的世界知识整合，并优化了文本渲染。基于改进的扩散模型，API生成高质量图像速度快，并与ComfyUI等工具集成。应用场景广泛，涵盖数字艺术、广告、教育和自动化工作流。API需组织认证后使用，并按Token计费，定价较高。社区对其高保真和多样化风格表示赞赏，并期待未来降低成本和扩展功能。

10、Ostris发布Flex.2-preview：8亿参数扩散模型革新ComfyUI工作流

Ostris团队发布了基于8亿参数的文本到图像扩散模型Flex.2-preview，专为ComfyUI集成设计。该模型在线条、姿态和深度控制生成以及图像修补方面表现出色，支持通用控制与节点化工作流。Flex.2-preview继承了Flux.1的架构并进行了轻量化优化，生成速度快且资源占用低，适合消费级GPU。通过AI-Toolkit支持微调，并在VBench评估中表现优异，尤其在控制精度和图像质量上超越前代模型，为AI艺术创作社区带来更灵活高效的工具。