【AI News | 20250424】每日AI进展

AI Repos

1、y-gui

y-gui是一款基于Web的图形界面AI聊天工具,支持配置多个AI模型,并利用强大的模型上下文协议(MCP)实现高级集成。除了标准的聊天功能,y-gui还通过MCP连接Gmail进行邮件管理,集成Google Calendar进行日程安排,支持在聊天中直接生成图像,并提供可扩展的框架以添加更多MCP服务器和工具。该应用采用React前端和Cloudflare Workers后端架构,具备安全认证、暗/亮主题切换、实时更新和响应式设计,所有聊天数据存储在Cloudflare R2中。

AI News

1、即梦3.0海外版发布:电影级视觉与精准英文排版引领AI创作

字节跳动即梦AI推出即梦3.0海外版,主打电影级画面品质、2K分辨率输出、超逼真材质和精准英文排版。新版本在英文文本生成与字体控制方面表现卓越,支持文本到图像、图像到图像和文本到视频创作。其核心技术包括增强型扩散变换器和优化的OCR与排版模块,并针对英文提示进行优化。即梦3.0适用于数字艺术、广告、社交媒体和品牌设计等多种场景,用户可通过官网和移动应用体验,部分功能需订阅。社区对其视觉效果和英文排版能力给予高度评价,并期待未来在中文排版和硬件优化方面有所提升。

2、Perplexity发布全新iOS AI语音助手,便捷生活与工作

AI公司Perplexity推出一款专为iOS平台设计的全新AI语音助手,旨在提供类似Siri的便捷体验。用户可以通过语音指令轻松实现网页浏览和多款应用的操作,包括自动地图搜索、餐厅预订、草拟邮件、设置提醒和媒体播放等。该AI助手利用先进的AI技术和深度学习算法,精准理解用户语音指令并迅速执行,旨在帮助用户更高效地管理日常生活和工作,提升使用体验。

3、智谱多款大模型降价,"亿时代"来临,GLM-4-Plus降幅达90%

智谱BigModel开放平台宣布大幅下调旗下多款大模型产品价格,进入"亿时代"。其中,GLM-4-FlashX降至每亿tokens 10元,GLM-Z1-Air和AirX分别降至50元和500元每亿tokens,GLM-Z1-AirX推理速度远超DeepSeek-R1。旗舰模型GLM-4-Plus降价90%,至每百万tokens 5元,性能领先且价格极具竞争力。此次降价旨在以高性价比模型赋能更多企业和开发者,平台强调降价不降级,并已吸引大量用户接入,Tokens调用量快速增长。

4、DTVM开源:全球首个集成大模型开发框架的区块链虚拟机

全球首个集成大模型开发框架的区块链虚拟机DTVM正式开源。DTVM通过创新JIT引擎与全链路优化,性能较传统解释执行提升约30倍,并完全兼容以太坊生态。其延迟JIT编译技术显著降低智能合约首次调用延迟,复杂计算性能提升明显。DTVM无缝兼容六种主流编程语言,并通过简化可信计算基提升安全性。最重要的是,DTVM集成了基于大语言模型的AI工具套装SmartCogent,实现从编码、审计到部署的全流程AI驱动开发,逻辑漏洞检测和修复成功率显著提升,标志着Web3.0技术迈向AI原生开发时代。

5、Perplexity语音助手全新升级:多任务处理与实时交互再创新高

Perplexity AI在iOS应用中推出全新语音助手功能,支持设置闹钟、查找路线、发送消息、预订餐厅等多种任务,并集成实时搜索与多应用联动,提供无缝智能生活体验。该助手基于先进的ASR和上下文感知引擎,支持多模态输入和多语言交互,用户可通过语音、屏幕或摄像头进行操作。其应用场景广泛,涵盖日常生活管理、旅行导航、工作效率提升和教育研究等。Perplexity语音助手已登陆iOS和Android平台,并计划推出Mac版,旨在打造更智能、更便捷的AI助手生态。

6、Meta Ray-Ban智能眼镜推送实时翻译功能,支持四种语言及离线使用

Meta宣布Ray-Ban Meta智能眼镜的实时翻译功能已向全球用户开放,支持英语、法语、意大利语和西班牙语的实时双向翻译。用户通过语音指令即可启动,眼镜还能离线使用,只需提前下载语言包。该功能因其直观性和接近自然对话的体验受到好评。其背后是Meta AI对语音识别、自然语言处理和语音合成技术的深度整合。尽管在中等语速和简短句子中表现出色,但在快速对话或长篇发言时可能存在延迟。此次更新标志着智能穿戴设备实用性的提升。

7、昆仑万维开源Skywork-R1V 2.0:视觉与文本推理能力双重提升

昆仑万维开源了其多模态推理模型Skywork-R1V 2.0,该版本在视觉和文本推理能力上均显著提升,尤其在高考理科难题和通用任务中表现出色,刷新多项开源基准测试记录。R1V2.0在中文场景下表现突出,理科题目推理能力领先,文本推理方面也展现出专家级水平。其性能提升归功于新推出的多模态奖励模型Skywork-VL Reward和混合偏好优化机制(MPO)。昆仑万维已在Hugging Face和GitHub上开源R1V2.0的38B权重和完整报告,旨在推动多模态生态建设和通用人工智能的发展。

8、纳米AI发布MCP万能工具箱:一键集成百余AI服务与常用API

纳米AI推出MCP万能工具箱,旨在简化Model Context Protocol (MCP)的配置。该工具箱预配置了超过100个MCP服务,内置18个常用API密钥,涵盖高德地图、MiniMax多模态生成、Firecrawl深度搜索等功能,用户可通过简单调用实现复杂任务自动化。工具箱提供统一调用接口、内置密钥管理和安全沙箱环境,并兼容开源框架。目前处于内测阶段,需邀请码访问,但其便捷性有望加速MCP生态的普及,应用于内容创作、市场研究和企业自动化等多种场景。

9、OpenAI发布gpt-image-1 API:开放4o强大图像生成能力

OpenAI正式发布gpt-image-1 API,开放其4o模型强大的图像生成能力,被誉为"世界最强生图"工具。该API支持高保真图像生成、多样化视觉风格和强大的世界知识整合,并优化了文本渲染。基于改进的扩散模型,API生成高质量图像速度快,并与ComfyUI等工具集成。应用场景广泛,涵盖数字艺术、广告、教育和自动化工作流。API需组织认证后使用,并按Token计费,定价较高。社区对其高保真和多样化风格表示赞赏,并期待未来降低成本和扩展功能。

10、Ostris发布Flex.2-preview:8亿参数扩散模型革新ComfyUI工作流

Ostris团队发布了基于8亿参数的文本到图像扩散模型Flex.2-preview,专为ComfyUI集成设计。该模型在线条、姿态和深度控制生成以及图像修补方面表现出色,支持通用控制与节点化工作流。Flex.2-preview继承了Flux.1的架构并进行了轻量化优化,生成速度快且资源占用低,适合消费级GPU。通过AI-Toolkit支持微调,并在VBench评估中表现优异,尤其在控制精度和图像质量上超越前代模型,为AI艺术创作社区带来更灵活高效的工具。

相关推荐
我是李武涯几秒前
PyTorch Dataloader工作原理 之 default collate_fn操作
pytorch·python·深度学习
AI视觉网奇14 分钟前
Python 检测运动模糊 源代码
人工智能·opencv·计算机视觉
东隆科技15 分钟前
PRIMES推出SFM 2D全扫描场分析仪革新航空航天LPBF激光增材制造
人工智能·制造
无风听海23 分钟前
神经网络之计算图repeat节点
人工智能·深度学习·神经网络
刘晓倩40 分钟前
在PyCharm中创建项目并练习
人工智能
Kratzdisteln42 分钟前
【Python】绘制椭圆眼睛跟随鼠标交互算法配图详解
python·数学·numpy·pillow·matplotlib·仿射变换
Dev7z1 小时前
阿尔茨海默病早期症状影像分类数据集
人工智能·分类·数据挖掘
神码小Z1 小时前
DeepSeek再开源3B-MoE-OCR模型,视觉压缩高达20倍,支持复杂图表解析等多模态能力!
人工智能
maxruan1 小时前
PyTorch学习
人工智能·pytorch·python·学习
吃饭睡觉发paper1 小时前
Learning Depth Estimation for Transparent and Mirror Surfaces
人工智能·机器学习·计算机视觉