AI Repos
1、y-gui
y-gui是一款基于Web的图形界面AI聊天工具,支持配置多个AI模型,并利用强大的模型上下文协议(MCP)实现高级集成。除了标准的聊天功能,y-gui还通过MCP连接Gmail进行邮件管理,集成Google Calendar进行日程安排,支持在聊天中直接生成图像,并提供可扩展的框架以添加更多MCP服务器和工具。该应用采用React前端和Cloudflare Workers后端架构,具备安全认证、暗/亮主题切换、实时更新和响应式设计,所有聊天数据存储在Cloudflare R2中。
AI News
1、即梦3.0海外版发布:电影级视觉与精准英文排版引领AI创作
字节跳动即梦AI推出即梦3.0海外版,主打电影级画面品质、2K分辨率输出、超逼真材质和精准英文排版。新版本在英文文本生成与字体控制方面表现卓越,支持文本到图像、图像到图像和文本到视频创作。其核心技术包括增强型扩散变换器和优化的OCR与排版模块,并针对英文提示进行优化。即梦3.0适用于数字艺术、广告、社交媒体和品牌设计等多种场景,用户可通过官网和移动应用体验,部分功能需订阅。社区对其视觉效果和英文排版能力给予高度评价,并期待未来在中文排版和硬件优化方面有所提升。
2、Perplexity发布全新iOS AI语音助手,便捷生活与工作
AI公司Perplexity推出一款专为iOS平台设计的全新AI语音助手,旨在提供类似Siri的便捷体验。用户可以通过语音指令轻松实现网页浏览和多款应用的操作,包括自动地图搜索、餐厅预订、草拟邮件、设置提醒和媒体播放等。该AI助手利用先进的AI技术和深度学习算法,精准理解用户语音指令并迅速执行,旨在帮助用户更高效地管理日常生活和工作,提升使用体验。
3、智谱多款大模型降价,"亿时代"来临,GLM-4-Plus降幅达90%
智谱BigModel开放平台宣布大幅下调旗下多款大模型产品价格,进入"亿时代"。其中,GLM-4-FlashX降至每亿tokens 10元,GLM-Z1-Air和AirX分别降至50元和500元每亿tokens,GLM-Z1-AirX推理速度远超DeepSeek-R1。旗舰模型GLM-4-Plus降价90%,至每百万tokens 5元,性能领先且价格极具竞争力。此次降价旨在以高性价比模型赋能更多企业和开发者,平台强调降价不降级,并已吸引大量用户接入,Tokens调用量快速增长。
4、DTVM开源:全球首个集成大模型开发框架的区块链虚拟机
全球首个集成大模型开发框架的区块链虚拟机DTVM正式开源。DTVM通过创新JIT引擎与全链路优化,性能较传统解释执行提升约30倍,并完全兼容以太坊生态。其延迟JIT编译技术显著降低智能合约首次调用延迟,复杂计算性能提升明显。DTVM无缝兼容六种主流编程语言,并通过简化可信计算基提升安全性。最重要的是,DTVM集成了基于大语言模型的AI工具套装SmartCogent,实现从编码、审计到部署的全流程AI驱动开发,逻辑漏洞检测和修复成功率显著提升,标志着Web3.0技术迈向AI原生开发时代。
5、Perplexity语音助手全新升级:多任务处理与实时交互再创新高
Perplexity AI在iOS应用中推出全新语音助手功能,支持设置闹钟、查找路线、发送消息、预订餐厅等多种任务,并集成实时搜索与多应用联动,提供无缝智能生活体验。该助手基于先进的ASR和上下文感知引擎,支持多模态输入和多语言交互,用户可通过语音、屏幕或摄像头进行操作。其应用场景广泛,涵盖日常生活管理、旅行导航、工作效率提升和教育研究等。Perplexity语音助手已登陆iOS和Android平台,并计划推出Mac版,旨在打造更智能、更便捷的AI助手生态。
6、Meta Ray-Ban智能眼镜推送实时翻译功能,支持四种语言及离线使用
Meta宣布Ray-Ban Meta智能眼镜的实时翻译功能已向全球用户开放,支持英语、法语、意大利语和西班牙语的实时双向翻译。用户通过语音指令即可启动,眼镜还能离线使用,只需提前下载语言包。该功能因其直观性和接近自然对话的体验受到好评。其背后是Meta AI对语音识别、自然语言处理和语音合成技术的深度整合。尽管在中等语速和简短句子中表现出色,但在快速对话或长篇发言时可能存在延迟。此次更新标志着智能穿戴设备实用性的提升。
7、昆仑万维开源Skywork-R1V 2.0:视觉与文本推理能力双重提升
昆仑万维开源了其多模态推理模型Skywork-R1V 2.0,该版本在视觉和文本推理能力上均显著提升,尤其在高考理科难题和通用任务中表现出色,刷新多项开源基准测试记录。R1V2.0在中文场景下表现突出,理科题目推理能力领先,文本推理方面也展现出专家级水平。其性能提升归功于新推出的多模态奖励模型Skywork-VL Reward和混合偏好优化机制(MPO)。昆仑万维已在Hugging Face和GitHub上开源R1V2.0的38B权重和完整报告,旨在推动多模态生态建设和通用人工智能的发展。
8、纳米AI发布MCP万能工具箱:一键集成百余AI服务与常用API
纳米AI推出MCP万能工具箱,旨在简化Model Context Protocol (MCP)的配置。该工具箱预配置了超过100个MCP服务,内置18个常用API密钥,涵盖高德地图、MiniMax多模态生成、Firecrawl深度搜索等功能,用户可通过简单调用实现复杂任务自动化。工具箱提供统一调用接口、内置密钥管理和安全沙箱环境,并兼容开源框架。目前处于内测阶段,需邀请码访问,但其便捷性有望加速MCP生态的普及,应用于内容创作、市场研究和企业自动化等多种场景。
9、OpenAI发布gpt-image-1 API:开放4o强大图像生成能力
OpenAI正式发布gpt-image-1 API,开放其4o模型强大的图像生成能力,被誉为"世界最强生图"工具。该API支持高保真图像生成、多样化视觉风格和强大的世界知识整合,并优化了文本渲染。基于改进的扩散模型,API生成高质量图像速度快,并与ComfyUI等工具集成。应用场景广泛,涵盖数字艺术、广告、教育和自动化工作流。API需组织认证后使用,并按Token计费,定价较高。社区对其高保真和多样化风格表示赞赏,并期待未来降低成本和扩展功能。
10、Ostris发布Flex.2-preview:8亿参数扩散模型革新ComfyUI工作流
Ostris团队发布了基于8亿参数的文本到图像扩散模型Flex.2-preview,专为ComfyUI集成设计。该模型在线条、姿态和深度控制生成以及图像修补方面表现出色,支持通用控制与节点化工作流。Flex.2-preview继承了Flux.1的架构并进行了轻量化优化,生成速度快且资源占用低,适合消费级GPU。通过AI-Toolkit支持微调,并在VBench评估中表现优异,尤其在控制精度和图像质量上超越前代模型,为AI艺术创作社区带来更灵活高效的工具。