【AI News | 20250507】每日AI进展

AI Repos

SSL证书助手是一个免费开源的平台，基于Cloudflare Worker运行，旨在自动化SSL证书的申请和下发，尤其适用于多服务器或内网环境。它通过自动化的CNAME和DNS操作完成域名验证，支持Let's Encrypt、ZeroSSL等多个证书提供商。相较于acme.sh，该平台通过一次CNAME设置即可永久使用，简化了通配符证书申请和多服务器同步。用户可选择使用演示平台或部署私有实例，后者安全性更高。

2、chonkie

Chonkie是一个Python库，以其超轻量级、极速和易用性著称，专为文本分块而设计，尤其适用于RAG应用。它提供了包括递归、语义、代码和神经等多种分块策略，并通过CHOMP流水线实现灵活的文本处理。Chonkie支持17+集成，涵盖主流tokenizer、嵌入模型和LLM提供商，并能与多种向量数据库连接。其安装体积小巧，速度在多项基准测试中领先于其他库。Chonkie旨在提供高效、便捷的文本分块方案。

3、agent-as-a-judge

Agent-as-a-Judge 是一种新颖的评判 agentic 工作的方法和理念，旨在跨领域自动化评估并生成高质量的 agentic 数据集。该方法通过在任务执行期间或之后进行评估，相较人工专家节省了高达 97% 的时间和成本，并能提供连续的、逐步的反馈作为 agentic 系统训练和改进的奖励信号。MetaAuto-AI 开源的 DeepWiki (OpenWiki) 进一步展示了其应用潜力。作为概念验证，Agent-as-a-Judge 在 DevAI 代码生成基准测试中表现出色，显著优于传统评估方法，为 agentic 系统的可扩展自改进提供了可靠的奖励信号。

4、agent-squad

灵活地编排多个 AI 智能体以处理复杂的对话。它具备智能意图分类、双语支持、灵活的响应方式和上下文管理等特性，并易于扩展和部署。框架包含预构建的智能体和分类器，并通过引入 SupervisorAgent 实现更高级的团队协作和并行处理。Agent Squad 可应用于多种场景，如智能客服、AI 电影制作和旅行规划等，其架构通过分类器智能路由用户输入至最合适的智能体，并维护对话历史以实现连贯交互。丰富的示例和文档方便用户快速上手和探索其强大功能。

AI News

1、小红书推出多模态笔记推荐框架 NoteLLM，提升用户体验

小红书发布了名为 NoteLLM 的多模态大型语言模型框架，旨在提升笔记推荐的精准度。该框架通过对比学习和指令微调生成笔记的压缩嵌入与自动标签，解析用户行为以实现更相关的推荐。升级版 NoteLLM-2 引入多模态输入，能同时处理文本和图像信息，利用多模态上下文学习和晚期融合增强视觉理解，从而实现更全面准确的推荐。NoteLLM 已应用于个性化推荐、冷启动推荐和标签生成等场景，助力用户发现感兴趣内容，并为新笔记提供快速曝光机会，推动小红书内容推荐服务升级。

2、IBM 发布小巧强大的 Granite 4.0 Tiny Preview：突破长上下文处理限制

IBM 发布了 Granite4.0 Tiny Preview，作为其 Granite4.0 系列中最小的模型，展现了高效能和极低的内存需求，在消费级 GPU 上即可处理 128K 长上下文的并发任务。该模型采用创新的混合 Mamba-2/Transformer 架构，总参数 70 亿，推理时仅激活 10 亿，实现了速度与精度的结合。其不使用位置编码的设计使其理论上能处理无限长序列，目前已在 128K 上表现良好。Granite4.0 Tiny 的效率使其适用于多种企业应用，IBM 将持续完善并在未来分享更多进展。

3、腾讯元宝文生图功能升级：支持混元与 DeepSeek 双模型驱动

腾讯元宝宣布其文生图功能迎来重大升级，现已支持腾讯混元和 DeepSeek 两大模型生成图像。用户仅需一句简单的文字描述，即可在元宝全端生成高质量、复杂且富有想象力的图片。升级后的功能能够自动扩展和细化提示词，确保生成的图像与描述高度一致，无论是漫画风格还是莫奈画作都能轻松实现。此次升级显著提升了图像质量和多样性，并降低了使用门槛，让即使不熟悉专业提示词的用户也能便捷地创作出心仪的图像，用户可自由选择混元或 DeepSeek 模型进行创作。

4、阶跃星辰开源音乐大模型音跃ACE-Step：快速高质量生成多语言音乐

阶跃星辰与 ACE Studio 联合发布并开源了音乐大模型音跃 ACE-Step，该 35 亿参数模型具备快速高质量生成、强可控性和易于拓展等特点，支持包括中、英、日等 19 种语言的歌曲生成。ACE-Step 通过创新架构和训练策略提升了旋律流畅性和歌词契合度，支持多种音乐风格创作和高质量纯音乐生成。其快速和慢速两种生成模式最快仅需 15 秒即可生成整首歌曲，并支持在不改变旋律的情况下精确修改歌词内容。ACE-Step 具备高度可拓展性，支持 LoRA 和 ControlNet 等微调方式，采用一阶段 DiT 架构和 REPA 技术提升音频质量，并利用 DCAE 和线性 Transformer 架构提高生成速度与效率，为全球创作者提供高效灵活的音乐创作工具。

5、CausVid：新型混合 AI 模型实现秒级高质量视频生成

麻省理工学院 CSAIL 与 Adobe Research 联合研发出新型混合 AI 模型 CausVid，可在几秒钟内生成高质量视频，突破了传统逐帧生成方式的效率瓶颈。CausVid 结合了全序列扩散模型和自回归模型，由扩散模型指导自回归系统预测下一帧，有效避免错误累积，保证视频流畅一致。该模型支持文本提示生成视频、静态图片转动态场景以及多种视频编辑任务。性能测试显示，CausVid 的生成速度是 OpenSORA 和 MovieGen 等基准模型的 100 倍，且在画质和稳定性方面表现更优，未来有望实现更长时间、更高质量的视频即时生成。

6、Lightricks 发布开源视频模型 LTXV-13B：消费级硬件提速 30 倍

Lightricks 发布了拥有 130 亿参数的开源 AI 视频生成模型 LTXV-13B，该模型通过创新的"多尺度渲染"技术，在消费级硬件上实现了高达 30 倍的生成速度提升。LTXV-13B 逐层生成视频细节，降低了计算需求，使得用户在普通电脑上也能制作高质量 AI 视频。Lightricks 将该模型完全开源，并在 Hugging Face 和 GitHub 上提供访问，同时免费授权给年收入低于 1000 万美元的初创企业，旨在推动 AI 视频生成技术的发展和应用。

7、ComfyUI 品牌升级并推出原生 API 节点，一站式接入主流 AI 模型

ComfyUI 完成品牌升级，并推出了核心功能------原生 API 节点，集成了包括 Flux.1、Veo2、GPT-Image-1 等 11 个主流在线视觉 AI 模型和 65 个新节点，显著提升了图像和视频生成能力。用户无需自行申请 API 密钥，登录 ComfyUI 平台即可无缝调用这些付费模型 API，并将其生成结果直接融入 ComfyUI 工作流。此次更新简化了高级模型的接入流程，提高了工作流效率，尤其在处理复杂生成任务时速度提升显著。ComfyUI 在品牌焕新的同时，也重申了其开源、自由、灵活的理念，API 节点的使用完全可选，平台将始终保持免费开源。

8、联想发布"天禧超级智能体"，开启混合式 AI 新纪元

在 2025 联想创新科技大会上，联想正式发布了面向个人和企业的"天禧超级智能体"。这款产品被定位为个性化 AI 的超级入口，具备感知与交互、认知与决策、自主与演进三大核心能力。天禧支持多模态感知和自然语言指令，能够整合个人数据和外部信息完成复杂推理任务，并能自主拆解和执行任务，根据用户反馈不断优化。联想强调 AI 不会取代人类，而是赋能创造力，而天禧正是旨在通过个性化 AI 体验和智能生态系统建设，加速混合式 AI 的全面落地，让用户"越用越聪明"。

9、Klavis AI 开源 MCP 集成，赋能大规模用户与自定义工具

Klavis AI 推出了开源 MCP 集成解决方案，旨在为开发者提供高效稳定的 AI 应用集成与部署环境。该项目已在 GitHub 开源，提供全面的工具和资源，支持在一分钟内将 AI 应用连接至生产就绪的 MCP 服务器和客户端，并具备快速扩展能力。Klavis AI 的 MCP 集成提供稳定可靠的 MCP 服务器、内置身份验证、官方或评估认证的高品质保障，以及 Slack、Discord 和 Web 等多种客户端集成方式。此外，它还支持 100 多种工具的集成与定制，满足多样化的开发需求，加速 AI 技术的创新与普及。

10、OpenAI 发布新一代 GPT-4.1 模型，与智谱 Z.ai 同日竞争

OpenAI 发布了最新的 GPT-4.1 模型及其小型版本，相较前代在编码能力、指令跟踪和长上下文处理（高达 100 万 tokens）方面均有显著提升，尤其在 SWE-bench Verified 编码测试中表现领先。与此同时，智谱也推出了新款 32B/9B 系列 GLM 模型在 Z.ai 平台开放免费体验，直接与 GPT-4.1 展开竞争。两家公司的新模型都在代码生成和长上下文理解方面展现出强大能力，且 GPT-4.1 的使用成本有所降低，预示着 AI 领域的激烈竞争格局。

11、Google 发布升级版 Gemini 2.5 Pro AI 模型，提升开发者编码能力

Google 在 I/O 2025 开发者大会前夕推出了升级版 Gemini 2.5 Pro Preview 模型，通过 Gemini API、Vertex AI 和 AI Studio 平台提供，价格与之前版本相同，并将集成至 Gemini 聊天机器人应用。新模型在编码和构建交互式 Web 应用方面显著提升，尤其在代码转换和编辑任务中表现出色，并在 WebDev Arena 排行榜上取得优异成绩。此外，其视频理解能力也在 VideoMME 基准测试中获得高分。此次升级还解决了开发者反馈的问题，如减少函数调用错误，旨在为开发者提供更强大的工具，助力其在技术环境中保持竞争力。

12、360 开源升级 7B 参数模型 360Zhinao3-7B，各项能力显著提升

360 集团开源升级了其自研的 7B 参数模型 360Zhinao3-7B，该模型通过仅增量训练 700B 高质量 token，在数学、科学和通用能力上均实现显著提升，尤其在端侧应用方面展现出优势。升级版模型通过更严格的数据筛选和调整数据配比，增强了指令遵循和推理能力，并将最大窗口长度扩展至 32k，优化了长文本处理能力。评估结果显示，360Zhinao3-7B 在同尺寸模型中具备竞争力，并在长思维链训练后，于数学和科学数据上达到相当水平，同时在通用多轮对话等方面表现更优。该模型的开源旨在推动 AI 技术发展。