【AI News | 20250609】每日AI进展

AI Repos

1、OpenHands-Versa

OpenHands-Versa 是一个通用型 AI 智能体,通过结合代码编辑与执行、网络搜索、多模态网络浏览和文件访问等通用工具,在软件工程、网络导航和工作流自动化等多个领域展现出卓越性能。它在 SWE-Bench Multimodal、GAIA 和 The Agent Company 等挑战性基准测试中均超越了现有专业智能体,证明了少量通用工具即可实现跨领域的高效泛化。OpenHands-Versa 的成功为开发能够解决多样化任务的通用智能体提供了强有力的基线。

2、GUI-Actor

GUI-Actor 提出了一种创新的、无坐标的 GUI 视觉定位方法,旨在克服传统基于坐标生成方法的局限性。该方法通过引入一个由动作头增强的 VLM,使智能体能够像人类一样直接感知并与目标元素交互,而不是计算精确的屏幕坐标。GUI-Actor 的注意力机制不仅能生成多个候选区域,还结合了一个接地验证器来选择最合理的动作区域,从而在多个 GUI 动作接地基准测试中实现了最先进的性能,特别是在 ScreenSpot-Pro 上表现出色。

3、MonkeyOCR

MonkeyOCR 引入了创新的结构-识别-关系(SRR)三元组范式,旨在简化多工具文档处理流程并提高效率。该方法在中文和英文文档处理上表现出色,尤其在公式和表格解析方面相比现有方法有显著提升。MonkeyOCR-3B 模型在处理多页文档时速度更快,且在英文文档上优于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等大型模型。目前主要支持 PDF 文档,未来将扩展对拍摄文档的支持。

AI News

1、Google Veo3 FAST/TURBO模式上线,AI视频生成进入"超速"时代!

Google近日推出Veo3旗舰AI视频生成工具的全新FAST/TURBO模式,大幅提升了视频生成效率和性价比。该模式将每段视频成本降低80%,为订阅用户提供五倍的生成量,并首次支持原生音频生成,实现音画同步的沉浸式体验。FAST模式虽在细节上与QUALITY模式有所差异,但凭借其在速度和成本上的优势,非常适合短视频和快速原型创作。此举标志着AI视频生成技术正迈向更高效、普惠的新阶段。

2、文档解析新突破:3B小模型MonkeyOCR性能超越Gemini

文档解析领域迎来重大进展,轻量级模型MonkeyOCR以其仅3B的参数量,在英文文档解析任务中展现出卓越性能,超越了Gemini 2.5 Pro等大型模型。它在公式和表格解析上提升显著,平均性能提升5.1%,并且解析速度高达每秒0.84页。MonkeyOCR采用独特的"结构-识别-关系"三元组范式,提高了准确率并降低了计算资源需求,为企业部署AI文档解析方案提供了高效、经济的选择。

3、小红书开源首个大模型dots.llm1:11.2万亿非合成数据赋能中文性能

小红书近日开源了其首个大规模专家混合模型dots.llm1,该模型拥有1420亿参数,但在推理时仅激活140亿参数,大幅降低了成本。它使用了11.2万亿非合成高质量训练数据,使其在中文测试中表现卓越,平均得分高达91.3,超越了多个竞争对手。dots.llm1采用独特的MoE架构和严格的数据处理流水线,旨在提升模型效率和中文性能,并已开源中间训练检查点以促进学术研究。

4、百度发布金融行业大模型"千帆慧金",智能体成AI竞争新焦点

在2025智能经济论坛上,百度智能云宣布推出金融行业大模型------千帆慧金,旨在为金融机构提供专业高效的AI解决方案。该模型基于海量金融数据训练,解决通用大模型在金融领域准确性不足的问题。百度执行副总裁沈抖强调,未来AI竞争将聚焦于智能体,百度智能云已推出多行业智能体解决方案,支持轻量化定制,助力企业快速实现数字化转型。

5、面壁智能发布MiniCPM 4.0端侧大模型,实现220倍速度提升

面壁智能于6月6日正式推出MiniCPM 4.0系列端侧大模型,包括8B闪电稀疏版和0.5B轻巧灵动版。该系列模型通过系统级稀疏创新和高效双频换挡技术,实现了极限220倍、常规5倍的速度提升,并大幅减少了端侧存储需求。MiniCPM 4.0在性能上以小成本超越同类竞品,并能通过自研推理框架实现模型瘦身90%及速度极致提升,目前已适配主流芯片和开源框架。

6、Dify智能体打造微信天气助手,轻松实现好友天气信息自动发送

近期,有开发者利用Dify平台结合MCP技术,成功创建了一个微信天气智能助手。该助手通过搭建MCP Server和使用wxauto库,实现了自动向微信好友发送天气信息的功能。用户只需输入地点,助手便能获取实时天气数据,并通过Dify智能体整合语音指令,将天气信息自动发送给指定好友。这一创新应用不仅简化了天气查询与分享,也展现了AI技术在提升日常便利性和降低开发成本方面的潜力。

7、智谱AI推出企业智能助手CoCo:交付导向、个性化服务,助力企业效率飙升

智谱AI近日发布全新企业级智能助手Agent CoCo,旨在显著提升企业工作效率。CoCo以交付为导向,提供全流程辅助,确保任务高质量完成。其独特的记忆机制能根据员工职能提供个性化服务和行业动态追踪。CoCo还能无缝嵌入企业现有系统,融合数据与工具,打造懂企业的智能助手。通过批量上岗Agent,CoCo将助力企业整体工作效能提升,并为员工带来更个性化、支持性的工作体验。

相关推荐
vlln23 分钟前
【论文解读】Search-R1:通过 RL 让 LLM 学会使用搜索引擎
人工智能·深度学习·神经网络·搜索引擎·transformer
alpszero23 分钟前
使用VSCode开发Django指南
vscode·python·django·sqlite
大数据魔法师34 分钟前
MongoDB(八) - MongoDB GridFS介绍及使用Python操作GridFS
数据库·python·mongodb
alfred_torres34 分钟前
CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型
人工智能·语言模型·自然语言处理
weixin_377634841 小时前
【python异步多线程】异步多线程爬虫代码示例
开发语言·爬虫·python
蹦蹦跳跳真可爱5891 小时前
Python----OpenCV(图像处理——图像的多种属性、RGB与BGR色彩空间、HSB、HSV与HSL、ROI区域)
图像处理·人工智能·opencv
人工智能教学实践1 小时前
根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:
人工智能·chatgpt
struggle20251 小时前
PennyLane 是一个用于量子计算、量子机器学习和量子化学的跨平台 Python 库。由研究人员构建,用于研究
python·量子计算
扑克中的黑桃A1 小时前
Python-素数
python
扑克中的黑桃A1 小时前
Python学习的自我理解和想法(4)
python