【AI News | 20250804】每日AI进展

AI Repos

llm.pdf是一个概念验证项目，展示了在单个PDF文件中运行完整大型语言模型的可能性。它通过Emscripten将llama.cpp编译为asm.js，并利用旧版PDF的JS注入漏洞执行代码，同时将整个LLM模型以Base64编码嵌入PDF。该项目支持使用GGUF量化模型，旨在证明无需外部依赖，即可在PDF文件内部进行LLM推理，为AI应用的本地化和隐私保护提供新思路。

AI News

1、小米开源MiDashengLM-7B多模态大模型

小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型，这款专注于音频理解的AI模型在性能和效率上实现了显著突破。采用创新的双核心架构设计，模型在22个公开评测集上刷新了多模态大模型的最好成绩，推理效率也展现出惊人优势。小米的这一技术突破，不仅为音频AI领域带来了新的发展机遇，也为终端设备的离线部署和功能完善奠定了基础。

2、问小白发布XBai o4开源大模型

国内AI厂商问小白近日发布了第四代开源大模型XBai o4，该模型在复杂推理能力上实现了重大突破，采用独创的反思型生成范式架构，显著提升了推理效率和质量。在多个权威基准测试中表现优异，特别是在数学推理和编程能力方面。问小白选择完全开源策略，推动行业协同发展，标志着AI推理能力竞赛进入新阶段。

3、腾讯混元团队开源四款小尺寸AI模型

腾讯混元团队宣布推出四款开源的小尺寸模型，参数分别为0.5B、1.8B、4B和7B，专为消费级显卡设计，适用于低功耗场景。这些模型支持垂直领域的低成本微调，具备快速推理和高性价比的特点，同时在语言理解、数学、推理等领域表现优异。模型已在Github和HuggingFace上线，并得到多家芯片平台支持。

4、谷歌开源LangExtract

谷歌最新发布的开源Python库LangExtract，利用大型语言模型如Gemini，高效从非结构化文本中提取结构化信息，为开发者和数据科学家提供强大工具。该库支持通过提示词和少量示例自定义提取任务，无需模型微调，适用于医疗、文学、商业等多个领域，展现了AI在数据提取中的巨大潜力。

5、谷歌Android Studio推出免费Agent模式

谷歌在Google I/O2025大会上宣布Android Studio推出免费的Agent模式，这一基于Gemini2.5Pro的AI辅助功能，通过自然语言交互帮助开发者完成复杂任务，显著提升开发效率。Agent模式支持自然语言任务描述、UI代码快速修改、自定义规则及百万Token上下文窗口，旨在解放开发者，专注于创意开发。此举被视为对苹果Xcode生态的有力挑战，展示了AI在移动开发领域的深入应用。

6、昆仑万维开源Skywork MindLink大模型

昆仑万维正式发布并开源了其最新推理大模型Skywork MindLink，包括72B模型权重、技术报告及代码仓库。该模型通过创新性推理框架实现动态路径选择，提升答案透明度与效率，在多项评测中表现卓越。技术层面，采用'Plan-based Reasoning'新范式，优化多轮对话体验，内置自适应推理系统自动调整生成策略。此举进一步夯实了昆仑万维在大模型领域的布局。

7、谷歌DeepMind推出Gemini2.5Deep Think

谷歌DeepMind宣布其最强大的AI模型Gemini2.5Deep Think正式向Google AI Ultra订阅用户开放。该模型在2025年国际数学奥林匹克竞赛中摘得金牌，并凭借其创新的"并行思考"和强化学习技术，在多个领域展现出惊艳表现。Gemini2.5Deep Think支持多模态与长上下文输入，适用于从学术研究到实时应用的多种场景。

8、谷歌AI团队发布MLE-STAR

谷歌AI团队近日发布了MLE-STAR，一款旨在自动化复杂机器学习流程设计与优化的先进代理系统。该系统通过结合大规模网络搜索、针对性代码优化和强大的检查模块，在多个机器学习工程任务上表现出色，超越了以往的自主机器学习代理和人类基线方法。MLE-STAR的创新之处在于其通过网络搜索选择模型和代码片段，采用两轮优化过程，并引入多个专门代理确保代码质量，显著提升了机器学习工程的效率和质量。

9、腾讯混元基础模型团队发布MixGRPO框架

腾讯的混元基础模型团队近日发布了突破性的图像生成框架MixGRPO，该框架通过结合随机微分方程和常微分方程的创新采样策略，显著缩短了训练时间并提升了性能。MixGRPO-Flash变体进一步将训练时间降低71%。这一技术优化了马尔可夫决策过程，通过限制智能体的随机探索范围减少计算开销，同时在图像生成的多样性和质量上取得进步。开源代码已发布，为图像生成技术的未来发展开辟了新方向。

10、NVIDIA推出Cosmos DiffusionRenderer：视频扩散框架助力高质量图像与视频渲染

NVIDIA近期发布了Cosmos DiffusionRenderer，这是一个新型视频扩散框架，旨在实现高质量图像和视频的重光源及去光源处理。此技术是对原有DiffusionRenderer方法的重大更新，通过改进的数据策划流程，显著提升了渲染质量。用户需满足一定的安装要求，包括Python3.10和至少16GB显存的NVIDIA GPU。该技术支持对图像和视频进行去光源及重光源处理，并能使用多种环境光照地图进行渲染，为视觉效果创作提供了极大的灵活性和创造性。

11、开源视频模型Wan2.2A14B领跑性能

最新报告显示，Wan2.2A14B在开源视频模型中性能领先，尤其在文本转视频方面表现突出，排名第七。尽管在图像转视频方面因帧率较低排名第十四，且与顶级闭源模型如Veo3和Seedance1.0相比整体性能仍有差距，但其显著的成本优势使其成为预算有限用户的理想选择。

文章内容引用自：jungleBlog