【AI News | 20250804】每日AI进展

AI Repos

1、llm.pdf

llm.pdf是一个概念验证项目,展示了在单个PDF文件中运行完整大型语言模型的可能性。它通过Emscripten将llama.cpp编译为asm.js,并利用旧版PDF的JS注入漏洞执行代码,同时将整个LLM模型以Base64编码嵌入PDF。该项目支持使用GGUF量化模型,旨在证明无需外部依赖,即可在PDF文件内部进行LLM推理,为AI应用的本地化和隐私保护提供新思路。

AI News

1、小米开源MiDashengLM-7B多模态大模型

小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型,这款专注于音频理解的AI模型在性能和效率上实现了显著突破。采用创新的双核心架构设计,模型在22个公开评测集上刷新了多模态大模型的最好成绩,推理效率也展现出惊人优势。小米的这一技术突破,不仅为音频AI领域带来了新的发展机遇,也为终端设备的离线部署和功能完善奠定了基础。

2、问小白发布XBai o4开源大模型

国内AI厂商问小白近日发布了第四代开源大模型XBai o4,该模型在复杂推理能力上实现了重大突破,采用独创的反思型生成范式架构,显著提升了推理效率和质量。在多个权威基准测试中表现优异,特别是在数学推理和编程能力方面。问小白选择完全开源策略,推动行业协同发展,标志着AI推理能力竞赛进入新阶段。

3、腾讯混元团队开源四款小尺寸AI模型

腾讯混元团队宣布推出四款开源的小尺寸模型,参数分别为0.5B、1.8B、4B和7B,专为消费级显卡设计,适用于低功耗场景。这些模型支持垂直领域的低成本微调,具备快速推理和高性价比的特点,同时在语言理解、数学、推理等领域表现优异。模型已在Github和HuggingFace上线,并得到多家芯片平台支持。

4、谷歌开源LangExtract

谷歌最新发布的开源Python库LangExtract,利用大型语言模型如Gemini,高效从非结构化文本中提取结构化信息,为开发者和数据科学家提供强大工具。该库支持通过提示词和少量示例自定义提取任务,无需模型微调,适用于医疗、文学、商业等多个领域,展现了AI在数据提取中的巨大潜力。

5、谷歌Android Studio推出免费Agent模式

谷歌在Google I/O2025大会上宣布Android Studio推出免费的Agent模式,这一基于Gemini2.5Pro的AI辅助功能,通过自然语言交互帮助开发者完成复杂任务,显著提升开发效率。Agent模式支持自然语言任务描述、UI代码快速修改、自定义规则及百万Token上下文窗口,旨在解放开发者,专注于创意开发。此举被视为对苹果Xcode生态的有力挑战,展示了AI在移动开发领域的深入应用。

6、昆仑万维开源Skywork MindLink大模型

昆仑万维正式发布并开源了其最新推理大模型Skywork MindLink,包括72B模型权重、技术报告及代码仓库。该模型通过创新性推理框架实现动态路径选择,提升答案透明度与效率,在多项评测中表现卓越。技术层面,采用'Plan-based Reasoning'新范式,优化多轮对话体验,内置自适应推理系统自动调整生成策略。此举进一步夯实了昆仑万维在大模型领域的布局。

7、谷歌DeepMind推出Gemini2.5Deep Think

谷歌DeepMind宣布其最强大的AI模型Gemini2.5Deep Think正式向Google AI Ultra订阅用户开放。该模型在2025年国际数学奥林匹克竞赛中摘得金牌,并凭借其创新的"并行思考"和强化学习技术,在多个领域展现出惊艳表现。Gemini2.5Deep Think支持多模态与长上下文输入,适用于从学术研究到实时应用的多种场景。

8、谷歌AI团队发布MLE-STAR

谷歌AI团队近日发布了MLE-STAR,一款旨在自动化复杂机器学习流程设计与优化的先进代理系统。该系统通过结合大规模网络搜索、针对性代码优化和强大的检查模块,在多个机器学习工程任务上表现出色,超越了以往的自主机器学习代理和人类基线方法。MLE-STAR的创新之处在于其通过网络搜索选择模型和代码片段,采用两轮优化过程,并引入多个专门代理确保代码质量,显著提升了机器学习工程的效率和质量。

9、腾讯混元基础模型团队发布MixGRPO框架

腾讯的混元基础模型团队近日发布了突破性的图像生成框架MixGRPO,该框架通过结合随机微分方程和常微分方程的创新采样策略,显著缩短了训练时间并提升了性能。MixGRPO-Flash变体进一步将训练时间降低71%。这一技术优化了马尔可夫决策过程,通过限制智能体的随机探索范围减少计算开销,同时在图像生成的多样性和质量上取得进步。开源代码已发布,为图像生成技术的未来发展开辟了新方向。

10、NVIDIA推出Cosmos DiffusionRenderer:视频扩散框架助力高质量图像与视频渲染

NVIDIA近期发布了Cosmos DiffusionRenderer,这是一个新型视频扩散框架,旨在实现高质量图像和视频的重光源及去光源处理。此技术是对原有DiffusionRenderer方法的重大更新,通过改进的数据策划流程,显著提升了渲染质量。用户需满足一定的安装要求,包括Python3.10和至少16GB显存的NVIDIA GPU。该技术支持对图像和视频进行去光源及重光源处理,并能使用多种环境光照地图进行渲染,为视觉效果创作提供了极大的灵活性和创造性。

11、开源视频模型Wan2.2A14B领跑性能

最新报告显示,Wan2.2A14B在开源视频模型中性能领先,尤其在文本转视频方面表现突出,排名第七。尽管在图像转视频方面因帧率较低排名第十四,且与顶级闭源模型如Veo3和Seedance1.0相比整体性能仍有差距,但其显著的成本优势使其成为预算有限用户的理想选择。

文章内容引用自:jungleBlog

相关推荐
怒放吧德德3 小时前
Python3基础:基础实战巩固,从“会用”到“活用”
后端·python
aiguangyuan3 小时前
基于BERT的中文命名实体识别实战解析
人工智能·python·nlp
喵手3 小时前
Python爬虫实战:知识挖掘机 - 知乎问答与专栏文章的深度分页采集系统(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集知乎问答与专栏文章·采集知乎数据·采集知乎数据存储sqlite
铉铉这波能秀3 小时前
LeetCode Hot100数据结构背景知识之元组(Tuple)Python2026新版
数据结构·python·算法·leetcode·元组·tuple
量子-Alex3 小时前
【大模型RLHF】Training language models to follow instructions with human feedback
人工智能·语言模型·自然语言处理
kali-Myon3 小时前
2025春秋杯网络安全联赛冬季赛-day2
python·安全·web安全·ai·php·pwn·ctf
晚霞的不甘3 小时前
Flutter for OpenHarmony 实现计算几何:Graham Scan 凸包算法的可视化演示
人工智能·算法·flutter·架构·开源·音视频
陈天伟教授3 小时前
人工智能应用- 语言处理:04.统计机器翻译
人工智能·自然语言处理·机器翻译
猫头虎3 小时前
OpenClaw-VSCode:在 VS Code 里玩转 OpenClaw,远程管理+SSH 双剑合璧
ide·vscode·开源·ssh·github·aigc·ai编程
Dfreedom.3 小时前
图像处理中的对比度增强与锐化
图像处理·人工智能·opencv·锐化·对比度增强