51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)
AI模型
- V4-Flash模型长对话后性能下降 --- DeepSeek V4-Flash在对话超过40轮、约300K token后,表现会明显下降。 🔗
产品发布
-
ChatGPT图像功能使用率暴增 --- ChatGPT图像功能几周内使用量增长超50%,近60%的每日用户是新注册用户。 🔗
-
Codex应用迎来大量功能更新 --- Codex近两周更新了GPT-5.5集成、浏览器控制、文档处理和多项性能优化。 🔗
-
谷歌测试Gemini Omni视频生成模型 --- 谷歌I/O泄露信息显示Gemini正在测试Omni视频生成模型,可能升级现有Veo能力。 🔗
-
OpenClaw更新集成Grok 4.3等多模型 --- OpenClaw 2026.5.2集成Grok 4.3,并优化插件稳定性和多平台支持。 🔗
研究论文
-
FPGA上跑通MicroGPT,纯硬件实现 --- MicroGPT Transformer已经能在FPGA上纯硬件运行,不依赖GPU、PyTorch或CPU推理循环。 🔗
-
Claude Opus 4.7自主实现AlphaZero式自对弈 --- Claude Opus 4.7在消费级硬件上3小时从零实现AlphaZero式自对弈,并在四子棋上表现优异。 🔗
-
当前AI Agent记忆机制更像备忘录 --- 新论文认为现有Agent记忆系统偏向记录和检索,缺少把短期记忆巩固成长期知识的能力。 🔗
-
利用智能体推理将LLM变为自主系统的统一路线图 --- 综述论文提出"智能体推理"框架,试图把LLM组织成能自主执行复杂任务的系统。 🔗
工具推荐
-
Gemini 3.1用于快速构建动画网站 --- Gemini 3.1在14分钟内生成带动画的网站,展示了多模态模型做前端原型的速度。 🔗
-
快速语音识别模型支持单词级时间戳-whisperX --- 开源语音识别模型支持快速转写、单词级时间戳和说话人分离,适合会议记录和字幕场景。 🔗
-
开源AI平台覆盖从流水线到Agent-zenml --- 开源AI平台提供从数据处理流水线到AI Agent构建部署的完整工具链。 🔗
-
动态AI Agent记忆系统开源 --- 动态记忆系统面向LLM Agent设计,用来管理和利用历史交互信息。 🔗
行业动态
-
多模态模型在视觉推理上仍有短板 --- 多模态模型能处理图像,但复杂视觉推理仍依赖语言表达,几何和逻辑理解容易卡住。 🔗
-
对比Mistral与DeepSeek的技术路线差异 --- Mistral近两年进展相对平缓,DeepSeek从V1到V4经历多次路线调整,技术演进更激进。 🔗
-
AI诊断急诊患者准确率超过医生 --- 哈佛研究显示,AI在真实急诊患者诊断任务中的准确率超过两位主治医师。 🔗
-
Gary Marcus详细论述AI社会负面效应清单 --- Gary Marcus梳理生成式AI在教育、监控、犯罪、偏见和信息污染等方面的社会问题。 🔗
关注我,每天获取AI最新资讯。
