51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)

51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)

AI模型

  1. V4-Flash模型长对话后性能下降 --- DeepSeek V4-Flash在对话超过40轮、约300K token后,表现会明显下降。 🔗

产品发布

  1. ChatGPT图像功能使用率暴增 --- ChatGPT图像功能几周内使用量增长超50%,近60%的每日用户是新注册用户。 🔗

  2. Codex应用迎来大量功能更新 --- Codex近两周更新了GPT-5.5集成、浏览器控制、文档处理和多项性能优化。 🔗

  3. 谷歌测试Gemini Omni视频生成模型 --- 谷歌I/O泄露信息显示Gemini正在测试Omni视频生成模型,可能升级现有Veo能力。 🔗

  4. OpenClaw更新集成Grok 4.3等多模型 --- OpenClaw 2026.5.2集成Grok 4.3,并优化插件稳定性和多平台支持。 🔗

研究论文

  1. FPGA上跑通MicroGPT,纯硬件实现 --- MicroGPT Transformer已经能在FPGA上纯硬件运行,不依赖GPU、PyTorch或CPU推理循环。 🔗

  2. Claude Opus 4.7自主实现AlphaZero式自对弈 --- Claude Opus 4.7在消费级硬件上3小时从零实现AlphaZero式自对弈,并在四子棋上表现优异。 🔗

  3. 当前AI Agent记忆机制更像备忘录 --- 新论文认为现有Agent记忆系统偏向记录和检索,缺少把短期记忆巩固成长期知识的能力。 🔗

  4. 利用智能体推理将LLM变为自主系统的统一路线图 --- 综述论文提出"智能体推理"框架,试图把LLM组织成能自主执行复杂任务的系统。 🔗

工具推荐

  1. Gemini 3.1用于快速构建动画网站 --- Gemini 3.1在14分钟内生成带动画的网站,展示了多模态模型做前端原型的速度。 🔗

  2. 快速语音识别模型支持单词级时间戳-whisperX --- 开源语音识别模型支持快速转写、单词级时间戳和说话人分离,适合会议记录和字幕场景。 🔗

  3. 开源AI平台覆盖从流水线到Agent-zenml --- 开源AI平台提供从数据处理流水线到AI Agent构建部署的完整工具链。 🔗

  4. 动态AI Agent记忆系统开源 --- 动态记忆系统面向LLM Agent设计,用来管理和利用历史交互信息。 🔗

行业动态

  1. 多模态模型在视觉推理上仍有短板 --- 多模态模型能处理图像,但复杂视觉推理仍依赖语言表达,几何和逻辑理解容易卡住。 🔗

  2. 对比Mistral与DeepSeek的技术路线差异 --- Mistral近两年进展相对平缓,DeepSeek从V1到V4经历多次路线调整,技术演进更激进。 🔗

  3. AI诊断急诊患者准确率超过医生 --- 哈佛研究显示,AI在真实急诊患者诊断任务中的准确率超过两位主治医师。 🔗

  4. Gary Marcus详细论述AI社会负面效应清单 --- Gary Marcus梳理生成式AI在教育、监控、犯罪、偏见和信息污染等方面的社会问题。 🔗


关注我,每天获取AI最新资讯。

相关推荐
SAP上海工博云署几秒前
2026年中小企业SAP服务商选型技术解析
大数据·运维·数据库·人工智能·信息可视化·运维开发·信息与通信
涛声依旧-底层原理研究所几秒前
Node.js在高并发低延迟场景中的优势
java·人工智能·python·node.js
weixin_468466851 分钟前
图像分类技术落地应用与实战指南
人工智能·深度学习·ai·分类·数据挖掘·图像分类·模型部署
MediaTea3 分钟前
人工智能通识课:深度学习
人工智能·深度学习
长风2303 分钟前
Day10:直面深水区——总结系统痛点与底层架构重塑
人工智能·安全
2601_949936963 分钟前
2026电商运营个人能力提升计划进阶指南
大数据·人工智能
Surpass-HC6 分钟前
添加CLAUDE.md规则
人工智能
Slow菜鸟9 分钟前
AI 代码知识图谱 教程(一)| Codegraph(纯代码)
人工智能·知识图谱
薛定猫AI9 分钟前
【深度解析】Claude Opus 4.8:高推理强度、Agentic Coding 与长任务工作流实战
人工智能
谁似人间西林客10 分钟前
告别“手搓”时代:工艺智能如何解放工程师双手
人工智能