51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)

51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)

AI模型

  1. V4-Flash模型长对话后性能下降 --- DeepSeek V4-Flash在对话超过40轮、约300K token后,表现会明显下降。 🔗

产品发布

  1. ChatGPT图像功能使用率暴增 --- ChatGPT图像功能几周内使用量增长超50%,近60%的每日用户是新注册用户。 🔗

  2. Codex应用迎来大量功能更新 --- Codex近两周更新了GPT-5.5集成、浏览器控制、文档处理和多项性能优化。 🔗

  3. 谷歌测试Gemini Omni视频生成模型 --- 谷歌I/O泄露信息显示Gemini正在测试Omni视频生成模型,可能升级现有Veo能力。 🔗

  4. OpenClaw更新集成Grok 4.3等多模型 --- OpenClaw 2026.5.2集成Grok 4.3,并优化插件稳定性和多平台支持。 🔗

研究论文

  1. FPGA上跑通MicroGPT,纯硬件实现 --- MicroGPT Transformer已经能在FPGA上纯硬件运行,不依赖GPU、PyTorch或CPU推理循环。 🔗

  2. Claude Opus 4.7自主实现AlphaZero式自对弈 --- Claude Opus 4.7在消费级硬件上3小时从零实现AlphaZero式自对弈,并在四子棋上表现优异。 🔗

  3. 当前AI Agent记忆机制更像备忘录 --- 新论文认为现有Agent记忆系统偏向记录和检索,缺少把短期记忆巩固成长期知识的能力。 🔗

  4. 利用智能体推理将LLM变为自主系统的统一路线图 --- 综述论文提出"智能体推理"框架,试图把LLM组织成能自主执行复杂任务的系统。 🔗

工具推荐

  1. Gemini 3.1用于快速构建动画网站 --- Gemini 3.1在14分钟内生成带动画的网站,展示了多模态模型做前端原型的速度。 🔗

  2. 快速语音识别模型支持单词级时间戳-whisperX --- 开源语音识别模型支持快速转写、单词级时间戳和说话人分离,适合会议记录和字幕场景。 🔗

  3. 开源AI平台覆盖从流水线到Agent-zenml --- 开源AI平台提供从数据处理流水线到AI Agent构建部署的完整工具链。 🔗

  4. 动态AI Agent记忆系统开源 --- 动态记忆系统面向LLM Agent设计,用来管理和利用历史交互信息。 🔗

行业动态

  1. 多模态模型在视觉推理上仍有短板 --- 多模态模型能处理图像,但复杂视觉推理仍依赖语言表达,几何和逻辑理解容易卡住。 🔗

  2. 对比Mistral与DeepSeek的技术路线差异 --- Mistral近两年进展相对平缓,DeepSeek从V1到V4经历多次路线调整,技术演进更激进。 🔗

  3. AI诊断急诊患者准确率超过医生 --- 哈佛研究显示,AI在真实急诊患者诊断任务中的准确率超过两位主治医师。 🔗

  4. Gary Marcus详细论述AI社会负面效应清单 --- Gary Marcus梳理生成式AI在教育、监控、犯罪、偏见和信息污染等方面的社会问题。 🔗


关注我,每天获取AI最新资讯。

相关推荐
Raink老师1 小时前
【AI面试临阵磨枪-32】如何提升工具调用(Function Call)准确率?常见失败场景与解决方法
人工智能·ai 面试
格林威1 小时前
线阵工业相机:线阵图像出现“波浪纹”,是机械振动还是编码器问题?
开发语言·人工智能·数码相机·计算机视觉·视觉检测·工业相机·线阵相机
knight_9___1 小时前
LLM工具调用面试篇5
人工智能·python·深度学习·面试·职场和发展·llm·agent
网络工程小王1 小时前
【LangChain Output Parser 输出解析器】输出篇
人工智能·学习·langchain
金智维科技官方1 小时前
AI智能体在7×24客服场景中的真实表现评估
大数据·人工智能·ai·rpa·智能体
liliangcsdn2 小时前
LLM如何辅助RAG从大量文档中筛选目标文档
开发语言·人工智能
Magic-Yuan2 小时前
泰勒制的崩塌 - 上
人工智能·管理
咚咚王者2 小时前
人工智能之提示词工程 第七章 行业场景深度落地案例
人工智能
feasibility.2 小时前
量化:LLM与CV模型的极致压缩艺术
人工智能·科技·llm·边缘计算·量化·cv·压缩