OpenAI 计划下周推出 GPT 商店、OpenAI 年收入突破 16 亿美元、阿里云通义千问 APP 上线免费功能“通义舞王”、小冰公司宣布获得...

阅读详细图文，可访问知识库

「 OpenAI 」

◇ OpenAI 计划下周推出 GPT 商店，可销售 / 共享定制聊天机器人 🔗 Twitter

OpenAI 宣布 GPT Store 将于下周正式推出，允许开发者在平台上销售和分享基于其大型语言模型 GPT 构建的聊天机器人。开发者的收入将与其 GPT 的使用量有关。GPT Builder 工具简化了聊天机器人的创建过程，无需编写代码。平台将提供搜索栏和排行榜，以便用户查找和识别受欢迎和有用的聊天机器人。此外，自定义版 ChatGPT 还支持图像生成，整合了最新的图像模型 DALL-E 3。

◇ ChatGPT 持续火热， OpenAI 年收入突破 16 亿美元 🔗 News

OpenAI 年收入预计超 16 亿美元，得益于 GPT-4 和 ChatGPT 企业版。尽管 CEO 罢免事件，公司估值超 1000 亿美元，正在洽谈新一轮融资。ChatGPT 在生成式 AI 领域广受欢迎，占据 80%的财富 500 强企业使用份额。2023 年，ChatGPT 占据 60%生成式 AI 工具流量，用户数达 1.9 亿峰值，通过 API 和企业产品再次增长。2024 年路线图包括 GPT-5 和先进的语音模型，有望推动收入增长。

「行业动态」

◇ 李飞飞团队新作： AI 透视眼，穿越障碍看清你，渲染遮挡人体有新突破了 🔗 News

李飞飞教授团队在论文《Wild2Avatar》中提出了一种新的神经渲染方法，适用于有遮挡的野外单目视频。该模型通过遮挡感知场景参数化，将场景分为遮挡、人体和背景，实现在遮挡情况下高保真、完整的 3D 人体渲染。实验证明在被遮挡的单目摄像头视频上，Wild2Avatar 相比传统方法表现更出色。

◇ MIT、普林斯顿&卡内基梅隆大学团队利用 LLM 进行聚变研究 🔗 News

科学家们利用大型语言模型（如 ChatGPT、Bard 和 LLaMA）帮助核聚变研究，迅速筛选大量数据，为实时决策提供支持。模型能识别相似实验，提供设备控制信息，并快速回答聚变反应堆和等离子体物理学问题。研究基于普林斯顿大学、卡内基梅隆大学和麻省理工学院的合作，展望将模型应用于聚变设施，并指出对不再运行的反应堆也有应用潜力。

◇ 阿里云通义千问 APP 上线免费功能"通义舞王" 🔗 News

阿里通义千问 APP 推出图片生成舞蹈功能，用户只需上传一张照片，即可生成多种舞蹈视频，包括科目三、鬼步舞等。该功能利用阿里最新研发的 Animate Anyone 算法，有效解决视频生成中的细节不一致和运动不连贯问题，受到广大网友欢迎。研究者认为这是 AI 在视频生成领域的重大进展，将触及更多人并带来生产力和创新的颠覆。

◇ 小冰公司宣布获得大模型备案 🔗 News

小冰公司宣布成功备案"小冰大模型"并正式发布一系列测试产品。其中，小冰克隆人允许创作者通过小冰框架克隆自己，已有 80 万创作者参与，成为全球最大 AI C2C 私域平台。此外，小冰数字员工产品升级，提供企业客户实时智能交互。洛天依入驻 X Studio，小冰还与小爱同学、OPPO 等伙伴深度合作。未来将公布小冰在日本的计划。

◇ 英特尔成立新 AI 软件公司专为企业客户提供生成式软件 🔗 News

美国英特尔宣布在数字资产管理公司 DigitalBridge Group 和其他投资者支持下，围绕人工智能（AI）软件业务成立独立公司 Articul8 AI。该公司提供全栈生成式人工智能平台，支持安全地保存客户数据，并由前英特尔高管 Arun Subramaniyan 担任首席执行官。这是英特尔寻求外部资本的最新举措，旨在加速人工智能发展。新公司不会上市，将提供企业级生成式人工智能解决方案。

◇ 骁龙 888 实时运行，美团、浙大等打造全流程移动端多模态 大模型 MobileVLM 🔗 News

移动设备上出现了多模态大模型的趋势，美团和浙大等推出了 MobileVLM，是专为移动场景设计的多模态视觉语言模型。该模型结合了语言模型和多模态视觉模型，在各种基准测试中表现优异，且在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。MobileVLM 的设计考虑了资源有限的边缘设备，包括视觉编码器、定制的语言模型（MobileLLaMA），以及高效的映射网络。

◇ 2024 年第一天的 LLM 和编程 🔗 News

安提雷兹在一篇文章中分享了他在使用法学硕士（LLM）和 ChatGPT 中的经验。他强调了法学硕士在编写代码和解决特定编程问题方面的帮助，特别是在处理复杂任务和学习新技术方面。他讨论了 LLM 的知识和插值能力，并将其比喻为一个博学的"愚蠢学者"，在特定领域提供广泛的知识。最后，他分享了使用 LLM 编写一次性程序的实例，以及如何加速他对特定知识需求的满足。

◇ Jim Fan：抵制住写论文的冲动，写更少更好的论文 🔗 Twitter

新年决心：减少发表论文。考虑影响力、服务 AI 社区、可获取性、方法通用性、规模化、技术简洁和未来保障。建议每人限制在 20 篇终身论文，以确保深思熟虑。2024 年关注合成数据研究，将旧技术用于 LLMs。 LeCun 拒绝 Google 职位的原因是当时公司规模小，无实质研究可能。介绍了一个低成本、开源、移动机械臂项目。最后，强调用自己的机器做顿饭的愉悦。

◇ 2024 年 AI 还能帮你干什么？ 🔗 News

IDC 发布的《2024AIGC 应用层十大趋势》报告指出，AIGC 正在工具化，加速超级入口的形成，还带来新工种。AI Agent 和超级入口是关键词，企业试点认为"人+AI 助理"将成为未来协同模式，而自然语言重新定义应用的交互入口。对于打工人来说，掌握 AI 技能将增加竞争力，而主流平台如钉钉也在提供各种 AI 能力，进一步增强打工人的生产力。2024 年 AIGC 应用十大趋势包括应用层创新、AI Agent、专属模型、超级入口、多模态、AI 原生应用、AI 工具化、AI 普惠化等，为打工人提供更多机会和便利。

◇ 大模型都会标注图像了，简单对话即可！ 🔗 News

新加坡国立大学 NExT++实验室与清华刘知远团队合作推出多模态模型 NExT-Chat，引入位置输入和输出能力，解决复杂定位问题。在多任务数据集上，NExT-Chat 在指代表达式分割、REC 任务、图像幻觉等任务上表现出色，采用全新的基于 embedding 的位置建模方式 pix2emb。通过三阶段训练，NExT-Chat 展现出强大的位置建模和分割能力。

◇ 文生视频下一站， Meta 已经开始视频生视频了 🔗 News

得州大学奥斯汀分校和 Meta GenAI 的研究者提出了一种新的视频到视频（V2V）合成框架，名为 FlowVid。该框架结合了空间条件和时间光流线索，通过流变形实现时间一致的视频合成，具有卓越的灵活性。在合成效率上，相较于其他方法，FlowVid 表现更优，生成高质量的视频。

◇ 给 3D 资产生成高清纹理，腾讯让 AI 扩充游戏皮肤 🔗 News

腾讯发布的 Paint3D 技术利用预训练 2D 图像生成模型，根据文本或图像输入，为 3D 模型生成高分辨率、无光照的纹理贴图。这项技术通过两阶段纹理生成框架解决了生成高质量纹理的挑战，得到了学术界和业界的高度评价。Paint3D 标志着自动化纹理贴图生成领域的进步，为 3D 对象纹理化提供了先进技术。

◇ 大模型幻觉问题无解？理论证明校准的 LLM 必然会出现幻觉 🔗 News

新研究发现，经过校准的语言模型（LLM）必然会出现幻觉，即生成看似合理但虚假或误导性响应。论文认为，预训练语言模型在特定类型的事实上产生幻觉存在统计学原因，与 Transformer 架构或数据质量无关。研究者提供了一个幻觉率的下限，指出优良的预测文本性能的语言模型必然产生幻觉，即便在理想条件下。他们采用了生成模型的校准概念，并通过缺失质量估计提供了幻觉率的下限，强调即便使用完美训练数据，经过校准的模型仍可能出现幻觉。

◇ 华为改进 Transformer 架构！盘古-π解决特征缺陷问题，同规模性能超 LLaMA 🔗 News

华为盘古-π量子模型架构通过增强非线性解决 Transformer 架构中的特征塌陷问题，提高模型表达能力。在多任务测试中，7B 规模的盘古-π超越同规模的 LLaMA 2，并实现 10%推理加速；1B 规模在 SOTA 水平。基于此架构还研发了金融法律大模型"云山"，由陶大程领衔。

◇ AI 绘图模型不会写字的难题，被阿里破解了 🔗 News

阿里巴巴推出的绘图工具 AnyText 支持中英日韩四语言，准确地向图中加入文字，解决了以往绘图模型难以处理中文等结构复杂文字的问题。通过分离文字生成过程的两个模块，AnyText 实现了高书写精度和文字与背景一致性。在测试中，其准确度明显高于 ControlNet，且可自定义字体。

「趣玩推荐」

◇ LARP：开放世界游戏的语言代理角色扮演 🔗 Link

在开放世界游戏中，语言代理角色扮演（LARP）框架弥合了语言代理与游戏之间的鸿沟。引入认知架构，包括记忆处理和决策助手，以适应复杂环境并保持长期记忆。LARP 通过改进用户与代理之间的互动，提升在开放世界情境下的游戏体验，同时突显语言模型在娱乐、教育和模拟场景中的多样应用。

「学习资源推荐」

◇ DeepLearningAI 新课程：《使用 Chroma 进行 AI 高级检索》 🔗 Twitter

学会识别查询何时产生不良结果。

学习使用大型语言模型（LLM）来改进您的查询。

学习根据用户反馈微调嵌入。

◇ cute 之高效 GEMM 实现 🔗 Link

本文介绍了 cute 框架在实现高效矩阵乘法方面的抽象和技术，包括 Layout、Tensor、MMA、Copy、Swizzle 等。通过优化计算、访存、算法等方面，实现了与 cuBLAS、cuBLASLt 相媲美的高性能矩阵乘法。详细讨论了计算指令选择、数据划分、数据拷贝等关键步骤，并通过 cute 框架实现了高效的矩阵乘法。

「智能硬件：智能硬件、机器人、智能穿戴设备...」

◇ 「灌篮高手」模拟人形机器人，一比一照搬人类篮球招式 🔗 News

机器人 PhysHOI 通过观看人与物体交互演示学习运球、灌篮等技能，无需特定任务奖励，具有高度逼真的模仿能力。研究人员使用动作捕捉技术提取 HOI 数据，引入接触图奖励，成功避免局部最优解。在测试中，PhysHOI 在两个数据集上表现出 95.4%和 82.4%的最高成功率，显著优于其他方法。

◇ 隆重推出 𝐌𝐨𝐛𝐢𝐥𝐞 𝐀𝐋𝐎𝐇𝐀低成本、开源、移动操纵器 🔗 Twitter

介绍 ALOHA：一款低成本、开源、移动操纵机器人系统。ALOHA 在斯坦福经过 8 个月迭代和与测试用户合作 2 个月后正式发布。该系统搭载在 Tracer AGV 移动基座上，能以 1.6m/s 的速度运动，承载 100kg 重物，成本仅为 7k 美元。ALOHA 实现了全身操作，具备稳定性和高度自由度。通过神经网络控制，机器人可完成复杂移动操纵任务，如烹饪、呼叫电梯、将锅具存储到橱柜。

「投融资信息」

◇ 原钉钉副总裁创业杀入 AI Agent 赛道，获亿元融资 🔗 News

人工智能公司斑头雁智能科技已完成近千万美元 A 轮融资，用于发展企业级 AI Agent 产品 BetterYeah AI。公司由钉钉创始团队成员张毅创立，致力于解决企业销售、客服、营销场景，已在一些行业领军企业中取得成功应用，产品能力包括多模态模型、工作流、数据集、工具和聊天。张毅表示公司将提供低成本 AI 开发平台和成熟 Agent，以促进 AI 在企业中的广泛应用。

OpenAI 计划下周推出 GPT 商店、OpenAI 年收入突破 16 亿美元、阿里云通义千问 APP 上线免费功能“通义舞王”、小冰公司宣布获得...

「 OpenAI 」

「 行业动态 」

「 趣玩推荐 」

「 学习资源推荐 」

「 智能硬件：智能硬件、机器人、智能穿戴设备...」

「 投融资信息」

「行业动态」

「趣玩推荐」

「学习资源推荐」

「智能硬件：智能硬件、机器人、智能穿戴设备...」

「投融资信息」