👉👉原文链接👈👈
阅读详细图文,可访问知识库
「 OpenAI 」
◇ OpenAI 计划下周推出 GPT 商店,可销售 / 共享定制聊天机器人 🔗 Twitter
OpenAI 宣布 GPT Store 将于下周正式推出,允许开发者在平台上销售和分享基于其大型语言模型 GPT 构建的聊天机器人。开发者的收入将与其 GPT 的使用量有关。GPT Builder 工具简化了聊天机器人的创建过程,无需编写代码。平台将提供搜索栏和排行榜,以便用户查找和识别受欢迎和有用的聊天机器人。此外,自定义版 ChatGPT 还支持图像生成,整合了最新的图像模型 DALL-E 3。
◇ ChatGPT 持续火热, OpenAI 年收入突破 16 亿美元 🔗 News
OpenAI 年收入预计超 16 亿美元,得益于 GPT-4 和 ChatGPT 企业版。尽管 CEO 罢免事件,公司估值超 1000 亿美元,正在洽谈新一轮融资。ChatGPT 在生成式 AI 领域广受欢迎,占据 80%的财富 500 强企业使用份额。2023 年,ChatGPT 占据 60%生成式 AI 工具流量,用户数达 1.9 亿峰值,通过 API 和企业产品再次增长。2024 年路线图包括 GPT-5 和先进的语音模型,有望推动收入增长。
「 行业动态 」
◇ 李飞飞团队新作: AI 透视眼,穿越障碍看清你,渲染遮挡人体有新突破了 🔗 News
李飞飞教授团队在论文《Wild2Avatar》中提出了一种新的神经渲染方法,适用于有遮挡的野外单目视频。该模型通过遮挡感知场景参数化,将场景分为遮挡、人体和背景,实现在遮挡情况下高保真、完整的 3D 人体渲染。实验证明在被遮挡的单目摄像头视频上,Wild2Avatar 相比传统方法表现更出色。
◇ MIT、普林斯顿&卡内基梅隆大学团队利用 LLM 进行聚变研究 🔗 News
科学家们利用大型语言模型(如 ChatGPT、Bard 和 LLaMA)帮助核聚变研究,迅速筛选大量数据,为实时决策提供支持。模型能识别相似实验,提供设备控制信息,并快速回答聚变反应堆和等离子体物理学问题。研究基于普林斯顿大学、卡内基梅隆大学和麻省理工学院的合作,展望将模型应用于聚变设施,并指出对不再运行的反应堆也有应用潜力。
◇ 阿里云通义千问 APP 上线免费功能"通义舞王" 🔗 News
阿里通义千问 APP 推出图片生成舞蹈功能,用户只需上传一张照片,即可生成多种舞蹈视频,包括科目三、鬼步舞等。该功能利用阿里最新研发的 Animate Anyone 算法,有效解决视频生成中的细节不一致和运动不连贯问题,受到广大网友欢迎。研究者认为这是 AI 在视频生成领域的重大进展,将触及更多人并带来生产力和创新的颠覆。
◇ 小冰公司宣布获得大模型备案 🔗 News
小冰公司宣布成功备案"小冰大模型"并正式发布一系列测试产品。其中,小冰克隆人允许创作者通过小冰框架克隆自己,已有 80 万创作者参与,成为全球最大 AI C2C 私域平台。此外,小冰数字员工产品升级,提供企业客户实时智能交互。洛天依入驻 X Studio,小冰还与小爱同学、OPPO 等伙伴深度合作。未来将公布小冰在日本的计划。
◇ 英特尔成立新 AI 软件公司专为企业客户提供生成式软件 🔗 News
美国英特尔宣布在数字资产管理公司 DigitalBridge Group 和其他投资者支持下,围绕人工智能(AI)软件业务成立独立公司 Articul8 AI。该公司提供全栈生成式人工智能平台,支持安全地保存客户数据,并由前英特尔高管 Arun Subramaniyan 担任首席执行官。这是英特尔寻求外部资本的最新举措,旨在加速人工智能发展。新公司不会上市,将提供企业级生成式人工智能解决方案。
◇ 骁龙 888 实时运行,美团、浙大等打造全流程移动端多模态 大模型 MobileVLM 🔗 News
移动设备上出现了多模态大模型的趋势,美团和浙大等推出了 MobileVLM,是专为移动场景设计的多模态视觉语言模型。该模型结合了语言模型和多模态视觉模型,在各种基准测试中表现优异,且在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。MobileVLM 的设计考虑了资源有限的边缘设备,包括视觉编码器、定制的语言模型(MobileLLaMA),以及高效的映射网络。
◇ 2024 年第一天的 LLM 和编程 🔗 News
安提雷兹在一篇文章中分享了他在使用法学硕士(LLM)和 ChatGPT 中的经验。他强调了法学硕士在编写代码和解决特定编程问题方面的帮助,特别是在处理复杂任务和学习新技术方面。他讨论了 LLM 的知识和插值能力,并将其比喻为一个博学的"愚蠢学者",在特定领域提供广泛的知识。最后,他分享了使用 LLM 编写一次性程序的实例,以及如何加速他对特定知识需求的满足。
◇ Jim Fan:抵制住写论文的冲动,写更少更好的论文 🔗 Twitter
新年决心:减少发表论文。考虑影响力、服务 AI 社区、可获取性、方法通用性、规模化、技术简洁和未来保障。建议每人限制在 20 篇终身论文,以确保深思熟虑。2024 年关注合成数据研究,将旧技术用于 LLMs。 LeCun 拒绝 Google 职位的原因是当时公司规模小,无实质研究可能。介绍了一个低成本、开源、移动机械臂项目。最后,强调用自己的机器做顿饭的愉悦。
◇ 2024 年 AI 还能帮你干什么? 🔗 News
IDC 发布的《2024AIGC 应用层十大趋势》报告指出,AIGC 正在工具化,加速超级入口的形成,还带来新工种。AI Agent 和超级入口是关键词,企业试点认为"人+AI 助理"将成为未来协同模式,而自然语言重新定义应用的交互入口。对于打工人来说,掌握 AI 技能将增加竞争力,而主流平台如钉钉也在提供各种 AI 能力,进一步增强打工人的生产力。2024 年 AIGC 应用十大趋势包括应用层创新、AI Agent、专属模型、超级入口、多模态、AI 原生应用、AI 工具化、AI 普惠化等,为打工人提供更多机会和便利。
◇ 大模型都会标注图像了,简单对话即可! 🔗 News
新加坡国立大学 NExT++实验室与清华刘知远团队合作推出多模态模型 NExT-Chat,引入位置输入和输出能力,解决复杂定位问题。在多任务数据集上,NExT-Chat 在指代表达式分割、REC 任务、图像幻觉等任务上表现出色,采用全新的基于 embedding 的位置建模方式 pix2emb。通过三阶段训练,NExT-Chat 展现出强大的位置建模和分割能力。
◇ 文生视频下一站, Meta 已经开始视频生视频了 🔗 News
得州大学奥斯汀分校和 Meta GenAI 的研究者提出了一种新的视频到视频(V2V)合成框架,名为 FlowVid。该框架结合了空间条件和时间光流线索,通过流变形实现时间一致的视频合成,具有卓越的灵活性。在合成效率上,相较于其他方法,FlowVid 表现更优,生成高质量的视频。
◇ 给 3D 资产生成高清纹理,腾讯让 AI 扩充游戏皮肤 🔗 News
腾讯发布的 Paint3D 技术利用预训练 2D 图像生成模型,根据文本或图像输入,为 3D 模型生成高分辨率、无光照的纹理贴图。这项技术通过两阶段纹理生成框架解决了生成高质量纹理的挑战,得到了学术界和业界的高度评价。Paint3D 标志着自动化纹理贴图生成领域的进步,为 3D 对象纹理化提供了先进技术。
◇ 大模型幻觉问题无解?理论证明校准的 LLM 必然会出现幻觉 🔗 News
新研究发现,经过校准的语言模型(LLM)必然会出现幻觉,即生成看似合理但虚假或误导性响应。论文认为,预训练语言模型在特定类型的事实上产生幻觉存在统计学原因,与 Transformer 架构或数据质量无关。研究者提供了一个幻觉率的下限,指出优良的预测文本性能的语言模型必然产生幻觉,即便在理想条件下。他们采用了生成模型的校准概念,并通过缺失质量估计提供了幻觉率的下限,强调即便使用完美训练数据,经过校准的模型仍可能出现幻觉。
◇ 华为改进 Transformer 架构!盘古-π解决特征缺陷问题,同规模性能超 LLaMA 🔗 News
华为盘古-π量子模型架构通过增强非线性解决 Transformer 架构中的特征塌陷问题,提高模型表达能力。在多任务测试中,7B 规模的盘古-π超越同规模的 LLaMA 2,并实现 10%推理加速;1B 规模在 SOTA 水平。基于此架构还研发了金融法律大模型"云山",由陶大程领衔。
◇ AI 绘图模型不会写字的难题,被阿里破解了 🔗 News
阿里巴巴推出的绘图工具 AnyText 支持中英日韩四语言,准确地向图中加入文字,解决了以往绘图模型难以处理中文等结构复杂文字的问题。通过分离文字生成过程的两个模块,AnyText 实现了高书写精度和文字与背景一致性。在测试中,其准确度明显高于 ControlNet,且可自定义字体。
「 趣玩推荐 」
◇ LARP:开放世界游戏的语言代理角色扮演 🔗 Link
在开放世界游戏中,语言代理角色扮演(LARP)框架弥合了语言代理与游戏之间的鸿沟。引入认知架构,包括记忆处理和决策助手,以适应复杂环境并保持长期记忆。LARP 通过改进用户与代理之间的互动,提升在开放世界情境下的游戏体验,同时突显语言模型在娱乐、教育和模拟场景中的多样应用。
「 学习资源推荐 」
◇ DeepLearningAI 新课程:《使用 Chroma 进行 AI 高级检索》 🔗 Twitter
- 学会识别查询何时产生不良结果。
- 学习使用大型语言模型 (LLM) 来改进您的查询。
- 学习根据用户反馈微调嵌入。
◇ cute 之高效 GEMM 实现 🔗 Link
本文介绍了 cute 框架在实现高效矩阵乘法方面的抽象和技术,包括 Layout、Tensor、MMA、Copy、Swizzle 等。通过优化计算、访存、算法等方面,实现了与 cuBLAS、cuBLASLt 相媲美的高性能矩阵乘法。详细讨论了计算指令选择、数据划分、数据拷贝等关键步骤,并通过 cute 框架实现了高效的矩阵乘法。
「 智能硬件:智能硬件、机器人、智能穿戴设备...」
◇ 「灌篮高手」模拟人形机器人,一比一照搬人类篮球招式 🔗 News
机器人 PhysHOI 通过观看人与物体交互演示学习运球、灌篮等技能,无需特定任务奖励,具有高度逼真的模仿能力。研究人员使用动作捕捉技术提取 HOI 数据,引入接触图奖励,成功避免局部最优解。在测试中,PhysHOI 在两个数据集上表现出 95.4%和 82.4%的最高成功率,显著优于其他方法。
◇ 隆重推出 𝐌𝐨𝐛𝐢𝐥𝐞 𝐀𝐋𝐎𝐇𝐀低成本、开源、移动操纵器 🔗 Twitter
介绍 ALOHA:一款低成本、开源、移动操纵机器人系统。ALOHA 在斯坦福经过 8 个月迭代和与测试用户合作 2 个月后正式发布。该系统搭载在 Tracer AGV 移动基座上,能以 1.6m/s 的速度运动,承载 100kg 重物,成本仅为 7k 美元。ALOHA 实现了全身操作,具备稳定性和高度自由度。通过神经网络控制,机器人可完成复杂移动操纵任务,如烹饪、呼叫电梯、将锅具存储到橱柜。
「 投融资信息」
◇ 原钉钉副总裁创业杀入 AI Agent 赛道,获亿元融资 🔗 News
人工智能公司斑头雁智能科技已完成近千万美元 A 轮融资,用于发展企业级 AI Agent 产品 BetterYeah AI。公司由钉钉创始团队成员张毅创立,致力于解决企业销售、客服、营销场景,已在一些行业领军企业中取得成功应用,产品能力包括多模态模型、工作流、数据集、工具和聊天。张毅表示公司将提供低成本 AI 开发平台和成熟 Agent,以促进 AI 在企业中的广泛应用。