1019 早早聊 AI 资讯|美芯片禁令升级,英伟达 H800/A800 禁售、Meta 新 AI 系统:大脑数据绘制图像、大模型“重构”智能汽车...

👉👉原文链接👈👈

「 最新活动 」

◇ 杭州 AI 峰会:AI 最后一公里,变现探索 🔗 Link

AI 浪潮,一起搞钱!早鸟有限,详情链接:xhkzr.xet.tech/s/2LquL0

「 行业动态 」

◇ 英伟达 H800/A800 禁售,美芯片禁令升级 🔗 News

当地时间 10 月 17 日,美国再次加强了对中国出口尖端 AI 芯片的管制,这一新规旨在限制中国获得先进芯片,以限制人工智能和复杂计算领域的发展。该举措导致英伟达、AMD 和英特尔等公司的股价一度大幅下跌,尤其是英伟达,因其高性能半导体受到限制。新规取消了"带宽参数",引入了"性能密度"要求,禁止出口速度为 300 TFLOPS 及以上的数据中心芯片。速度在 150-300 TFLOPS 范围内的芯片需要符合"性能密度"条件,否则将禁止销售。英伟达的一些芯片,如 A100、A800、H100、H800、L40 和 L40S,需要额外的许可。此外新规还牵涉到 Chiplet 技术,以限制中国公司组装小芯片成更大的芯片。美国还强化了对 22 个国家的芯片出口许可证要求,包括 DUV 光刻机。由于这一政策,中国互联网巨头纷纷囤购英伟达芯片,以满足大型语言模型的需求。

◇ 端侧 AI 推理,高效部署 PyTorch 模型 🔗 News

在 2023 年的 PyTorch 大会上,针对在边缘和移动设备上实现 AI 推理的问题,推出了解决方案 ExecuTorch。ExecuTorch 是一个由 Meta AI 与 PyTorch 基金会合作开源的端到端 AI 推理解决方案,旨在在移动和边缘设备上推动 AI 推理的新发展。它具有高度的可移植性,可在移动设备和嵌入式设备上运行,包括可穿戴设备和手机,使 AI 应用能够本地运行,无需连接到服务器或云端。ExecuTorch 提供了优化开发工作效率的优势,适用于雷朋智能眼镜和 Quest 3 VR 头显等设备,并通过端到端工作流解决边缘设备的挑战。其关键组件包括紧凑的运行时和轻量级操作注册表,配备 SDK 和工具链以提供更出色的用户体验,并有效地将 PyTorch 模型部署到边缘设备。需要注意的是,ExecuTorch 目前仍为预览版本,不建议在生产环境中使用。

Meta AI 系统,大脑数据生成图像速度惊人 🔗 News

Meta AI 开发了一种人工智能系统,使用脑磁图(MEG)解码人脑中的视觉表示。这项技术有望为未来的非侵入式脑机接口铺平道路。这一系统几乎可以即时还原大脑的图像感知和处理方式,为我们提供关于图像表示和人工智能基础的新见解。研究人员认为,这项研究在长期内也有望帮助那些因脑损伤失去言语能力的人。该系统包括图像编码器、大脑编码器和图像解码器三个组件,并通过自我监督学习能够生成类似大脑表征的 AI 表示。尽管在图像生成方面不够准确,但 MEG 解码器速度极快,提供几乎实时的图像解码。这一研究支持 Meta AI 的长期愿景,旨在了解人类智能的基础并开发类似人类学习和思考的人工智能系统。

OpenAI 取消了更高效的 GPT-4 AI 模型"Arrakis" 🔗 News

OpenAI 曾计划开发名为 Arrakis 的 AI 模型,旨在提高 AI 推理效率并减低成本,但因质量问题而中止。该模型采用稀疏架构,只有一部分神经网络处理输入,以在功能上与 GPT-4 类似。然而,由于性能不佳,开发中止,OpenAI 可能会将 Arrakis 的工作融入其他模型中。Arrakis 原计划具备生成文本、图像和视频等能力,但最终未能如预期表现。微软原本计划通过 Arrakis 降低生成式 AI 产品的成本。Arrakis 被视为一个旨在生成更高效模型的系统,可能会在 GPT-3.5 Turbo 的开发中发挥作用。

◇ 小度科技 CEO 李莹:小度要做「 AI+ 智能设备」创新的代名词 🔗 News

在 2023 百度世界大会上,小度科技 CEO 李莹宣布了多款 AI 产品。其中包括小度添添家庭机器人,这是全球首款大模型家庭机器人,具备多项核心能力,能够与用户互动,提供个性化和情感丰富的回应,还能控制家电和提供娱乐服务。此外小度还推出了小度青禾学习一体机,为青少年提供智能学习服务,结合了大模型技术和个性化教育,配备了顶配硬件,包括 4K 高清屏幕、AI 学习芯片、键盘和鼠标,提供高质量的课程资源和教材,以及定制学习计划和教学方法。此外 Tiantian Casa 智能音箱系列注重美学和智能交互,包括产品如 Tiantian Casa AIRA 和 PENINSULA,提供高品质音响体验。小度科技致力于全面拥抱 AI 技术和智能产品,以创新智能生活。

大模型 "重构"智能汽车,汽车将具有 EQ 和 IQ 🔗 News

在百度世界大会 2023 上,百度的创始人和首席执行官李彦宏强调了大模型在重构物理世界方面的关键作用。自动驾驶技术是其中的一个典型应用,将通过视觉大模型实现物理世界的重构,从而提升自动驾驶的能力。大模型的智能涌现带来了核心能力的突破,使汽车具备了 EQ 和 IQ,进一步改变了人车交互方式,推动了交互从"命令式"向"对话式"的升级,使其更加自然。百度的自动驾驶服务平台"萝卜快跑"已成为全球最大的自动驾驶出行服务提供商,服务次数超过 400 万次。通过采用新技术,包括纯视觉方案和去掉激光雷达以降低整车成本,百度在自动驾驶领域取得了显著的进展,有望加速自动驾驶车辆的商业化应用和盈利。

◇ 马斯克一觉醒来,纯视觉 NOA 已在中国开跑 🔗 News

极越汽车发布了一款采用纯视觉 NOA 技术的私家车智能驾驶系统,这标志着中国首次采用此技术,使其与特斯拉的 FSD 系统相媲美。纯视觉系统采用 OCC 技术还原 3D 场景,不再依赖昂贵的激光雷达,而智能驾驶领域逐渐朝着纯视觉系统发展,激光雷达逐渐成为选配。这一趋势反映了行业倾向于减少硬件成本,增加算力、数据和算法研发,以实现更高性价比的智能驾驶,以使其能够被更广泛地应用于大众消费车型。极越 01 作为一款预售价 25.99 万元的智能车型,采用了纯视觉方案,高阶智驾成为标配,不再需要额外选装或加价,展示了技术实力,推动了智能驾驶的发展。未来的智能驾驶发展趋势将侧重于通行效率、乘坐体验和功能安全的细节改进,不再依赖激光雷达的高阶智驾已成为行业的必然趋势。

◇ 北大机器人当上亚运志愿者,多模态大模型结合具身智能 🔗 News

北大计算机学院 HMI 团队开发了一款导游机器人系统,它结合了多模态大模型和具身智能,旨在为亚运会提供支持,帮助视障人士进行导航和满足他们的需求。这一机器人系统旨在服务残障人士、老年人和少数民族,包括解决语言障碍和提供特殊服务。机器人具备多模态大模型的感知和理解能力,能够识别目标、生成描述性文本以及进行决策规划。为提升泛化能力,团队采用大小模型协同高效微调,使机器人能够适应不同环境和处理未曾出现过的情况。此外团队还开发了多模态多语种视频解说系统,用于亚运会赛事解说,包括实时生成解说内容和提供个性化服务。他们还研究多模态生成式大模型 Agent 设计,旨在综合各种模态信息,以满足各种应用场景需求,包括智慧城市和智能医疗。

◇ 超低训练成本文生图模型 PixArt 来了,效果媲美 MJ 🔗 News

华为诺亚方舟实验室与合作机构共同开发了名为 PixArt-α的模型,专注于文本到图像(T2I)生成任务。PixArt-α模型在 T2I 任务中取得卓越成绩,同时降低了训练成本和减少了碳排放。这一模型能够生成高质量、高分辨率的图像,符合商业应用标准。研究团队在 PixArt-α的设计中采用了分解训练策略,采用高效的 T2I Transformer 架构以及高信息密度的数据。他们使用 SAM 数据集来生成高信息密度数据,并借助自动标注工具提高了数据的精确性。 PixArt-α在用户研究、T2ICompBench 和 MSCOCO Zero-shot FID 等方面进行了验证,展现出卓越的性能,特别是在质量和对齐度方面。PixArt-α的出色性能还表现在属性绑定、对象关系和复杂组合等方面。

AI 代理 - 如何构建、运行和监控 🔗 Twitter

AI 代理是一种软件系统,利用大型语言模型(LLM)调用来执行特定任务,涵盖了执行代码、进行数据变换以及训练其他机器学习模型等工作。它可以应用于各种任务,如创建销售预测、生成采购订单以及发送摘要信息。这些代理需要包括 LLM 调用、代码执行、数据转换、编排、流程和输入/输出连接等多个组件,同时需要进行监控和记录以确保顺利运行。随着 LLM 的不断增强,未来将会看到数百万 AI 代理投入生产,实现自动化任务,包括销售开发、会计和法律工作等。

◇ 1/3 的博士后使用 ChatGPT 🔗 Twitter

根据 Nature 全球博士后调查中,大约三分之一的受访者使用 AI 聊天机器人来进行文本精化、生成或编辑代码,以及整理领域文献等任务。OpenAI 发布的 AI 聊天机器人 ChatGPT 被博士后用于提高其书面沟通技能,包括非母语熟练度。尽管一些研究人员对 AI 在其工作中的潜力感到兴奋,但其他人对其影响持谨慎态度。调查显示,31%的博士后使用聊天机器人,其中 43%每周使用,17%每天使用。工程和社会科学领域的博士后更有可能使用聊天机器人,而生物医学和临床科学领域的使用频率较低。博士后使用聊天机器人进行文本精化(63%)、生成和编辑代码(56%)等任务。一些博士后赞赏聊天机器人自动化例行任务的能力,但也认识到其在批判性思维和创造性方面的局限性。

AI 时代学习之道!天猫精灵发布首款大模型多感知学习机 🔗 News

天猫精灵推出了首款 Z20 学习机,这款学习机支持双语语音和文字对话,适用于 3~18 岁学生。它提供专业的学习法、错题巩固法,包括一个庞大的题库和数千个知识点视频,还引入了高质量的 IP 内容,如新东方专业课程、阅读体系、早教体系和音视频故事。此外,Z20 学习机具备智能守护措施,采用真护眼类纸屏,支持姿势矫正、光线调节和听力保护。通过 AliGenie6.0 对话式 AI 操作系统,它实现了自由对话和精准感知的双能 AI 交互。Z20 学习机旨在培养学生双语能力和跨文化沟通,通过发音检测、教材绘本、权威词典以及名师课程覆盖早期口音、精读和泛读等多种场景。

◇ 如何构建 Duet AI 🔗 Twitter

Google Cloud 宣布在 Google Cloud 中推出 Duet AI 的预览版,利用生成式人工智能来协助用户执行各种任务。Google Cloud 的 Duet AI 利用多个基础模型,支持应用程序开发、运维、数据分析、数据库管理和网络安全等任务。Duet AI 的一个显著基础模型是由 Google 开发的 Codey,支持超过 20 种编程语言的编码。Codey 经过优化,以更好地协助 Google Cloud 开发人员完成编码任务,同时保持其性能。优化过程包括数据收集、域预训练、指令调整、离线评估和集成等多个阶段。Google Cloud 特定的数据和知识被整合到 Codey 中,以使其在协助 Google Cloud 用户方面更加高效。评估包括自动化基准测试和专家评分人员的人工评估。Duet AI 已集成到各种 Google Cloud 界面中,提供无缝的用户体验。其目标是提高开发人员的生产力和效率,用户可以注册 Duet AI 预览版,体验其功能。

◇ 2024 年 10 个最重要的 AI 趋势 🔗 Twitter

  1. 加速的 AI 发展:到 2024 年,人工智能将继续加速融入日常生活。
  2. 道德 AI:负责任的人工智能开发和使用以减轻潜在危害将是一个主要关注点。
  3. 客户服务中的 AI:人工智能将自动化客户服务中的例行任务,预计 AI 将推动客户互动。
  4. 强化工作:人工智能将提高法律、医学、编程、教育和就业搜索等各个领域的人类生产力。
  5. AI 增强应用:人工智能功能将集成到各种软件和应用程序中。
  6. 低代码/无代码开发:低代码和无代码工具在应用程序开发中的使用将更加普遍。
  7. AI 职位:与人工智能相关的新角色,如 AI 工程师、培训师、经理和伦理学家,将涌现。
  8. 量子 AI:量子计算将在人工智能中发挥作用,实现更高效的复杂算法处理。
  9. AI 技能发展:个人需要学习如何利用人工智能,以在就业市场中保持竞争力。
  10. AI 立法:世界各国政府将致力于制定与人工智能相关的法规,以平衡创新和保护公民利益。

◇ Set-of-Mark 提示释放 GPT-4V 的视觉定位能力 🔗 Twitter

Set-of-Mark(SoM)是一种新的视觉提示方法,旨在增强大型多模态模型,尤其是 GPT-4V 的视觉定位能力。SoM 利用交互式分割模型、将图像分割为不同层次的各种区域,然后在这些分割区域上叠加一组标记,包括字母数字、遮罩和框。通过将带有标记的图像作为输入,GPT-4V 可以回答需要视觉定位的问题。文章报道了一项全面的实证研究,评估了 SoM 在各种细粒度视觉和多模态任务中的有效性。实验证明,在零-shot 环境中,使用 SoM 的 GPT-4V 在 RefCOCOg 任务上表现优于最先进的全面微调的指代分割模型。总之 SoM 是一种新颖的方法,通过使用交互式分割模型和标记来增强大型多模态模型如 GPT-4V 的视觉定位能力,从而提高它们在各种任务中的性能。

「 融资快讯 」

◇ 「霞智科技」完成数千万元 Pre-A 轮融资 🔗 News

商用清洁机器人公司霞智科技 ROSIWIT 宣布完成数千万人民币 Pre-A 轮融资,本轮融资由泓诺创投、容亿投资、地平线海松基金联合领投。融资资金主要用于产品研发、渠道建设及团队扩张。霞智科技成立于 2021 年,定位为中兴发展人工智能总部,聚焦"智能服务机器人"、"AI+5G 融合"两大技术方向,围绕"智能服务机器人系列"进行产品布局。

「 早点趣玩 」

◇ Face Swapper: AI 换脸工具,一次替换多张脸 🔗 Twitter

支持多种图片格式(JPG、PNG、WEBP)并允许用户一次性在同一张照片中替换多张脸。该工具声称能在几秒钟内完成工作,而且不会降低图片质量。最大支持 1024px 的分辨率。不仅可以用于娱乐,还可以用于更严肃的应用场景,如时尚与美容行业、电影与媒体制作、人力资源与招聘等。

「 技术阅读 」

◇ SuSIE:通过图像编辑进行子目标合成 🔗 Twitter

研究人员提出 SuSIE 方法,它通过微调稳定扩散模型,然后在机器人数据上进一步微调,以预测执行指令的中间子目标。这种方法的成功原因在于扩散模型能够传递大规模网络知识并泛化到新的对象和场景。SuSIE 能够遵循各种指令,超越了仅使用机器人数据的范围,同时保持高效易用。在实验中,尽管使用的机器人数据较少,但 SuSIE 的性能胜过了较大的 RT-2-X 模型。还提到了使用 web 规模数据进行视觉和语义关联的重要性,以及图像生成器在视觉智能和问题解决中的意义。

相关推荐
三道杠卷胡36 分钟前
【AI News | 20250521】每日AI进展
人工智能·python·计算机视觉·语言模型·aigc
石臻臻的杂货铺1 小时前
微软宣布的五大重要事项|AI日报0520
人工智能·microsoft
中烟创新2 小时前
安全可控的AI底座:灯塔大模型应用开发平台全面实现国产信创兼容适配认证
人工智能·安全
兔兔爱学习兔兔爱学习3 小时前
创建Workforce
人工智能·算法
louisliao_19813 小时前
钉钉开发之AI消息和卡片交互开发文档收集
人工智能·钉钉
橙子小哥的代码世界3 小时前
GPT 等decoder系列常见的下游任务
人工智能·gpt·nlp·解释器模式·transformer
KY_chenzhao3 小时前
AI赋能R-Meta分析核心技术:从热点挖掘到高级模型
人工智能·r语言·论文·生态·meta分析·热点
BIYing_Aurora4 小时前
【IPMV】图像处理与机器视觉:Lec10 Edges and Lines
图像处理·人工智能·经验分享·线性代数·计算机视觉·视觉检测
通义灵码4 小时前
如何使用AI辅助开发R语言
ide·人工智能·vscode·通义灵码
Tech Synapse4 小时前
端到端自动驾驶系统实战指南:从Comma.ai架构到PyTorch部署
人工智能·pytorch·自动驾驶·carla·end-to-end