1101 早早聊 AI 资讯｜千亿级参数新星 2.0 挑战 GPT-4，5 分钟搞出大模型、GPT-4V 错误率高达 90%？、AI 一眼识破推理桌游...

「行业动态」

◇ 阿里云通义"全家桶"来了！5 分钟搞出大模型应用 🔗 News

阿里云在云栖大会上宣布了通义大模型"全家桶"的震撼发布，其中通义千问升级至千亿级参数 2.0 版本，在 10 个评测中超越了 GPT-3.5，并与 GPT-4 竞争激烈。除了通义千问，还发布了多个行业大模型，覆盖金融、医疗、法律、编程等领域，以及一个智能编码助手通义灵码。此外，阿里云公开了大模型应用的"秘籍"，并提供了阿里云百炼平台，使开发者能够在 5 分钟内创建大模型应用，并快速构建企业专属模型。这些举措旨在推动中国的 AI 生态繁荣，为企业和开发者提供更广泛的支持，以更有效地应用大模型来解决各种问题和推动创新。

◇ 英伟达发布大语言模型 ChipNeMo，专攻辅助芯片设计 🔗 News

英伟达推出了其最新大语言模型 ChipNeMo，旨在应用于 AI 芯片设计领域。ChipNeMo 具备问答、EDA 脚本生成和 Bug 总结分析功能，可以帮助工程师快速解答芯片设计问题、生成代码，以及总结和分析 Bug。该模型使用领域自适应技术，结合自定义标记器、领域特定指令的监督微调等方法，取得了良好的性能，使大语言模型在工程助理、EDA 脚本和 Bug 分析等领域发挥出色的作用。 ChipNeMo 旨在提高英伟达的设计效率，特别适用于复杂的半导体设计任务，为芯片设计师提供有力的支持。

◇ AI 玩推理桌游一眼识破骗局！ 🔗 News

清华自动化系团队与北京通用人工智能研究院合作，通过实验中的桌游"阿瓦隆"开发了 ReCon 框架，以提高大语言模型在欺骗性环境中的决策能力。该框架分两个主要阶段，构思思考和改进思考，应用了一阶和二阶视角转换来帮助模型更好地理解游戏情境、隐藏私人信息和减少误导。实验证明 ReCon 在多维度评估中显著优于传统方法，但也揭示了当前大语言模型的推理能力、对齐问题以及回应风格等局限性。

paper: arxiv.org/abs/2310.01...

◇ GPT-4V 连小学生都不如？错误率竟高达 90% 🔗 News

马里兰大学发布了名为 HallusionBench 的基准测试，专为评估视觉与语境推理的复杂性而设计，针对大型视觉语言模型（LVLMs），如 GPT-4V 和 LLaVA-1.5，揭示了它们在处理图像相关问题时存在的问题。该研究发现，这些模型容易受到语言幻觉和视觉错觉的影响，导致高错误率。具体来说，它们在处理依赖于视觉内容的问题、视觉错觉、几何图形、时间线索以及基本的图像操作等方面表现不佳。这项研究呼吁需要改进 LVLMs 的视觉处理能力和语言先验，以更好地应对这些问题。

paper: arxiv.org/abs/2310.14...

项目主页：github.com/tianyi-lab/...

◇ ChatGPT 能推算出你的隐私数据！ 🔗 News

研究表明，大型语言模型如 GPT-4 拥有强大的推理能力，能够通过分析用户的文字内容，准确推断出隐藏在文本中的多种真实隐私数据，包括年龄、性别、职业等。这项研究使用了包含 520 个 Reddit 用户的真实数据集 PersonalReddit，结果显示这些模型可以达到 85%的 top-1 和 95.8%的 top-3 正确率。此研究还强调了在美国，仅需要少量属性如地点、性别和出生日期就能确定一半人口的确切身份，呼吁加强隐私保护措施以减轻隐私泄露风险。

paper: arxiv.org/abs/2310.07...

◇ 阿里云发布通译千问 2.0： AI 行业解决方案新篇章 🔗 News

阿里巴巴更新了类似 GPT-4 的人工智能模型"通译千问"，并在其年度杭州会议上推出了八个针对不同行业的 AI 模型。新版本"通译千问 2.0"据称具有数千亿的参数，使其成为世界上最强大的 AI 模型之一。这些行业特定模型专为娱乐、金融、医疗和法律领域设计。阿里巴巴董事长蔡崇信还透露，中国大型 AI 模型约有一半在阿里云上运行，而阿里巴巴的 AI 模型共享平台 ModelScope 上有 2300 个模型和 270 万开发者贡献。同时，新闻开头提到在线记者 Matthias 是 THE DECODER 的联合创始人和出版人，他认为人工智能将根本性地改变人类和计算机的关系。

◇ 拜登政府出台 AI 治理新令，聚焦安全与国际合作 🔗 News

拜登政府签署的行政命令旨在规范人工智能的发展，强调安全、隐私和公平。该命令要求大型 AI 公司，如 Microsoft 和 Google，分享安全数据，同时美国将与国际伙伴合作制定 AI 政策。尽管目标积极，但命令也遭到了一些批评，并且仅在当前政府任期内有效。

◇ 研究团队揭露 GPT-4V 视觉推理高达 90%的错误率 🔗 News

马里兰大学的研究团队发布了一个名为"HallusionBench"的基准测试，专门针对 GPT-4V 的视觉和语言推理能力进行评估。测试结果显示，尽管 GPT-4V 被寄予厚望，但其在视觉问答、图像序列和时空推理等任务上的错误率高达近 90%。这些发现揭示了该模型在处理复杂视觉上下文和与图像相关的语境推理时存在的明显缺陷和挑战。

Paper: arxiv.org/abs/2310.14...

◇ 下一代 AlphaFold 进展 🔗 Twitter

最新的 AlphaFold 模型，由 Google DeepMind 和 Isomorphic Labs 开发，实现了显著的准确性提升，能够预测几乎所有蛋白质数据库中的分子结构，通常精度达到原子级别。这一创新不仅拓展了蛋白质预测的范围，还提高了多种生物分子类别的准确性，包括小分子配体、蛋白质、DNA 和 RNA 核酸，以及具有翻译后修饰的分子。AlphaFold 的性能突破还在药物研究中发挥巨大作用，为科学家提供了有力工具，使他们能够更深入地了解生物学机制，从而推动医学和生物科学的发展。这一技术有望进一步加速科学研究和推动"数字生物学"的时代。

blog: deepmind.google/discover/bl...

◇ Cutie：在视频帧中识别并持续跟踪特定对象 🔗 Twitter

Cutie 是一种用于自动识别和追踪视频中特定物体的技术。其主要特点包括自动识别和追踪指定物体、高级对象理解、精确的物体分割、适应复杂场景和高效运行。其工作原理涵盖初识目标、记忆特点、新帧识别、精确定位以及快速准确追踪，充分利用粗略特征和详细信息。Cutie 采用一种对象级别内存读取方式，核心组件包括对象变换器、前景-背景掩码注意力和对象内存。在评估中，Cutie 在 MOSE 标准测试上表现出色，相较于其他方法，性能高出 8.7 分，且速度快三倍。这一技术可应用于安全监控、自动驾驶和医学研究等领域。

项目地址：hkchengrex.com/Cutie/

paper: arxiv.org/abs/2310.12...

Github: github.com/hkchengrex/...

Colab 演示：colab.research.google.com/drive/1yo43...

「芯片领域」

◇ 清华团队芯片领域又有大突破， 算力提升三千余倍！ 🔗 News

清华大学的研究团队在芯片领域取得了重大突破，他们提出了一项名为光电模拟芯片（ACCEL）的全新计算架构，旨在突破传统摩尔定律的限制。这一创新采用了光作为计算的媒介，将光计算与电子计算相结合，从根本上解决了传统芯片架构中关于数据转换速度、精度和功耗的制约问题。ACCEL 不仅在计算性能方面大幅超越了目前的高性能芯片，还取得了惊人的系统能效，相当于将传统芯片工作 1 小时所需的电量推向了一个新的维度，可以支持 ACCEL 工作 500 年以上。此外，ACCEL 的低功耗特性有望显著改善散热问题，而其制造成本也相对较低。这一突破性技术将在自动驾驶、机器人视觉、移动设备等领域迎来广泛应用。

◇ 苹果低调布局 AI 领域：已收购 20 多家公司 🔗 News

苹果正积极加强其在人工智能领域的竞争地位，通过大力招聘、并购初创公司以及自主开发大型语言模型（Ajax），以提高 AI 技术的成熟度。虽然苹果在 AI 方面相对低调，但已秘密收购了 20 多家 AI 技术公司，并投入数百万美元每天来训练其大型语言模型。苹果具备独特的优势，因为其庞大的付费订阅用户基础使其有望在未来大型语言模型服务方面实现订阅盈利，从而在新型应用出现时具备独特竞争优势。

「融资快讯」

◇ 白盒子」微电子完成数亿元 A 轮融资 🔗 News

白盒子微电子是一家成立于 2020 年的上海公司，专注于 SDH（软件定义硬件）芯片设计技术，旨在通过架构创新开发高端 SoC 芯片，用于无线通信领域。他们已成功推出数字中频（DFE）SoC 芯片，并致力于数字基带 SoC 芯片的研发。公司还在射频领域芯片布局，开发了相控阵应用配套的幅相多功能芯片，以支持商业航天、移动通信等多样化场景应用。白盒子微电子在 A 轮融资中获得了数亿元资金，本轮由中科院资本领投，新鼎资本、联升投资、国科发展、磐霖资本、风物资本跟投，联和投资等老股东继续加持。资金主要用于订单交付、产品研发、应用拓展和团队建设。

「早点趣玩」

◇ AI 版「愤怒的南瓜」来袭 🔗 Link

小游戏项目名为"愤怒的南瓜"，由推特用户 javilopen 制作，使用了 GPT-4、DALL・E 3 和 Midjourney，其中 GPT-4 负责编写游戏的全部代码。游戏画面和效果非常出色，难以辨别其是由大模型生成的。作者通过逐步向 GPT-4 提出具体要求，从简单开始，逐渐扩展和优化代码，使游戏逐渐完善。小伙伴们可以试玩，还能自己创造关卡，不过目前还不支持手机端运行。

试玩地址：bestaiprompts.art/angry-pumpk...

◇ Wonder3D：图像转 3D 🔗 Twitter

该模型能够在 2 到 3 分钟内将单个图像转换为高保真 3D 模型，并包含纹理网格和颜色。

项目地址：www.xxlong.site/Wonder3D/?r...

Github: github.com/xxlong0/Won...

demo: huggingface.co/spaces/flam...

「技术阅读」

◇ 通过 GPT-4 prompt 快速识别和解决代码效率问题 🔗 Link

◇ 中国LLM大公司C端应用进度

1101 早早聊 AI 资讯｜千亿级参数新星 2.0 挑战 GPT-4，5 分钟搞出大模型、GPT-4V 错误率高达 90%？、AI 一眼识破推理桌游...

最新活动 」

「 行业动态 」

「 芯片领域 」

「 融资快讯 」

「 早点趣玩 」

「 技术阅读 」

最新活动」

「行业动态」

「芯片领域」

「融资快讯」

「早点趣玩」

「技术阅读」