1020 早早聊 AI 资讯｜DALL·E 3 向 ChatGPT Plus 和 Enterprise 用户开放、Midjourney 推出 2 倍和 ...

「最新活动」

◇ 杭州 AI 峰会：AI 最后一公里，变现探索 🔗 Link

AI 浪潮，一起搞钱！早鸟有限，详情链接：xhkzr.xet.tech/s/2LquL0

「行业动态」

◇ DALL·E 3 现已向 ChatGPT Plus 和 Enterprise 用户开放 🔗 Twitter

ChatGPT 现在为 Plus 和 Enterprise 用户提供了 DALL·E 3 的支持，允许用户创建独特的图像，并在对话中要求对其进行修改。DALL·E 3 生成的图像在细节和视觉上更引人注目，支持广泛的提示和不同宽高比。安全性得到多层系统的保障，以限制潜在有害图像的生成。用户反馈至关重要，他们可以与研究团队分享反馈，同时出处分类器用于识别图像生成源，但仍需要协作以确定其确切来源。

◇ Midjourney 推出全新 2 倍和 4 倍 放大器 🔗 Twitter

现在最多可以将生成的图像放大 4 倍，这一连续放大的功能表现非常出色，你可以在生成好的图像上找到放大按钮，可选择 2 倍或 4 倍放大。这一功能也适用于之前的旧图像。需要注意的是，4 倍放大会消耗比 2 倍放大多 3 倍的 GPU 时间。目前，只有 Fast 模式支持放大功能，尽管一些 4 倍放大任务可能会出现黑色图像的问题，不过这个问题正在解决中，有时候放大后的图像也会变暗。

◇ 国内首个" AI 原生应用商店"上线！ 🔗 News

百度智能云正在建立国内最繁荣的 AI 原生产业生态，通过千帆大模型服务平台为 17000 多家客户提供服务，覆盖近 500 个场景，吸引各类开发者和企业，包括小开发者、初创企业和互联网老兵，加速大模型的调用。生态建设成为百度智能云的重要战略，旨在实现"云智一体，深入产业，生态繁荣，AI 普惠"。他们提供培训支持、应用商店和千帆社区，支持技术赋能、资源支持、投资和营销支持，加速 AI 原生应用的商业化，促进超过 22 个商业化应用的开发。同时，他们将全面开放内部使用的 Comate 智能编程助手，提供实践经验和产品攻略，得到英特尔和 NVIDIA 的技术支持，以满足大模型的需求。

◇ OpenAI 图像检测工具曝光，准确率高达 99% 🔗 News

OpenAI 正在开发一款高精度的 AI 图像检测工具，声称其准确率可高达 99%。该工具目前正在内部测试，即将公开发布。OpenAI 此前在 AI 文本检测方面遇到挑战，早期的工具仅达到了 26%的准确率。由于担忧使用 AI 制造虚假新闻图像的潜在问题，AI 图像检测工具的开发被认为更为紧迫。但同时，开发 AI 内容生成和检测工具可能存在潜在冲突，一些人建议引入第三方实体来解决这个问题。尚不清楚 OpenAI 即将推出的工具将采用何种具体技术，以及是否将是最准确的工具。OpenAI 的 CTO 和 CEO Sam Altman 在 Tech Live 活动中讨论了公司的未来计划，暗示了可能推出下一代大型模型，即 GPT-5，另外否认了关于 OpenAI 制造智能手机的传闻。

◇ 网易互娱这样用 AIGC ，爆款游戏只是牛刀小试 🔗 News

网易互娱 AI Lab 在游戏领域积累了丰富经验，通过强化学习和多样性模型池的 AI 训练框架，提高了游戏开发效率，降低成本。他们的 AI 技术可生成高质量游戏美术资源和动画，应用于游戏策划、美术、音频、程序、测试、营销等多个领域，包括 UGC 游戏和 AI 模拟玩家。虽然 AI 的决策精度高，但有时可能被普通玩家察觉出来。游戏开发中的挑战在于提高用户体验，需要不断迭代和改进，而 AI 技术在平衡性测试和效率方面表现出色。未来，AI 技术将继续为游戏开发带来改进，但核心玩法设计仍需要人类的创造力。此外，AI 技术在智能 NPC 和内容生成领域的应用有望超越人工。

◇ 人手一个编程助手！北大最强代码 大模型 开源 🔗 News

继开源 CodeLlama 后，北大等机构推出了 CodeShell-7B 和 CodeShell-Chat 两个强大的代码库模型。CodeShell-7B 拥有 700 亿参数，被认为是同类中性能最卓越的模型，使用 GitHub、Stack、StarCoder 数据集等高质量中英文数据进行训练。CodeShell-Chat 是在 CodeShell-7B 基础上训练的代码助手模型，支持代码生成、补全、注释、测试等多种任务。团队还开发了 VSCode 和 IntelliJ IDEA 的 IDE 插件，方便开发者使用。此外，引入了 CodeShell-UCB 作为代码模型能力评估的统一基准，包括代码生成、测试、缺陷检测和修复等任务，为全面评估提供了完整的程序上下文。

CodeShell 代码：github.com/WisdomShell...

基座模型：huggingface.co/WisdomShell...

代码助手 VSCode 插件：github.com/WisdomShell...

◇ Transformer 王者归来！时序预测全面领先 🔗 News

清华大学和蚂蚁集团的研究人员提出了一种名为"iTransformer"的全新方法，无需修改 Transformer 结构，却能在时间序列预测任务中实现卓越性能。iTransformer 通过颠倒时间序列数据处理的方式，将同一变量的序列映射到高维特征表示，并利用自注意力机制建模变量之间的相互关系，通过前馈网络编码历史观察结果，从而实现未来预测。这一方法结合了层归一化、前馈网络和自注意力模块，适应多维时间序列数据的需求，在六个主要基准数据集上表现出色，特别在长期和多维时间序列预测等挑战性场景中表现突出。

paper: arxiv.org/abs/2310.06...

Github: github.com/thuml/Time-...

◇ 英特尔启动首个 AI PC 加速计划 🔗 News

英特尔在"英特尔 on 技术创新大会"上启动了首个 AI PC 加速计划，旨在到 2025 年将 AI 功能引入超过 100 万台 PC。该计划从 12 月 14 日开始，首发英特尔 Core Ultra 处理器。这是一个全球性的创新计划，旨在加速客户端计算中的 AI 发展。英特尔将与 100 多个独立软件和硬件供应商合作，利用其 AI 工具链、共同创作、硬件和技术专长，以最大化 AI 和机器学习应用。该计划将包括 300 多个 AI 加速功能，以增强 PC 在音频效果、内容创作、游戏、安全、直播和视频协作等领域的体验。值得注意的独立软件供应商包括 Adobe、BlackMagic、Topaz、Wondershare Filmora 和 Zoom。一项最近的研究表明，随着 AI CPU 和 Windows 12 的发布，AI PC 出货量将在接下来的一年中大幅增加，全球估计将发货 1300 万台。AI PC 市场预计将在 2025-2026 年保持两位数的年增长率，并在 2027 年成为 PC 产品的主流类别，这表明未来五年全球 PC 行业将稳步过渡到 AI 时代。

◇ IDC ：到 2027 年，全球生成式 AI 支出将达到 1430 亿美元 🔗 News

全球著名信息调查咨询机构 IDC 进行的研究预测，到 2027 年，全球对生成式人工智能的支出将达到 1,430 亿美元，年均增长率为 73.3%。这些支出包括软件、基础设施硬件和 IT/业务服务。到 2023 年，全球企业对 Gen AI 解决方案的投资已达 1600 亿美元，预计 2023 年至 2027 年将以 73.3%的复合年增长率增长。Gen AI 支出预计将在预测期结束时占总人工智能支出的 28.1%，显著高于 2023 年的 9.0%。其中，Gen AI 基础设施和服务领域的投资将成为应用开发的重要领域。研究还强调了 Gen AI 对各行业的深远影响，包括金融、艺术、教育、法律、医疗、电子商务、交通和 IT 等领域。这一技术基于深度学习和神经网络，可以创造代码、图像、文本、视频、音频和游戏等内容，但也需要负责任和道德的应用。

◇ 全都不及格！ GPT-4 仅排第三 🔗 News

斯坦福大学 HAI 等研究机构发布了基础模型透明度指标，对 10 家主流大模型进行评分。Llama 2 排名第一，得分 54；BLOOMZ 排名第二，GPT-4 排名第三，Titan Text 得分最低仅得 12 分。评分涵盖上游、模型和下游三大维度，上游类指标得分差异较大。进一步分为 13 个子域包括数据、劳动力、计算、方法、模型基础、模型访问、功能、风险、缓解措施、分布、使用策略、反馈和影响。开源模型普遍领先，GPT-4 的得分略高于闭源模型。缺乏透明度一直是数字技术消费者面临的问题，模型透明度对决策者和科学家都很重要

◇ 微软 Azure OpenAI 支持数据微调啦！打造专属 ChatGPT 🔗 News

微软在 Azure OpenAI 公共预览中推出了 GPT-3.5-Turbo、Babbage-002 和 Davinci-002 模型的数据微调功能。数据微调允许开发者使用自有数据集创建定制的 ChatGPT 模型，提供更专业的问题回答。微软还引入了更经济实惠的 Babbage-002 和 Davinci-002 模型，替代了之前的 Ada、Babbage、Curie 和 Davinci。此外，Azure OpenAI 提供数据筛选功能，自动删除非法、歧视性或有害内容。用户可以使用 Azure OpenAI Studio、REST API 或 OpenAI Python SDK 进行微调，微软还提供了托管服务，价格不同。Azure OpenAI 还提供推理托管，允许用户生成内容。

详细微调教程：learn.microsoft.com/en-us/azure...

微软 Azure 服务：azure.microsoft.com/en-us/produ...

◇ 4K 画质 3D 合成视频不再卡成幻灯片 🔗 News

最近来自浙江大学、像衍科技和蚂蚁集团的研究者，在一篇题为「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的论文中，提出了一种名为 4K4D 的点云表示方法，大大提升了高分辨率 3D 动态场景合成的渲染速度。4K4D 可实现高保真实时渲染 4K 分辨率的动态 3D 场景，提升了渲染速度和质量。该技术的核心创新在于使用 4D 点云表示和混合外观模型，通过空间雕刻和 4D 特征网格等技术，实现了动态 3D 场景的高效表示和渲染。评估结果显示，与最先进的方法相比，该方法的速度和渲染质量均显著优于其他技术。使用 RTX 4090 GPU，该方法在 DNA 渲染数据集上实现 1080p 分辨率 400 FPS 的实时渲染，在 ENeRF-Outdoor 数据集上实现 4K 分辨率 80 FPS 的实时渲染。

◇ 评估生成人工智能的社会和道德风险 🔗 Twitter

人工智能系统已广泛应用于不同领域，其功能不断增强。为了负责任地开发和部署这些系统，必须进行全面的风险评估。Google DeepMind 提出的三层框架涵盖了评估人工智能系统的能力、人类互动和系统影响。指出了安全评估领域的主要差距，包括背景、具体风险和多模式评估。为了弥合这些差距，建议采用现有的评估方法并进行综合评估，这将提供对模型能力之外的见解，以确定风险是否正在发生和蔓延。为确保技术的预期功能，必须解决社会和技术挑战。

◇ 大型语言模型的基本组成部分 🔗 Twitter

多头自注意力（MHSA）是大型语言模型（LLMs）如 GPT-4、BERT 和 Transformer 的核心组成部分，它为这些模型提供了强大的能力。与传统的递归神经网络不同，MHSA 以并行方式处理语言序列，无论单词在序列中的位置如何，都能够捕捉词之间的依赖关系，这对自然语言处理任务至关重要。MHSA 通过查询、键和值权重矩阵，对每个单词进行比较和重新赋予权重，从而提供了上下文信息。这些权重通过计算查询和键的点积获得，然后通过 softmax 函数进行归一化，形成注意力分数。多头自注意力采用多个"头"，每个"头"都有自己的一组权重矩阵，使模型能够并行学习不同类型的关系。每个自注意力块的输出被串联并进行线性变换，生成最终的 MHSA 输出。

◇ DiagrammerGPT：通过 LLM 规划生成开放域、开放平台图表 🔗 News

DiagrammerGPT 是一个新的两阶段文本到图表生成框架，利用大型语言模型（LLM）如 GPT-4。第一阶段涉及规划师和审计师 LLM 的迭代过程，生成"图表计划"，其中包括实体、关系和布局信息。第二阶段使用图表计划生成图表，并使用 Pillow Python 包渲染文本标签。作者提出了 AI2D-Caption 数据集来进行基准测试，证明 DiagrammerGPT 在文本到图表生成任务中优于现有的 T2I 模型。研究表明 DiagrammerGPT 在各种评估指标上均有所改进，并经人类评估表明在图文对齐和对象关系方面优于基线模型。此外，DiagrammerGPT 还展示了生成符合输入文本提示的开放域图表的能力，并提供了用户编辑和自定义图表的示例。

website: diagrammergpt.github.io/

◇ 新诉讼指控彭博社、微软和 Meta 使用盗版书籍训练人工智能 🔗 News

Mike Huckabee、Lysa TerKeurst 等人对 Meta、微软和彭博社提起诉讼，指控这些公司未经授权使用其版权作品进行 AI 训练，从中获得"显著价值"。诉讼的焦点在于"Books3"数据集，据称包含非法书籍，用于训练大型语言模型。微软和 Meta 尚未置评，而彭博社称 Books3 数据集仅用于研究目的。此外，EleutherAI 也将 Books3 数据集纳入名为"The Pile"的大型 AI 训练数据集。原告寻求未明示的损害赔偿和禁止滥用其作品的禁令，这是作者对人工智能公司提起的一系列诉讼之一，其中包括针对 OpenAI 的版权侵权案。对于使用受版权保护材料进行 AI 培训的合法性仍存在争议，诉讼结果可能需要数年才能确定。

「融资快讯」

◇ 智谱 AI 宣布完成超 25 亿元融资 🔗 News

智谱 AI 今年已经获得超过 25 亿人民币的融资，融资参与方包括多家机构和老股东，如社保基金、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss 直聘、好未来、红杉、高瓴等。这笔融资将用于进一步开发基座大模型，以支持行业生态。另外，蚂蚁集团子公司上海云玡企业管理咨询有限公司成为新的股东。智谱 AI 的业务旨在创建新一代认知智能通用模型，他们合作研发了双语千亿级超大规模预训练模型 GLM-130B，并推出了认知大模型平台 Bigmodel.ai，包括产品 CodeGeeX 和 CogView，提供智能 API 服务。

「早点趣玩」

◇ VideoCrafter1：生成高质量视频的开放扩散模型 🔗 Twitter

VideoCrafter 是一个用于制作视频内容的开源视频生成和编辑工具箱。

demo: huggingface.co/spaces/Vide...

Github: github.com/AILab-CVC/V...

「技术阅读」

◇ 量子电路中测量引起的纠缠相变 🔗 Link

量子粒子可以同时存在两种状态，彼此纠缠，并发现测量对其行为有奇妙影响，将其从量子状态变为经典状态，虽然机制尚不明确。在大型量子系统中，测量可以导致新的量子信息阶段的出现，类似相变。研究观察了包含 70 个量子位的系统中测量引起的效应，包括"量子隐形传态"。这一现象与量子位之间的纠缠网络随时间变得更复杂有关，而测量引起的相变是由相互作用和测量之间的平衡导致的。研究采用了三种技巧来观察测量引起的动态，包括时空交换、克服后选择和利用噪音。结果表明，测量引起的强度变化会导致新的量子纠缠阶段的出现，包括新形式的量子隐形传态。

1020 早早聊 AI 资讯｜DALL·E 3 向 ChatGPT Plus 和 Enterprise 用户开放、Midjourney 推出 2 倍和 ...

「 最新活动 」

「 行业动态 」

「 融资快讯 」

「 早点趣玩 」

「 技术阅读 」

「最新活动」

「行业动态」

「融资快讯」

「早点趣玩」

「技术阅读」