👉👉原文链接👈👈
阅读详细图文,可访问知识库
「 行业动态 」
◇ ChatGPT Plus 账号暂停注册!卖号租号全网溢价 🔗 News
Sam Altman 宣布暂停 ChatGPT Plus 账户注册,引发用户强烈反应。Altman 表示,自 devday 发布以来,流量显著增加,对 OpenAI 容量造成压力,为保证良好用户体验,ChatGPT Plus 账户注册暂时暂停,但普通 ChatGPT 账户仍可注册。此决定是在 ChatGPT 和 API 于 11 月 8 日经历全球中断后做出的。原计划 11 月 12 日为 Plus 付费用户启用 GPT,但由于需求巨大而面临延迟。ChatGPT 引入了 GPT-4 Turbo,允许用户利用 128k 上下文。ChatGPT 及其应用的流行导致众多平台托管超过 3000 个 GPT。用户对停止付费注册表示惊讶,一些人在 eBay 上高价出售 ChatGPT 账户。尽管混乱,但一些用户赞赏 OpenAI 对服务能力危机的负责任处理,并鼓励 Altman 推出更多付费选项。
◇ 成本 2 元开发游戏,最快 3 分钟完成! 🔗 News
OpenAI 最近发布了广泛开发的自定义 GPT 模型,中国初创公司面壁智能推出了名为 ChatDev 的 SaaS 级智能软件开发平台,实现快速、低成本的开发流程,涵盖产品经理到程序员、设计师、测试人员。ChatDev 的开发流程在 3 分钟内完成,成本仅为 2 元左右,强调人工智能实体之间的协作与创造性。相较传统软件开发,ChatDev 显着减少时间和成本,底层技术采用名为 ChatChain 的框架,由中国预训练模型 CPM-Cricket 支持,在逻辑、代码、知识和指令理解方面有显著改进。CPM-Cricket 表现优异,超越前辈模型,与 GPT-4 等基准模型竞争良好。面壁智能的愿景是创建一个代理互联网,连接真实和虚拟世界,超越互联网到物联网的过渡,公司成立于 2022 年 8 月,团队包括清华大学计算机系教授等知名顾问,遵循"一体两翼"战略,与 OpenBMB 和清华自然语言处理实验室合作进行研发。
◇ 英伟达预告新版 TensorRT-LLM:推理能力飙升 5 倍 🔗 News
在 Microsoft Ignite 2023 会议上,NVIDIA 高管宣布了 TensorRT-LLM 的更新。这个来自 NVIDIA 的开源库以提高在配备 NVIDIA GeForce RTX GPU 的 Windows PC 上大型语言模型(LLM)的速度四倍而闻名。更新包括对 OpenAI Chat API 的支持,增强了 DirectML 功能,并提升了 AI 模型如 Llama 2 和 Stable Diffusion 的性能。TensorRT-LLM 可以使用 NVIDIA 的 AI Workbench 进行本地开发,开发人员可以利用这个工具包在 PC 或工作站上快速创建、测试和定制预先训练的生成式 AI 模型和 LLM。NVIDIA 推出了抢先体验注册页面,TensorRT-LLM 0.6.0 版本将于本月晚些发布,承诺推理性能提高五倍,并支持其他主流 LLM,如 Mistral 7B 和 Nemotron-3 8B。系统要求包括在具有 8GB 或更多 VRAM 的 GeForce RTX 30 系列和 40 系列 GPU 上运行。
◇ 小米 Vela 开源系统正式发布 🔗 News
小米在 2023 小米 IoT 生态伙伴大会上宣布开源 Vela 系统,遵循 Apache 2.0 开源协议。Vela 系统具有多项技术亮点,包括独立开源、适配多种硬件规格(最小系统需 8KB 内存,适配任意 SoC 多核架构)、支持 Vela 互联框架,实现原生接入小米 IoT 生态。此外,Vela 系统还支持轻量化端侧 AI 大模型和轻量容器方案,解决了 MCU 安全问题。在应用方面,Vela 系统支持跨端快应用框架,实现一次开发多设备运行,同时提升了渲染能力和应用动画流。
◇ Agent4Rec 来了!模拟真实用户交互行为 🔗 News
Agent4Rec 是由新加坡国立大学 NExT++实验室开发的电影推荐系统模拟器,包含 1000 个智能体。每个代理由配置文件、内存和操作模块组成,由真实用户数据初始化,并由 ChatGPT-3.5 驱动,以对不同的推荐算法和电影建议做出个人反应。Agent4Rec 实验验证代理准确反映了现实用户行为,捕获了约 70%的用户偏好。在模拟中部署通用推荐策略时,基于算法的系统(特别是 LightGCN)表现出色。研究使用强化和系统增强,将代理选择的电影添加到训练集进行系统再训练。基于用户特征的分组分析显示,基于特征的群体之间存在显着差异,与真实用户行为一致。Agent4Rec 还用于探索两个未解决的推荐系统问题:因果关系和信息泡沫效应。
- paper: arxiv.org/abs/2310.10...
- Github: github.com/LehengTHU/A...
◇ 50 个访问量最大的 AI 工具 🔗 News
在 2022 年 9 月至 2023 年 8 月期间,50 个最受欢迎的 AI 工具共吸引了超过 240 亿次访问。其中,ChatGPT 是最受欢迎的工具,占据了 60%的访问量。过去一年,AI 工具的平均访问量为 20 亿次,过去 6 个月增长至 33 亿次。具体而言,ChatGPT、Character AI 和 Google Bard 的访问量增长分别为 18 亿次、4.6 亿次和 6800 万次。相比之下,Craiyon、MidJourney 和 Quillbot 在此期间的访问量下降最多。美国贡献了 55 亿次访问量,占总访问量的 22.62%,而欧洲国家共贡献了 39 亿次访问量。AI 聊天机器人工具是最受欢迎的,吸引了 191 亿次访问。63%的 AI 工具用户使用移动设备访问,而男性用户占 AI 工具用户的 69.5%,女性用户占 30.5%。AI 工具的访问量增长主要受到 ChatGPT、Character AI 和 Google Bard 的推动,而访问量下降可能是由于监管变化、经济疲软、消费者偏好转变和移动应用的普及等原因。
◇ 北大全新「机械手」算法 🔗 News
北京大学董豪教授领导的研究人员开发了一种结合扩散模型和强化学习的创新方法,使机械手能够根据人手腕的运动自适应地抓取物体。这一方法通过"如何抓取"组件利用学习的抓取梯度场(GraspGF)来指导手指采取适当的抓取姿势,并通过"何时抓握"组件基于强化学习的残差策略来确定手指关节的速度,考虑环境约束。优势包括减少对奖励函数的人为设计,依赖成功抓取姿势数据集进行训练,以及在对 4900 多个物体和 200 种人体运动轨迹进行测试时,性能优于基线方法,生成更符合人类意图的抓取姿势,对物体造成的干扰更少。该模型在 GTX1650 显卡上实现了高达 150fps 的推理速度,为实时交互提供可能性,有望在手部残障人士的日常活动中发挥作用。
◇ 文生图超级大合集!几乎包含所有模型,提示词教程 🔗 News
Civita 是一个文本转图像模型收集平台,成立于 1 月份,最初有 1 万注册用户,目前已超过 300 万,每月独立访问量在 120-130 万之间。该平台提供关键字搜索文本到图像模型的功能,如 DREAMSHAPER-8 和 SD 系列,并提供这些模型的训练数据和开源地址。用户可以基于城市、交通、装甲、机器人等关键词进行图像搜索,生成的图像带有详细的教程提示和叠加效果。Civita 还提供有关参数设置的教程,包括采样器、尺寸、颗粒等,用户可以生成新内容或根据选定的作品进行二次创作。被比作文本到图像的"Twitter",Civita 为用户提供实时查找模型、图像和教程的空间。平台支持注册用户在线图像生成,允许他们直接使用文本转图像功能并访问几乎所有可用的模型。
- 地址:civitai.com/
◇ 清华 LCM/LCM-LoRA 爆火,实时文生图速度提升 5-10 倍 🔗 News
LCM(潜在一致性模型)是由清华大学交叉信息研究所的研究人员开发的,通过解决稳定扩散等潜在扩散模型(LDM)生成缓慢的问题,实现了实时连续图像生成。相比主流潜扩散模型,LCM 提高了 5-10 倍的效率,允许实时处理高分辨率图像。LCM 的影响广泛,一个月内获得超过一百万的浏览量,模型和 demo 部署在多个平台上,其中 Hugging Face 平台 LCM 模型下载量超过 20 万次,Replicate API 调用超过 54 万次。LCM-LoRA 是 LCM 的扩展,引入了具有等级近似的潜在优化,加速训练和部署,为各种稳定扩散模型提供通用的、免培训的加速模块。技术细节包括 LCM 将扩散模型的去噪过程解释为求解增强概率流常微分方程(PF-ODE),而 LCM-LoRA 通过低秩分解技术显著减少内存开销。
- paper: arxiv.org/pdf/2310.04...
- 项目地址:github.com/luosiallen/...
◇ 年初(1-1)至今(11-15)二级市场高科技公司市值变化图
◇ 微软用 GPT-4V 解读视频 🔗 News
Microsoft Azure AI 已将 GPT-4V 集成到名为 MM-Vid 的系统中,专注于解决理解长而复杂视频的挑战,包括为视障人士提供音频描述。MM-Vid 通过分解长视频为连贯的叙述,利用四个模块实现多模态预处理、外部知识采集、视频片段级描述生成和脚本生成。系统在问答、多模态推理和理解长视频等任务中表现出有效性,还在交互环境、视频游戏、通过 GUI 提供指导以及为视障用户生成音频描述方面展示了潜在应用。用户研究表明,虽然 MM-Vid 的音频描述略逊于人类生成的描述,但被认为是一种经济有效和可扩展的解决方案,特别适用于大量视频。总体而言,MM-Vid 在解决视频理解相关挑战方面呈现有希望的结果。
◇ Mirasol:用于跨音频、视频和文本学习的多模态模型 🔗 Twitter
Google 引入 Mirasol3B 多模态自回归模型,解决涉及音频、视频和文本模式的现实应用挑战。该模型通过将多模态建模解耦为单独的自回归组件,包括用于时间同步模式和非时间对齐模式的组件,通过交叉注意机制协调时间对齐和上下文模态。视频和音频的时间对齐自回归建模通过将视频分割成块、组合器模块处理这些块来应对长视频中的信息建模挑战。组合器样式包括简单的变压器或具有存储器组件的令牌图灵机。评估结果显示 Mirasol3B 性能优于较大模型,无需增加参数即可处理更长的视频。在音频视频数据集上取得有竞争力的结果,强调了自回归和组合器在提高性能方面的重要性,即使对于相对较短的视频也是如此。
「 融资快讯 」
◇ 「天宜微」完成数千万元天使轮融资 🔗 News
硅基微电子公司最近宣布获得数千万元的天使轮融资,由容亿投资领投,千帆资本跟投。公司成立于 2020 年,该公司专注于硅基微显示驱动芯片设计,并已成功量产多颗硅基 OLED 驱动芯片。硅基 OLED 技术被认为是未来 VR/AR 的理想解决方案,具有小巧、高 PPI、高对比度、低响应时间和低功耗等特点。凭借自研核心技术,包括底层像素驱动电路,该公司在市场上拥有更强的竞争力。公司创始人孙丽娜预计硅基微显示市场将在 2024 年后迎来爆发式增长。目前,公司的营收主要来自行业头部客户的定制项目,计划未来 3-5 年内扩大产品线,提供适用于 MR 和 AR 应用的硅基 OLED 和 LED 驱动芯片,以满足不同客户需求。公司计划在 2024 年 Q1 推出"1.3 英寸 4K 硅基 OLED 驱动芯片",并与行业头部企业深度合作,推动产品的量产和规模化。
「 技术阅读 」
◇ 微调语言模型以实现事实性 🔗 Link
这项研究通过无需人工标注,利用两项自然语言处理创新,对大型预训练语言模型进行微调,提高其实际性。采用实时生成的实际性偏好排序进行学习,相较于其他方法,显著减少了在各类主题上的事实错误率,展望在更开放的生成环境中提升语言模型的实际准确性。
「 课程推荐」
◇ 吴恩达短期新课程:《 LLM 申请的质量和安全》 🔗 Link
- 使用 SelfCheckGPT 等方法识别幻觉
- 使用情绪分析和隐式毒性检测模型检测越狱(尝试操纵 LLM 响应的提示)。
- 使用实体识别和向量相似性分析来识别数据泄漏。
- 构建自己的监控系统来评估应用程序的安全性和安全性。