1007 早早聊 AGI 资讯｜StreamingLLM 框架突破文本长度限制、微软发布 GPT-4V 报告、Reka 推出多模态 AI 助手Yasa-1...

「行业动态」

◇ StreamingLLM 框架问世，号称"可让大模型处理无限长度文本" 🔗 News

Meta、MIT、CMU 的研究者最近刚刚发表了一篇论文，介绍了一种名为「StreamingLLM」的方法，该方法允许有限上下文能力的语言模型支持几乎无限的上下文窗口。利用窗口注意力和注意力池等方法，将注意力集中在少量初始 token 上，从而克服了大型语言模型上下文长度的限制问题，同时通过注意力池的优化，保持了模型性能的稳定性，而且速度比重新计算滑动窗口快多达 22.2 倍。这一技术提供了改善模型性能和评估困惑度的方法，并建议在训练未来的 LLM 时使用接收器 token，以优化 LLM Stream 的部署。

paper: arxiv.org/pdf/2309.17...

项目地址：github.com/mit-han-lab...

◇ 微软发布 GPT-4V 报告，高级用户必读 🔗 News

微软发布长达 166 页的报告，深入研究 GPT-4V 的功能和用途，强调其多模态能力和广泛的应用前景。报告共分 11 章，重点关注 GPT-4V（ision）模型，探讨多模态大型模型（LMM）的理解和应用。介绍了 GPT-4V 的多种任务，包括对多模态输入的处理和通用性，以及视觉参考提示等新的人机交互方法。报告提出未来研究方向，强调 GPT-4V 的潜力和多领域应用，如医疗、汽车、保险等。还讨论了 GPT-4V 在图像理解、生成、智能体交互、GUI 交互等领域的应用。

◇ Reka 推出多模态 AI 助手 Yasa-1，挑战 ChatGPT 🔗 News

Reka 公司的多模态 AI 助手 Yasa-1 已推出，其能理解文本、图像、视频和音频，并与 OpenAI 的 ChatGPT 竞争。Yasa-1 支持 20 种语言，处理长上下文文档的速度比 Claude 2 快 8 倍，准确度相当。它可以进行定制以处理私人数据集，并可广泛应用于各种领域。它可以从互联网获取最新搜索结果，具有多模态功能，可以文本提示与多媒体结合，如社交媒体帖子或声音识别。Yasa-1 还能理解视频内容，预测下一个可能的动作，并支持编程任务，执行算术运算、分析表格或创建数据可视化。由于其可能存在不准确性和限制，不宜完全依赖

◇ 芯片短缺、成本高昂， OpenAI 考虑打造自己的 AI 芯片 🔗 News

据路透社消息称，OpenAI 正在考虑开发自己的人工智能芯片，甚至评估了潜在的收购目标。面对芯片短缺和高成本，OpenAI 一直在探索各种选择，包括开发自己的 AI 芯片、与 Nvidia 等芯片制造商更紧密地合作以及实现供应商多元化。开发自己的人工智能芯片可能需要大量投资并需要数年时间。尽管尚未做出任何决定，但出于对 GPU 稀缺性以及运行其软件和硬件成本高昂的担忧，OpenAI 追求更多的 AI 芯片。

◇ Canva 发布全套 AI 设计工具 Magic Studio 🔗 News

Canva 发布了一款名为 Magic Studio 的 AI 设计工具，旨在让内容创作更加易于访问，无需设计经验。Magic Studio 引入了 Magic Switch 等功能，可自动将设计转换为不同媒体格式，还支持将设计翻译成 100 多种语言。此外，Magic Media 工具新增了文本转视频功能，Magic Grab 可自动分离图像中的主题，Magic Expand 可将图像扩展到框架之外。Canva 还推出了 Canva Shield，以防止 AI 被用于创建不安全或不适当的内容，并计划在未来三年内拨款 2 亿美元，以支付设计师的补偿计划。

体验地址：magicstudio.com/zh/

◇ ChatGPT ：口袋里的医生 🔗 Twitter

ChatGPT 现在可以查看 X 光片、处方或医疗报告，并在几秒钟内回答任何问题。

◇ EPIK 凭借怀旧年鉴照片功能登顶 App Store 🔗 News

EPIK 是一款照片编辑应用程序，提供怀旧年鉴照片编辑功能，在美国 App Store 中排名第一，在 Google Play 中排名第 37，全球范围内受到关注，特别在印度市场表现突出。自 2021 年 8 月以来，总安装量为 9230 万次，其中美国下载量为 470 万次。用户需要上传 8-12 张自拍照，由人工智能生成图像，可以选择不同的交付速度和价格。应用程序由 Naver 子公司韩国 Snow Corporation 开发。由于需求激增，目前可能存在延迟和交付问题。

官网：epik.snow.me/

◇ CMU 华人打破大模型黑盒，Llama 2 撒谎被一眼看穿！ 🔗 News

来自 CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者发现大型语言模型（LLM）不再是黑盒，其内部有可解释的表征，可以通过控制其行为和检测撒谎。研究者使用脑部扫描技术观察 LLM 在真理和撒谎情境下的大脑活动，并发现 LLM 内部具有一致的内部信念，可以用于提取真理概念。LLM 的表现可以通过刺激大脑区域来控制，包括影响其诚实度。该研究使 LLM 不再是黑盒，向更具解释性和可控性的方向迈出了一步，并探讨了概率和风险、情绪控制、无害指令遵循、偏见与公平、知识和模型编辑、记忆和未来展望等问题。未来工作可以研究表示的轨迹、流形和状态空间，以进一步改进 AI 系统的理解和控制，并使 AI 系统变得更可信和安全。

paper: arxiv.org/pdf/2310.01...

◇ GPU 在哪里， AI 的机会就在哪里 🔗 News

AI 科技巨头的军备竞赛正在推动行业快速发展，市场规模超过每年 2000 亿美元。GPU 在 AI 领域的重要性日益凸显，与 AI 发展机会紧密相连。生成式 AI 技术的迅速发展为英伟达等公司带来了可观的盈利。为了维持高投资回报率，行业需要满足巨大的 GPU 和 AI 模型训练需求。财报显示，大量科技巨头正在承担数据中心扩建支出，英伟达的客户包括众多知名公司。AI 行业面临巨大的收入空缺，初创公司有机会填补这一差距。AI 行业基础设施建设的过度发展将促进未来的创新。未来 AI 基础设施不再是行业限制，关键问题是如何利用这一基础设施来改善人们的生活。

◇ 用于科学应用的可扩展球形 CNN 🔗 Twitter

ICML 2023 提出了名为"Scaling Spherical CNNs"的开源库，旨在解决处理球形信号的深度学习挑战，包括采样问题和旋转问题。该库实现了球形卷积，着重于提高速度，支持分布式训练，允许训练更大的模型。这一技术应用于天气预报和分子特性预测等任务，在分子属性回归和气象预测方面取得了出色的性能，同时也有潜力在其他科学应用、计算机视觉和 3D 视觉领域发挥作用。

blog: goo.gle/46z3vD7

◇ LLMs 和人工智能将为企业带来比移动或互联网革命更大的变革 🔗 Twitter

如何为组织创建人工智能大脑，将大型语言模型（LLMs）与检索增强生成（RAG）相结合。员工可以使用定制的 ChatGPT 来查询内部公司数据，从代码问题到市场趋势和业务绩效。实现这些 ChatLLMs 或定制 ChatGPTs 涉及多个步骤，包括连接各种数据源、数据提取以及使用向量数据库进行数据检索和提示增强。最重要的是，RAG 是一种简单但高效的方式，可以使用 LLMs，而无需进行复杂的精细调整。这种简单而有效的方法可以为企业提供有力的工具，尽管不能实现通用人工智能，但有望改变业务运营方式并加速进步。

◇ 大型语言模型能够理解空间和时间 🔗 Twitter

现代大型语言模型（LLM）不仅仅是"随机模仿鹦鹉"，而实际上学会了线性表示空间和时间等基本维度。通过分析 LLM 在空间和时间数据集上学到的表示，研究者发现它们具备结构化知识，能够稳健地处理各种提示变化，并在不同实体类型之间保持一致。这一研究揭示了 LLM 如何以结构化和有意义的方式学习和理解复杂的现实世界信息，有助于增进对其性能的理解。

paper: arxiv.org/abs/2310.02...

◇ 调整块大小是改进 RAG 应用程序时应该解决的首要问题之一 🔗 Twitter

在改进 RAG 应用程序中，调整块大小是首要任务之一，但这并不总是直观的。增加块的数量并不一定意味着更好的性能，可能会导致中间问题或上下文溢出。此外重新排列检索到的块不一定会改善结果，事实上可能会使情况变得更糟。要确定最佳的块大小，需要定义一个评估基准，并进行块大小和前 k 值的扫描。

Colab 笔记本：colab.research.google.com/drive/1Siuf...

幻灯片：docs.google.com/presentatio...

◇ 论文投 Nature 先问问 GPT-4 ！ 🔗 Link

研究表明，GPT-4 在论文评审方面具有一定的潜力，但仍需要人类反馈辅助。斯坦福等大学的研究人员测试了 GPT-4 的论文评审能力，发现其提供的评审意见与人类评审员的一致率超过 50%，并且超过 82.4%的作者认为 GPT-4 的意见很有帮助。GPT-4 创建了一个自动 pipeline 来提取论文信息并提供评审意见，但在定量实验中，其意见与人类评审员的一致率在不同情况下有所变化。GPT-4 能够提供非通用的、有针对性的评审反馈，并且在重要、普遍问题上与人类评审员一致。用户研究发现，超过一半的研究员认为 GPT-4 的反馈很有帮助，但只有 82.4%认为它比至少一些人类评审员的反馈更有益。GPT-4 的局限性在于缺少特定技术领域的深度建议。

◇ 如何降低视觉 Transformer 计算成本？ 🔗 Link

威斯康星大学麦迪逊分校的研究团队提出了 Eventful Transformer，它通过利用时间冗余来提高计算效率，从而降低了视觉 Transformer 的计算成本。该方法包含门控模块和缓冲器模块，用于感知时间冗余。门控模块选择性更新 token，以降低计算成本。适应性设计允许实时控制计算成本。实验结果表明，Eventful Transformer 不仅节省了计算成本，而且保持了高准确性，特别适用于视频识别任务。

paper: arxiv.org/pdf/2308.13...

项目地址：wisionlab.com/project/eve...

◇ 国产独立 AI 网站流量情况-月度 🔗 Twitter

◇ 提升 DALL·E 3 提示技巧的 7 个技巧 🔗 Twitter

详细提示：使用具体的描述，让人工智能更清晰地理解您的请求。

挑战想象：不要局限于现实，尝试抽象、超现实的概念。

调整和重复：如果结果不理想，调整提示并尝试多次。

创意场景：创建富有想象力的场景来引导生成图像。

视角和风格：指定特定的视角或艺术风格以影响输出。

平衡创造力和功能：理解 DALL·E 3 的能力和限制。

大胆尝试：不局限于传统提示，勇敢尝试各种领域和非传统想法。

◇ DSPy：将声明性语言模型调用编译成自我改进的流水线 🔗 Twitter

DSPy 是一个编程模型，用于开发和优化语言模型（LM）流水线，将其抽象为文本转换图，并允许 LM 通过声明性模块调用。DSPy 模块是可参数化的，可以学习如何应用不同的技术。该研究展示了 DSPy 的优势，通过几行代码，GPT-3.5 和 llama2-13b-chat 能够创建自助流水线，胜过标准的提示方法，甚至在竞争性 LM 上也表现出色。

paper: huggingface.co/papers/2310...

◇ MathCoder： LLMs 中无缝集成代码以增强数学推理 🔗 Twitter

最近发布的 GPT-4 Code Interpreter 在解决复杂数学问题方面表现出色，主要因为它可以无缝处理自然语言、生成代码、执行代码并继续推理。论文介绍了一种 fine-tune 开源语言模型的方法，使其能够使用代码进行数学建模和推导，从而提升数学推理能力。还提出了 MathCodeInstruct 数据集生成方法，其中每个解决方案都结合了自然语言、代码和执行结果。通过引入自定义的监督 fine-tuning 和推理方法，他们创建了 MathCoder 模型，这一系列模型在 MATH 和 GSM8K 数据集上取得了开源 LLM 中的最高分，明显优于其他开源替代品。

paper: huggingface.co/papers/2310...

◇ GPT-4-Vision 的新开源竞争对手 LLaVA v1.5 🔗 Twitter

LLaVA 是一种结合视觉编码器和大型语言模型 Vicuna 的多模态模型，进行了端到端训练。它与多模态 GPT-4 相媲美的多模态聊天能力和在科学问题回答任务中达到的 92.53%的最新准确率。LLaVA 是由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学进行的合作研究项目。基于 COCO 数据集，研究团队与 GPT-4 进行交互，总共收集了 158K 个多模态语言图像指令跟踪样本。LLaVA 使用简单的投影矩阵连接预训练的 CLIPViT-L/14 视觉编码器和大型语言模型 Vicuna，并通过两阶段的指令调整过程进行特征对齐的预训练和端到端微调。

地址：llava-vl.github.io/

「机器人领域」

◇ 与机器人 Ameca 对话 🔗 Twitter

◇ 现在 robots 可以打开门 🔗 Twitter

「融资快讯」

◇ AI 停车平台「Metropolis 筹集」1.7B 美元收购 SP Plus 🔗 News

Metropolis 筹集了 17 亿美元，Eldridge Capital 和 3L Capital 领投，多家投资机构也参与了融资，以股权和债务方式收购停车设施管理服务提供商 SP Plus。Metropolis 提供人工智能驱动的计算机视觉系统，用于简化停车设施的用户体验。SP Plus 拥有美国和加拿大的 200 万个停车位和 160 个机场的停车和班车运营。这次收购价格每股 54 美元，溢价 52%。交易预计将于 2024 年完成，前提是获得监管批准和 SP Plus 股东批准。这标志着 Metropolis 向垂直整合迈出的一步，加强了其在停车设施领域的地位。

「早点趣玩」

◇ Manga-Image-Translator：漫画图片翻译器 🔗 Twitter

能够自动翻译漫画图像中的文本，普通的图片也可以，翻译完成后在图像在原位置替换译文。干净简洁，速度很快，主要支持日语，汉语、英文和韩语。

地址：cotrans.touhou.ai/

Github: github.com/zyddnys/man...

「技术阅读」

◇ 优秀的机器学习系统和实证科学论文（2023 年 9 月） 🔗 Link

1007 早早聊 AGI 资讯｜StreamingLLM 框架突破文本长度限制、微软发布 GPT-4V 报告、Reka 推出多模态 AI 助手Yasa-1...

「 行业动态 」

「 机器人领域 」

「 融资快讯 」

「 早点趣玩 」

「 技术阅读 」

「行业动态」

「机器人领域」

「融资快讯」

「早点趣玩」

「技术阅读」