1007 早早聊 AGI 资讯|StreamingLLM 框架突破文本长度限制、微软发布 GPT-4V 报告、Reka 推出多模态 AI 助手Yasa-1...

👉👉原文链接👈👈

「 行业动态 」

◇ StreamingLLM 框架问世,号称"可让大模型处理无限长度文本" 🔗 News

Meta、MIT、CMU 的研究者最近刚刚发表了一篇论文,介绍了一种名为「StreamingLLM」的方法,该方法允许有限上下文能力的语言模型支持几乎无限的上下文窗口。利用窗口注意力和注意力池等方法,将注意力集中在少量初始 token 上,从而克服了大型语言模型上下文长度的限制问题,同时通过注意力池的优化,保持了模型性能的稳定性,而且速度比重新计算滑动窗口快多达 22.2 倍。这一技术提供了改善模型性能和评估困惑度的方法,并建议在训练未来的 LLM 时使用接收器 token,以优化 LLM Stream 的部署。

◇ 微软发布 GPT-4V 报告,高级用户必读 🔗 News

微软发布长达 166 页的报告,深入研究 GPT-4V 的功能和用途,强调其多模态能力和广泛的应用前景。 报告共分 11 章,重点关注 GPT-4V(ision)模型,探讨多模态大型模型(LMM)的理解和应用。介绍了 GPT-4V 的多种任务,包括对多模态输入的处理和通用性,以及视觉参考提示等新的人机交互方法。报告提出未来研究方向,强调 GPT-4V 的潜力和多领域应用,如医疗、汽车、保险等。还讨论了 GPT-4V 在图像理解、生成、智能体交互、GUI 交互等领域的应用。

◇ Reka 推出多模态 AI 助手 Yasa-1,挑战 ChatGPT 🔗 News

Reka 公司的多模态 AI 助手 Yasa-1 已推出,其能理解文本、图像、视频和音频,并与 OpenAI 的 ChatGPT 竞争。Yasa-1 支持 20 种语言,处理长上下文文档的速度比 Claude 2 快 8 倍,准确度相当。它可以进行定制以处理私人数据集,并可广泛应用于各种领域。它可以从互联网获取最新搜索结果,具有多模态功能,可以文本提示与多媒体结合,如社交媒体帖子或声音识别。Yasa-1 还能理解视频内容,预测下一个可能的动作,并支持编程任务,执行算术运算、分析表格或创建数据可视化。由于其可能存在不准确性和限制,不宜完全依赖

◇ 芯片短缺、成本高昂, OpenAI 考虑打造自己的 AI 芯片 🔗 News

据路透社消息称,OpenAI 正在考虑开发自己的人工智能芯片,甚至评估了潜在的收购目标。面对芯片短缺和高成本,OpenAI 一直在探索各种选择,包括开发自己的 AI 芯片、与 Nvidia 等芯片制造商更紧密地合作以及实现供应商多元化。开发自己的人工智能芯片可能需要大量投资并需要数年时间。尽管尚未做出任何决定,但出于对 GPU 稀缺性以及运行其软件和硬件成本高昂的担忧,OpenAI 追求更多的 AI 芯片。

◇ Canva 发布全套 AI 设计工具 Magic Studio 🔗 News

Canva 发布了一款名为 Magic Studio 的 AI 设计工具,旨在让内容创作更加易于访问,无需设计经验。Magic Studio 引入了 Magic Switch 等功能,可自动将设计转换为不同媒体格式,还支持将设计翻译成 100 多种语言。此外,Magic Media 工具新增了文本转视频功能,Magic Grab 可自动分离图像中的主题,Magic Expand 可将图像扩展到框架之外。Canva 还推出了 Canva Shield,以防止 AI 被用于创建不安全或不适当的内容,并计划在未来三年内拨款 2 亿美元,以支付设计师的补偿计划。

ChatGPT :口袋里的医生 🔗 Twitter

ChatGPT 现在可以查看 X 光片、处方或医疗报告,并在几秒钟内回答任何问题。

◇ EPIK 凭借怀旧年鉴照片功能登顶 App Store 🔗 News

EPIK 是一款照片编辑应用程序,提供怀旧年鉴照片编辑功能,在美国 App Store 中排名第一,在 Google Play 中排名第 37,全球范围内受到关注,特别在印度市场表现突出。自 2021 年 8 月以来,总安装量为 9230 万次,其中美国下载量为 470 万次。用户需要上传 8-12 张自拍照,由人工智能生成图像,可以选择不同的交付速度和价格。应用程序由 Naver 子公司韩国 Snow Corporation 开发。由于需求激增,目前可能存在延迟和交付问题。

◇ CMU 华人打破大模型黑盒,Llama 2 撒谎被一眼看穿! 🔗 News

来自 CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者发现大型语言模型 (LLM) 不再是黑盒,其内部有可解释的表征,可以通过控制其行为和检测撒谎。研究者使用脑部扫描技术观察 LLM 在真理和撒谎情境下的大脑活动,并发现 LLM 内部具有一致的内部信念,可以用于提取真理概念。LLM 的表现可以通过刺激大脑区域来控制,包括影响其诚实度。该研究使 LLM 不再是黑盒,向更具解释性和可控性的方向迈出了一步,并探讨了概率和风险、情绪控制、无害指令遵循、偏见与公平、知识和模型编辑、记忆和未来展望等问题。未来工作可以研究表示的轨迹、流形和状态空间,以进一步改进 AI 系统的理解和控制,并使 AI 系统变得更可信和安全。

GPU 在哪里, AI 的机会就在哪里 🔗 News

AI 科技巨头的军备竞赛正在推动行业快速发展,市场规模超过每年 2000 亿美元。GPU 在 AI 领域的重要性日益凸显,与 AI 发展机会紧密相连。生成式 AI 技术的迅速发展为英伟达等公司带来了可观的盈利。为了维持高投资回报率,行业需要满足巨大的 GPU 和 AI 模型训练需求。财报显示,大量科技巨头正在承担数据中心扩建支出,英伟达的客户包括众多知名公司。AI 行业面临巨大的收入空缺,初创公司有机会填补这一差距。AI 行业基础设施建设的过度发展将促进未来的创新。未来 AI 基础设施不再是行业限制,关键问题是如何利用这一基础设施来改善人们的生活。

◇ 用于科学应用的可扩展球形 CNN 🔗 Twitter

ICML 2023 提出了名为"Scaling Spherical CNNs"的开源库,旨在解决处理球形信号的深度学习挑战,包括采样问题和旋转问题。该库实现了球形卷积,着重于提高速度,支持分布式训练,允许训练更大的模型。这一技术应用于天气预报和分子特性预测等任务,在分子属性回归和气象预测方面取得了出色的性能,同时也有潜力在其他科学应用、计算机视觉和 3D 视觉领域发挥作用。

LLMs 和人工智能将为企业带来比移动或互联网革命更大的变革 🔗 Twitter

如何为组织创建人工智能大脑,将大型语言模型(LLMs)与检索增强生成(RAG)相结合。员工可以使用定制的 ChatGPT 来查询内部公司数据,从代码问题到市场趋势和业务绩效。实现这些 ChatLLMs 或定制 ChatGPTs 涉及多个步骤,包括连接各种数据源、数据提取以及使用向量数据库进行数据检索和提示增强。最重要的是,RAG 是一种简单但高效的方式,可以使用 LLMs,而无需进行复杂的精细调整。这种简单而有效的方法可以为企业提供有力的工具,尽管不能实现通用人工智能,但有望改变业务运营方式并加速进步。

◇ 大型语言模型能够理解空间和时间 🔗 Twitter

现代大型语言模型(LLM)不仅仅是"随机模仿鹦鹉",而实际上学会了线性表示空间和时间等基本维度。通过分析 LLM 在空间和时间数据集上学到的表示,研究者发现它们具备结构化知识,能够稳健地处理各种提示变化,并在不同实体类型之间保持一致。这一研究揭示了 LLM 如何以结构化和有意义的方式学习和理解复杂的现实世界信息,有助于增进对其性能的理解。

◇ 调整块大小是改进 RAG 应用程序时应该解决的首要问题之一 🔗 Twitter

在改进 RAG 应用程序中,调整块大小是首要任务之一,但这并不总是直观的。增加块的数量并不一定意味着更好的性能,可能会导致中间问题或上下文溢出。此外重新排列检索到的块不一定会改善结果,事实上可能会使情况变得更糟。要确定最佳的块大小,需要定义一个评估基准,并进行块大小和前 k 值的扫描。

◇ 论文投 Nature 先问问 GPT-4 ! 🔗 Link

研究表明,GPT-4 在论文评审方面具有一定的潜力,但仍需要人类反馈辅助。斯坦福等大学的研究人员测试了 GPT-4 的论文评审能力,发现其提供的评审意见与人类评审员的一致率超过 50%,并且超过 82.4%的作者认为 GPT-4 的意见很有帮助。GPT-4 创建了一个自动 pipeline 来提取论文信息并提供评审意见,但在定量实验中,其意见与人类评审员的一致率在不同情况下有所变化。GPT-4 能够提供非通用的、有针对性的评审反馈,并且在重要、普遍问题上与人类评审员一致。用户研究发现,超过一半的研究员认为 GPT-4 的反馈很有帮助,但只有 82.4%认为它比至少一些人类评审员的反馈更有益。GPT-4 的局限性在于缺少特定技术领域的深度建议。

◇ 如何降低视觉 Transformer 计算成本? 🔗 Link

威斯康星大学麦迪逊分校的研究团队提出了 Eventful Transformer,它通过利用时间冗余来提高计算效率,从而降低了视觉 Transformer 的计算成本。该方法包含门控模块和缓冲器模块,用于感知时间冗余。门控模块选择性更新 token,以降低计算成本。适应性设计允许实时控制计算成本。实验结果表明,Eventful Transformer 不仅节省了计算成本,而且保持了高准确性,特别适用于视频识别任务。

◇ 国产独立 AI 网站流量情况-月度 🔗 Twitter

◇ 提升 DALL·E 3 提示技巧的 7 个技巧 🔗 Twitter

  1. 详细提示:使用具体的描述,让人工智能更清晰地理解您的请求。
  2. 挑战想象:不要局限于现实,尝试抽象、超现实的概念。
  3. 调整和重复:如果结果不理想,调整提示并尝试多次。
  4. 创意场景:创建富有想象力的场景来引导生成图像。
  5. 视角和风格:指定特定的视角或艺术风格以影响输出。
  6. 平衡创造力和功能:理解 DALL·E 3 的能力和限制。
  7. 大胆尝试:不局限于传统提示,勇敢尝试各种领域和非传统想法。

◇ DSPy:将声明性语言模型调用编译成自我改进的流水线 🔗 Twitter

DSPy 是一个编程模型,用于开发和优化语言模型(LM)流水线,将其抽象为文本转换图,并允许 LM 通过声明性模块调用。DSPy 模块是可参数化的,可以学习如何应用不同的技术。该研究展示了 DSPy 的优势,通过几行代码,GPT-3.5 和 llama2-13b-chat 能够创建自助流水线,胜过标准的提示方法,甚至在竞争性 LM 上也表现出色。

◇ MathCoder: LLMs 中无缝集成代码以增强数学推理 🔗 Twitter

最近发布的 GPT-4 Code Interpreter 在解决复杂数学问题方面表现出色,主要因为它可以无缝处理自然语言、生成代码、执行代码并继续推理。论文介绍了一种 fine-tune 开源语言模型的方法,使其能够使用代码进行数学建模和推导,从而提升数学推理能力。还提出了 MathCodeInstruct 数据集生成方法,其中每个解决方案都结合了自然语言、代码和执行结果。通过引入自定义的监督 fine-tuning 和推理方法,他们创建了 MathCoder 模型,这一系列模型在 MATH 和 GSM8K 数据集上取得了开源 LLM 中的最高分,明显优于其他开源替代品。

◇ GPT-4-Vision 的新开源竞争对手 LLaVA v1.5 🔗 Twitter

LLaVA 是一种结合视觉编码器和大型语言模型 Vicuna 的多模态模型,进行了端到端训练。它与多模态 GPT-4 相媲美的多模态聊天能力和在科学问题回答任务中达到的 92.53%的最新准确率。LLaVA 是由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学进行的合作研究项目。基于 COCO 数据集,研究团队与 GPT-4 进行交互,总共收集了 158K 个多模态语言图像指令跟踪样本。LLaVA 使用简单的投影矩阵连接预训练的 CLIPViT-L/14 视觉编码器和大型语言模型 Vicuna,并通过两阶段的指令调整过程进行特征对齐的预训练和端到端微调。

「 机器人领域 」

◇ 与机器人 Ameca 对话 🔗 Twitter

◇ 现在 robots 可以打开门 🔗 Twitter

「 融资快讯 」

AI 停车平台「Metropolis 筹集」1.7B 美元收购 SP Plus 🔗 News

Metropolis 筹集了 17 亿美元,Eldridge Capital 和 3L Capital 领投,多家投资机构也参与了融资,以股权和债务方式收购停车设施管理服务提供商 SP Plus。Metropolis 提供人工智能驱动的计算机视觉系统,用于简化停车设施的用户体验。SP Plus 拥有美国和加拿大的 200 万个停车位和 160 个机场的停车和班车运营。这次收购价格每股 54 美元,溢价 52%。交易预计将于 2024 年完成,前提是获得监管批准和 SP Plus 股东批准。这标志着 Metropolis 向垂直整合迈出的一步,加强了其在停车设施领域的地位。

「 早点趣玩 」

◇ Manga-Image-Translator:漫画图片翻译器 🔗 Twitter

能够自动翻译漫画图像中的文本,普通的图片也可以,翻译完成后在图像在原位置替换译文。干净简洁,速度很快,主要支持日语,汉语、英文和韩语。

「 技术阅读 」

◇ 优秀的机器学习系统和实证科学论文(2023 年 9 月) 🔗 Link

相关推荐
985小水博一枚呀1 小时前
【深度学习基础模型】神经图灵机(Neural Turing Machines, NTM)详细理解并附实现代码。
人工智能·python·rnn·深度学习·lstm·ntm
SEU-WYL3 小时前
基于深度学习的任务序列中的快速适应
人工智能·深度学习
OCR_wintone4213 小时前
中安未来 OCR—— 开启高效驾驶证识别新时代
人工智能·汽车·ocr
matlabgoodboy3 小时前
“图像识别技术:重塑生活与工作的未来”
大数据·人工智能·生活
最近好楠啊3 小时前
Pytorch实现RNN实验
人工智能·pytorch·rnn
OCR_wintone4213 小时前
中安未来 OCR—— 开启文字识别新时代
人工智能·深度学习·ocr
学步_技术3 小时前
自动驾驶系列—全面解析自动驾驶线控制动技术:智能驾驶的关键执行器
人工智能·机器学习·自动驾驶·线控系统·制动系统
IFTICing3 小时前
【文献阅读】Attention Bottlenecks for Multimodal Fusion
人工智能·pytorch·python·神经网络·学习·模态融合
程序猿阿伟3 小时前
《C++游戏人工智能开发:开启智能游戏新纪元》
c++·人工智能·游戏
神一样的老师3 小时前
讯飞星火编排创建智能体学习(四):网页读取
人工智能·学习·语言模型·自然语言处理