长上下文

HyperAI超神经19 天前
人工智能·google·长上下文
在线教程丨最高4倍生成速度提升,DiffusionGemma可同时生成整块文本,基于多轮并行去噪持续优化结果6 月 11 日,Google 正式开源了基于离散扩散(Discrete Diffusion)技术构建的文本生成模型 DiffusionGemma。其基于 Gemma 4 系列领先行业的「参数效率智能性」(intelligence-per-parameter)以及前沿的 Gemini Diffusion 研究成果打造,并集成了全新的扩散解码头(Diffusion Head),以最大化生成速度。与传统大模型逐 Token 输出文本不同,其能够同时生成整个文本块,并通过多轮并行去噪不断优化结果,从而实现最高
这是谁的博客?1 个月前
ai·大模型·kimi·长上下文·月之暗面·国产ai
[模型解析] Kimi: 模型架构与长上下文能力分析Kimi 是月之暗面开发的大语言模型,以其超长上下文处理能力著称。本文将分析 Kimi 的技术架构与核心能力。
大数据AI人工智能培训专家培训讲师叶梓2 年前
人工智能·深度学习·ai·大模型·transformer·无限长序列·长上下文
TransformerFAM:革新深度学习的新型注意力机制深度学习领域的一项突破性技术——Transformer架构,已经彻底改变了我们处理序列数据的方式。然而,Transformer在处理长序列数据时面临的二次复杂度问题,限制了其在某些应用场景下的潜力。针对这一挑战,研究者们提出了一种名为TransformerFAM(Feedback Attention Memory)的新型架构,旨在通过引入反馈循环,使网络能够关注自身的潜在表示,从而在Transformer中培养出工作记忆(working memory),使其能够处理无限长的序列。
我是有底线的