Transformer和LLM前沿内容(4):Long-Context LLM

文章目录

      • [1. Context Extension](#1. Context Extension)
        • [1.1 Rotary Position Embedding (RoPE)](#1.1 Rotary Position Embedding (RoPE))
        • [1.2 LongLoRA](#1.2 LongLoRA)
      • [2. Evaluation of Long-Context LLMs](#2. Evaluation of Long-Context LLMs)
        • [2.1 The Lost in the Middle Phenomenon](#2.1 The Lost in the Middle Phenomenon)
        • [2.2 Long-Context Benchmarks: NIAH, LongBench](#2.2 Long-Context Benchmarks: NIAH, LongBench)
      • [3. Efficient Attention Mechanisms](#3. Efficient Attention Mechanisms)
        • [3.1 KV Cache](#3.1 KV Cache)
        • [3.2 StreamingLLM and Attention Sinks(重点)](#3.2 StreamingLLM and Attention Sinks(重点))
        • [3.3 DuoAttention: Retrieval Heads and Streaming Heads (重点)](#3.3 DuoAttention: Retrieval Heads and Streaming Heads (重点))
        • [3.4 Quest: Query-Aware Sparsity(重点)](#3.4 Quest: Query-Aware Sparsity(重点))
      • [4. Beyond Transformers](#4. Beyond Transformers)
        • [4.1 State-Space Models (SSMs): Mamba](#4.1 State-Space Models (SSMs): Mamba)
        • [4.2 Hybrid Models: Jamba](#4.2 Hybrid Models: Jamba)

1. Context Extension

1.1 Rotary Position Embedding (RoPE)

1.2 LongLoRA




2. Evaluation of Long-Context LLMs

2.1 The Lost in the Middle Phenomenon
2.2 Long-Context Benchmarks: NIAH, LongBench



3. Efficient Attention Mechanisms

3.1 KV Cache


3.2 StreamingLLM and Attention Sinks(重点)














3.3 DuoAttention: Retrieval Heads and Streaming Heads (重点)









3.4 Quest: Query-Aware Sparsity(重点)









4. Beyond Transformers

4.1 State-Space Models (SSMs): Mamba





4.2 Hybrid Models: Jamba




相关推荐
在水一缸6 分钟前
重塑前端开发认知:当 AI 遇见 HTML 的“不合理有效性”
前端·人工智能·html·ai编程·claude·前端开发
果丁智能6 分钟前
智慧校园一卡通深度融合方案:基于超级SIM卡的手机碰一碰智能开锁技术落地实践
数据结构·人工智能·python·科技·算法·智能家居·信息与通信
Rubin智造社6 分钟前
智读致用《埃隆之书·番外篇》|SpaceX上市:从“10%成功率”到2万亿美元:一场赌上一切的万亿豪赌
人工智能·星链·商业航天·埃隆之书·spacex上市·史上最大ipo·太空ai
eric-sjq7 分钟前
Xiaothink-T17-Tiny 模型深度解析:轻量级RNN架构的创新与实战评测
人工智能·深度学习·语言模型·自然语言处理·架构
在水一缸9 分钟前
WeClaw_61_当AI把内部协议泄漏给用户:DeepSeek DSML标记污染content字段的全链路排查与修复
人工智能·api安全·流式处理·deepseek·bug修复·dsml·数据泄漏
通信仿真爱好者9 分钟前
第【19】期--基于监督学习的无人机安全通信的联合轨迹优化与功率分配研究--python完整代码+文档
深度学习·无人机·轨迹优化·物理层安全·功率优化
Cosolar10 分钟前
72小时生死时速:一文读懂引爆Fable模型禁令的越狱技术风暴
人工智能·后端·程序员
mit6.82412 分钟前
大模型基础设施 KV Cache
人工智能
Haibakeji13 分钟前
长沙定制开发教育APP哪家软件公司强
大数据·人工智能
Swift社区13 分钟前
AI Native 鸿蒙 App:从页面驱动到智能驱动的架构革命
人工智能·架构·harmonyos