Chatgpt三周年了：大模型三年发展的里程碑

1. 执行摘要：从对话框到数字物种的进化

2022年12月1日，OpenAI首席执行官Sam Altman在社交媒体上的一条推文，标志着人工智能历史上的一个奇点时刻。ChatGPT的发布不仅仅是一个产品的上线，它开启了生成式人工智能的"寒武纪大爆发"。在随后的三年里（2022.12.01 - 2025.12.01），我们见证了大型语言模型（LLM）从单一的文本生成工具，演变为具备复杂推理、多模态感知、自主决策与工具使用能力的"智能代理"（Agent）。

这三年的技术演进并非线性的增长，而是经历了数次范式转移。早期的焦点在于Prompt Engineering（提示工程）与基础模型的对话能力；中期则转向了架构效率的优化、RAG（检索增强生成）技术的深化以及开源生态的繁荣；而在2025年，随着DeepSeek R1引入的GRPO（群体相对策略优化）算法、Llama 4的原生多模态MoE（混合专家）架构、以及MCP（模型上下文协议）的标准化，行业正式进入了Agentic AI（代理式人工智能）时代。开发者与AI的交互方式也从编写代码转向了Vibe Coding（氛围编码），而**Context Engineering（上下文工程）**则取代了提示工程，成为驾驭千万级Token上下文窗口的核心技能。

本报告将以详尽的笔触，梳理这三年间大模型技术的关键里程碑，深入剖析每一项核心技术的原理、起源及其对整个AI生态系统的深远影响。

2. 2022-2023：生成式AI的觉醒与基础架构的奠定

2.1 ChatGPT时刻：范式转移的起点

2022年11月30日（美国时间），OpenAI低调发布了基于GPT-3.5架构的ChatGPT。12月1日，Sam Altman在Twitter上正式宣布了这一消息，邀请全球用户尝试与其对话 1。这一看似简单的聊天机器人界面，实则隐藏了RLHF（基于人类反馈的强化学习）带来的巨大对齐优势，解决了过往GPT-3模型在指令遵循上的痛点。

2.1.1 爆发式增长与早期挑战

发布仅五天后，ChatGPT用户数突破100万，这一速度打破了当时所有互联网产品的增长记录 1。然而，早期的模型并非完美。用户很快发现了其逻辑缺陷和"幻觉"问题。Sam Altman在2022年12月的推文中坦言，运行这些模型的计算成本"令人咋舌"（eye-watering），每天的成本估算高达10万美元，并预示了未来商业化的必然性 2。

此外，关于AI安全与伦理的讨论在发布初期便已白热化。针对用户对模型"个性"丧失的抱怨，Altman在2022年12月曾暗示将引入年龄分级功能，对成人用户采取更"友好"的内容策略，甚至提及允许成人内容的可能性。这引发了关于科技公司是否应充当"道德警察"的激烈辩论，奠定了后续几年关于AI对齐与监管的基调 4。

2.1.2 Prompt Engineering的兴起

在ChatGPT发布初期，由于模型能力尚不完善，如何通过精妙的提示词（Prompt）来引导模型输出高质量内容成为了一门"显学"。Prompt Engineering（提示工程）应运而生，并在2023年迅速职业化。这一时期的核心技术包括"思维链"（Chain-of-Thought, CoT）提示，通过让模型展示推理步骤来提高数学和逻辑任务的准确性。然而，这仅仅是人机交互演进的初级阶段。

2.2 GPT-4与多模态的萌芽

2023年3月，OpenAI发布GPT-4，这是大模型能力的第一次实质性飞跃 6。与GPT-3.5相比，GPT-4在GRE、LSAT等标准化考试中表现优异，展现了强大的推理能力。更重要的是，GPT-4被设计为多模态模型，虽然最初仅开放文本输入，但其架构已具备处理图像的能力，预示了VLM（视觉语言模型）时代的到来。

与此同时，Anthropic推出了Claude系列，Google推出了Bard（基于PaLM 2），大模型领域的竞争格局初步形成"三足鼎立"之势。Claude以其在长上下文窗口（Context Window）上的优势，迅速在文档分析领域占据一席之地 6。

2.3 开源生态的星火：Llama系列的入场

2023年2月，Meta发布了LLaMA（Large Language Model Meta AI），最初仅面向研究人员开放。然而，权重的意外泄露却意外地开启了开源大模型的繁荣时代 6。

2.3.1 Llama 1与Llama 2的影响

Llama证明了即使是较小参数规模的模型（如7B、13B），只要经过高质量数据的充分训练（Chinchilla Scaling Laws），也能达到甚至超越大参数模型的性能。2023年7月发布的Llama 2进一步放宽了商业使用限制，使得企业和开发者能够基于Llama架构构建私有化模型，SFT（监督微调）技术开始在开源社区广泛普及 8。

这一时期，SFT成为将预训练模型（Pre-trained Model）转化为特定任务模型（如代码生成、医疗问答）的标准范式。通过在特定指令数据集上进行微调，模型能够学习特定的输出格式和领域知识。

3. 2024年：架构分化、RAG进化与效率之战

进入2024年，大模型领域的主旋律从单纯追求参数规模的"军备竞赛"，转向了架构效率的优化、检索技术的深度结合以及开源模型对闭源模型的强力追赶。

3.1 检索增强生成（RAG）的深化：从Naive到GraphRAG

在2023年，RAG主要被视为解决大模型"幻觉"和知识时效性问题的补丁。最基础的Naive RAG流程是：将文档切片、向量化存入数据库，用户提问时检索相似切片，再喂给LLM生成答案。然而，这种线性流程在面对复杂问题时显露出严重局限：它只能检索到局部的语义相似片段，而无法理解文档集中的宏观结构或跨文档的隐含关系 9。

3.1.1 GraphRAG：结构化知识的引入

2024年7月，微软研究院正式开源了GraphRAG，这是RAG技术的一次重大升级 9。GraphRAG不完全依赖向量相似度，而是利用LLM从源文档中提取实体（Entities）和关系（Relationships），构建一个知识图谱（Knowledge Graph）。

技术机制： GraphRAG利用Leiden算法对知识图谱进行社区检测（Community Detection），将图谱划分为不同层级的语义社区。在回答问题时，它不仅检索具体的节点，还能生成社区摘要（Community Summaries），从而能够回答诸如"这数千份文档中关于气候变化的主要观点有哪些？"这类全局性（Global）问题。
性能对比： 实验表明，在处理复杂数据集发现任务时，GraphRAG的全面性和准确性显著优于Naive RAG。
LazyGraphRAG： 针对GraphRAG构建索引成本高昂（需要大量LLM调用来提取实体关系）的问题，微软在2024年11月推出了LazyGraphRAG。该技术引入了更高效的索引策略，仅在查询时按需扩展图谱，大幅降低了落地成本 12。

3.2 视觉语言模型（VLM）的行业落地

2024年是VLM从实验室走向产业应用的关键一年。VLM不再仅仅是能够"看图说话"的聊天机器人，而是开始成为理解物理世界的视觉传感器。

在安防与智慧城市领域，Milestone Systems推出了专用的VLM，利用NVIDIA的技术，使视频监控系统能够理解复杂的视觉场景。该模型不仅能识别物体，还能理解场景中的行为逻辑（如交通违规、异常聚集），并允许操作员通过自然语言查询视频流（例如"并在过去一小时内哪里出现了红色的卡车？"） 14。这种能力的实现，标志着多模态AI开始从内容生成（AIGC）向物理世界感知（Physical World Perception）迈进。

3.3 开源模型的里程碑：Llama 3与Llama 3.1

2024年4月，Meta发布Llama 3，随后在7月推出了Llama 3.1系列，其中包含参数量高达4050亿（405B）的旗舰模型 8。

性能对齐： Llama 3.1 405B是开源界首个在各项基准测试中真正匹敌当时最强闭源模型（如GPT-4o）的模型。它证明了开源模型在推理、数学和编码能力上没有不可逾越的鸿沟。
长上下文： Llama 3.1支持128k的上下文窗口，使得处理长文档和代码库成为可能。
生态影响： 405B模型的发布迫使OpenAI、Google等闭源厂商重新思考其护城河。同时，它也成为后续众多微调模型（如医疗、法律专用模型）的基础底座，极大地丰富了AI应用生态。

4. 2025年：Agentic AI与推理模型的爆发

2025年，人工智能技术栈发生了根本性的重构。如果说前两年是教会模型"说话"，那么2025年则是教会模型"思考"和"行动"。DeepSeek的崛起、Agentic RAG的普及以及MCP协议的标准化，共同构成了这一年的技术主线。

4.1 DeepSeek现象：算力经济学的改写

2024年底至2025年初，来自中国的AI公司DeepSeek（深度求索）凭借DeepSeek-V3和DeepSeek R1两款模型，震撼了全球AI社区。它们不仅在性能上追平甚至超越了顶尖闭源模型，更重要的是，它们以极低的成本实现了这一成就，彻底改写了算力经济学。

4.1.1 DeepSeek-V3：MoE架构的极致优化

2024年12月发布的DeepSeek-V3采用混合专家（Mixture-of-Experts, MoE）架构，总参数量达到671B，但每个token的激活参数仅为37B 18。

多头潜在注意力（MLA）： 这一创新架构显著降低了推理过程中的KV Cache（键值缓存）显存占用。在处理长上下文时，MLA使得DeepSeek-V3的推理效率远高于同等规模的传统Transformer模型。
辅助损失无关的负载均衡（Auxiliary-loss-free Load Balancing）： 传统的MoE模型通常需要辅助损失函数来确保各个专家的负载均衡，但这往往会损害模型性能。DeepSeek-V3通过创新的路由策略，在不引入辅助损失的情况下实现了负载均衡，最大化了专家利用率 20。
成本奇迹： DeepSeek-V3的训练仅消耗了278.8万H800 GPU时，总成本估算低至560万美元。相比之下，Llama 3.1 405B的训练成本是其数倍甚至数十倍。这证明了算法优化比单纯堆砌算力更具边际效益 22。

4.1.2 DeepSeek R1与GRPO：推理能力的民主化

2025年1月，DeepSeek发布R1模型，专注于提升模型的推理能力（Reasoning），在数学和代码任务上表现卓越，甚至在某些基准上超越了OpenAI的o1模型 23。

R1背后的核心算法是GRPO（Group Relative Policy Optimization，群体相对策略优化）。这是对传统RLHF（基于人类反馈的强化学习）的一次重大革新：

传统RLHF (PPO)： 通常使用PPO（近端策略优化）算法，需要维护一个与策略模型（Policy Model）同等大小的价值模型（Value Model），这极其消耗显存和计算资源。
GRPO机制： GRPO摒弃了价值模型。它通过让模型针对同一个提示生成一组（Group）输出，然后计算这组输出的相对优势（基于奖励模型的打分或规则验证）。这种方法利用组内的相对比较来更新策略，大幅降低了训练资源需求 23。
"顿悟"时刻： 在训练过程中，R1展现出了类似人类的"顿悟"行为，即通过自我反思和长思维链（Chain of Thought）来纠正错误，从而解决复杂的数学难题。R1的开源使得这种高级推理能力不再是科技巨头的专利，任何开发者都可以在消费级显卡上微调具备推理能力的模型。

4.2 Agentic RAG：从静态检索到动态推理

到2025年，Agentic RAG（代理式检索增强生成） 已取代Naive RAG，成为企业级AI应用的标准架构。

4.2.1 定义与核心差异

Agentic RAG不仅仅是检索，它引入了能够自主决策的智能体（Agent）。与传统RAG线性的"检索-生成"流程不同，Agentic RAG是一个动态的循环系统 10：

自主规划（Planning）： Agent首先分析用户意图，将复杂问题（如"分析过去三年特斯拉财报中的研发投入趋势"）分解为多个子任务。
工具使用（Tool Use）： Agent自主决定使用哪些工具。它可能先查询向量数据库，如果信息不足，再调用Google Search API，或者运行Python代码来处理数据。
反思与修正（Reflection & Refinement）： Agent会自我评估检索到的信息是否足以回答问题。如果发现信息缺失或矛盾，它会修改检索策略重新尝试，直到获得满意结果。

4.2.2 架构模式

路由代理（Router Agents）： 作为一个中央调度器，决定查询应流向哪个知识库或工具。
多代理协同（Multi-Agent Systems）： 2025年的主流设计模式是多代理系统。例如，一个Agent专攻法律文档检索，另一个Agent专攻财务数据分析，还有一个Agent负责整合两者的输出并生成最终报告 27。这种分工协作极大提升了复杂任务的准确率。

4.3 Deep Research：深度研究的自动化

2025年2月，OpenAI发布了集成在ChatGPT中的Deep Research功能，这是Agentic AI在C端应用的典型代表 29。

功能描述： Deep Research不再是简单的问答，而是一个自主的研究助理。用户只需给出一个模糊的主题（如"调查2025年全球AI医疗监管政策的变化"），Deep Research便会自主进行长达5-30分钟的深度网络搜索。
能力边界： 它可以自主阅读PDF文档、分析网页上的图像和图表、管理数十个浏览器标签页，并不断根据新发现的信息调整搜索方向。最终，它会生成一份长篇幅、结构严谨且带有详细引用的研究报告。
性能标杆： 在被称为"Humanity's Last Exam"的高难度基准测试中，Deep Research的得分为26.6%，而普通的GPT-4o仅为3.3%，DeepSeek R1为9.4% 29。这标志着AI在处理长周期、多步骤任务上的能力达到了新的高度。

4.4 协议层的统一：Model Context Protocol (MCP)

随着Agent需要连接的数据源和工具越来越多，接口的碎片化成为了开发者面临的巨大挑战。2024年11月，Anthropic推出了Model Context Protocol (MCP)，并在2025年迅速成为行业标准 31。

4.4.1 解决 N t i m e s M N \\times M NtimesM 问题

在MCP出现之前，如果要将LLM连接到Google Drive、Slack、Notion或本地数据库，开发者需要为每个数据源编写特定的连接器。如果有N个AI应用和M个数据源，就需要开发 N t i m e s M N \\times M NtimesM 个连接器。MCP提供了一个通用的开放标准，类似于硬件领域的USB-C协议 33。

MCP Server： 数据拥有者（如Google Drive）只需开发一次MCP Server，暴露数据接口。
MCP Client： AI应用（如Claude Desktop, Cursor）只需实现一次MCP Client，即可连接所有支持MCP的数据源。

4.4.2 行业采纳与影响

到2025年中，OpenAI、Google DeepMind均宣布支持MCP，使其成为AI Agent互操作性的基石 32。MCP不仅支持本地资源（通过stdio通信），也支持远程资源（通过SSE/HTTP通信），这极大地促进了Agent生态的繁荣，使得AI能够安全、受控地访问用户的私有数据。

5. 新开发范式：从Prompt Engineering到Vibe Coding

随着模型智能水平的提升，开发者与AI的交互方式在2025年发生了根本性转变。

5.1 Context Engineering（上下文工程）的崛起

2025年，Gartner和Andrej Karpathy等权威声音宣布"Prompt Engineering已死，Context Engineering当立" 35。

定义： Context Engineering（上下文工程） 不再纠结于通过"咒语"般的提示词来诱导模型，而是关注如何构建一个系统，将正确的信息、工具和记忆（Memory）填充进模型的上下文窗口中 36。
驱动力： 随着Gemini 1.5/2.0和Llama 4支持百万级甚至千万级Token的上下文窗口，如何有效管理和利用这些巨大的上下文空间成为核心挑战 38。
核心实践：
- 动态上下文管理： 根据任务需求，动态地将相关文档、代码片段或历史记忆加载到上下文中，避免无关信息干扰模型（即"大海捞针"问题）。
- 结构化数据注入： 将非结构化数据转化为模型更易理解的JSON或YAML格式。
- 工具定义优化： 精确定义工具（Tools）的描述和参数，确保模型在正确的时候调用正确的工具 39。

5.2 Vibe Coding（氛围编码）：编程的终结？

2025年2月，OpenAI联合创始人Andrej Karpathy提出了Vibe Coding的概念，这一术语迅速被Merriam-Webster和Collins Dictionary收录，成为当年的年度词汇 41。

核心理念： "Fully give in to the vibes"（完全沉浸在氛围中）。在Vibe Coding模式下，开发者不再逐行编写代码，甚至不再阅读代码。开发者通过自然语言描述意图（Intent），由AI生成全部代码。开发者仅负责测试、运行和感受结果是否符合预期（Vibe Check）。如果运行成功且效果不错，开发者无需关心底层代码是如何实现的 43。
工具支持： 这一模式的兴起得益于Cursor、Replit等AI原生IDE的普及。这些工具深度集成了Claude 3.5 Sonnet、GPT-4o等模型，能够实时预测开发者的意图并生成整个代码块。Google也推出了"Vibe Code"工具，允许用户通过自然语言直接构建和部署Web应用 45。
争议与反思： 虽然Vibe Coding大幅降低了编程门槛，使非技术人员也能构建应用，但也引发了专业领域的担忧。批评者认为，这可能导致代码库变得不可维护（因为没人真正理解代码），并带来安全隐患。然而，不可否认的是，它彻底改变了软件生产的流程 43。

5.3 Agent Skills（代理技能）：能力的模块化

为了让Agent更具可复用性，Anthropic在2025年10月推出了Agent Skills标准 47。

结构化封装： 开发者可以将特定的业务流程、知识库和工具封装为一个"Skill"（通常是一个包含SKILL.md的文件夹）。例如，一个"财务报表分析"Skill可能包含读取Excel的工具、会计准则的文档以及生成图表的代码。
渐进式披露（Progressive Disclosure）： Agent不需要一次性加载所有技能，而是根据任务需求动态发现和加载相关技能。这种机制极大地节省了上下文窗口，并提高了Agent在特定任务上的准确性 49。

6. 模型演进深读：三巨头的2025终局之战

2025年，模型领域的竞争不再仅仅是分数的比拼，而是生态、架构和形态的全方位对抗。

6.1 Llama 4：开源的终极形态

2025年4月，Meta发布了Llama 4系列，代号包括Scout（109B）和Maverick（400B） 8。Llama 4被视为开源模型的集大成者，其技术创新主要体现在三个方面：

原生多模态（Native Multimodality）： Llama 4不再像以前那样将视觉编码器"缝合"到语言模型上，而是采用"早期融合（Early Fusion）"技术。从预训练阶段开始，模型就同时处理文本、图像和视频数据。这使得Llama 4能够理解视频流中的时间动态，而不仅仅是静态帧 38。
MoE架构的全面转向： 为了在保持高性能的同时降低推理成本，Llama 4全面转向MoE架构。例如，Scout模型虽然总参数为109B，但在推理时仅激活17B参数。这意味着它可以在普通的服务器上以极低的延迟运行，同时拥有千亿级模型的知识储备 51。
千万级上下文： Scout版本支持高达1000万Token的上下文窗口，是当时开源模型之最。这使得Llama 4能够一次性处理整个项目的代码库或海量的法律卷宗，完美契合Context Engineering的需求 38。

6.2 Claude 4：编码与代理之王

2025年5月，Anthropic发布了Claude 4系列，包括Opus 4和Sonnet 4 52。

定位： Opus 4被定义为当时最强的编码模型和复杂任务处理模型，在SWE-bench（软件工程基准测试）中遥遥领先。它不仅能写代码，还能理解复杂的软件架构。
Claude Code工具： 随模型发布了命令行工具Claude Code。这不仅仅是一个代码生成器，它是一个能够驻留在终端中的Agent，可以自主执行代码、管理文件系统、运行测试并修复Bug。这是Vibe Coding理念在专业开发领域的完美载体 52。
扩展思考（Extended Thinking）： Claude 4引入了类似DeepSeek R1的思考能力。用户可以开启"Thinking"模式，让模型在回答之前进行显式的、长链条的逻辑推演，并在必要时隐藏这些思考过程以提供简洁的答案 54。

6.3 Gemini：全栈能力的整合

Google在2025年通过Gemini 2.0和后续版本（2.5/3.0）巩固了其生态优势 56。

Gemini 2.0 Flash： 2025年初发布，专注于极低延迟和多模态流式传输。它成为实时语音翻译和视频交互的首选模型，延迟低至人类对话级别 58。
生态集成： Google将Gemini模型深度整合进Android系统、Chrome浏览器和Google Workspace。其"Vibe Code"应用直接利用Gemini 3 Pro Preview构建AI原生应用，打通了从Idea到App的最后与一公里 45。

7. 关键技术概念解析与总结

为了更清晰地理解这三年的技术跃迁，我们将关键技术概念及其演进逻辑总结如下表：

表1：关键技术演进对比（2022-2025）

技术领域	2022-2023 (萌芽与基础)	2024 (架构优化)	2025 (Agentic与原生智能)
模型架构	Dense (稠密模型)	混合架构尝试	MoE (混合专家) 成为主流 (DeepSeek-V3, Llama 4)
人机交互	Prompt Engineering (提示工程)	Chain-of-Thought (思维链)	Context Engineering (上下文工程) & Vibe Coding
检索增强	Naive RAG (简单向量检索)	GraphRAG (知识图谱增强)	Agentic RAG (自主规划与多步推理)
训练方法	SFT + RLHF (PPO)	DPO (直接偏好优化)	GRPO (群体相对策略优化) & 推理强化
多模态	文本为主，图像为辅	VLM (视觉语言模型)	Native Multimodality (原生多模态，含视频/音频)
工具连接	定制API连接器	Function Calling (函数调用)	MCP (模型上下文协议) & Agent Skills
应用形态	Chatbot (聊天机器人)	Copilot (副驾驶/助手)	Agent (自主智能体) & Deep Research

7.1 SFT vs. RL：认知的深化

在2024-2025年，业界达成了一个重要共识："SFT用于记忆，RL用于泛化"（SFT memorizes, while RL generalizes）。单纯的SFT（监督微调）虽然能让模型学会特定的格式，但在处理未见过的复杂逻辑时往往表现不佳。DeepSeek R1的成功证明，通过RL（特别是GRPO）让模型在探索中自我学习，是突破推理能力天花板的关键 59。

7.2 算力效率的回归

2023年，行业在比拼谁的模型参数更大；到了2025年，焦点转向了谁的模型更"聪明"且"便宜"。DeepSeek-V3以极低的训练成本和Llama 4 Scout以极高的推理效率（17B激活参数）证明，通过算法创新（如MLA、MoE负载均衡）挖掘硬件潜力，比单纯堆砌GPU更具可持续性。

8. 结论与展望

从2022年12月1日ChatGPT的一声啼鸣，到2025年12月1日Agentic AI的百家争鸣，这三年是人工智能技术发展史上密度最高的时期。

我们见证了LLM从一个容易产生幻觉的聊天玩具，进化为能够自主进行深度研究、编写并运行代码、理解复杂视频流的智能实体。技术栈的每一层都经历了重构：

底层： MoE和原生多模态架构成为新标准。
中间层： MCP和Agent Skills解决了互操作性难题。
应用层： Agentic RAG和Deep Research重新定义了知识获取与生产的方式。
交互层： Vibe Coding和Context Engineering改变了人类驾驭AI的方式。

展望2026年及其后，随着上下文窗口向无限逼近，以及推理能力的进一步普及，AI将不再仅仅是一个辅助工具，而将作为操作系统级的智能底座，隐形于每一次点击、每一行代码和每一个决策的背后。这一进程，始于三年前的那条推文，而今已成燎原之势。

引用的著作

OpenAI's ChatGPT, launched last week, used by over 1 million in 6 days: CEO, 访问时间为十二月 1, 2025， https://www.hindustantimes.com/technology/openais-chatgpt-launched-last-week-used-by-over-1-million-in-6-days-ceo-101670234260469.html
ChatGPT: Microsoft to invest $10B in the Google killer --- TFN - Tech Funding News, 访问时间为十二月 1, 2025， https://techfundingnews.com/microsoft-to-invest-10b-in-openais-chatgpt-herere-5-things-you-need-to-know-about-the-ai-tool/
OpenAI's ChatGPT chatbot crosses one million users in less than a week, 访问时间为十二月 1, 2025， https://indianexpress.com/article/technology/tech-news-technology/openai-chatgpt-crosses-1-million-users-ceo-says-they-might-have-to-monetise-this-8306997/
Sam Altman: ChatGPT will get more 'friendly' again, even erotically so - Mashable, 访问时间为十二月 1, 2025， https://mashable.com/article/sam-altman-chatgpt-to-get-more-friendly-erotic-adult-users
Sam Altman hits back after criticism over ChatGPT's 'adult model' plan: 'We are not the elected moral police' | Hindustan Times, 访问时间为十二月 1, 2025， https://www.hindustantimes.com/trending/us/sam-altman-hits-back-after-criticism-over-chatgpt-s-adult-model-plan-we-are-not-the-elected-moral-police-101760568794983.html
AI Timeline - NH Local, 访问时间为十二月 1, 2025， https://nhlocal.github.io/AiTimeline/
Claude (language model) - Wikipedia, 访问时间为十二月 1, 2025， https://en.wikipedia.org/wiki/Claude_(language_model)
访问时间为十二月 1, 2025， https://en.wikipedia.org/wiki/Llama_(language_model)
GraphRAG: New tool for complex data discovery now on GitHub - Microsoft Research, 访问时间为十二月 1, 2025， https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为十二月 1, 2025， https://arxiv.org/html/2501.09136v1
GraphRAG Open-Source Release Announcement - Frank's World of Data Science & AI, 访问时间为十二月 1, 2025， https://www.franksworld.com/2024/07/04/graphrag-open-source-release-announcement/
LazyGraphRAG: Setting a new standard for quality and cost - Microsoft Research, 访问时间为十二月 1, 2025， https://www.microsoft.com/en-us/research/blog/lazygraphrag-setting-a-new-standard-for-quality-and-cost/
Project GraphRAG - Microsoft Research, 访问时间为十二月 1, 2025， https://www.microsoft.com/en-us/research/project/graphrag/
Milestone Summit 2025: AI & Open Platform Innovation - SecurityInformed.com, 访问时间为十二月 1, 2025， https://www.securityinformed.com/news/milestone-developer-summit-2025-innovate-ai-co-1151-ga.1763360762.html
Milestone unveils its Vision Language Model, hackathon winner, and 2026 goals, 访问时间为十二月 1, 2025， https://www.biometricupdate.com/202511/milestone-unveils-its-vision-language-model-hackathon-winner-and-2026-goals
Meta's Upcoming Release of the Largest Llama 3 Model - Kavout, 访问时间为十二月 1, 2025， https://www.kavout.com/market-lens/metas-upcoming-release-of-the-largest-llama-3-model
Meta releases new Llama 3.1 models, including highly anticipated 405B parameter variant | IBM, 访问时间为十二月 1, 2025， https://www.ibm.com/think/news/meta-releases-llama-3-1-models-405b-parameter-variant
The Complete Guide to DeepSeek Models: V3, R1, V3.1, V3.2 and Beyond - BentoML, 访问时间为十二月 1, 2025， https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond
DeepSeek-V3 Release: New Open-Source MoE Model - Helicone, 访问时间为十二月 1, 2025， https://www.helicone.ai/blog/deepseek-v3
deepseek-ai/DeepSeek-V3 - Hugging Face, 访问时间为十二月 1, 2025， https://huggingface.co/deepseek-ai/DeepSeek-V3
DeepSeek-V3 Technical Report - arXiv, 访问时间为十二月 1, 2025， https://arxiv.org/pdf/2412.19437
DeepSeek-V3 Redefines LLM Performance and Cost Efficiency - DeepLearning.AI, 访问时间为十二月 1, 2025， https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-efficiency/
Why GRPO is Important and How it Works - Oxen.ai, 访问时间为十二月 1, 2025， https://ghost.oxen.ai/why-grpo-is-important-and-how-it-works/
DeepSeek - Wikipedia, 访问时间为十二月 1, 2025， https://en.wikipedia.org/wiki/DeepSeek
Agentic RAG : A Comprehensive Guide - Kore.ai, 访问时间为十二月 1, 2025， https://www.kore.ai/blog/what-is-agentic-rag
What Is Agentic RAG? A Complete Guide (2025), 访问时间为十二月 1, 2025， https://aisera.com/blog/agentic-rag/
What is Agentic RAG? A Practical Guide for Data Teams | Domo, 访问时间为十二月 1, 2025， https://www.domo.com/blog/what-is-agentic-rag-a-practical-guide-for-data-teams
Agentic RAG Explained: Building Smarter, Context-Aware AI Systems - Qodo, 访问时间为十二月 1, 2025， https://www.qodo.ai/blog/agentic-rag/
ChatGPT Deep Research - Wikipedia, 访问时间为十二月 1, 2025， https://en.wikipedia.org/wiki/ChatGPT_Deep_Research
OpenAI Released Deep Research: Here's What You Need To Know - AI Tools, 访问时间为十二月 1, 2025， https://www.godofprompt.ai/blog/openai-released-deep-research
访问时间为十二月 1, 2025， https://cloud.google.com/discover/what-is-model-context-protocol#:~:text=The%20Model%20Context%20Protocol%20(MCP,data%2C%20applications%2C%20and%20services.
Model Context Protocol - Wikipedia, 访问时间为十二月 1, 2025， https://en.wikipedia.org/wiki/Model_Context_Protocol
What is Model Context Protocol (MCP)? A guide | Google Cloud, 访问时间为十二月 1, 2025， https://cloud.google.com/discover/what-is-model-context-protocol
Model Context Protocol (MCP). MCP is an open protocol that... | by Aserdargun | Nov, 2025, 访问时间为十二月 1, 2025， https://medium.com/@aserdargun/model-context-protocol-mcp-e453b47cf254
What Is Context Engineering? A Guide for AI & LLMs | IntuitionLabs, 访问时间为十二月 1, 2025， https://intuitionlabs.ai/articles/what-is-context-engineering
Context Engineering in LLM-Based Agents | by Jin Tan Ruan, CSE Computer Science, 访问时间为十二月 1, 2025， https://jtanruan.medium.com/context-engineering-in-llm-based-agents-d670d6b439bc
Context engineering is just software engineering for LLMs - Inngest Blog, 访问时间为十二月 1, 2025， https://www.inngest.com/blog/context-engineering-is-software-engineering-for-llms
Meta Llama 4 Maverick and Llama 4 Scout now available in watsonx.ai - IBM, 访问时间为十二月 1, 2025， https://www.ibm.com/new/announcements/meta-llama-4-maverick-and-llama-4-scout-now-available-in-watsonx-ai
What is context engineering? - Elasticsearch Labs, 访问时间为十二月 1, 2025， https://www.elastic.co/search-labs/blog/context-engineering-overview
Effective context engineering for AI agents - Anthropic, 访问时间为十二月 1, 2025， https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Vibe Coding Explained: Tools and Guides - Google Cloud, 访问时间为十二月 1, 2025， https://cloud.google.com/discover/what-is-vibe-coding
Vibe coding - Wikipedia, 访问时间为十二月 1, 2025， https://en.wikipedia.org/wiki/Vibe_coding
What is vibe coding? | AI coding - Cloudflare, 访问时间为十二月 1, 2025， https://www.cloudflare.com/learning/ai/ai-vibe-coding/
What is Vibe Coding?, 访问时间为十二月 1, 2025， https://www.youtube.com/watch?v=lpQugp7AXEU
Vibe Code with Gemini - Google AI Studio, 访问时间为十二月 1, 2025， https://aistudio.google.com/vibe-code
Vibe coding is not the same as AI-Assisted engineering. | by Addy Osmani | Nov, 2025, 访问时间为十二月 1, 2025， https://medium.com/@addyosmani/vibe-coding-is-not-the-same-as-ai-assisted-engineering-3f81088d5b98
How to Use Agent Skills with Amazon Q Developer and Kiro | AWS Builder Center, 访问时间为十二月 1, 2025， https://builder.aws.com/content/34NW7Wl1gpOl2E4jeJQ6iytovSM/how-to-use-agent-skills-with-amazon-q-developer-and-kiro
Equipping agents for the real world with Agent Skills - Anthropic, 访问时间为十二月 1, 2025， https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills
Agent Skills - Claude Docs, 访问时间为十二月 1, 2025， https://platform.claude.com/docs/en/agents-and-tools/agent-skills/overview
What to know about Meta's Llama 4 model family - TechTalks, 访问时间为十二月 1, 2025， https://bdtechtalks.com/2025/04/06/meta-llama-4/
Meta AI: What is Llama 4 and why does it matter? - Zapier, 访问时间为十二月 1, 2025， https://zapier.com/blog/llama-meta/
Introducing Claude 4 - Anthropic, 访问时间为十二月 1, 2025， https://www.anthropic.com/news/claude-4
Introducing Claude 4 in Amazon Bedrock, the most powerful models for coding from Anthropic | AWS News Blog, 访问时间为十二月 1, 2025， https://aws.amazon.com/blogs/aws/claude-opus-4-anthropics-most-powerful-model-for-coding-is-now-in-amazon-bedrock/
Claude Developer Platform - Claude Docs, 访问时间为十二月 1, 2025， https://platform.claude.com/docs/en/release-notes/overview
Claude 4 Haiku, Sonnet, Opus Release Date & Features: - PromptLayer Blog, 访问时间为十二月 1, 2025， https://blog.promptlayer.com/claude-4/
Gemini deprecations | Gemini API - Google AI for Developers, 访问时间为十二月 1, 2025， https://ai.google.dev/gemini-api/docs/deprecations
Gemini (language model) - Wikipedia, 访问时间为十二月 1, 2025， https://en.wikipedia.org/wiki/Gemini_(language_model)
Gemini 2.0 model updates: 2.0 Flash, Flash-Lite, Pro Experimental - Google Blog, 访问时间为十二月 1, 2025， https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification - arXiv, 访问时间为十二月 1, 2025， https://arxiv.org/html/2508.05629v2
One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient - arXiv, 访问时间为十二月 1, 2025， https://arxiv.org/html/2509.26313v1