
1. 执行摘要:从对话框到数字物种的进化
2022年12月1日,OpenAI首席执行官Sam Altman在社交媒体上的一条推文,标志着人工智能历史上的一个奇点时刻。ChatGPT的发布不仅仅是一个产品的上线,它开启了生成式人工智能的"寒武纪大爆发"。在随后的三年里(2022.12.01 - 2025.12.01),我们见证了大型语言模型(LLM)从单一的文本生成工具,演变为具备复杂推理、多模态感知、自主决策与工具使用能力的"智能代理"(Agent)。
这三年的技术演进并非线性的增长,而是经历了数次范式转移。早期的焦点在于Prompt Engineering(提示工程)与基础模型的对话能力;中期则转向了架构效率的优化、RAG(检索增强生成)技术的深化以及开源生态的繁荣;而在2025年,随着DeepSeek R1引入的GRPO(群体相对策略优化)算法、Llama 4的原生多模态MoE(混合专家)架构、以及MCP(模型上下文协议)的标准化,行业正式进入了Agentic AI(代理式人工智能)时代。开发者与AI的交互方式也从编写代码转向了Vibe Coding(氛围编码),而**Context Engineering(上下文工程)**则取代了提示工程,成为驾驭千万级Token上下文窗口的核心技能。
本报告将以详尽的笔触,梳理这三年间大模型技术的关键里程碑,深入剖析每一项核心技术的原理、起源及其对整个AI生态系统的深远影响。
2. 2022-2023:生成式AI的觉醒与基础架构的奠定
2.1 ChatGPT时刻:范式转移的起点
2022年11月30日(美国时间),OpenAI低调发布了基于GPT-3.5架构的ChatGPT。12月1日,Sam Altman在Twitter上正式宣布了这一消息,邀请全球用户尝试与其对话 1。这一看似简单的聊天机器人界面,实则隐藏了RLHF(基于人类反馈的强化学习)带来的巨大对齐优势,解决了过往GPT-3模型在指令遵循上的痛点。
2.1.1 爆发式增长与早期挑战
发布仅五天后,ChatGPT用户数突破100万,这一速度打破了当时所有互联网产品的增长记录 1。然而,早期的模型并非完美。用户很快发现了其逻辑缺陷和"幻觉"问题。Sam Altman在2022年12月的推文中坦言,运行这些模型的计算成本"令人咋舌"(eye-watering),每天的成本估算高达10万美元,并预示了未来商业化的必然性 2。
此外,关于AI安全与伦理的讨论在发布初期便已白热化。针对用户对模型"个性"丧失的抱怨,Altman在2022年12月曾暗示将引入年龄分级功能,对成人用户采取更"友好"的内容策略,甚至提及允许成人内容的可能性。这引发了关于科技公司是否应充当"道德警察"的激烈辩论,奠定了后续几年关于AI对齐与监管的基调 4。
2.1.2 Prompt Engineering的兴起
在ChatGPT发布初期,由于模型能力尚不完善,如何通过精妙的提示词(Prompt)来引导模型输出高质量内容成为了一门"显学"。Prompt Engineering(提示工程)应运而生,并在2023年迅速职业化。这一时期的核心技术包括"思维链"(Chain-of-Thought, CoT)提示,通过让模型展示推理步骤来提高数学和逻辑任务的准确性。然而,这仅仅是人机交互演进的初级阶段。
2.2 GPT-4与多模态的萌芽
2023年3月,OpenAI发布GPT-4,这是大模型能力的第一次实质性飞跃 6。与GPT-3.5相比,GPT-4在GRE、LSAT等标准化考试中表现优异,展现了强大的推理能力。更重要的是,GPT-4被设计为多模态模型,虽然最初仅开放文本输入,但其架构已具备处理图像的能力,预示了VLM(视觉语言模型)时代的到来。
与此同时,Anthropic推出了Claude系列,Google推出了Bard(基于PaLM 2),大模型领域的竞争格局初步形成"三足鼎立"之势。Claude以其在长上下文窗口(Context Window)上的优势,迅速在文档分析领域占据一席之地 6。
2.3 开源生态的星火:Llama系列的入场
2023年2月,Meta发布了LLaMA(Large Language Model Meta AI),最初仅面向研究人员开放。然而,权重的意外泄露却意外地开启了开源大模型的繁荣时代 6。
2.3.1 Llama 1与Llama 2的影响
Llama证明了即使是较小参数规模的模型(如7B、13B),只要经过高质量数据的充分训练(Chinchilla Scaling Laws),也能达到甚至超越大参数模型的性能。2023年7月发布的Llama 2进一步放宽了商业使用限制,使得企业和开发者能够基于Llama架构构建私有化模型,SFT(监督微调)技术开始在开源社区广泛普及 8。
这一时期,SFT成为将预训练模型(Pre-trained Model)转化为特定任务模型(如代码生成、医疗问答)的标准范式。通过在特定指令数据集上进行微调,模型能够学习特定的输出格式和领域知识。
3. 2024年:架构分化、RAG进化与效率之战
进入2024年,大模型领域的主旋律从单纯追求参数规模的"军备竞赛",转向了架构效率的优化、检索技术的深度结合以及开源模型对闭源模型的强力追赶。
3.1 检索增强生成(RAG)的深化:从Naive到GraphRAG
在2023年,RAG主要被视为解决大模型"幻觉"和知识时效性问题的补丁。最基础的Naive RAG流程是:将文档切片、向量化存入数据库,用户提问时检索相似切片,再喂给LLM生成答案。然而,这种线性流程在面对复杂问题时显露出严重局限:它只能检索到局部的语义相似片段,而无法理解文档集中的宏观结构或跨文档的隐含关系 9。
3.1.1 GraphRAG:结构化知识的引入
2024年7月,微软研究院正式开源了GraphRAG,这是RAG技术的一次重大升级 9。GraphRAG不完全依赖向量相似度,而是利用LLM从源文档中提取实体(Entities)和关系(Relationships),构建一个知识图谱(Knowledge Graph)。
- 技术机制: GraphRAG利用Leiden算法对知识图谱进行社区检测(Community Detection),将图谱划分为不同层级的语义社区。在回答问题时,它不仅检索具体的节点,还能生成社区摘要(Community Summaries),从而能够回答诸如"这数千份文档中关于气候变化的主要观点有哪些?"这类全局性(Global)问题。
- 性能对比: 实验表明,在处理复杂数据集发现任务时,GraphRAG的全面性和准确性显著优于Naive RAG。
- LazyGraphRAG: 针对GraphRAG构建索引成本高昂(需要大量LLM调用来提取实体关系)的问题,微软在2024年11月推出了LazyGraphRAG。该技术引入了更高效的索引策略,仅在查询时按需扩展图谱,大幅降低了落地成本 12。
3.2 视觉语言模型(VLM)的行业落地
2024年是VLM从实验室走向产业应用的关键一年。VLM不再仅仅是能够"看图说话"的聊天机器人,而是开始成为理解物理世界的视觉传感器。
在安防与智慧城市领域,Milestone Systems推出了专用的VLM,利用NVIDIA的技术,使视频监控系统能够理解复杂的视觉场景。该模型不仅能识别物体,还能理解场景中的行为逻辑(如交通违规、异常聚集),并允许操作员通过自然语言查询视频流(例如"并在过去一小时内哪里出现了红色的卡车?") 14。这种能力的实现,标志着多模态AI开始从内容生成(AIGC)向物理世界感知(Physical World Perception)迈进。
3.3 开源模型的里程碑:Llama 3与Llama 3.1
2024年4月,Meta发布Llama 3,随后在7月推出了Llama 3.1系列,其中包含参数量高达4050亿(405B)的旗舰模型 8。
- 性能对齐: Llama 3.1 405B是开源界首个在各项基准测试中真正匹敌当时最强闭源模型(如GPT-4o)的模型。它证明了开源模型在推理、数学和编码能力上没有不可逾越的鸿沟。
- 长上下文: Llama 3.1支持128k的上下文窗口,使得处理长文档和代码库成为可能。
- 生态影响: 405B模型的发布迫使OpenAI、Google等闭源厂商重新思考其护城河。同时,它也成为后续众多微调模型(如医疗、法律专用模型)的基础底座,极大地丰富了AI应用生态。
4. 2025年:Agentic AI与推理模型的爆发
2025年,人工智能技术栈发生了根本性的重构。如果说前两年是教会模型"说话",那么2025年则是教会模型"思考"和"行动"。DeepSeek的崛起、Agentic RAG的普及以及MCP协议的标准化,共同构成了这一年的技术主线。
4.1 DeepSeek现象:算力经济学的改写
2024年底至2025年初,来自中国的AI公司DeepSeek(深度求索)凭借DeepSeek-V3和DeepSeek R1两款模型,震撼了全球AI社区。它们不仅在性能上追平甚至超越了顶尖闭源模型,更重要的是,它们以极低的成本实现了这一成就,彻底改写了算力经济学。
4.1.1 DeepSeek-V3:MoE架构的极致优化
2024年12月发布的DeepSeek-V3采用混合专家(Mixture-of-Experts, MoE)架构,总参数量达到671B,但每个token的激活参数仅为37B 18。
- 多头潜在注意力(MLA): 这一创新架构显著降低了推理过程中的KV Cache(键值缓存)显存占用。在处理长上下文时,MLA使得DeepSeek-V3的推理效率远高于同等规模的传统Transformer模型。
- 辅助损失无关的负载均衡(Auxiliary-loss-free Load Balancing): 传统的MoE模型通常需要辅助损失函数来确保各个专家的负载均衡,但这往往会损害模型性能。DeepSeek-V3通过创新的路由策略,在不引入辅助损失的情况下实现了负载均衡,最大化了专家利用率 20。
- 成本奇迹: DeepSeek-V3的训练仅消耗了278.8万H800 GPU时,总成本估算低至560万美元。相比之下,Llama 3.1 405B的训练成本是其数倍甚至数十倍。这证明了算法优化比单纯堆砌算力更具边际效益 22。
4.1.2 DeepSeek R1与GRPO:推理能力的民主化
2025年1月,DeepSeek发布R1模型,专注于提升模型的推理能力(Reasoning),在数学和代码任务上表现卓越,甚至在某些基准上超越了OpenAI的o1模型 23。
R1背后的核心算法是GRPO(Group Relative Policy Optimization,群体相对策略优化)。这是对传统RLHF(基于人类反馈的强化学习)的一次重大革新:
- 传统RLHF (PPO): 通常使用PPO(近端策略优化)算法,需要维护一个与策略模型(Policy Model)同等大小的价值模型(Value Model),这极其消耗显存和计算资源。
- GRPO机制: GRPO摒弃了价值模型。它通过让模型针对同一个提示生成一组(Group)输出,然后计算这组输出的相对优势(基于奖励模型的打分或规则验证)。这种方法利用组内的相对比较来更新策略,大幅降低了训练资源需求 23。
- "顿悟"时刻: 在训练过程中,R1展现出了类似人类的"顿悟"行为,即通过自我反思和长思维链(Chain of Thought)来纠正错误,从而解决复杂的数学难题。R1的开源使得这种高级推理能力不再是科技巨头的专利,任何开发者都可以在消费级显卡上微调具备推理能力的模型。
4.2 Agentic RAG:从静态检索到动态推理
到2025年,Agentic RAG(代理式检索增强生成) 已取代Naive RAG,成为企业级AI应用的标准架构。
4.2.1 定义与核心差异
Agentic RAG不仅仅是检索,它引入了能够自主决策的智能体(Agent)。与传统RAG线性的"检索-生成"流程不同,Agentic RAG是一个动态的循环系统 10:
- 自主规划(Planning): Agent首先分析用户意图,将复杂问题(如"分析过去三年特斯拉财报中的研发投入趋势")分解为多个子任务。
- 工具使用(Tool Use): Agent自主决定使用哪些工具。它可能先查询向量数据库,如果信息不足,再调用Google Search API,或者运行Python代码来处理数据。
- 反思与修正(Reflection & Refinement): Agent会自我评估检索到的信息是否足以回答问题。如果发现信息缺失或矛盾,它会修改检索策略重新尝试,直到获得满意结果。
4.2.2 架构模式
- 路由代理(Router Agents): 作为一个中央调度器,决定查询应流向哪个知识库或工具。
- 多代理协同(Multi-Agent Systems): 2025年的主流设计模式是多代理系统。例如,一个Agent专攻法律文档检索,另一个Agent专攻财务数据分析,还有一个Agent负责整合两者的输出并生成最终报告 27。这种分工协作极大提升了复杂任务的准确率。
4.3 Deep Research:深度研究的自动化
2025年2月,OpenAI发布了集成在ChatGPT中的Deep Research功能,这是Agentic AI在C端应用的典型代表 29。
- 功能描述: Deep Research不再是简单的问答,而是一个自主的研究助理。用户只需给出一个模糊的主题(如"调查2025年全球AI医疗监管政策的变化"),Deep Research便会自主进行长达5-30分钟的深度网络搜索。
- 能力边界: 它可以自主阅读PDF文档、分析网页上的图像和图表、管理数十个浏览器标签页,并不断根据新发现的信息调整搜索方向。最终,它会生成一份长篇幅、结构严谨且带有详细引用的研究报告。
- 性能标杆: 在被称为"Humanity's Last Exam"的高难度基准测试中,Deep Research的得分为26.6%,而普通的GPT-4o仅为3.3%,DeepSeek R1为9.4% 29。这标志着AI在处理长周期、多步骤任务上的能力达到了新的高度。
4.4 协议层的统一:Model Context Protocol (MCP)
随着Agent需要连接的数据源和工具越来越多,接口的碎片化成为了开发者面临的巨大挑战。2024年11月,Anthropic推出了Model Context Protocol (MCP),并在2025年迅速成为行业标准 31。
4.4.1 解决 N t i m e s M N \\times M NtimesM 问题
在MCP出现之前,如果要将LLM连接到Google Drive、Slack、Notion或本地数据库,开发者需要为每个数据源编写特定的连接器。如果有N个AI应用和M个数据源,就需要开发 N t i m e s M N \\times M NtimesM 个连接器。MCP提供了一个通用的开放标准,类似于硬件领域的USB-C协议 33。
- MCP Server: 数据拥有者(如Google Drive)只需开发一次MCP Server,暴露数据接口。
- MCP Client: AI应用(如Claude Desktop, Cursor)只需实现一次MCP Client,即可连接所有支持MCP的数据源。
4.4.2 行业采纳与影响
到2025年中,OpenAI、Google DeepMind均宣布支持MCP,使其成为AI Agent互操作性的基石 32。MCP不仅支持本地资源(通过stdio通信),也支持远程资源(通过SSE/HTTP通信),这极大地促进了Agent生态的繁荣,使得AI能够安全、受控地访问用户的私有数据。
5. 新开发范式:从Prompt Engineering到Vibe Coding
随着模型智能水平的提升,开发者与AI的交互方式在2025年发生了根本性转变。
5.1 Context Engineering(上下文工程)的崛起
2025年,Gartner和Andrej Karpathy等权威声音宣布"Prompt Engineering已死,Context Engineering当立" 35。
- 定义: Context Engineering(上下文工程) 不再纠结于通过"咒语"般的提示词来诱导模型,而是关注如何构建一个系统,将正确的信息、工具和记忆(Memory)填充进模型的上下文窗口中 36。
- 驱动力: 随着Gemini 1.5/2.0和Llama 4支持百万级甚至千万级Token的上下文窗口,如何有效管理和利用这些巨大的上下文空间成为核心挑战 38。
- 核心实践:
- 动态上下文管理: 根据任务需求,动态地将相关文档、代码片段或历史记忆加载到上下文中,避免无关信息干扰模型(即"大海捞针"问题)。
- 结构化数据注入: 将非结构化数据转化为模型更易理解的JSON或YAML格式。
- 工具定义优化: 精确定义工具(Tools)的描述和参数,确保模型在正确的时候调用正确的工具 39。
5.2 Vibe Coding(氛围编码):编程的终结?
2025年2月,OpenAI联合创始人Andrej Karpathy提出了Vibe Coding的概念,这一术语迅速被Merriam-Webster和Collins Dictionary收录,成为当年的年度词汇 41。
- 核心理念: "Fully give in to the vibes"(完全沉浸在氛围中)。在Vibe Coding模式下,开发者不再逐行编写代码,甚至不再阅读代码。开发者通过自然语言描述意图(Intent),由AI生成全部代码。开发者仅负责测试、运行和感受结果是否符合预期(Vibe Check)。如果运行成功且效果不错,开发者无需关心底层代码是如何实现的 43。
- 工具支持: 这一模式的兴起得益于Cursor、Replit等AI原生IDE的普及。这些工具深度集成了Claude 3.5 Sonnet、GPT-4o等模型,能够实时预测开发者的意图并生成整个代码块。Google也推出了"Vibe Code"工具,允许用户通过自然语言直接构建和部署Web应用 45。
- 争议与反思: 虽然Vibe Coding大幅降低了编程门槛,使非技术人员也能构建应用,但也引发了专业领域的担忧。批评者认为,这可能导致代码库变得不可维护(因为没人真正理解代码),并带来安全隐患。然而,不可否认的是,它彻底改变了软件生产的流程 43。
5.3 Agent Skills(代理技能):能力的模块化
为了让Agent更具可复用性,Anthropic在2025年10月推出了Agent Skills标准 47。
- 结构化封装: 开发者可以将特定的业务流程、知识库和工具封装为一个"Skill"(通常是一个包含SKILL.md的文件夹)。例如,一个"财务报表分析"Skill可能包含读取Excel的工具、会计准则的文档以及生成图表的代码。
- 渐进式披露(Progressive Disclosure): Agent不需要一次性加载所有技能,而是根据任务需求动态发现和加载相关技能。这种机制极大地节省了上下文窗口,并提高了Agent在特定任务上的准确性 49。
6. 模型演进深读:三巨头的2025终局之战
2025年,模型领域的竞争不再仅仅是分数的比拼,而是生态、架构和形态的全方位对抗。
6.1 Llama 4:开源的终极形态
2025年4月,Meta发布了Llama 4系列,代号包括Scout(109B)和Maverick(400B) 8。Llama 4被视为开源模型的集大成者,其技术创新主要体现在三个方面:
- 原生多模态(Native Multimodality): Llama 4不再像以前那样将视觉编码器"缝合"到语言模型上,而是采用"早期融合(Early Fusion)"技术。从预训练阶段开始,模型就同时处理文本、图像和视频数据。这使得Llama 4能够理解视频流中的时间动态,而不仅仅是静态帧 38。
- MoE架构的全面转向: 为了在保持高性能的同时降低推理成本,Llama 4全面转向MoE架构。例如,Scout模型虽然总参数为109B,但在推理时仅激活17B参数。这意味着它可以在普通的服务器上以极低的延迟运行,同时拥有千亿级模型的知识储备 51。
- 千万级上下文: Scout版本支持高达1000万Token的上下文窗口,是当时开源模型之最。这使得Llama 4能够一次性处理整个项目的代码库或海量的法律卷宗,完美契合Context Engineering的需求 38。
6.2 Claude 4:编码与代理之王
2025年5月,Anthropic发布了Claude 4系列,包括Opus 4和Sonnet 4 52。
- 定位: Opus 4被定义为当时最强的编码模型和复杂任务处理模型,在SWE-bench(软件工程基准测试)中遥遥领先。它不仅能写代码,还能理解复杂的软件架构。
- Claude Code工具: 随模型发布了命令行工具Claude Code。这不仅仅是一个代码生成器,它是一个能够驻留在终端中的Agent,可以自主执行代码、管理文件系统、运行测试并修复Bug。这是Vibe Coding理念在专业开发领域的完美载体 52。
- 扩展思考(Extended Thinking): Claude 4引入了类似DeepSeek R1的思考能力。用户可以开启"Thinking"模式,让模型在回答之前进行显式的、长链条的逻辑推演,并在必要时隐藏这些思考过程以提供简洁的答案 54。
6.3 Gemini:全栈能力的整合
Google在2025年通过Gemini 2.0和后续版本(2.5/3.0)巩固了其生态优势 56。
- Gemini 2.0 Flash: 2025年初发布,专注于极低延迟和多模态流式传输。它成为实时语音翻译和视频交互的首选模型,延迟低至人类对话级别 58。
- 生态集成: Google将Gemini模型深度整合进Android系统、Chrome浏览器和Google Workspace。其"Vibe Code"应用直接利用Gemini 3 Pro Preview构建AI原生应用,打通了从Idea到App的最后与一公里 45。
7. 关键技术概念解析与总结
为了更清晰地理解这三年的技术跃迁,我们将关键技术概念及其演进逻辑总结如下表:
表1:关键技术演进对比(2022-2025)
| 技术领域 | 2022-2023 (萌芽与基础) | 2024 (架构优化) | 2025 (Agentic与原生智能) |
|---|---|---|---|
| 模型架构 | Dense (稠密模型) | 混合架构尝试 | MoE (混合专家) 成为主流 (DeepSeek-V3, Llama 4) |
| 人机交互 | Prompt Engineering (提示工程) | Chain-of-Thought (思维链) | Context Engineering (上下文工程) & Vibe Coding |
| 检索增强 | Naive RAG (简单向量检索) | GraphRAG (知识图谱增强) | Agentic RAG (自主规划与多步推理) |
| 训练方法 | SFT + RLHF (PPO) | DPO (直接偏好优化) | GRPO (群体相对策略优化) & 推理强化 |
| 多模态 | 文本为主,图像为辅 | VLM (视觉语言模型) | Native Multimodality (原生多模态,含视频/音频) |
| 工具连接 | 定制API连接器 | Function Calling (函数调用) | MCP (模型上下文协议) & Agent Skills |
| 应用形态 | Chatbot (聊天机器人) | Copilot (副驾驶/助手) | Agent (自主智能体) & Deep Research |
7.1 SFT vs. RL:认知的深化
在2024-2025年,业界达成了一个重要共识:"SFT用于记忆,RL用于泛化"(SFT memorizes, while RL generalizes)。单纯的SFT(监督微调)虽然能让模型学会特定的格式,但在处理未见过的复杂逻辑时往往表现不佳。DeepSeek R1的成功证明,通过RL(特别是GRPO)让模型在探索中自我学习,是突破推理能力天花板的关键 59。
7.2 算力效率的回归
2023年,行业在比拼谁的模型参数更大;到了2025年,焦点转向了谁的模型更"聪明"且"便宜"。DeepSeek-V3以极低的训练成本和Llama 4 Scout以极高的推理效率(17B激活参数)证明,通过算法创新(如MLA、MoE负载均衡)挖掘硬件潜力,比单纯堆砌GPU更具可持续性。
8. 结论与展望
从2022年12月1日ChatGPT的一声啼鸣,到2025年12月1日Agentic AI的百家争鸣,这三年是人工智能技术发展史上密度最高的时期。
我们见证了LLM从一个容易产生幻觉的聊天玩具,进化为能够自主进行深度研究、编写并运行代码、理解复杂视频流的智能实体。技术栈的每一层都经历了重构:
- 底层: MoE和原生多模态架构成为新标准。
- 中间层: MCP和Agent Skills解决了互操作性难题。
- 应用层: Agentic RAG和Deep Research重新定义了知识获取与生产的方式。
- 交互层: Vibe Coding和Context Engineering改变了人类驾驭AI的方式。
展望2026年及其后,随着上下文窗口向无限逼近,以及推理能力的进一步普及,AI将不再仅仅是一个辅助工具,而将作为操作系统级的智能底座,隐形于每一次点击、每一行代码和每一个决策的背后。这一进程,始于三年前的那条推文,而今已成燎原之势。
引用的著作
- OpenAI's ChatGPT, launched last week, used by over 1 million in 6 days: CEO, 访问时间为 十二月 1, 2025, https://www.hindustantimes.com/technology/openais-chatgpt-launched-last-week-used-by-over-1-million-in-6-days-ceo-101670234260469.html
- ChatGPT: Microsoft to invest $10B in the Google killer --- TFN - Tech Funding News, 访问时间为 十二月 1, 2025, https://techfundingnews.com/microsoft-to-invest-10b-in-openais-chatgpt-herere-5-things-you-need-to-know-about-the-ai-tool/
- OpenAI's ChatGPT chatbot crosses one million users in less than a week, 访问时间为 十二月 1, 2025, https://indianexpress.com/article/technology/tech-news-technology/openai-chatgpt-crosses-1-million-users-ceo-says-they-might-have-to-monetise-this-8306997/
- Sam Altman: ChatGPT will get more 'friendly' again, even erotically so - Mashable, 访问时间为 十二月 1, 2025, https://mashable.com/article/sam-altman-chatgpt-to-get-more-friendly-erotic-adult-users
- Sam Altman hits back after criticism over ChatGPT's 'adult model' plan: 'We are not the elected moral police' | Hindustan Times, 访问时间为 十二月 1, 2025, https://www.hindustantimes.com/trending/us/sam-altman-hits-back-after-criticism-over-chatgpt-s-adult-model-plan-we-are-not-the-elected-moral-police-101760568794983.html
- AI Timeline - NH Local, 访问时间为 十二月 1, 2025, https://nhlocal.github.io/AiTimeline/
- Claude (language model) - Wikipedia, 访问时间为 十二月 1, 2025, https://en.wikipedia.org/wiki/Claude_(language_model)
- 访问时间为 十二月 1, 2025, https://en.wikipedia.org/wiki/Llama_(language_model)
- GraphRAG: New tool for complex data discovery now on GitHub - Microsoft Research, 访问时间为 十二月 1, 2025, https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/
- Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为 十二月 1, 2025, https://arxiv.org/html/2501.09136v1
- GraphRAG Open-Source Release Announcement - Frank's World of Data Science & AI, 访问时间为 十二月 1, 2025, https://www.franksworld.com/2024/07/04/graphrag-open-source-release-announcement/
- LazyGraphRAG: Setting a new standard for quality and cost - Microsoft Research, 访问时间为 十二月 1, 2025, https://www.microsoft.com/en-us/research/blog/lazygraphrag-setting-a-new-standard-for-quality-and-cost/
- Project GraphRAG - Microsoft Research, 访问时间为 十二月 1, 2025, https://www.microsoft.com/en-us/research/project/graphrag/
- Milestone Summit 2025: AI & Open Platform Innovation - SecurityInformed.com, 访问时间为 十二月 1, 2025, https://www.securityinformed.com/news/milestone-developer-summit-2025-innovate-ai-co-1151-ga.1763360762.html
- Milestone unveils its Vision Language Model, hackathon winner, and 2026 goals, 访问时间为 十二月 1, 2025, https://www.biometricupdate.com/202511/milestone-unveils-its-vision-language-model-hackathon-winner-and-2026-goals
- Meta's Upcoming Release of the Largest Llama 3 Model - Kavout, 访问时间为 十二月 1, 2025, https://www.kavout.com/market-lens/metas-upcoming-release-of-the-largest-llama-3-model
- Meta releases new Llama 3.1 models, including highly anticipated 405B parameter variant | IBM, 访问时间为 十二月 1, 2025, https://www.ibm.com/think/news/meta-releases-llama-3-1-models-405b-parameter-variant
- The Complete Guide to DeepSeek Models: V3, R1, V3.1, V3.2 and Beyond - BentoML, 访问时间为 十二月 1, 2025, https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond
- DeepSeek-V3 Release: New Open-Source MoE Model - Helicone, 访问时间为 十二月 1, 2025, https://www.helicone.ai/blog/deepseek-v3
- deepseek-ai/DeepSeek-V3 - Hugging Face, 访问时间为 十二月 1, 2025, https://huggingface.co/deepseek-ai/DeepSeek-V3
- DeepSeek-V3 Technical Report - arXiv, 访问时间为 十二月 1, 2025, https://arxiv.org/pdf/2412.19437
- DeepSeek-V3 Redefines LLM Performance and Cost Efficiency - DeepLearning.AI, 访问时间为 十二月 1, 2025, https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-efficiency/
- Why GRPO is Important and How it Works - Oxen.ai, 访问时间为 十二月 1, 2025, https://ghost.oxen.ai/why-grpo-is-important-and-how-it-works/
- DeepSeek - Wikipedia, 访问时间为 十二月 1, 2025, https://en.wikipedia.org/wiki/DeepSeek
- Agentic RAG : A Comprehensive Guide - Kore.ai, 访问时间为 十二月 1, 2025, https://www.kore.ai/blog/what-is-agentic-rag
- What Is Agentic RAG? A Complete Guide (2025), 访问时间为 十二月 1, 2025, https://aisera.com/blog/agentic-rag/
- What is Agentic RAG? A Practical Guide for Data Teams | Domo, 访问时间为 十二月 1, 2025, https://www.domo.com/blog/what-is-agentic-rag-a-practical-guide-for-data-teams
- Agentic RAG Explained: Building Smarter, Context-Aware AI Systems - Qodo, 访问时间为 十二月 1, 2025, https://www.qodo.ai/blog/agentic-rag/
- ChatGPT Deep Research - Wikipedia, 访问时间为 十二月 1, 2025, https://en.wikipedia.org/wiki/ChatGPT_Deep_Research
- OpenAI Released Deep Research: Here's What You Need To Know - AI Tools, 访问时间为 十二月 1, 2025, https://www.godofprompt.ai/blog/openai-released-deep-research
- 访问时间为 十二月 1, 2025, https://cloud.google.com/discover/what-is-model-context-protocol#:~:text=The%20Model%20Context%20Protocol%20(MCP,data%2C%20applications%2C%20and%20services.
- Model Context Protocol - Wikipedia, 访问时间为 十二月 1, 2025, https://en.wikipedia.org/wiki/Model_Context_Protocol
- What is Model Context Protocol (MCP)? A guide | Google Cloud, 访问时间为 十二月 1, 2025, https://cloud.google.com/discover/what-is-model-context-protocol
- Model Context Protocol (MCP). MCP is an open protocol that... | by Aserdargun | Nov, 2025, 访问时间为 十二月 1, 2025, https://medium.com/@aserdargun/model-context-protocol-mcp-e453b47cf254
- What Is Context Engineering? A Guide for AI & LLMs | IntuitionLabs, 访问时间为 十二月 1, 2025, https://intuitionlabs.ai/articles/what-is-context-engineering
- Context Engineering in LLM-Based Agents | by Jin Tan Ruan, CSE Computer Science, 访问时间为 十二月 1, 2025, https://jtanruan.medium.com/context-engineering-in-llm-based-agents-d670d6b439bc
- Context engineering is just software engineering for LLMs - Inngest Blog, 访问时间为 十二月 1, 2025, https://www.inngest.com/blog/context-engineering-is-software-engineering-for-llms
- Meta Llama 4 Maverick and Llama 4 Scout now available in watsonx.ai - IBM, 访问时间为 十二月 1, 2025, https://www.ibm.com/new/announcements/meta-llama-4-maverick-and-llama-4-scout-now-available-in-watsonx-ai
- What is context engineering? - Elasticsearch Labs, 访问时间为 十二月 1, 2025, https://www.elastic.co/search-labs/blog/context-engineering-overview
- Effective context engineering for AI agents - Anthropic, 访问时间为 十二月 1, 2025, https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
- Vibe Coding Explained: Tools and Guides - Google Cloud, 访问时间为 十二月 1, 2025, https://cloud.google.com/discover/what-is-vibe-coding
- Vibe coding - Wikipedia, 访问时间为 十二月 1, 2025, https://en.wikipedia.org/wiki/Vibe_coding
- What is vibe coding? | AI coding - Cloudflare, 访问时间为 十二月 1, 2025, https://www.cloudflare.com/learning/ai/ai-vibe-coding/
- What is Vibe Coding?, 访问时间为 十二月 1, 2025, https://www.youtube.com/watch?v=lpQugp7AXEU
- Vibe Code with Gemini - Google AI Studio, 访问时间为 十二月 1, 2025, https://aistudio.google.com/vibe-code
- Vibe coding is not the same as AI-Assisted engineering. | by Addy Osmani | Nov, 2025, 访问时间为 十二月 1, 2025, https://medium.com/@addyosmani/vibe-coding-is-not-the-same-as-ai-assisted-engineering-3f81088d5b98
- How to Use Agent Skills with Amazon Q Developer and Kiro | AWS Builder Center, 访问时间为 十二月 1, 2025, https://builder.aws.com/content/34NW7Wl1gpOl2E4jeJQ6iytovSM/how-to-use-agent-skills-with-amazon-q-developer-and-kiro
- Equipping agents for the real world with Agent Skills - Anthropic, 访问时间为 十二月 1, 2025, https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills
- Agent Skills - Claude Docs, 访问时间为 十二月 1, 2025, https://platform.claude.com/docs/en/agents-and-tools/agent-skills/overview
- What to know about Meta's Llama 4 model family - TechTalks, 访问时间为 十二月 1, 2025, https://bdtechtalks.com/2025/04/06/meta-llama-4/
- Meta AI: What is Llama 4 and why does it matter? - Zapier, 访问时间为 十二月 1, 2025, https://zapier.com/blog/llama-meta/
- Introducing Claude 4 - Anthropic, 访问时间为 十二月 1, 2025, https://www.anthropic.com/news/claude-4
- Introducing Claude 4 in Amazon Bedrock, the most powerful models for coding from Anthropic | AWS News Blog, 访问时间为 十二月 1, 2025, https://aws.amazon.com/blogs/aws/claude-opus-4-anthropics-most-powerful-model-for-coding-is-now-in-amazon-bedrock/
- Claude Developer Platform - Claude Docs, 访问时间为 十二月 1, 2025, https://platform.claude.com/docs/en/release-notes/overview
- Claude 4 Haiku, Sonnet, Opus Release Date & Features: - PromptLayer Blog, 访问时间为 十二月 1, 2025, https://blog.promptlayer.com/claude-4/
- Gemini deprecations | Gemini API - Google AI for Developers, 访问时间为 十二月 1, 2025, https://ai.google.dev/gemini-api/docs/deprecations
- Gemini (language model) - Wikipedia, 访问时间为 十二月 1, 2025, https://en.wikipedia.org/wiki/Gemini_(language_model)
- Gemini 2.0 model updates: 2.0 Flash, Flash-Lite, Pro Experimental - Google Blog, 访问时间为 十二月 1, 2025, https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/
- On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification - arXiv, 访问时间为 十二月 1, 2025, https://arxiv.org/html/2508.05629v2
- One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient - arXiv, 访问时间为 十二月 1, 2025, https://arxiv.org/html/2509.26313v1