本文由体验技术团队合艳春同学原创。
引言
科技产品生命周期模型

------来自杰弗里·摩尔的《跨越鸿沟》
AI技术不再是少数极客的玩具,而是每一位希望保持竞争力的开发者都应该掌握并使用的生产力标配。
现在的问题不再是"AI会不会写代码",而是 "你多快能利用AI,让10小时的工作量锐减到2小时?"
1 AI简介
1.1 什么是AI?
AI(Artificial Intelligence)是研究如何利用机器模拟人类智能的一门技术,简单来说就是让计算机像人类一样思考和行动,甚至超过人类的智能。
从应用领域来说,AI可以分为能懂、会看、可动3个方向:
- 能听会思:以自然语言处理技术为代表的发展路线,ChatGPT等
- 会说会看:以计算机视觉、语言合成等技术为代码的发展路线,人脸识别等
- 能动会做:以机器人技术为代表,仿生机器人、自动驾驶等
1.2 AI的能力怎么来的?
AI的能力主要来自三个方面:数据 、算法 和算力
AI的能力不是无中生有的魔法,而是从数据中学习、通过算法优化、依靠算力支撑,最终凝结成模型参数的科技成果
数据: 当前的AI,尤其是大语言模型,是在互联网规模的庞大数据集上训练的,包括书籍、文章、代码、论坛对话等万亿计的文本。
算法: 算法是处理和从数据中学习的数学框架和代码实现。核心过程叫做 "训练"。 核心是一种叫做 Transformer 的神经网络架构。它的关键机制是"自注意力机制"。
算力 :
-
硬件:主要在GPU(图形处理器)上完成,因为GPU拥有成千上万个核心,非常适合同时进行海量的简单计算(并行计算),而这正是神经网络训练所需要的。
-
成本:训练一个顶尖的大模型可能需要成千上万块GPU连续工作数周甚至数月,耗资数百万甚至上千万美元。

现代算法自20世纪40年代后,出现基于黑盒数据驱动的分支,逐渐出现"人工智能","神经网络","深度学习"以及近几年的"大模型" 。
黑盒设计,要求大量的训练数据和标签,来训练黑盒模型。黑盒数据驱动算法:通用模型结构,基于数据,训练模型参数,模型质量强依赖数据质量。

一个模型有数千亿个参数,每个参数都对最终输出有微小贡献。我们无法像调试普通代码一样,通过console.log来理解"究竟是哪个参数负责了幽默感,哪个参数组合确保了事实准确性"。最终的输出是这数万亿次相互作用叠加后的结果,人类无法直接解析。我们只能通过提示工程(Prompt Engineering) 和后续的微调训练(如RLHF,基于人类反馈的强化学习) 来"引导"和"对齐"模型的行为,让它更符合人类的意图。这更像是在驯服一个拥有庞大能力的智慧体,而不是在编写一行行确定的指令。
1.3 多种技术集合
AI 并非单一技术,而是多种技术的集合,包括:

推荐阅读: 《智慧的疆界------从图灵机到人工智能》
技术1:机器学习 Machine Learning
说明: 一种实现人工智能的方法。机器学习是一种让计算机从数据中自行寻找规律并构建预测模型的技术。(题海战术)
机器学习三大分类
-
监督学习
- 概念:给机器有"标准答案"的数据集进行训练。就像学生做带答案的习题集。
- 典型任务:分类(猫狗识别)、回归(预测房价)。
-
无监督学习
- 概念:给机器无标签的数据,让它自己发现内在结构。就像给学生一堆杂乱无章的卡片让他们自行分类。
- 典型任务:聚类(客户分群)。
-
强化学习
- 概念:智能体通过与环境互动,根据"奖励"来学习最佳策略。就像训练小狗,做对了给零食。当AI回答的不错的时候,给与鼓励,不够理想的时候,给与批评或者纠正。这样AI就能学习到人类的评分标准。
- 典型任务:AlphaGo。
举例: 机器学习是让计算机通过"数据"和"统计"来自主学习如何完成任务,而不是通过我们手动编写具体的"规则"和"逻辑"。
- 准备数据: 收集成千上万张图片,并给它们打上标签(这是"猫",那是"不是猫")。
- 训练模型: 选择一个机器学习算法(比如一个神经网络),把这堆图片"喂"给它。算法会自动分析这些数据,寻找"猫"和"非猫"图片中像素点之间的统计规律和模式。
- 预测/推理: 训练完成后,你得到的是一个模型。当你给它一张新的、没见过的图片时,这个模型会根据之前学到的模式,计算出一个概率(例如,"这张图片有97%的可能性是猫")。
技术2:深度学习 Deep Learning
说明: 机器学习的一个子领域,使用类似于人脑神经网络的"人工神经网络"来处理极其复杂的数据(如图像、语音)。
- 感知机(1969年) :最初的基石,它是最简单的神经网络,只有输入层和输出层
- 多层神经网络(1986年): 一个多层的、使用非线性激活函数的感知机网络,就是一个最基础的深度学习(神经网络)模型。
2006年,辛顿Science期发表了一篇重要论文,提出了深度信念网络概念。
推荐阅读:《深度学习入门:基于Python的理论与实现》推荐阅读:《神经网络与深度学习》
举例:

深度学习算法使用"隐藏"层更多(数百个)的深度神经网络。可以自动从海量的数据集中提取特征,不需要人工干预(无监督学习)。
技术3:Transformer
说明: 从片段记忆到全局记忆;从串行处理到并行处理。
- 自注意力机制: 自注意力机制使模型在处理每个词时,都能参考序列中其他所有词的信息,从而更好地理解上下文关系。
- 编码器-解码器结构: 使得Transformer能够处理变长序列数据,并且具有更好的泛化能力。
017 年 Google 在《Attention Is All You Need》中提出了 Transformer 结构用于序列标注,在翻译任务上超过了之前最优秀的循环神经网络模型(解决 RNN 和 CNN 在处理序列数据时存在的计算效率低 和长程依赖建模难两大核心问题)
举例:

由于自注意力机制需要计算输入序列中每个位置与其他位置之间的相关性,导致参数数量随输入序列长度的增加而增加。这使得Transformer模型在处理大规模数据集时,需要大量的计算资源和存储空间,增加了训练时间和成本。
技术4:大模型
说明: 通常基于 Transformer 架构构建的 超大规模语言模型(Large Language Models)。包含超大规模参数(通常在十亿个以上) 的神经网络模型,专门用来处理自然语言的模型。
GPT(Generative Pre-trained Transformer)则是由OpenAI团队在2018年提出的一种语言模型。其起源于对传统预训练语言模型的改进和升级(采用了Transformer架构,并通过预训练+微调的方式实现语言理解和生成。)
2022 年 11 月,搭载了GPT3.5的 ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。
举例:


2 主流的AI工具有哪些?如何选择AI工具?
功能类别 | 工具名称 | 核心功能/特点 | 适用场景举例 |
---|---|---|---|
聊天与文本处理 | ChatGPT | OpenAI;文本生成、编程辅助、翻译、总结、多轮对话。功能全面,响应灵活。ChatGPT 5(25-08-07发布) | 内容创作、头脑风暴、学习辅助、代码编写 |
聊天与文本处理 | DeepSeek | 幻方量化;中文处理能力突出 ,擅长FAQ、内容改写和初阶SEO文章。Deepseek v3.1(25-08-21发布) | 主要面向中文市场的内容创作、文本处理 |
聊天与文本处理 | Claude | Anthropic公司;自然的对话体验,长上下文窗口,擅长复杂指令和高品质文案创作,翻译能力也不错(尤其英文和日文)。 | 长文阅读与摘要、创意写作、翻译 |
聊天与文本处理 | Gemini (前身为Bard) | Google;深度集成Google生态(如Gmail、Docs、Sheets),实时网络搜索能力强。 | 信息检索、整合Google应用进行办公、快速获取网络最新资讯 |
聊天与文本处理 | Grok | xAI;整合于X(推特)平台,风格幽默且带点"毒舌" ,能抓取即时社群趋势。 | 社群媒体运营、追踪即时趋势、生成有"网感"的文案 |
聊天与文本处理 | 豆包 | 字节跳动;中文理解好,支持自定义智能体(Agent)。 | 中文场景下的多轮对话、个性化AI助手构建 |
聊天与文本处理 | Kimi | 北京月之暗面科技有限公司研发;专注于长文本处理(支持超长上下文),具备多模态交互、文件解析。 | 学术研究、长文阅读与摘要、资料整理 |
聊天与文本处理 | 智谱清言 | 北京智谱华章科技有限公司;基于ChatGLM大模型,支持多轮对话、多模态交互及智能体创建。 | 通用问答、创意写作、代码生成、个性化服务 |
AI搜索 | Perplexity | 答案附带引用来源,提供相关追问建议,适合深入研究。 | 学术研究、市场调研、需要溯源的信息查找 |
AI搜索 | 秘塔AI搜索 | 纯净无广告,支持全网及学术搜索,能生成大纲和思维导图。 | 快速获取结构化信息、辅助学习与研究 |
AI搜索 | 纳米AI搜索 | 支持多样化搜索,结果简洁。 | 日常信息检索 |
AI搜索 | 知乎直答 | 基于知乎社区内容,提供简略和深入两种答案。 | 获取有知乎特色的见解和答案 |
编程与开发 | Claude Code | 一个基于命令行的"监督编码代理",它能够理解你的代码库上下文,协助你完成从代码生成、错误调试到重构和安全审查等多种编程任务。通过 npm 安装:npm install -g @anthropic-ai/claude-code | 全栈应用快速原型开发 |
编程与开发 | GitHub Copilot | 基于OpenAI Codex模型,支持37种语言的智能补全和跨文件理解,深度集成VS Code/JetBrains。中文语义理解相对较弱 | 全栈开发、团队协作、开源项目贡献 |
编程与开发 | Cursor | 基于VS Code深度优化,支持多文件上下文理解、自然语言编辑和代码库聊天,集成Claude 3.5/3.7等多模型。中文界面友好,但频繁服务中断,Pro版$20/月。 | 大型代码库维护、复杂任务自动化、团队协作 |
编程与开发 | 通义灵码 (阿里巴巴) | 行级/函数级实时续写、单元测试生成、中文语义理解领先(准确率92%),对阿里云SDK/API有深度优化。免费使用,但复杂任务响应稳定性待提升,国际框架支持稍滞后。 | 国内企业级应用、Java/SpringBoot项目、中文技术栈团队 |
编程与开发 | CodeGeeX (清华/智谱AI) | 完全开源,支持本地部署,支持20+编程语言3。对企业级支持较弱,代码补全准确率有待提升。 | 隐私敏感项目、教育科研、预算有限的个人开发者 |
编程与开发 | DeepSeek Coder | 支持长上下文推理(128K tokens),API调用成本低,很多企业和工具在集成调用,响应速度波动较大。 | 国内开发场景、中文交互、长代码文件处理 |
编程与开发 | 腾讯云 CodeBuddy | 基于混元+DeepSeek双模型,中文响应延迟低(120ms),Craft智能体可通过自然语言生成完整应用。通过等保2.0三级认证,支持私有化部署。 | 国内政企、金融等安全合规要求高的项目,全流程开发支持 |
编程与开发 | Tabnine | 通过SOC 2认证,支持本地化部署与企业自定义训练,确保代码数据不离开本地环境,响应延迟<100ms。中文场景支持弱于国产工具,高级功能需订阅($12/月)。 | 金融、医疗等对数据隐私要求极高的场景 |
编程与开发 | Amazon Q Developer | 针对AWS云服务(如Lambda, S3)深度优化,提供安全扫描和漏洞检测。 | AWS云原生开发、企业安全合规项目 |
编程与开发 | v0.dev (Vercel) | AI UI设计工具,文本描述快速生成React组件/Tailwind代码。仅支持前端组件,复杂交互逻辑处理能力较弱3。 | 快速生成前端UI原型、个人项目或创意验证 |
编程与开发 | Trae (字节跳动) | 集成Claude 3.5 Sonnet和GPT-5/4o等顶级模型,完全免费,支持中英文界面,优秀的代码理解和生成能力,Builder模式可从描述生成完整项目,就是生成有点慢,排队... | 日常开发辅助、编程学习、快速原型开发 |
办公与效率 | Notion AI | 内嵌于Notion笔记工具,笔记摘要、待办生成、草稿撰写都很方便。 | 知识管理、会议记录整理、项目规划 |
办公与效率 | Vocol | 会议录音转文字,并快速生成摘要和行动点。 | 会议记录、访谈整理 |
图像生成 | Midjourney | 强大的文生图AI,图像艺术性和细节表现力出色。 | 插画创作、概念设计、营销素材生成 |
图像生成 | Canva | 内置AI功能的在线设计平台,适合快速生成社交媒体图片、演示文稿等。 | 平面设计、社交媒体运营、快速制作美观的PPT |
视频生成与编辑 | Runway | 提供多种AI视频编辑功能,如文生视频、视频擦除物体等。 | 视频剪辑、特效制作、创意视频生成 |
视频生成与编辑 | Pika | 支持图片生成视频、文本生成视频等。 | 动画制作、短视频创作 |
附录1 大语言模型的命名
模型命名 | 含义 |
---|---|
版本号 | 版本号的命名体现了模型的更新迭代。例如: Llama 2 和 Llama 3 :清晰地表明了模型的不同版本。 ChatGPT 3.5 和 ChatGPT 4:用数字区分主版本,方便用户了解模型的进步。 |
参数量级 | 参数量级的后缀直接展示了模型的规模: "B"代表十亿(Billion) :如"7B"表示模型有70亿参数。 "T"代表万亿(Trillion) :如"1T"表示模型拥有1万亿参数,适合更复杂的任务。 参数越大,模型越强,但也需要更多计算资源。企业用户和研究机构会更关注高参数模型,而普通用户可能更注重使用体验和效率。 |
数据量与训练轮次 | 后缀如"4e1t": 4e :代表4个Epoch,即模型完整遍历数据集4次。 1t :指训练中使用了1万亿个Tokens。 更大的Token数据量和更多训练轮次通常能提升模型的能力,但同时显著增加了训练时间和计算成本。 |
权重量化 | 常见的"INT4"或"INT8"后缀表示权重量化的位数。量化可以显著降低内存占用,但可能影响模型精度。原来是Float32(浮点存储) INT8(8位整数) : 例如,一个标准模型需要100GB内存,经过INT8量化后,可能只需要25GB,但大部分任务的精度几乎不受影响。应用场景 :如智能手机中的语音助手、翻译工具等。 INT4(4位整数) : 相比INT8进一步降低内存占用,例如从25GB降到12.5GB。但由于精度下降,INT4更适用于对准确性要求较低的任务。应用场景:物联网设备或边缘计算场景(如智能摄像头)。 |
数据集与语言 | 如果后缀中出现某种语言的缩写(如"Chinese"),表明该模型专为该语言优化。如Llama3-70B-Chinese-Chat 就是首批专为中文微调的Llama3-70B 模型之一。 |
技术和方法 | 模型名称中还常体现特定技术或方法,如: clip-vit-large-patch14 :表示模型基于Vision Transformer架构,并采用14x14像素分块处理图像。 Instruct :说明模型经过指令微调(Instruction Tuning),能更好地理解任务描述。 SFT:表示模型经过监督式微调(Supervised Fine-Tuning),专注于特定领域优化。 |
附录2 AI常见术语
参数名称 | 说明 |
---|---|
超参数 | 超参数是指管理机器学习模型训练过程的变量。这些变量可以包括学习速率、优化器中的动量值以及模型最后一个隐藏层中的单元数。如需了解详情,请参阅超参数调优概览。 |
幻觉 | 生成式 AI 中的幻觉是指 AI 给出的回答无法通过其训练数据来建立依据。内容可能与事实不符。在文本生成的背景下,它是指在生成的文本内容中包含一些听起来可信的随机虚假信息。 |
token | 语言模型中的词元是模型训练和进行推理的原子单元,即字词、语素和字符。在语言模型之外的网域中,词元可以表示其他类型的原子单元。例如,在计算机视觉中,词元可能是图片的一部分。 如需了解详情,请参阅列出和统计 token 数。 |
词嵌入 | 词嵌入是一种将字词表示为浮点值密集向量的方式。这样一来,相似的字词就会具有相似的编码。在生成式 AI 中,词嵌入通常用于捕获字词之间的关系,并生成新文本或代码,而无需任何来源。在生成式 AI 中,词嵌入可用于训练可生成新文本或代码的模型。通过了解字词之间的关系,生成式 AI 模型可以创建连贯且相关的新内容。 |
上下文窗口 | 模型可在给定提示中处理的 token 数量。上下文窗口越大,模型可用于提供连贯一致的提示回答的信息就越多。 |
提示工程(提示设计) | 生成式 AI 中的提示工程是指精心设计有效的提示,以便从大语言模型 (LLM) 中获得所需的输出。这是一个迭代的、以测试为导向的过程,专注于优化输入以实现特定结果。这需要同时考虑提示的内容和结构,以确保获得准确且高质量的回答。对于复杂任务,有效的提示工程至关重要,即使简单任务可能不需要它。目标是快速为基于 LLM 的应用设计原型。如需了解详情,请参阅提示工程简介。Claude 4提示工程最佳实践 |
附录3 大模型测评
大模型评测主要依赖两个方面:评测平台 和 评测基准。
主要评测平台
- Open LLM Leaderboard(Hugging Face) :Hugging Face 推出的开源大模型排名平台,使用多个学术基准评估模型的综合能力。Open LLM Leaderboard
- HELM(斯坦福) :斯坦福大学提出的全面评估框架,覆盖语言理解、推理、生成等 16 种任务和 30+ 数据集。
- OpenCompass(商汤) :商汤科技推出的开源评测体系,支持 50+ 数据集与 30 万条问题,覆盖中英文及多模态任务。
- SuperCLUE:专注于中文大模型评测,涵盖基础能力、专业领域和安全性等维度。
- AlpacaEval :基于GPT-4的自动化评测,适合快速对比模型质量,该榜单则是同时包含了对开源LLM和闭源LLM的评价。Alpaca Leaderboard
- ChatBot Arena:是一个大模型对战排名平台,就像网球世界排名一样
主要评测基准
- MMLU:57个学科,测试多任务知识。
- C-Eval / CMMLU:专注中文,涵盖52+学科。
- GSM8K:数学推理,测试分步计算能力。
- HumanEval:代码能力评估,164道编程题。
- TruthfulQA:检测模型生成内容的真实性。
- GAOKAO-Bench:基于高考题,评估逻辑推理和知识应用。
所有榜单上的排名都仅能做一个参考,由于海量的尝试,榜单数据集可能过拟合,导致那些对于榜单数据集表现好的LLM脱颖而出(但是这些模型的真实泛化能力其实并没有那么好)。
MMLU:一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。
GPQA(Graduate-Level Google-Proof Q&A Benchmark):研究生级别的 Google 防查找问答基准测试。一个包含448道多选题的科学问答数据集,覆盖生物学、物理学和化学的细分领域(如量子力学、有机化学、分子生物学等)
HLE(Humanity's Last Exam) :为了解决当前评测基准无法有效区分大模型能力的现象。HLE的题目收集自全球的贡献。当前包含的3,000道题目来自全球50个国家、500多所机构的近千名专家,包括数学家、化学家、语言学家等。
附录4 AI发展历史
关于OpenTiny
欢迎加入 OpenTiny 开源社区。添加微信小助手:opentiny-official 一起参与交流前端技术~
OpenTiny 官网:opentiny.design
OpenTiny 代码仓库:github.com/opentiny
TinyVue 源码:github.com/opentiny/ti...
TinyEngine 源码: github.com/opentiny/ti...
欢迎进入代码仓库 Star🌟TinyEngine、TinyVue、TinyNG、TinyCLI、TinyEditor~ 如果你也想要共建,可以进入代码仓库,找到 good first issue 标签,一起参与开源贡献~