第一部分:AI人工智能领域核心固有名词(按领域分类)
一、基础核心名词
- AI(Artificial Intelligence,人工智能):研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学,核心是让机器具备"感知、推理、学习、决策"的类人能力,涵盖机器学习、深度学习、自然语言处理等多个分支,广泛应用于生活、工作、工业等各个领域。
- 弱人工智能(Weak AI):又称"窄人工智能",指专注于某一特定领域、具备单一功能的人工智能系统,不具备通用的思维能力,无法跨领域自主思考,是目前主流的AI形态(如语音助手、图像识别工具、聊天机器人)。
- 强人工智能(Strong AI):又称"通用人工智能",指具备与人类同等甚至超越人类的通用智能,能够理解、学习人类所有的知识和技能,具备自主意识、推理、决策和跨领域适应能力,目前仍处于理论研究阶段,尚未实现。
- 超人工智能(Super AI):超越人类智能的人工智能,能够在所有领域(包括科学、艺术、哲学等)超越人类的认知和能力,自主进化、自我提升,是AI发展的终极形态,目前仅存在于科幻设想中。
- 机器学习(Machine Learning,ML):AI的核心分支之一,指让计算机通过数据"自主学习",无需明确编程指令,就能实现行为优化和模式识别的技术。核心是构建算法模型,让机器从数据中提取规律,进而做出预测或决策,分为监督学习、无监督学习、半监督学习、强化学习四大类。
- 深度学习(Deep Learning,DL):机器学习的一个重要子领域,以"深度神经网络"为核心,模拟人类大脑的神经元结构,通过多层网络层级处理数据,能够自动提取数据的深层特征,适用于复杂场景(如图像识别、自然语言处理、语音合成),是当前AI技术突破的核心驱动力。
- 神经网络(Neural Network,NN):深度学习的核心基础,模拟人类大脑神经元的连接方式,由输入层、隐藏层、输出层组成,通过神经元之间的权重调整,实现数据的传递和处理,是实现"学习"功能的核心载体。常见类型包括CNN(卷积神经网络)、RNN(循环神经网络)、Transformer(Transformer架构)等。
二、智能体与相关名词
- 智能体(Agent):又称"智能代理",指能够自主感知环境、做出决策、执行动作,以实现特定目标的智能系统。核心特点是"自主性、交互性、适应性",可以独立完成任务,也可以与其他智能体或人类协作,广泛应用于自动驾驶、智能客服、机器人等领域(与用户提到的Agent一致)。
- 多智能体系统(Multi-Agent System,MAS):由多个相互独立、相互协作的智能体组成的系统,每个智能体有自己的目标和能力,通过交互、协商完成复杂任务(如分布式机器人协作、智能交通调度)。
- 智能体工作流(Agent Workflow):指智能体完成特定任务的步骤和流程,通过定义"感知-决策-执行"的逻辑的顺序,让智能体按流程自主推进任务,可根据任务反馈动态调整流程(与用户提到的工作流相关,聚焦智能体场景)。
- Skill(技能):智能体具备的特定能力模块,是智能体完成任务的基础,每个Skill对应一项具体功能(如"文本生成Skill""数据查询Skill""图像识别Skill"),智能体可通过组合不同Skill,完成复杂任务(与用户提到的skill一致)。
三、数据与知识库相关名词
- 知识库(Knowledge Base,KB):指存储、组织、管理和呈现知识的数据库,是AI系统获取知识的核心来源,包含结构化(如表格、数据库)和非结构化(如文档、图片)的知识,能够为AI模型提供推理、回答问题的依据(与用户提到的知识库一致)。
- 知识图谱(Knowledge Graph,KG):一种结构化的知识库,以"实体-关系-实体"的三元组形式,呈现知识之间的关联(如"李白-朝代-唐朝"),能够帮助AI模型理解知识的逻辑关系,提升推理和问答的准确性,广泛应用于搜索引擎、智能问答。
- 数据集(Dataset):用于训练、测试AI模型的数据集合,是机器学习和深度学习的基础,包含输入数据(如文本、图像、语音)和对应的标签(如分类结果、标注信息)。常见数据集有ImageNet(图像识别)、COCO(目标检测)、GLUE(自然语言处理)等。
- 数据标注(Data Annotation):对原始数据进行处理、标注,为AI模型提供"学习样本"的过程,比如给图像标注物体类别、给文本标注情感倾向、给语音标注文字内容,标注质量直接影响模型的训练效果。
- 数据预处理(Data Preprocessing):AI模型训练前的核心步骤,对原始数据进行清洗、去噪、归一化、标准化、分割等处理,去除无效数据,统一数据格式,让数据更适合模型训练,提升模型的准确性和训练效率。
- 语料库(Corpus):专门用于自然语言处理(NLP)领域的数据集,包含大量的文本数据(如句子、段落、文章),用于训练语言模型、实现文本分类、翻译、情感分析等功能,比如中文的"人民日报语料库"、英文的"Wikipedia语料库"。
四、模型训练与优化相关名词
- 模型(Model):AI系统中用于处理数据、实现学习和预测的核心算法框架,是"数据"与"输出结果"之间的桥梁。不同的任务对应不同的模型(如图像识别用CNN模型、文本生成用Transformer模型)。
- 模型微调(Model Fine-tuning):指在预训练模型(已经训练好的基础模型)的基础上,使用少量特定领域的数据,进一步调整模型参数,让模型适配特定任务或场景,无需从零开始训练,大幅节省训练成本和时间(与用户提到的模型微调一致)。
- 预训练模型(Pre-trained Model,PTM):基于大规模通用数据训练完成的基础模型,具备通用的知识和能力,可通过微调适配不同的具体任务(如BERT、GPT系列、千问模型等,均属于预训练模型)。
- LoRA(Low-Rank Adaptation,低秩适配):一种高效的模型微调技术,核心是在不改变预训练模型原有参数的前提下,通过添加少量可训练的低秩矩阵,实现模型的微调,大幅降低微调的计算成本和存储成本,广泛应用于大语言模型的微调(与用户提到的lora一致)。
- Fine-tune(微调):与"模型微调"一致,是LoRA、全参数微调等微调方式的统称,本质是通过少量数据调整模型参数,适配特定任务。
- 全参数微调(Full Parameter Fine-tuning):模型微调的一种方式,调整预训练模型的所有参数,适配特定任务,效果较好,但计算成本高、消耗资源多,适用于数据量充足、资源充足的场景。
- 冻结(Freeze):模型训练中的常用操作,指固定模型的部分参数(通常是预训练模型的底层参数),只训练模型的顶层参数或新增参数,减少计算量,避免模型过拟合。
- 过拟合(Overfitting):模型训练中的常见问题,指模型过度"记住"训练数据的细节(包括噪声数据),导致模型在训练数据上表现极好,但在未见过的测试数据上表现较差,泛化能力弱。解决方法包括增加数据量、正则化、 dropout等。
- 欠拟合(Underfitting):模型训练中的常见问题,指模型未能充分学习到训练数据中的规律,导致在训练数据和测试数据上表现都较差,通常是因为模型复杂度不足、训练数据不足或训练次数不够。
- 正则化(Regularization):用于解决模型过拟合的技术,通过在模型损失函数中添加惩罚项,限制模型参数的大小,避免模型过度复杂,常见的正则化方式有L1正则化、L2正则化。
- Dropout:深度学习中常用的正则化技术,在模型训练过程中,随机"关闭"一部分神经元,避免神经元之间过度依赖,提升模型的泛化能力。
- 损失函数(Loss Function):用于衡量AI模型预测结果与真实结果之间的差距,是模型训练的"导航仪",模型通过最小化损失函数的值,调整参数,提升预测准确性。常见的损失函数有交叉熵损失、均方误差损失等。
- 优化器(Optimizer):用于调整模型参数、最小化损失函数的算法,决定了模型训练的速度和效果。常见的优化器有SGD(随机梯度下降)、Adam、RMSprop等。
- 迭代(Iteration):模型训练的一次参数更新过程,即模型读取一批数据、计算损失、调整参数的过程,多次迭代后,模型的损失逐渐降低,性能逐渐提升。
- 轮次(Epoch):指模型完整遍历一次所有训练数据的过程,一个Epoch包含多个Iteration,通常模型需要训练多个Epoch才能达到较好的效果。
- 批量大小(Batch Size):模型训练中,每次迭代读取的数据量,批量大小过大可能导致内存不足,过小可能导致训练不稳定,需根据硬件资源调整。
五、自然语言处理(NLP)相关名词
- NLP(Natural Language Processing,自然语言处理):AI的核心分支之一,研究计算机如何理解、处理、生成人类语言(包括书面语、口语),实现人与计算机的自然语言交互,核心任务包括文本分类、情感分析、机器翻译、问答系统、文本生成等。
- RAG(Retrieval-Augmented Generation,检索增强生成):一种结合"检索"和"生成"的技术,核心是在生成文本之前,先从知识库中检索与问题相关的信息,再基于检索到的信息生成准确、有依据的回答,解决大语言模型"幻觉"(生成虚假信息)、知识滞后的问题(与用户提到的RAG一致)。
- 大语言模型(Large Language Model,LLM):基于Transformer架构,通过大规模文本语料预训练而成,能够理解和生成人类语言,具备强大的上下文理解、推理、生成能力,是NLP领域的核心突破,如GPT系列、千问模型等。
- Tokenizer(分词器):大语言模型的核心组件之一,将人类语言(文本)分割成模型能够识别的最小单位(称为"token",令牌),比如将"我在学习AI"分割成"我、在、学习、AI"四个token,不同模型的分词规则不同。
- 上下文窗口(Context Window):大语言模型能够处理的最大文本长度(以token为单位),窗口越大,模型能够记住的上下文信息越多,越能理解长文本、复杂对话,但计算成本也越高。
- Prompt(提示词):用户向大语言模型输入的指令、问题或文本,用于引导模型生成符合需求的输出,Prompt的设计直接影响模型的输出效果(即"提示工程")。
- 提示工程(Prompt Engineering):研究如何设计、优化Prompt,让大语言模型更准确、高效地完成任务的技术,核心是通过明确指令、补充上下文、设定格式,引导模型输出符合预期的结果。
- Few-shot Learning(少样本学习):指模型通过少量样本(几个到几十个),就能快速学习并适配新任务,无需大量标注数据,是大语言模型的重要能力之一。
- Zero-shot Learning(零样本学习):指模型在没有任何训练样本的情况下,仅通过Prompt引导,就能完成新任务,体现了大语言模型的通用能力。
- 文本生成(Text Generation):NLP的核心任务之一,指模型根据输入的Prompt,生成符合逻辑、连贯、有意义的文本,如写文章、写代码、写文案等,是大语言模型的核心应用场景。
- 情感分析(Sentiment Analysis):NLP的核心任务之一,指模型识别文本中的情感倾向(如正面、负面、中性),广泛应用于舆情分析、客户反馈处理、商品评价分析等。
- 机器翻译(Machine Translation,MT):NLP的核心任务之一,指模型将一种语言的文本翻译成另一种语言,保持语义不变,如中文翻译成英文、英文翻译成日文,分为统计机器翻译、神经机器翻译(目前主流)。
- 问答系统(Question Answering,QA):NLP的核心任务之一,指模型根据用户提出的问题,从知识库或文本中提取准确的答案,如智能问答机器人、搜索引擎问答。
- 命名实体识别(Named Entity Recognition,NER):NLP的核心任务之一,指模型从文本中识别出具有特定意义的实体,如人名、地名、机构名、时间、数字等,广泛应用于信息提取、知识图谱构建。
- 语义理解(Semantic Understanding):指模型理解文本的深层含义,而不仅仅是表面文字,包括理解句子的逻辑关系、情感倾向、上下文关联等,是实现自然语言交互的核心。
- 幻觉(Hallucination):大语言模型的常见问题,指模型生成的文本看似连贯、合理,但实际上是虚假的、没有依据的信息(如编造人名、数据、事件),主要原因是模型对知识的记忆不准确或上下文理解偏差。
六、其他核心技术名词
- MCP(Model Compression and Pruning,模型压缩与剪枝):指通过减少模型参数数量、降低模型复杂度,在不明显降低模型性能的前提下,缩小模型体积、提升运行速度,适配手机、边缘设备等资源有限的场景(与用户提到的MCP一致)。常见方式包括剪枝(删除冗余参数)、量化(将高精度参数转为低精度)、蒸馏(用大模型训练小模型)。
- 模型蒸馏(Model Distillation):模型压缩的一种方式,又称"知识蒸馏",用训练好的大模型(教师模型),训练一个小模型(学生模型),让小模型学习大模型的知识和预测逻辑,实现"小模型具备大模型的性能",适用于边缘设备部署。
- 模型量化(Model Quantization):模型压缩的一种方式,将模型中的高精度参数(如32位浮点数)转换为低精度参数(如8位整数),减少模型的存储体积和计算量,提升模型运行速度,几乎不影响模型性能。
- 边缘计算(Edge Computing):指将AI模型部署在边缘设备(如手机、摄像头、物联网设备)上,而非云端服务器,实现数据本地处理、实时响应,减少网络延迟,保护数据隐私,适用于自动驾驶、物联网等场景。
- 云计算(Cloud Computing):指将AI模型部署在云端服务器上,通过网络为用户提供AI服务,无需用户本地部署模型,具备算力强、可扩展性强的特点,适用于大规模模型训练、复杂任务处理。
- 计算机视觉(Computer Vision,CV):AI的核心分支之一,研究计算机如何"看懂"图像、视频,实现图像识别、目标检测、图像分割、人脸识别、场景理解等功能,广泛应用于监控、自动驾驶、医疗影像、人脸识别等领域。
- CNN(Convolutional Neural Network,卷积神经网络):一种专门用于处理图像、视频的神经网络,通过卷积操作提取图像的空间特征(如边缘、纹理、形状),是计算机视觉领域的核心模型。
- Transformer架构:2017年提出的神经网络架构,核心是"自注意力机制",能够捕捉文本、图像中的长距离依赖关系,是目前大语言模型、部分计算机视觉模型的核心架构(如GPT系列、BERT、ViT等)。
- 自注意力机制(Self-Attention):Transformer架构的核心,能够让模型在处理数据时,自动关注数据内部的关联关系(如文本中不同词语之间的联系),无需手动设计特征,大幅提升模型的理解能力。
- 强化学习(Reinforcement Learning,RL):机器学习的四大类之一,指智能体通过与环境交互,"试错"式学习,通过奖励(正向反馈)和惩罚(负向反馈),调整自身行为,最终实现目标最大化。适用于自动驾驶、机器人控制、游戏AI等场景。
- 监督学习(Supervised Learning):机器学习的四大类之一,指用带有标签的训练数据,训练模型学习"输入-标签"的对应关系,进而对新数据进行预测,适用于分类、回归等任务(如垃圾邮件识别、房价预测)。
- 无监督学习(Unsupervised Learning):机器学习的四大类之一,指用没有标签的训练数据,让模型自主提取数据的规律和特征,适用于聚类、降维等任务(如用户分群、数据压缩)。
- 半监督学习(Semi-Supervised Learning):机器学习的四大类之一,结合监督学习和无监督学习,用少量带标签的数据和大量无标签的数据训练模型,兼顾训练效果和数据成本。
- API(Application Programming Interface,应用程序编程接口):AI模型的调用接口,开发者通过API,无需了解模型的内部结构和训练细节,就能在自己的程序中调用AI模型的功能(如调用千问API实现文本生成、调用图像识别API实现图片分析)。
- 微调平台(Fine-tuning Platform):提供模型微调服务的平台,用户可在平台上上传数据、选择模型、设置微调参数,完成模型微调,无需搭建本地训练环境,如火山方舟、阿里云PAI等。
- 工作流(Workflow):指完成某一任务的标准化步骤和流程,在AI领域,特指AI系统处理任务的完整流程(如"数据输入-模型处理-结果输出-反馈优化"),也可指智能体完成任务的步骤序列(与用户提到的工作流一致)。
- 算力(Computing Power):指AI模型训练和运行所需的计算能力,通常用"浮点运算次数/秒(FLOPS)"衡量,算力越强,模型训练速度越快、能够处理的任务越复杂,核心依赖GPU、TPU等硬件。
- GPU(Graphics Processing Unit,图形处理器):AI模型训练和运行的核心硬件,擅长并行计算,能够快速处理大规模数据和复杂的神经网络运算,是深度学习不可或缺的硬件支撑(如NVIDIA的A100、H100 GPU)。
- TPU(Tensor Processing Unit,张量处理单元):谷歌专门为AI模型(尤其是深度学习模型)设计的专用芯片,专注于张量运算,算力密度高、功耗低,适用于大规模模型训练和部署。
第二部分:主流大语言模型汇总(含核心特点)
说明:以下汇总目前AI领域主流的大语言模型,包括国内、国外模型,详细说明其开发机构、核心特点及应用场景,方便学习过程中区分和选择。
一、国内主流大语言模型
- 千问模型(Qwen)
- 开发机构:字节跳动
- 核心特点:基于Transformer架构,通过大规模中文语料预训练,具备强大的中文理解和生成能力,支持多轮对话、文本生成、代码生成、翻译等多种任务;模型系列丰富(如Qwen-7B、Qwen-14B、Qwen-72B),适配不同算力场景;支持微调,可通过LoRA等方式适配特定领域需求;开源版本可本地部署,闭源版本提供API调用。
- 应用场景:智能客服、内容创作、代码开发、智能问答、企业知识库问答等。
- 火山模型(Volcano Model)
- 开发机构:字节跳动火山引擎
- 核心特点:基于字节跳动自研技术,涵盖通用大模型、行业大模型(如金融、教育、医疗),具备高效的文本生成、推理、检索增强(RAG)能力;支持模型微调、定制化开发,提供完善的API和微调平台(火山方舟);适配企业级场景,注重数据安全和隐私保护。
- 应用场景:企业智能办公、行业咨询、内容生成、智能检索、定制化AI解决方案等。
- 文心一言(ERNIE Bot)
- 开发机构:百度
- 核心特点:基于百度自研的ERNIE架构,聚焦中文场景,具备强大的语义理解、文本生成、多模态生成(文本、图像、语音)能力;支持多轮对话、代码生成、知识问答,集成百度百科等知识库,减少幻觉;提供API调用、企业版定制、本地部署等服务。
- 应用场景:智能搜索、内容创作、企业客服、教育科普、多模态生成等。
- 通义千问(Tongyi Qianwen)
- 开发机构:阿里巴巴
- 核心特点:基于Transformer架构,结合阿里巴巴的电商、金融等场景数据,具备通用的文本生成、推理、问答能力,尤其擅长电商、企业办公相关场景;支持模型微调、RAG检索增强,提供API调用和企业级解决方案;模型系列丰富,适配不同算力需求。
- 应用场景:电商文案生成、企业办公自动化、智能客服、金融咨询、知识管理等。
- 讯飞星火(iFlytek Spark)
- 开发机构:科大讯飞
- 核心特点:聚焦中文语音和自然语言处理,具备强大的语音转文字、文字转语音、文本生成、多轮对话能力;结合教育、医疗等行业场景,推出行业定制模型;支持本地部署、API调用,适配边缘设备;注重语音与文本的协同交互。
- 应用场景:教育AI(错题分析、教案生成)、医疗咨询、语音助手、智能办公、实时翻译等。
- 智谱清言(ChatGLM)
- 开发机构:智谱AI(清华大学团队孵化)
- 核心特点:基于GLM架构,开源友好,多个模型版本(如ChatGLM-3、ChatGLM-4)可本地部署,适配个人和中小企业;具备强大的中文理解、文本生成、代码生成能力,支持微调,计算成本较低;集成RAG能力,可对接知识库。
- 应用场景:个人学习、代码开发、小型企业客服、内容创作、本地AI应用开发等。
- DeepSeek(深度求索)
- 开发机构:DeepSeek(深度求索公司)
- 核心特点:开源大语言模型,涵盖通用模型(DeepSeek-7B/16B)、代码模型(DeepSeek-Coder)、数学模型(DeepSeek-Math),擅长代码生成、数学推理,中文和英文处理能力均衡;支持本地部署、微调,适合开发者和研究者使用;模型性能优秀,性价比高。
- 应用场景:代码开发、数学计算、学术研究、内容创作、智能问答等(与用户提到的deepseek一致)。
二、国外主流大语言模型
- ChatGPT
- 开发机构:OpenAI
- 核心特点:基于GPT架构(Generative Pre-trained Transformer),是目前最具影响力的大语言模型之一,具备强大的文本生成、推理、多轮对话、代码生成能力;支持多语言处理,英文表现最优;通过GPT-3.5、GPT-4等版本迭代,性能不断提升,GPT-4支持多模态输入(文本、图像);提供API调用,闭源模型,不支持本地部署。
- 应用场景:内容创作、代码开发、智能问答、翻译、教育科普、创意生成等(与用户提到的CHAT-GPT一致)。
- GPT-4
- 开发机构:OpenAI
- 核心特点:ChatGPT的升级版本,具备更强的推理、理解、多模态处理能力,上下文窗口更大(支持128k token),能够处理超长文本、复杂任务;支持图像、文本混合输入,生成的内容更准确、更连贯,幻觉问题大幅改善;提供API调用,分为基础版和高级版(GPT-4 Turbo)。
- 应用场景:复杂文本分析、代码开发与调试、多模态生成、学术研究、企业决策支持等。
- GPT-3.5
- 开发机构:OpenAI
- 核心特点:GPT系列的经典版本,性价比高,算力消耗低,具备良好的文本生成、多轮对话、代码生成能力,上下文窗口适中(支持4k/16k token);是目前应用最广泛的大语言模型之一,API调用成本低,适合中小企业和个人使用。
- 应用场景:智能客服、内容创作、简单代码生成、多轮对话、翻译等。
- Claude(Claude 2、Claude 3)
- 开发机构:Anthropic
- 核心特点:以"安全、可控"为核心优势,具备强大的文本生成、推理、长文本处理能力,上下文窗口极大(Claude 3 Opus支持200k token),能够处理完整的书籍、文档;支持多语言处理,中文表现较好;提供API调用,闭源模型,注重数据隐私保护。
- 应用场景:长文本分析、文档总结、法律文书处理、学术研究、企业知识库管理等。
- Llama 2(Meta Llama 2)
- 开发机构:Meta(脸书)
- 核心特点:开源大语言模型,涵盖7B、13B、70B等多个版本,支持本地部署,适合开发者和研究者使用;具备良好的文本生成、推理、多轮对话能力,英文表现最优,中文支持不断优化;支持微调,可适配特定领域需求,算力要求适中。
- 应用场景:学术研究、本地AI应用开发、内容创作、代码生成、小型企业智能服务等。
- Mistral(Mistral 7B、Mistral Large)
- 开发机构:Mistral AI(法国创业公司)
- 核心特点:开源与闭源结合,Mistral 7B开源可本地部署,性能优秀、算力消耗低,擅长文本生成和推理;Mistral Large为闭源模型,具备更强的多语言处理、代码生成、推理能力,上下文窗口大,API调用成本较低。
- 应用场景:本地AI开发、内容创作、代码开发、智能问答、多语言翻译等。