大语言模型-LLM简介

大语言模型如此火爆,查了些资料整理一下,做个初步的了解。

语言模型的发展从开始的统计方法到使用神经网络,再到现在通过使用Transformer架构的模型训练大量数据,理解文本规则和模式,同时随着训练数据和模型的扩大,语言模型的能力提升显著,此时大语言模型出现了-LLM。

相比于之前的明星模型-BERT,虽然大预言模型使用的架构和预训练任务相似,但参数数量级的提升使他们有了质的差别。BERT的参数为3.3亿 ,GPT-2为15亿 ,而GPT-3则有1750亿 参数。此时GPT-3相比之前的模型,就有解决少样本任务的能力了,这种能力可称为涌现能力

LLM的独特能力

上下文学习:语言模型在获得指令或任务示例时,通过上下文生成答案,此时不需要额外训练或更新参数。

指令微调:LLM可以处理未见过的任务,泛化能力强大。

推理能力:LLM可通过中间推理步骤的提示机制解决中间的任务得到最终的答案。

LLM的特点

模型规模大:参数通常在数十亿,甚至千亿规模,这也是大模型可以获取更多信息的基础。

预训练和微调:LLM使用大量无标签文本数据做预训练,获取通用的知识,再通过微调在单独任务重获得更好的效果。

上下文理解:可解决小模型对前文理解不足的问题。

支持多模态:LLM可支持图像、声音等内容的扩展。

现有的大模型

LLM大放异彩是从OpenAI发布ChatGPT开始的,后面还有Claude、PaLM、Bard等,但由于网络原因,并不好用,而且还需要国际支付以获取user key,国内使用不是很友好。

国内的LLM主要有文心一言、讯飞星火、通义千问等,分别由百度、讯飞、阿里推出。放开测试后只需手机号就能使用,但有些功能需要收费了。

LangChain

一个开源工具,帮助开发者调用大模型并应用于下游任务,其为LLM提供了通用接口,简化开发流程。

主要有六个标准接口:

Input/Output:用户输入及模型输出的结果

Data:将自由数据输入模型训练

Chain:链接多个LLM或组件

Memory:对每个用户生成短期记忆,加强对上文的理解

Agent:为LLM提供计算、检索等功能的支持

Callback:记录流程信息

相关推荐
NGBQ1213810 天前
Imgflip社交媒体表情包数据集-202208条多模板meme数据-包含完整图片URL和文本说明-适用于NLP模型训练和社交媒体分析
人工智能·自然语言处理·媒体
homelook10 天前
Transformer架构,这是现代自然语言处理和人工智能领域的核心技术。
人工智能·自然语言处理·transformer
赋创小助手10 天前
服务器主板为何不再采用ATX?以超微X14DBM-AP 为例解析
运维·服务器·人工智能·深度学习·自然语言处理·硬件架构
摘星编程10 天前
大语言模型(Large Language Models,LLM)如何颠覆未来:深入解析应用、挑战与趋势
人工智能·语言模型·自然语言处理
小陈phd11 天前
多模态大模型学习笔记(六)——多模态全景认知
人工智能·机器学习·自然语言处理
taoqick11 天前
修改GRPO Advantages的一些思路(pass@k)
人工智能·机器学习·自然语言处理
云器科技11 天前
云器Lakehouse新版本特性解读:MCP Server —— AI 数据工程师的深度解析与实战指南
大数据·人工智能·自然语言处理·数据平台·湖仓平台
陈天伟教授11 天前
人工智能应用- 预测化学反应:06. BERT 模型简介
人工智能·深度学习·机器学习·自然语言处理·bert·推荐算法
Loo国昌11 天前
【AI应用开发实战】Guardrail风险控制中间件:Agent系统的安全防线
人工智能·python·安全·自然语言处理·中间件·prompt
小龙报11 天前
【Coze-AI智能体平台】Coze 工作流 = 智能体的 “流程管家”?一文解锁自动化落地新玩法
人工智能·语言模型·自然语言处理·性能优化·数据分析·知识图谱·需求分析