10分钟揭秘大模型的原理

2022年11月底OpenAI发布的ChatGPT,一上线就引起了恐慌。我们在有大模型之前,使用百度、Bing搜索问题时,有可能找了几页也找不到自己想要的答案。而有了大模型之后,输出的答案要正确多了。关键是这个回答的正确率太可怕了。我用了几个月,发现它的答案不是说不对,而是提的问题要合理准确。

当然它最厉害的核心是能像人类的语言进行交流,不管是什么语言都可以,就算你写错了也没有问题,它都理解。这是基于生成式AI的高速发展的结果。生成式AI是通过缝合式创作生成一个新的内容。这让AI发展到了里程碑式的节点。

ChatGPT在回答问题的时候,是一个词一个词的往外蹦。这由它的原理而决定。

大模型的原理其实很简单,就是根据上下文来推理下一个文字是什么。然后会不断的文本生成。

从训练到推理的整个过程包括如下3个步骤:

  1. 预训练
  • 无监督学习,就是基于知识库进入自主学习

  • 模型在大数据集中自主学习

  1. 微调
  • 不是必需的步骤

  • 有监督

  • 通过在人工标的数据集上训练优化模型,使其"有用"、"安全"

  1. 推理
  • 与人在线、实时交互

  • 使用已经训练好的模型生成响应

Transformer模型的核心是自注意力机制,可有效的捕捉序列内各元素之间的关系。例子是一个动画: https://colab.research.google.com/github/tensorflow/tensor2tensor/blob/master/tensor2tensor/notebooks/hello_t2t.ipynb#scrollTo=OJKU36QAfqOC

这个例子是通过注意力机制判断这一句话中每一个文本之间的关系和语义关系。

当我们把内容放到这个transformer模型后,每一层的自注意力机制,都可以并行的去分析文本里面的不同信息,如GPT-3有96层,可以输出包含所有必要信息的最终词的隐藏状态,这样可以精准地预测下一个词是什么。通过这么多层的模型可以实现对文本有更深层次的理解,并通过大维度词向量来记录每一个词的上下文信息。从而达到如今能够跟人进行自由对话的智能化程度。

这就是整个大模型的工作原理。

相关推荐
aicat_cn20 小时前
从预测未来到控制未来:机器人世界模型全景综述
ai·大模型
千桐科技1 天前
qKnow 智能体构建平台开源版 2.1.1 正式发布!优化非结构化抽取、知识库召回,全面升级系统稳定性与交互体验
大模型·llm·工作流·qknow·智能体构建平台
codefan※1 天前
一键部署私人 LLM:Ollama + Docker 极简指南
运维·docker·容器·大模型·llm·本地部署·ollama
龙骑士baby1 天前
重建 AI 认知第 3 篇:Prompt Engineering——怎么让 AI 听懂你的话
ai·大模型·llm·prompt
猫先生Mr.Mao1 天前
一文梳理主流 LLM 架构技术演进
人工智能·架构·大模型·llm·transformer
程序员cxuan1 天前
把 Codex 用到极致
ai·大模型·codex
战族狼魂1 天前
Claude 大模型在真实业务场景中的落地应用指南
人工智能·chatgpt·大模型
Resistance丶未来1 天前
魔芋AI:构建安全、可控、合规的大模型生产力枢纽
gpt·安全·大模型·claude·gemini·企业ai·魔芋ai
汤姆yu1 天前
微软MAI-Image-2.5模型深度解析
人工智能·大模型
xixixi777771 天前
GPT-5.6(Iris-Alpha)细节泄露 + 国产 AI 芯片最高安全认证落地,全球 AI 格局迎来大变局
大数据·人工智能·gpt·ai·大模型·算力·智能体