10分钟揭秘大模型的原理

2022年11月底OpenAI发布的ChatGPT,一上线就引起了恐慌。我们在有大模型之前,使用百度、Bing搜索问题时,有可能找了几页也找不到自己想要的答案。而有了大模型之后,输出的答案要正确多了。关键是这个回答的正确率太可怕了。我用了几个月,发现它的答案不是说不对,而是提的问题要合理准确。

当然它最厉害的核心是能像人类的语言进行交流,不管是什么语言都可以,就算你写错了也没有问题,它都理解。这是基于生成式AI的高速发展的结果。生成式AI是通过缝合式创作生成一个新的内容。这让AI发展到了里程碑式的节点。

ChatGPT在回答问题的时候,是一个词一个词的往外蹦。这由它的原理而决定。

大模型的原理其实很简单,就是根据上下文来推理下一个文字是什么。然后会不断的文本生成。

从训练到推理的整个过程包括如下3个步骤:

  1. 预训练
  • 无监督学习,就是基于知识库进入自主学习

  • 模型在大数据集中自主学习

  1. 微调
  • 不是必需的步骤

  • 有监督

  • 通过在人工标的数据集上训练优化模型,使其"有用"、"安全"

  1. 推理
  • 与人在线、实时交互

  • 使用已经训练好的模型生成响应

Transformer模型的核心是自注意力机制,可有效的捕捉序列内各元素之间的关系。例子是一个动画: https://colab.research.google.com/github/tensorflow/tensor2tensor/blob/master/tensor2tensor/notebooks/hello_t2t.ipynb#scrollTo=OJKU36QAfqOC

这个例子是通过注意力机制判断这一句话中每一个文本之间的关系和语义关系。

当我们把内容放到这个transformer模型后,每一层的自注意力机制,都可以并行的去分析文本里面的不同信息,如GPT-3有96层,可以输出包含所有必要信息的最终词的隐藏状态,这样可以精准地预测下一个词是什么。通过这么多层的模型可以实现对文本有更深层次的理解,并通过大维度词向量来记录每一个词的上下文信息。从而达到如今能够跟人进行自由对话的智能化程度。

这就是整个大模型的工作原理。

相关推荐
山顶夕景20 小时前
【LLM】Clawbot的memory记忆机制
大模型·记忆体·clawbot
AI绘画哇哒哒1 天前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
算法备案代理1 天前
大模型备案与算法备案,企业该如何选择?
人工智能·算法·大模型·算法备案
冻感糕人~1 天前
【珍藏必备】ReAct框架实战指南:从零开始构建AI智能体,让大模型学会思考与行动
java·前端·人工智能·react.js·大模型·就业·大模型学习
WooaiJava2 天前
AI 智能助手项目面试技术要点总结(前端部分)
javascript·大模型·html5
爱喝白开水a2 天前
前端AI自动化测试:brower-use调研让大模型帮你做网页交互与测试
前端·人工智能·大模型·prompt·交互·agent·rag
“负拾捌”2 天前
python + uniapp 结合腾讯云实现实时语音识别功能(WebSocket)
python·websocket·微信小程序·uni-app·大模型·腾讯云·语音识别
韦东东2 天前
RAGFlow v0.20的Agent重大更新:text2sql的Agent案例测试
人工智能·大模型·agent·text2sql·ragflow
OpenBayes2 天前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
PPIO派欧云2 天前
PPIO上线GLM-OCR:0.9B参数SOTA性能,支持一键部署
人工智能·ai·大模型·ocr·智谱