language model

Stara05111 个月前
llm·transformer·language model·deepseek
自注意力机制的演进-从Transformer架构到DeepSeek-R1模型的深度语义理解革新2025年,我国发布了开创性且高性价比的大语言模型-DeepSeek-R1,推动了AI领域的重大变革。本章节回顾了LLM的发展历程,其起点可追溯至2017年Transformer架构的提出,该架构通过自注意力机制(Self-Attention)彻底革新了自然语言处理技术。到2018年,BERT与GPT模型显著提升了上下文理解与文本生成能力;2020年,GPT-3凭借1750亿参数展示了卓越的[少样本]与[零样本]学习能力,但其生成内容存在与事实不符的幻觉问题,成为关键挑战。为应对这一问题,2022年Ope
地中海~4 个月前
人工智能·笔记·language model·攻防
Certifying LLM Safety against Adversarial Promptingerase-and-checkerase:逐一删除prompt中的词元(token)check:用安全过滤器检查生成的子序列。
今天也想MK代码5 个月前
ai·语言模型·swift·model·language model
基于ModelScope打造本地AI模型加速下载方案在AI开发过程中,模型下载一直是一个让开发者头疼的问题。目前主流的模型下载渠道如下:Hugging Face (https://huggingface.co/)
营赢盈英8 个月前
python·ai·llm·language model·openai api
How to import openai package using jupyter notebook?题意:如何在 Jupyter Notebook 中导入 openai 包?I am getting the below error message when importing openai as ai using google jupyter notebook:
RuizhiHe9 个月前
人工智能·gpt·语言模型·chatgpt·gpt-3·language model
从零开始实现大语言模型(二):文本数据处理神经网络不能直接处理自然语言文本,文本数据处理的核心是做tokenization,将自然语言文本分割成一系列tokens。
RuizhiHe9 个月前
人工智能·gpt·语言模型·gpt-3·embedding·language model
从零开始实现大语言模型(三):Token Embedding与位置编码Embedding是深度学习领域一种常用的类别特征数值化方法。在自然语言处理领域,Embedding用于将对自然语言文本做tokenization后得到的tokens映射成实数域上的向量。
LDG_AGI9 个月前
人工智能·python·深度学习·机器学习·langchain·aigc·language model
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战目录一、引言二、模型简介2.1 Gemma2概述2.2 Gemma2 模型架构三、训练与推理3.1 Gemma2 模型训练
星夜猫2 年前
学习·langchain·language model
LangChain与大模型的学习解决办法我的第一个调用实例,感觉还是很神奇的“temperature” : OpenAI的API有效载荷中,"temperature"选项是一个控制语言模型输出的随机性或创造性的参数。当使用语言模型生成文本时,它通常会输出根据输入和先前训练数据确定为最可能的单词或词序列。然而,增加输出的随机性可以帮助模型创建更具创意和有趣的输出。"temperature"选项实际上控制着随机性的程度。将温度设置为较低的值将导致输出更可预测和重复,而较高的温度会导致更多种类和不可预测的输出。例如,将温度设置为0.5将导致较