技术栈
llama
小杜不吃糖
14 小时前
学习
·
transformer
·
llama
llama源码学习·model.py[7]Transformer类
一支王同学
2 天前
nlp
·
大语言模型
·
llama
使用LLama-Factory的简易教程(Llama3微调案例+详细步骤)
引言:一套快速实现 Llama3 中文微调的教程主要参考:胖虎遛二狗的 B 站教学视频《【大模型微调】使用Llama Factory实现中文llama3微调》
Jozky86
3 天前
人工智能
·
大模型
·
llama
【大模型微调】使用Llama Factory实现中文llama3微调
【大模型微调】使用Llama Factory实现中文llama3微调 github链接 为什么不用基座模型:95%用的英文数据训练,训练效果不好 所以用的Llama3-99-Chinese-Chat(别人微调过的再微调)
小杜不吃糖
3 天前
llama
llama源码学习·model.py[3]ROPE旋转位置编码(4)ROPE的应用
*** xq.shape: *** torch.Size([2, 2, 2])*** xk.shape: *** torch.Size([2, 2, 2])
花千树-010
4 天前
gpt
·
架构
·
prompt
·
aigc
·
embedding
·
llama
·
agi
Dify - 架构、部署、扩展与二次开发指南
本文详细解析 Dify 的架构、部署流程、高可用中间件的独立部署方法,以及二次开发流程,帮助开发者更高效地管理和扩展 Dify。
小杜不吃糖
4 天前
llama
llama源码学习·model.py[3]ROPE旋转位置编码(3)源码中的广播机制
out: torch.Size([3, 4])out: torch.Size([2, 3, 4])out: torch.Size([1, 3, 4])
闻道且行之
6 天前
llama
·
llama-factory
记录| Llama-Factory参数总结
最近正在研究大模型微调,经常记不住Llama-Factory的各种参数和各种概念,这里记录下来,方便自己查看。
未来之窗软件服务
6 天前
人工智能
·
llama
·
数字人
数字人本地部署之llama-本地推理模型
llama-server.exe -m "data/LLM/my.gguf" --port 8080-m 属于命令行选项,一般用来指定要加载的模型文件。
愤怒的可乐
6 天前
llama
Lora微LLAMA模型实战
本文介绍如何复现Alpaca-lora,即基于alpaca数据集用lora方法微调Llama模型。实验环境用的是lanyun,新用户点击注册可以送算力。
kkk12344
6 天前
人工智能
·
llama
AI软件栈:推理框架(二)-Llama CPP1
Llama CPP的主要构造,GGUF和GGML为两个主要部分,包括模型描述文件和模型参数存储文件
XD742971636
7 天前
llama
LLaMA-Factory多机多卡训练实战
https://www.dong-blog.fun/post/1999参考资料:https://llamafactory.readthedocs.io/zh-cn/latest/advanced/distributed.html
huafeng88
8 天前
语言模型
·
llama
使用GPTQ量化Llama-3-8B大模型
服务器配置:4*3090 描述:使用四张3090,分别进行单卡量化,多卡量化。并使用SGLang部署量化后的模型,使用GPTQ量化 原来的模型精度为FP16,量化为4bit
Cheng_0829
9 天前
笔记
·
llama
llama-factory笔记
RoPE 插值方法能提升长文本效果,如果没有特殊需求可以不使用(yarn最好,dynamic能动态变化,linear适合所有文本长度相近的情况且耗时最短)
_Meilinger_
9 天前
大模型
·
llm
·
微调
·
llama
·
大模型微调
·
llama-factory
·
unsloth
大模型微调|使用 LLaMA-Factory 微调 Llama3-8B-Chinese-Chat 完成知识问答任务
前言:本篇博客分享如何基于LLaMA-Factory使用现有金融数据集实现LLaMA3的微调,以完成金融领域的知识问答任务。
背太阳的牧羊人
9 天前
人工智能
·
llama
·
大模型微调
LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key
在 LLaMA-Factory 进行 SFT(Directive supervision fine-tuning 指令监督微调)时,训练数据的格式 非常重要,因为大模型依赖标准化的数据结构来学习 指令-响应 模式。
modest —YBW
11 天前
llama
大模型GGUF和LLaMA的区别
GGUF(Gigabyte-Graded Unified Format)和LLaMA(Large Language Model Meta AI)是两个不同层面的概念,分别属于大模型技术栈中的不同环节。它们的核心区别在于定位和功能:
静心问道
11 天前
人工智能
·
语言模型
·
llama
LLaMA:开放且高效的基础语言模型
我们介绍了LLaMA,这是一系列参数规模从70亿到650亿不等的基础语言模型。我们在数万亿的标记上训练我们的模型,并展示了仅使用公开可用的数据集训练出最先进模型的可能性,而无需依赖专有和难以获取的数据集。特别是,LLaMA-130亿在大多数基准测试中超越了GPT-3(1750亿),而LLaMA-650亿则与最佳模型Chinchilla-700亿和PaLM-5400亿相媲美。我们将所有模型向研究社区公开。
小杜不吃糖
11 天前
python
·
llama
llama源码学习·model.py[1]RMSNorm归一化
归一化(Normalization)通常指的是将数据按比例缩放,使之落入一个小的特定区间,如0到1。这 个过程通常用于在不同特征或数据点之间建立一致性,以便它们可以在相同的尺度上比较或处理。
Q同学的nlp笔记
12 天前
人工智能
·
深度学习
·
llama
mac本地部署Qwq-32b记录
昨天看到阿里开源了Qwq-32b,号称性能可以媲美Deepseek-R1。今天晚上有空就在Mac上折腾了一下,使用ollma进行了部署,效果感觉还不错,特此记录。
System_sleep
13 天前
windows
·
python
·
llama
·
cuda
win11编译llama_cpp_python cuda128 RTX30/40/50版本
Geforce 50xx系显卡最低支持cuda128,llama_cpp_python官方源只有cpu版本,没有cuda版本,所以自己基于0.3.5版本源码编译一个RTX 30xx/40xx/50xx版本。