llama

南宫乘风6 小时前
人工智能·深度学习·llama
LLaMA-Factory 给 Qwen1.5 做 LoRA 微调 实战我见过不少团队一上来就想“改模型人设”,最后变成两种结果:这篇文章不追求“最简单能跑通”,而是按生产视角把流程写成一个可复用的 runbook: 用 LLaMA-Factory 基于 Qwen1.5-1.8B-Chat 做 LoRA SFT,把“你是谁?”的回答稳定改成:
华农DrLai12 小时前
人工智能·算法·llm·nlp·prompt·llama
什么是自动Prompt优化?为什么需要算法来寻找最佳提示词?🚀 本文收录于Github:AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助,欢迎 ⭐ Star 支持!
jjinl1 天前
llama
1.1 llama.cpp 编译llama.cpp 更新太快,当前下载 llama.cpp-b7907.tar.gz 进行学习。编译环境选择在windows 11下,采用mingw.环境如下:
serve the people1 天前
llama
macbook m4 LLaMA-Factory入门级微调明白你的需求。作为一个初学者,面对大模型复杂的生态确实容易感到“步子迈得太大”。既然你已经有了 Anaconda,我们就不再安装 Miniforge(它们的功能是重合的,都是环境管理器)。
WiSirius2 天前
人工智能·深度学习·自然语言处理·大模型·llama
LLM:基于 AgentScope + Streamlit 的 AI Agent脑暴室随着大模型的发展,我们已经不再满足于只和一个 AI 聊天。现在的趋势是多智能体(Multi-Agent)——即创建多个带有不同角色设定的 AI,让它们互相交流、协作甚至辩论,从而完成复杂的任务。它最大的特点就是易用(Pythonic)、鲁棒性强(自带容错机制),并且原生支持分布式部署。
掘金安东尼2 天前
llama
llama.cpp、Ollama、LM Studio:背后是谁在做?为什么会出现?要什么机器才能跑?很多人把这三个当成“工具对比”。其实更有意思的是:👉 它们代表三种完全不同的力量来源一边是纯工程黑客,一边是开发者平台,一边是产品化团队。
海天一色y2 天前
llama
LLaMA-Factory PPO 训练实战:从 SFT 到 RLHF 完整指南在大语言模型(LLM)的后训练阶段,监督微调(SFT) 只能让模型学会"模仿"人类的表达形式,但无法真正理解人类的偏好和价值观。这就是 RLHF(Reinforcement Learning from Human Feedback) 的用武之地。
接着奏乐接着舞。2 天前
人工智能·llama
5分钟本地跑起大模型一个让你在自家电脑上运行大模型的免费工具,相当于大模型的“安装管家”,帮你把复杂的 AI 模型一键下载到本地,不用联网也能用 。 运行本地大模型可以进行微调可以作为个人的知识库,比如模仿作家文风之类的,并且不需要apikey的花费,完全免费。
liuze4083 天前
llama
Ollama安装随着人工智能技术的快速发展,大型语言模型 LLM 已成为NLP领域的重要工具。然而,这些模型的运行通常需要大量的计算资源和复杂的部署流程。为了解决这个问题,Ollama应运而生,成为了一个高效的本地大语言模型LLM运行专家。
小超同学你好3 天前
语言模型·架构·transformer·llama
Transformer 14. DeepSeekMoE 架构解析:与 LLaMA 以及 Transformer 架构对比摘要:本文在 Decoder-only Transformer 与 Mixture-of-Experts(MoE)的基础上,系统介绍 DeepSeekMoE 的架构设计及与 LLaMA、标准 Transformer、GShard 的对比。内容包括:MoE 在 Transformer 中的位置(用 MoE 层替代 FFN)、DeepSeekMoE 的两大策略(细粒度专家切分、共享专家隔离)、数学形式与负载均衡、不同规模配置(2B / 16B / 145B)及与稠密模型的计算/性能对比、以及与 Transfo
小超同学你好3 天前
语言模型·架构·transformer·llama
Transformer 15: DeepSeek-V2 架构解析:MLA + DeepSeekMoE 与主流架构对比摘要:本文在 Decoder-only Transformer、LLaMA 架构 与 DeepSeekMoE 架构 的基础上,系统介绍 DeepSeek-V2 的架构设计及与 MHA/GQA/MQA、LLaMA、Mixtral 等主流架构的对比。内容包括:DeepSeek-V2 的整体定位(236B 总参数、21B 激活、128K 上下文)、Multi-head Latent Attention(MLA) 的低秩 K-V 联合压缩与解耦 RoPE、DeepSeekMoE 在 V2 中的使用及设备受限路由与
品克缤4 天前
前端·后端·node.js·vue·express·ai编程·llama
Trading-Analysis:基于“规则+LLM”的行情分析终端(兼谈 Vibe Coding 实战感)最近一直在思考一个问题:作为开发者,我们如何利用 AI 提高自己的生活质量?长期以来,我习惯于通过 MA 均线与量价关系分析美股及黄金走势。为了实现交易逻辑的客观化与自动化,趁着最近 Vibe Coding 的概念比较火,我尝试全程在 AI 辅助下,快速落地了这个纯粹、理性、基于规则全栈小工具:Trading-Analysis。
seaside20034 天前
llama·qwen3.5·高通soc
llama.cpp 部署qwen3.5 2B 高通芯片安卓实战本文利用llama.cpp在高通芯片安卓系统部署Qwen3.5 2B模型的全流程,全套代码由豆包辅助生成,豆包最成功的一点是可以不断修正,就错误发给豆包,一步步改进,最终完成。
JAdroid4 天前
llama
LLM大模型操作比特币地址:https://nof1.ai/blog探索大型语言模型作为量化交易者的局限性 我们给六家领先的LLM公司各1万美元,让他们仅使用数值市场数据输入和相同的交易信号/工具,在真实市场中进行自主交易。初步结果显示,不同公司的交易行为(风险、规模、持仓时间)存在显著差异,并且对交易信号的微小变化非常敏感。
踏歌~5 天前
llama
LLaMA Factory简介和使用方法LLaMA Factory (也常被称为 LLaMA-Factory) 是一个专为大语言模型(LLM)设计的、集成了多种高效微调方法(如 LoRA, QLoRA)的开源框架。
魔乐社区5 天前
微调·llama·qwen3.5
在魔乐社区使用llama-factory微调Qwen3.5-4B模型我们依然是搭建一个miniconda可以使用下面的命令验证是否安装成功:显示llamafactory的版本,则表示安装成功
小超同学你好6 天前
人工智能·语言模型·架构·transformer·llama
Transformer 13. DeepSeek LLM 架构解析:与 LLaMA 以及 Transformer 架构对比摘要:本文在 Decoder-only Transformer 架构的基础上,深入分析 DeepSeek LLM 的架构设计。内容包括:DeepSeek LLM 的整体架构定位、与 LLaMA 和标准 Transformer 的详细对比、关键架构改进(多步学习率调度器、深度优先设计、GQA 注意力机制)、架构参数配置(7B 和 67B)及其矩阵维度计算、以及架构设计的选择与权衡。旨在帮助读者理解 DeepSeek LLM 在架构层面的创新点与设计思路。
CHPCWWHSU7 天前
llm·llama·cpp·cudatoolkit
llama-server - 从命令行到HTTP Serverllama-server是llama.cpp中用于发布大模型服务的工具。它通过极简的命令行配置,将复杂的模型推理过程封装为通用的 HTTP 接口;在底层,它选择以纯 C++ 编写的 cpp-httplib 作为服务框架的底层。本章分为应用实战与底层架构两部分。首先,我们将介绍不同参数下的大模型服务发布;接着,我们将详细解析 cpp-httplib 在项目中的具体实现,帮助读者掌握该服务端在网络调度层面的运行逻辑。
minstbe7 天前
人工智能·python·语言模型·llama
IC设计私有化AI助手实战:基于Docker+OpenCode+Ollama的数字前端综合增强方案(进阶版)摘要:本文面向从事数字前端综合的 IC 工程师,系统介绍如何在物理隔离的 EDA 环境中, 借助 Docker 容器化技术部署 OpenCode + Ollama 本地大模型,构建一套零数据外泄、多用户隔离、 开箱即用的 AI 辅助综合工作站。文章分为两部分:第一部分聚焦架构设计与环境部署; 第二部分深入业务实战,覆盖 SDC 自动生成、timing 违例诊断与团队知识共享。
wangqiaowq7 天前
llama
Llama_index + Chroma参考:第十三篇:Llama_index、Embedding Models、Chroma - 猿小姜 - 博客园