技术栈
llama
df007df
6 天前
人工智能
·
ocr
·
embedding
·
llama
【RAGFlow代码详解-10】文本处理和查询处理
文本处理和查询处理系统将自然语言查询转换为与 RAGFlow 的文档存储后端配合使用的优化搜索表达式。该系统支持中英文文本处理,具有专门的标记化、术语加权和查询增强技术。
liliangcsdn
6 天前
llama
llama.cpp reranking源码分析
大模型时代,reranker一直是提高RAG有效性的重要工具。相对于初筛阶段向量检索,精排阶段的reranker需要query和每个候选document做相关计算。初筛已经将候选documents限制在一个相对较小范围,但依然要进行大量的相关性计算。
go&Python
9 天前
开发语言
·
python
·
llama
检索模型与RAG
全文索引(Full-Text Indexing) 是一种数据结构,它 记录了文档集合中所有词项的位置信息,目的是为了支 持高效的 全文检索。可以把它想象成一本书的索引, 但这个索引不是按章节或主题分类,而是包含了书中出 现的每一个有意义的词,并指明了这些词在哪些页码 (文档)的什么位置出现。
修一呀
10 天前
人工智能
·
llama
·
大模型微调
[大模型微调]基于llama_factory用 LoRA 高效微调 Qwen3 医疗大模型:从原理到实现
在大模型落地医疗场景时,直接使用通用预训练模型往往存在 “医疗知识精准度不足”“临床场景适配性差” 等问题,而全量微调又面临 “显存占用高、训练成本高、部署难度大” 的痛点。此时,LoRA(Low-Rank Adaptation,低秩适应) 技术成为解决这一矛盾的最优解之一。本文将先解析 LoRA 的核心逻辑,再带大家一步步完成基于 LoRA 的 Qwen3 医疗大模型微调,最终实现医疗场景下的精准推理。
liliangcsdn
10 天前
人工智能
·
数据分析
·
embedding
·
llama
·
rerank
基于llama.cpp的量化版reranker模型调用示例
CPU平台transformers版reranker响应速度慢,这里尝试量化版模型,期望提高响应速度。
gptplusplus
10 天前
人工智能
·
开源
·
llama
Meta AI 剧变:汪滔挥刀重组,Llama 开源路线告急,超级智能梦碎还是重生?
导语: Meta 的 AI 部门,正经历一场伤筋动骨的“大手术”。随着前 Scale AI 创始人汪滔(Alexandr Wang)出任首席 AI 官,一场自上而下的激进改革全面铺开。旧有的实验室被拆解,延续多年的开源路线面临终结,内部新旧势力的冲突公开化。扎克伯格的“超级智能”之梦,正押注在这次充满不确定性的变革上。这究竟是走向新生的阵痛,还是一场失控的豪赌?
AI大模型
15 天前
docker
·
llm
·
llama
基于 Docker 的 LLaMA-Factory 全流程部署指南
LLaMA-Factory 是一个强大且高效的大语言模型(LLM)微调框架,支持多种微调方法(如 LoRA、QLoRA)、完整的训练流程(SFT、RM、PPO、DPO)以及丰富的模型和数据集支持,能帮助你在消费级显卡上高效微调大型语言模型。
m0_60388871
21 天前
人工智能
·
深度学习
·
ai
·
llama
·
论文速览
LLaMA-Adapter V2 Parameter-Efficient Visual Instruction Model
Authors: Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao
三千院本院
25 天前
llama
LlaMA_Factory实战微调VL大模型
VL微调数据格式文件样例如下 一:微调数据集准备 1、制作微调数据集首先找到data文件夹下方的mllm_demo.json,确认微调VL模型时的数据格式模板,然后按照模板,制作对应的指令微调数据集。 2、确认微调模型认知
爱分享的飘哥
1 个月前
llama
·
llama.cpp
·
kv cache
·
attention优化
·
llm cpu推理
·
量化attention
·
gguf推理
第四十六章:AI的“瞬时记忆”与“高效聚焦”:llama.cpp的KV Cache与Attention机制
我们已经亲身体验了LLaMA.cpp在CPU上运行大语言模型的神奇速度。一个7B参数的模型,在你的普通电脑上,也能做到几乎“秒回”,这在几年前是难以想象的。
psyq
1 个月前
人工智能
·
llama
LLaMA Factory 角色扮演模型微调实践记录
注:本人之前从未接触过模型微调,这篇文章更多是记录微调流程,方便自己后续参考。有问题欢迎勘误,或者如果有更好的微调思路也还请不吝赐教
liliangcsdn
1 个月前
数据仓库
·
人工智能
·
prompt
·
llama
mac测试ollama llamaindex
LlamaIndexs 将大语言模型和外部数据连接在一起的工具。大模型prompt有一个长度限制,当外部知识的内容超过这个长度,无法同时将有效信息传递给大模型,因此就诞生了 LlamaIndex。
茫茫人海一粒沙
1 个月前
llama
使用 LLaMA 3 8B 微调一个 Reward Model:从入门到实践
本文将介绍如何基于 Meta 的 LLaMA 3 8B 模型构建并微调一个 Reward Model,它是构建 RLHF(基于人类反馈的强化学习)系统中的关键一环。我们将使用 Hugging Face 的 transformers、trl 和 peft 等库,通过参数高效微调(LoRA)实现高质量 Reward Model 的训练。
liliangcsdn
1 个月前
人工智能
·
python
·
macos
·
llama
mac llama_index agent算术式子计算示例
本文通过简单数学计算,示例llama_index使用agent解决复杂任务过程。假设mac本地llama_index环境已安装,过程参考
许愿与你永世安宁
1 个月前
数据库
·
人工智能
·
gpt
·
oracle
·
llama
·
rag
RAG(检索增强生成)里的文档管理
RAG(检索增强生成)是结合检索与生成式 AI 的技术框架。核心逻辑是先从外部知识库精准检索相关信息,再将其作为上下文输入大模型生成回答。技术上依赖检索引擎(如向量数据库、BM25)、大语言模型(如 GPT、LLaMA)及数据预处理技术。通过检索增强,解决大模型知识滞后、幻觉问题,提升回答准确性。应用广泛,涵盖智能客服、医疗问答、法律检索、教育辅导等场景,能基于特定领域知识提供精准、可控的生成内容。
许愿与你永世安宁
1 个月前
人工智能
·
python
·
自然语言处理
·
json
·
github
·
llama
·
faiss
基于Llama的RAG 3种模型配置方法
目录方法一:使用Llama-index为智谱构建的专门的包安装六个包环境变量读取APIkey配置对话模型
至善迎风
1 个月前
docker
·
容器
·
llama
·
kimi
本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)
Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型(MoE),支持最大 128K 上下文,激活参数规模为 32B,具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来,许多开发者希望将其部署在本地,以获得更高的私密性和灵活性。
阿斯卡码
1 个月前
开发语言
·
python
·
llama
安装 llama-cpp-python 的CPU和GPU方法
关于Langchain、LlamaCpp一些执行错误。需要同时满足两个条件: 1.NVIDIA显卡驱动(通过nvidia-smi验证) 2.CUDA Toolkit(通过nvcc --version验证)
学不会就看
2 个月前
llama
llama-factory快速开始
这是GitHub中文介绍文档,里面的教程更加详细,本人记录是方便本人看,对于我已经熟练的部分,教程中可能不会细说甚至跳过。
NullPointerExpection
2 个月前
数据库
·
人工智能
·
sql
·
算法
·
llm
·
llama
·
工作流
LLM大语言模型不适合统计算数,可以让大模型根据数据自己建表、插入数据、编写查询sql统计
例如有如下数据:表示的是某班级学生各科目的分数,假如我们想让大模型统计该班各科目成绩的总分,最能想到的方法就是编写如下的提示词扔给大模型: