llama

大模型最新论文速读2 天前
人工智能·深度学习·语言模型·自然语言处理·llama
指令微调时,也要考虑提示损失大模型在预训练之后往往需要经过指令微调,以更好地遵循人类指令。常规做法是在自回归流程中,只对回答部分计算损失而忽略提示部分的误差。但这样的设计是否最优,一直缺乏深入研究
liliangcsdn4 天前
人工智能·macos·语言模型·llama
在mac m1基于llama.cpp运行deepseeklama.cpp是一个高效的机器学习推理库,目标是在各种硬件上实现LLM推断,保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化,通过ARM NEON、Accelerate和Metal支持Apple芯片,使得在MAC M1处理器上运行Deepseek大模型成为可能。
强哥之神6 天前
人工智能·深度学习·计算机视觉·语言模型·自然语言处理·llama
Meta AI 推出 Multi - SpatialMLLM:借助多模态大语言模型实现多帧空间理解多模态大语言模型(MLLM)作为多功能 AI 助手,在处理各类视觉任务方面取得了巨大进步。然而,它们作为独立数字实体部署,限制了其潜在影响。随着将 MLLM 整合到像机器人技术和自动驾驶汽车这类现实应用中的需求不断增长,这些应用需要复杂的空间理解能力。当前的 MLLM 存在基本的空间推理缺陷,常常连左右区分这类基础任务都难以完成。以往研究将这些局限归因于缺乏专门的训练数据,并通过在训练期间纳入空间数据来解决,但这些方法侧重于单图像场景,从而使模型的感知局限于静态视场分析,缺少动态信息。
try2find10 天前
开发语言·python·llama
安装llama-cpp-python踩坑记安装报错,分析如下:这个错误是因为 LLAMA_CUBLAS 选项已经被弃用,建议使用 GGML_CUDA 替代。你需要修改安装命令中的 CMake 参数。
西西弗Sisyphus10 天前
微调·llama·llama-factory·后训练
LLaMA-Factory 单卡后训练微调Qwen3完整脚本flyfish将下面代码保存为 train_single_gpu.sh修改脚本中的以下参数: MODEL_PATH:模型路径 DS_CONFIG_PATH:DeepSpeed配置文件路径 OUTPUT_PATH:输出目录路径 --dataset erfen:替换为实际数据集名称 这里是erfen
顾道长生'10 天前
计算机视觉·数据挖掘·llama·自回归模型·多模态生成与理解
(Arxiv-2024)自回归模型优于扩散:Llama用于可扩展的图像生成paper是香港大学发布在Arxiv2024的工作paper title:Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
Zhijun.li@Studio20 天前
人工智能·自然语言处理·llama·多模态大模型
【LLaMA-Factory 实战系列】二、WebUI 篇 - Qwen2.5-VL 多模态模型 LoRA 微调保姆级教程本教程将详细介绍如何使用 LLaMA-Factory 的图形化 WebUI 界面,对强大的开源多模态模型 Qwen2.5-VL-3B-Instruct 进行 LoRA 微调。LLaMA-Factory 是一个功能强大、简单易用的一站式大模型微调平台,它集成了多种主流的微调方法(如 LoRA、QLoRA、全量微调等),并通过简洁的 WebUI 和命令行工具,极大地降低了个人或小型团队进行模型训练的门槛。我们将以经典的宝可梦图文数据集为例,一步步带您完成从环境搭建到模型评估的全过程。
1213421 天前
gpt·aigc·ai编程·llama·gpu算力
LLM:重构数字世界的“智能操作系统”当我们谈论「计算机」时,脑海中浮现的往往是屏幕、键盘与芯片的组合。但从GPT-3.5到GPT-4,从Llama到Claude,大语言模型(LLM)的爆发式发展正在颠覆这一认知——它们不再是简单的「工具」或「算法」,而是一种全新的「计算机形态」。这种新型计算机以语言为接口,以智能为算力,以生态为延伸,正在重新定义计算的边界。
冷雨夜中漫步1 个月前
java·开发语言·windows·llama
Java中如何使用lambda表达式分类groupby比如一群学生根据性别和年龄排队,Student类有性别gender、年龄age属性,将同性别,同年龄的学生归为一类
扫地的小何尚1 个月前
c++·人工智能·语言模型·机器人·ocr·llama·gpu
全新NVIDIA Llama Nemotron Nano视觉语言模型在OCR基准测试中准确率夺冠PDF、图表、图形和仪表板等文档是丰富的数据源,当这些数据被提取和整理后,能够为决策制定提供有价值的洞察。从自动化财务报表处理到改进商业智能工作流程,智能文档处理正在成为企业AI解决方案的核心组件。
CFAteam1 个月前
人工智能·ai·fpga开发·llama
DeepSeek AI功能演示:如何生成Verilog脚本在EDA设计流程中,Verilog语言作为主要的硬件描述语言(HDL),广泛用于芯片设计的各个阶段,包括设计、仿真和综合。然而,手动编写Verilog代码过程繁琐,易出错且耗时。随着AI技术的发展,将人工智能融入到Verilog脚本的生成过程中,逐渐成为业界提升设计效率的重要趋势。
Tadas-Gao1 个月前
人工智能·机器学习·大模型·llm·llama
从碳基羊驼到硅基LLaMA:开源大模型家族的生物隐喻与技术进化全景在人工智能的广袤版图上,一场从生物学羊驼到数字智能体的奇妙转变正在上演。Meta推出的LLaMA(Large Language Model Meta AI)系列模型,不仅名字源自美洲驼(llama),更以其开源特性和强大性能,引领了开源大模型社区的“驼类大爆发”。本文将全面梳理LLaMA家族的进化谱系,从生物学驼类的分类学基础到硅基LLaMA的技术发展脉络,系统分析各类微调变体的技术特点与应用场景,揭示这场从碳基生物到硅基智能的华丽蜕变如何重塑AI技术生态(扩展阅读:哪些魔法带来了 DeepSeek 的一
Run_Clover1 个月前
llama
llama-factory微调大模型环境配置避坑总结llamafactory 是一个专注于高效微调和部署大型语言模型(LLMs)的开源框架,尤其针对 Llama 系列模型优化。它提供模块化工具链,支持从数据预处理、参数高效微调(如 LoRA、QLoRA)到模型量化、推理部署的全流程,显著降低计算资源需求。用户可通过简洁的配置实现定制化任务适配,适用于学术研究及工业场景。 笔者在部署应用llama-factory的过程中遇到一些环境及库安装问题,现总结如下,以备不时之需。
ss2731 个月前
llama
Llama 4开源项目多维分析研究2025年4月推出的新一代开源AI模型架构,在技术、生态与行业应用维度实现全面突破Llama 4于2025年4月由Meta公司推出,旨在应对日益激烈的开源AI模型竞争。本研究从技术架构、社区生态和行业应用三个维度进行全面分析,揭示其在开源AI领域的重要价值。
深科文库1 个月前
人工智能·chatgpt·llama
构建 MCP 服务器:第 2 部分 — 使用资源模板扩展资源该图像是使用 AI 图像创建程序创建的。这个故事是在多位人工智能助手的帮助下写成的。这是构建MCP 服务器教程(共四部分)的第二部分。在第一部分中,我们使用基本资源创建了第一个 MCP 服务器。现在,我们将使用资源模板扩展服务器的功能。本文中的代码假设您从上次中断的地方继续学习。
晨尘光1 个月前
python·llama
在Windows下编译出llama_cpp_python的DLL后,在虚拟环境中使用方法在VS2022编译完成后,在构建目录(如build/Release或build/Debug)中寻找以下关键文件:
风筝超冷1 个月前
llama
LLaMA-Factory - 批量推理(inference)的脚本scripts/vllm_infer.py 是 LLaMA-Factory 团队用于批量推理(inference)的脚本,基于 vLLM 引擎,支持高效的并行推理。它可以对一个数据集批量生成模型输出,并保存为 JSONL 文件,适合大规模评测和自动化测试。
bluebonnet271 个月前
python·llama
【agent开发】部署LLM(一)本周基本就是在踩坑,没什么实质性的进展推荐一个网站,可以简单计算下模型推理需要多大显存:https://apxml.com/tools/vram-calculator 我的显卡是RTX 4070,有12GB的显存,部署一个1.7B的Qwen3应该问题不大。有之前使用LLM Studio的经验,这次我打算直接使用VLLM运行模型,用Openapi的接口调用。
阿牛大牛中1 个月前
人工智能·语言模型·llama
LLaDa——基于 Diffusion 的大语言模型 打平 LLama 3这里分享一篇文章《Large Language Diffusion Models》,来自人民大学高领人工智能学院,一篇尝试改变传统自回归范(预测下一个token) LLM 架构,探索扩散模型在 LLM 上的作用,通过随机掩码-预测逆向思维,让模型学会全局思考。
Lilith的AI学习日记1 个月前
人工智能·深度学习·机器学习·chatgpt·aigc·llama
【AI面试秘籍】| 第25期:RAG的关键痛点及解决方案深度解析今天我们来聊聊大模型领域一个非常火热的技术——RAG(Retrieval Augmented Generation)。RAG通过引入外部知识库,有效地缓解了大型语言模型(LLM)在处理知识密集型任务时可能出现的幻觉、知识过时等问题。然而,在实际应用中,RAG并非完美无缺,它也面临着一些关键的痛点。作为面试中的高频考点,深入理解这些痛点及其解决方案至关重要。