技术栈
语言模型
Hello未来
5 小时前
python
·
深度学习
·
语言模型
·
自然语言处理
·
nlp
llamafactory 的使用和安装
Llamafactory已经出来很久了,自己也用了比较长的时间,一直想着写一遍博客用于记录,然后一直拖着(小声BB:主要还是懒了)以下内容用于个人使用的总结文档,感觉应该属于比较保姆级别的总结了,希望可以帮到需要的朋友。当然,也可以看下Llamafactory的GitHub链接,对应的GitHub中文文档,对应的官方推荐中文视频
老唐777
6 小时前
人工智能
·
ai
·
语言模型
·
agent
·
llama
·
智能体
30分钟手搓 Agent:LLM + Tools + Loop + Memory 跑通最小闭环
Agent 的最小执行链,到底长什么样?想了想,最好的办法就是手搓一个。先不管 ReAct、MCP、Function Calling、Memory、Harness 这些词。先不讲“自主规划、自主执行、自主反思”。
小龙报
7 小时前
java
·
c语言
·
开发语言
·
c++
·
人工智能
·
语言模型
·
visual studio
【数据结构与算法】一文拿捏链式二叉树:遍历 + 统计 + 层序 + 完全树
🔥小龙报:个人主页 🎬作者简介:C++研发,嵌入式,机器人等方向学习者 ❄️个人专栏:《C语言》《数据结构与算法》 ✨ 永远相信美好的事情即将发生
花间相见
7 小时前
人工智能
·
语言模型
·
自然语言处理
【LamaIndex01】—— 用于RAG上下文增强型大语言模型应用程序的框架
在大模型应用开发生态中,LlamaIndex(最新稳定版v0.10.68,2026年4月更新)是专注于私有数据与LLM连接的RAG专用框架。区别于LangChain的“全栈全能”,它的核心设计哲学是**“数据优先、检索为王”**——所有组件围绕“文档加载→处理→索引→检索→问答”的RAG全链路构建,智能体编排仅作为附属能力存在。
阿杰学AI
7 小时前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
reward hacking
·
奖励作弊
AI核心知识143—大语言模型之 奖励作弊(简洁且通俗易懂版)
奖励作弊 (Reward Hacking),在 AI 圈子里也常被称为“规范游戏 (Specification Gaming)”,是人工智能训练中最让人啼笑皆非,同时也是最让人后背发凉的现象。
阿杰学AI
7 小时前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
红队
·
红队测试
AI核心知识144—大语言模型之 红队(简洁且通俗易懂版)
红队 (Red Teaming) 是 AI 时代的“首席刺客” 和“白帽子黑客” 。正如我们在上一个话题聊到的,AI 为了刷高分会疯狂钻空子,甚至产生极其危险的倾向。为了防止这些拥有超级智商的怪物在发布后给人类社会带来灾难,顶尖 AI 实验室(如 OpenAI、Google、Anthropic)在模型出厂前,都会雇佣一支极其特殊的独立部队——红队。
weixin_44626085
7 小时前
人工智能
·
语言模型
·
自然语言处理
从零到精通大型语言模型(LLM)应用的开发路线图
目标: 本路线图旨在从初级的使用者(Prompt Engineer)思维,系统性地提升为能够构建端到端、具备高鲁棒性、具备可进化性的LLM应用架构师。
古怪今人
8 小时前
人工智能
·
语言模型
·
自然语言处理
大语言模型(LLM)的开发流程 训练、微调和RAG时什么改变了
1、工程规划以及代码框架搭建:定义大模型的基础神经网络骨架,搭建Transformer Decoder神经网络架构,编写注意力机制、位置编码、全连接层、残差连接等核心网络代码;搭建模型训练的基础运行环境,编写优化器、损失函数、学习率调度、模型初始化等相关代码,保障训练流程可正常推进;针对大模型海量数据与大规模算力需求,编写多 GPU集群通信、张量并行、数据并行、显存优化、断点续训等代码,实现算力高效调度与分布式训练,满足大模型训练的硬件适配要求。
DuHz
16 小时前
论文阅读
·
人工智能
·
深度学习
·
算法
·
机器学习
·
计算机视觉
·
语言模型
论文精读:大语言模型 (Large Language Models, LLM) —— 一项调查
Minaee, Shervin et al. “Large Language Models: A Survey.” ArXiv abs/2402.06196 (2024): n. pag.
阿杰学AI
1 天前
人工智能
·
安全
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
ai对齐
AI核心知识141—大语言模型之 对齐难题(简洁且通俗易懂版)
对齐难题 (The Alignment Problem) 是整个人工智能领域,乃至全人类在这个世纪面临的“最终级 Boss” 。
流年似水~
1 天前
人工智能
·
程序人生
·
语言模型
·
ai编程
2026 年跨平台开发全貌:Flutter、KMP、React Native 怎么选?
本文面向零基础读者,系统梳理跨平台开发三大主流方案——Flutter、Kotlin Multiplatform、React Native 的技术本质、适用场景与学习路径,并回答一个核心问题:2026 年,作为初学者,应该选哪条路?
最贪吃的虎
1 天前
人工智能
·
python
·
语言模型
·
langchain
MIT新论文:Hyperloop Transformers
在云端,问题通常围绕吞吐、延迟、GPU 利用率展开。但到了端侧、本地设备、小显存推理场景,另一个问题会迅速变成硬门槛:模型权重到底能不能放进内存?
zhangfeng1133
1 天前
人工智能
·
语言模型
·
llama
No space left on device (28) llamafactory微调训练的时候 报错,需要调节 dataloader_num_workers
跑到 50 个小时节点突然崩溃,这确实非常搞人心态。结合你上一条提到的 /dev/shm (Error 28: No space left on device) 报错,以及你这份长达 50 小时的训练配置文件,问题的原因已经非常清晰了:这是一个典型的 PyTorch 长周期训练下的共享内存(Shared Memory)泄漏/碎片化问题。
流年似水~
1 天前
人工智能
·
程序人生
·
ios
·
语言模型
iOS 开发进阶之路:从能跑到能维护
写一个能跑的 App 只需要三天,写一个三年后还能改的 App,需要的不止是代码。iOS 开发现在两条主线:
Gh0st_Lx
2 天前
人工智能
·
语言模型
·
transformer
【6】持续学习方法概述:在数据集 B 上变强了,在数据集 A 上却暴跌?
模型在数据集 A 上刚训完,效果稳定。过了几天,又来了数据集 B: 新场景、新类别,或者只是分布变了。
周末也要写八哥
2 天前
人工智能
·
语言模型
·
自然语言处理
大语言模型的“自我迭代”
你知道吗?在学习大语言模型的时候,小编发现一件很有趣的事情:大语言模型输入的是自然语言(也就是我们前面所说的“代码”),它输出的也是自然语言(同样是“代码”)。这种输出可以继续作为后续的输入。
Zzj_tju
2 天前
人工智能
·
语言模型
·
自然语言处理
大语言模型部署实战:生产环境怎么做高并发、监控、限流与故障恢复?
前一篇把本地部署这件事拆开讲了:但很多团队真正上线时,遇到的问题很快就不再是“模型能不能跑”,而是:这些问题背后,本质上都不是“模型不够强”,而是推理服务进入生产后,系统目标变了。
谢谢 啊sir
2 天前
java
·
人工智能
·
语言模型
L2-060 大语言模型的推理 - java
L2-060 大语言模型的推理题目描述: 在新一代智能推理引擎中,一个大语言模型被设计为“逐步思考”的模式。它在回答复杂问题时,会从一个初始想法(称为“根思维节点”)出发,每一步都基于当前思路,生成若干个可能的下一步推理方向,每个方向代表一个子想法。我们考虑一个简化的推理策略:当有多个子想法可以继续时,模型选择推理概率最高的子想法尝试展开。如果最高概率有并列,则选择所有想法中编号最小的子想法尝试展开。注意:模型不会重复思考同一个想法,以避免循环推理。所以严格说来,模型在选择下一步推理方向时,保证排除路径中
阿杰学AI
2 天前
人工智能
·
语言模型
·
自然语言处理
·
思维链
·
思维树
·
慢思考
·
推理期算力
AI核心知识140—大语言模型之 推理期算力(简洁且通俗易懂版)
Test-Time Compute (推理期算力),或者被称为 “System 2 思考 (慢思考)”,是继 ChatGPT 诞生之后,AI 发展史上最大的一次范式转移。
阿杰学AI
2 天前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
合成数据
·
synthetic data
AI核心知识139—大语言模型之 合成数据(简洁且通俗易懂版)
合成数据 (Synthetic Data) 是 AI 时代的“人造人造肉” 或者“实验室大棚蔬菜” 。