大模型

sg_knight1 小时前
网络·ai·大模型·llm·claude·code·claude-code
如何为 Claude Code 配置代理与网络环境如果你在安装或首次运行 Claude Code 时遇到:那么大概率不是软件问题,而是网络环境没有配置正确。
laplace01233 小时前
人工智能·大模型·agent·claude·rag·skills·icepop
IcePop技术这里的 IcePop 指的是一种基于重要性采样的技术,用于解决强化学习(RL)训练中的分布不匹配问题。 虽然“IcePop”这个名字在深度学习主流教材中不如“LayerNorm”那样耳熟能详,但在大模型 RLHF(基于人类反馈的强化学习)的语境下,它通常指的是重要性权重裁剪的一种变体或特定实现策略。 以下是关于 IcePop 技术的详细解释:
山顶夕景5 小时前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
马克Markorg12 小时前
python·大模型·agent·rag·企业级知识库的框架·rag 知识库
基于LLM的大模型的RAG(检索增强生成)实现对比在 RAG(检索增强生成)知识库构建领域,LlamaIndex 被许多开发者和企业认为是“更适合”或“更专注”的选择之一,尤其在与 LangChain 等通用框架对比时。下面从多个维度解释 为什么有人说 LlamaIndex 更适合做 RAG 知识库:
CoderJia程序员甲14 小时前
人工智能·ai·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2026-02-18)生成于:2026-02-18共发现热门项目: 13 个榜单类型:日榜本期GitHub热榜显示AI应用开发持续火爆,重点聚焦于智能体框架与工具链的实用化突破。以Superpowers为代表的智能体技能框架和OpenClaw跨平台AI助手,凸显了可复现的智能体工程方法论正走向成熟。同时,向量数据库Zvec凭借轻量高性能特性解决AI应用数据检索痛点,而Heretic等项目则致力于突破大语言模型的内容安全限制。媒体管理工具Seerr和自动化交易系统Hummingbot体现了AI在垂直领域的深度渗透。开发者正通过C
CoderJia程序员甲15 小时前
人工智能·ai·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2026-02-20)生成于:2026-02-20共发现热门项目: 8 个榜单类型:日榜本期GitHub趋势显示AI技术应用正全面渗透开发工作流,其中Agentic技能框架superpowers与跨平台AI助手openclaw引领自动化开发新风潮。开发者积极整合AI工具,如claude-code-telegram实现远程编程辅助,open-mercato打造AI增强型企业框架。同时,机器学习系统教程cs249r_book与模型去审查工具heretic备受关注,反映社区对AI系统底层原理与定制化需求的深耕。值得关注的是,free
DevilSeagull1 天前
人工智能·程序人生·langchain·大模型·llm·vibe coding
LangChain & LangGraph 介绍近十年来,低代码/无代码平台与 AI 辅助编程工具持续渗透软件开发领域。如今,一种名为 Vibe Coding(氛围编程) 的新型实践迅速崛起,深刻挑战了人们对"程序员职责边界"的既有认知。
CoderJia程序员甲1 天前
人工智能·ai·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2026-02-19)生成于:2026-02-19共发现热门项目: 11 个榜单类型:日榜本期GitHub热榜显示AI应用开发正从模型层面向工具链和工程化深度演进,技术热点集中在智能体(Agent)与增强检索生成(RAG)的实践。开源项目如超级技能框架Superpowers和多功能AI助手工具Composio提供了可复用的Agent构建范式,而RAG优化技术仓库则详细拆解了提升回答准确性的核心方法。同时,轻量级向量数据库zvec和终端AI助手qwen-code凸显了高效、低门槛的本地化部署趋势。这些项目以代码为核心,提供了从理
Tadas-Gao2 天前
人工智能·深度学习·架构·大模型·llm·软件工程
校准之弧与演进之轮:大模型时代的软件工程范式革命2026年的今天,软件系统的核心矛盾正在发生深刻转移。传统软件工程建立在一个基本假设之上:系统的行为是确定的,给定相同的输入,必然产生相同的输出。然而,大语言模型的引入彻底颠覆了这一假设——我们不再构建纯粹的逻辑系统,而是在与一个概率性的、涌现性的、黑箱化的智能体共舞。(扩展阅读:从CI/CD到CC/CD:AI应用不是“盖”出来的,是“种”出来的——解码大模型时代的软件工程范式革命)
m0_488913012 天前
人工智能·搜索引擎·云原生·eureka·开源·大模型·产品经理
新手小白也能学会的Dify本地部署教程(超详细)首先打开Docker官网,点击按钮,选择Windows版本的Docker安装包,点击下载。下载完成后,打开安装包,一路点击下一步即可,该过程中Docker会自动拉取所需的内容。完成后打开cmd(cmd打开方法请看图),输入docker,如果下方出现Docker的命令提示就代表安装成功了。
山顶夕景2 天前
大模型·llm·多模态·vlm
【VLM】Qwen3-VL模型架构和训练流程链接:https://arxiv.org/pdf/2511.21631模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。
索木木2 天前
人工智能·深度学习·机器学习·大模型·训练·cp·切分
大模型训练CP切分(与TP、SP结合)一. CP并行原理megatron中的context并行(简称CP)与sequence并行(简称SP)不同点在于,SP只针对Layernorm和Dropout输出的activation在sequence维度上进行切分,CP则是对所有的input输入和所有的输出activation在sequence维度上进行切分,可以看成是增强版的SP。之前我有篇文章重点讲了TP、SP、EP技术。本文我讲下长文本的CP技术,以及怎么和TP和SP结合的。
lczdyx2 天前
人工智能·深度学习·机器学习·ai·大模型·反向传播
【胶囊网络】01-2 胶囊网络发展历史与研究现状胶囊网络的思想并非一蹴而就,而是源于 Hinton 教授对传统 CNN 缺陷的长期思考。Hinton 开始公开质疑 CNN 中池化操作的有效性:
枕石 入梦2 天前
服务器·人工智能·大模型·华为云
华为云服务器本地部署大模型实战(Ollama + Tesla T4 踩坑记)在企业级应用场景中,出于数据安全考量,服务器往往无法连接外网。如何在“纯离线”的华为云 ECS 环境下部署大模型?本文记录了我在华为云 ECS(Tesla T4)上部署 Ollama 的全过程,希望能帮大家少走弯路。
lczdyx2 天前
人工智能·深度学习·机器学习·ai·大模型·反向传播·胶囊网络
【胶囊网络 - 简明教程】02-1 胶囊网络 - 整体架构设计基于本项目(Capsule_Network.ipynb)实现的架构,完整的胶囊网络由以下核心组件构成:
来两个炸鸡腿3 天前
人工智能·学习·大模型·vibe coding
【Datawhale组队学习202602】Easy-Vibe task03 动手做出原型
魔乐社区3 天前
人工智能·开源·大模型
GLM-5上线魔乐社区,基于昇腾的模型推理+训练部署教程请查收!2026年2月12日,智谱AI开源GLM-5模型。在 Coding 与 Agent 能力上,取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。
AI周红伟3 天前
大数据·人工智能·机器人·大模型·智能体·seedance
周红伟:具身机器人大爆炸了,机器人时代来临宇树机器人春晚武术表演再炸场,王兴兴:高动态高协同集群控制技术全球首秀宇树第三度登上春晚,依然让网友直呼惊喜。
AI周红伟4 天前
大数据·人工智能·机器学习·大模型·agi·智能体·seedance
周红伟:2026年10个AI预言:迈向AGI通用人工智能体时代2026年被多家权威机构和科技领袖视为AI发展历程中的关键转折点——技术突破正从"概念验证"走向"产业深度融合",通用人工智能(AGI)的曙光已隐约可见。这一年,我们或许将见证AI从单纯的"生成内容"向"理解世界、自主规划、协同行动"的深刻跨越。基于最新的行业报告与专家研判,以下是关于2026年迈向AGI时代的10个核心预言:
CoderJia程序员甲4 天前
ai·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2026-02-17)生成于:2026-02-17共发现热门项目: 10 个榜单类型:日榜本期GitHub热榜展现了AI与应用深度融合的强劲趋势,核心技术热点聚焦于智能体开发与高性能基础设施。AI编程助手项目如OpenClaw和Letta-Code强调记忆能力和全栈支持,助力开发者提效;以Rust构建的NautilusTrader和轻量级向量数据库ZVec则凸显了对极致性能和实时数据处理的需求。同时,Wifi-DensePose创新性地利用WiFi实现穿墙姿态估计,拓宽了感知技术边界。榜单整体反映出行业正从模型探索转向具体场景