大模型

雪碧聊技术1 小时前
大模型·tools工具
14.Tools工具的介绍和使用目录一.期望实现的效果二.准备工作1.创建预约表2.定义实体类3.编写Mapper、Service、Controller这三层代码
lhxcc_fly3 小时前
langchain·大模型·llm·openai·deepseek
0.LangChain--大模型篇导言:本系列开始记录自己学习LangChain与LangGraph AI应用开发框架的知识点。本文是开始学习LangChain所要了解到的前置知识--大模型的有关内容。
硅基捕手维克托3 小时前
大模型·知识蒸馏·模型蒸馏·上下文蒸馏·在策略蒸馏·微软研究院·大模型蒸馏
在策略上下文蒸馏:OPCD 把上下文知识直接焊进参数里 | 微软研究院论文链接:https://arxiv.org/abs/2602.12275 发布时间:2026.02.12 机构:微软研究院
IvanCodes4 小时前
人工智能·大模型·llm
Gemini 3.1 Pro 正式发布:一次低调更新,还是谷歌的关键反击?今天凌晨,谷歌发布了新一代模型——Gemini 3.1 Pro没有大型发布会,没有提前预热,甚至连宣传节奏都显得克制。
sg_knight15 小时前
网络·ai·大模型·llm·claude·code·claude-code
如何为 Claude Code 配置代理与网络环境如果你在安装或首次运行 Claude Code 时遇到:那么大概率不是软件问题,而是网络环境没有配置正确。
laplace012316 小时前
人工智能·大模型·agent·claude·rag·skills·icepop
IcePop技术这里的 IcePop 指的是一种基于重要性采样的技术,用于解决强化学习(RL)训练中的分布不匹配问题。 虽然“IcePop”这个名字在深度学习主流教材中不如“LayerNorm”那样耳熟能详,但在大模型 RLHF(基于人类反馈的强化学习)的语境下,它通常指的是重要性权重裁剪的一种变体或特定实现策略。 以下是关于 IcePop 技术的详细解释:
山顶夕景19 小时前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
马克Markorg1 天前
python·大模型·agent·rag·企业级知识库的框架·rag 知识库
基于LLM的大模型的RAG(检索增强生成)实现对比在 RAG(检索增强生成)知识库构建领域,LlamaIndex 被许多开发者和企业认为是“更适合”或“更专注”的选择之一,尤其在与 LangChain 等通用框架对比时。下面从多个维度解释 为什么有人说 LlamaIndex 更适合做 RAG 知识库:
CoderJia程序员甲1 天前
人工智能·ai·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2026-02-18)生成于:2026-02-18共发现热门项目: 13 个榜单类型:日榜本期GitHub热榜显示AI应用开发持续火爆,重点聚焦于智能体框架与工具链的实用化突破。以Superpowers为代表的智能体技能框架和OpenClaw跨平台AI助手,凸显了可复现的智能体工程方法论正走向成熟。同时,向量数据库Zvec凭借轻量高性能特性解决AI应用数据检索痛点,而Heretic等项目则致力于突破大语言模型的内容安全限制。媒体管理工具Seerr和自动化交易系统Hummingbot体现了AI在垂直领域的深度渗透。开发者正通过C
CoderJia程序员甲1 天前
人工智能·ai·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2026-02-20)生成于:2026-02-20共发现热门项目: 8 个榜单类型:日榜本期GitHub趋势显示AI技术应用正全面渗透开发工作流,其中Agentic技能框架superpowers与跨平台AI助手openclaw引领自动化开发新风潮。开发者积极整合AI工具,如claude-code-telegram实现远程编程辅助,open-mercato打造AI增强型企业框架。同时,机器学习系统教程cs249r_book与模型去审查工具heretic备受关注,反映社区对AI系统底层原理与定制化需求的深耕。值得关注的是,free
DevilSeagull2 天前
人工智能·程序人生·langchain·大模型·llm·vibe coding
LangChain & LangGraph 介绍近十年来,低代码/无代码平台与 AI 辅助编程工具持续渗透软件开发领域。如今,一种名为 Vibe Coding(氛围编程) 的新型实践迅速崛起,深刻挑战了人们对"程序员职责边界"的既有认知。
CoderJia程序员甲2 天前
人工智能·ai·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2026-02-19)生成于:2026-02-19共发现热门项目: 11 个榜单类型:日榜本期GitHub热榜显示AI应用开发正从模型层面向工具链和工程化深度演进,技术热点集中在智能体(Agent)与增强检索生成(RAG)的实践。开源项目如超级技能框架Superpowers和多功能AI助手工具Composio提供了可复用的Agent构建范式,而RAG优化技术仓库则详细拆解了提升回答准确性的核心方法。同时,轻量级向量数据库zvec和终端AI助手qwen-code凸显了高效、低门槛的本地化部署趋势。这些项目以代码为核心,提供了从理
Tadas-Gao2 天前
人工智能·深度学习·架构·大模型·llm·软件工程
校准之弧与演进之轮:大模型时代的软件工程范式革命2026年的今天,软件系统的核心矛盾正在发生深刻转移。传统软件工程建立在一个基本假设之上:系统的行为是确定的,给定相同的输入,必然产生相同的输出。然而,大语言模型的引入彻底颠覆了这一假设——我们不再构建纯粹的逻辑系统,而是在与一个概率性的、涌现性的、黑箱化的智能体共舞。(扩展阅读:从CI/CD到CC/CD:AI应用不是“盖”出来的,是“种”出来的——解码大模型时代的软件工程范式革命)
m0_488913012 天前
人工智能·搜索引擎·云原生·eureka·开源·大模型·产品经理
新手小白也能学会的Dify本地部署教程(超详细)首先打开Docker官网,点击按钮,选择Windows版本的Docker安装包,点击下载。下载完成后,打开安装包,一路点击下一步即可,该过程中Docker会自动拉取所需的内容。完成后打开cmd(cmd打开方法请看图),输入docker,如果下方出现Docker的命令提示就代表安装成功了。
山顶夕景2 天前
大模型·llm·多模态·vlm
【VLM】Qwen3-VL模型架构和训练流程链接:https://arxiv.org/pdf/2511.21631模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。
索木木3 天前
人工智能·深度学习·机器学习·大模型·训练·cp·切分
大模型训练CP切分(与TP、SP结合)一. CP并行原理megatron中的context并行(简称CP)与sequence并行(简称SP)不同点在于,SP只针对Layernorm和Dropout输出的activation在sequence维度上进行切分,CP则是对所有的input输入和所有的输出activation在sequence维度上进行切分,可以看成是增强版的SP。之前我有篇文章重点讲了TP、SP、EP技术。本文我讲下长文本的CP技术,以及怎么和TP和SP结合的。
lczdyx3 天前
人工智能·深度学习·机器学习·ai·大模型·反向传播
【胶囊网络】01-2 胶囊网络发展历史与研究现状胶囊网络的思想并非一蹴而就,而是源于 Hinton 教授对传统 CNN 缺陷的长期思考。Hinton 开始公开质疑 CNN 中池化操作的有效性:
枕石 入梦3 天前
服务器·人工智能·大模型·华为云
华为云服务器本地部署大模型实战(Ollama + Tesla T4 踩坑记)在企业级应用场景中,出于数据安全考量,服务器往往无法连接外网。如何在“纯离线”的华为云 ECS 环境下部署大模型?本文记录了我在华为云 ECS(Tesla T4)上部署 Ollama 的全过程,希望能帮大家少走弯路。
lczdyx3 天前
人工智能·深度学习·机器学习·ai·大模型·反向传播·胶囊网络
【胶囊网络 - 简明教程】02-1 胶囊网络 - 整体架构设计基于本项目(Capsule_Network.ipynb)实现的架构,完整的胶囊网络由以下核心组件构成:
来两个炸鸡腿3 天前
人工智能·学习·大模型·vibe coding
【Datawhale组队学习202602】Easy-Vibe task03 动手做出原型