大模型

DogDaoDao11 小时前
人工智能·pytorch·深度学习·神经网络·大模型·剪枝·网络稀疏
神经网络稀疏化设计构架方法和原理深度解析当GPT-3以1750亿参数构建起AI模型的"巨无霸"时代,边缘设备却仍在为7B模型3秒以上的推理延迟、14GB的显存占用而挣扎——这种算力需求的指数级增长与硬件资源有限性的尖锐冲突,正成为AI产业落地的核心矛盾[1][2]。深入神经网络内部,我们会发现这种矛盾的根源在于普遍存在的参数冗余现象:权重分布呈现明显的长尾特性(大部分权重值接近零)、神经元激活在推理中常为零值、层间存在可合并的冗余结构,甚至训练时为保证稳定性而引入的过参数,在推理阶段已非必需[3]。
车骑14 小时前
大模型·github
一个支持国外技术聚合翻译自动化的开源脚本GitHub地址:https://github.com/zdz72113/DayHot 演示地址:https://www.readeasy.net/ 一句话介绍:脚本每日自动抓取 GitHub、Product Hunt、Hacker News 等热门内容,AI 解析内容结构并翻译生成中文版本,并自动发布为功能完整的静态网站。
吏部侍郎14 小时前
大模型·ai编程
腾讯终于对Claude code下手了?我拿它跑完一个真实项目,结果有点意外…前几天看腾讯也发布和开源了他们的Claude code,名字是Codebuddy code。就下载下来试了试效果(说实话,一开始是冲着它能免费用GPT-4o、Claude 3.5这些顶级模型去的)。
居7然16 小时前
人工智能·架构·大模型·智能体·上下文工程
解锁AI智能体:上下文工程如何成为架构落地的“魔法钥匙”在当今科技飞速发展的时代,人工智能(AI)无疑是最耀眼的领域之一,而 AI 智能体则堪称其中的 “超级新星”。2025 年,被众多业内人士视为 “AI 智能体元年”,这一年,AI 智能体实现了从实验室研究到商业化应用的关键转折,开启了其在各行业广泛落地的新篇章。
mask哥17 小时前
java·微服务·flink·大模型·ai agent·springai·mcp
详解mcp以及agen架构设计与实现MCP(模型上下文协议):mcpservermcp clienttoolsCommunication&tools
大千AI助手2 天前
人工智能·深度学习·大模型·模型训练·学习率·warmup·线性预热机制
线性预热机制(Linear Warmup):深度学习训练稳定性的关键策略本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
人工智能培训3 天前
大模型·prompt·提示词·input
AI提示词(Prompt)基础核心知识点一、什么是PromptPrompt的核⼼构成要素:二、Prompt 的核⼼组件剖析指令 (Instructions)
自信的小螺丝钉3 天前
人工智能·ai·大模型·混合精度训练
【AI知识点】模型训练优化之——混合精度训练混合精度训练是现代深度学习训练中的关键技术,它通过在不同计算环节使用不同精度(fp32, fp16, bf16)的数值表示来加速训练并减少内存占用。
就是一顿骚操作3 天前
人工智能·大模型
mcp解读——概述及整体架构MCP(模型上下文协议)是一种用于将 AI 应用程序连接到外部系统的开源标准。 使用 MCP,Claude 或 ChatGPT 等人工智能应用程序可以连接到数据源(例如本地文件、数据库)、工具(例如搜索引擎、计算器)和工作流程(例如专门提示),使它们能够访问关键信息并执行任务。 将 MCP 视为用于 AI 应用的 USB-C 端口。正如 USB-C 提供了连接电子设备的标准化方式一样,MCP 也提供了将 AI 应用程序连接到外部系统的标准化方式。
陈敬雷-充电了么-CEO兼CTO3 天前
人工智能·chatgpt·大模型·多模态·世界模型·kimi·deepseek
视频理解新纪元!VideoChat双模架构突破视频对话瓶颈,开启多模态交互智能时代注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
大千AI助手4 天前
人工智能·深度学习·神经网络·大模型·llm·持续学习·灾难性遗忘
灾难性遗忘:神经网络持续学习的核心挑战与解决方案本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
风信子的猫Redamancy4 天前
人工智能·百度·大模型·深度思考
文心大模型 X1.1:百度交出的“新深度思考”答卷2025年9月9日,WAVE SUMMIT 2025深度学习开发者大会在北京正式召开,由深度学习技术及应用国家工程研究中心主办,百度飞桨与文心大模型联合承办。大会上,百度正式发布了基于文心4.5迭代升级的文心大模型X1.1,这也是百度在“深度思考模型”方向交出的最新答卷。
胡耀超5 天前
开发语言·python·ai·大模型·conda·anaconda
4、Python面向对象编程与模块化设计学习目标:建立面向对象编程思维,掌握代码组织和模块化设计方法,培养大型项目开发能力当然实际没人拿jupyter做开发(不是说Python不能开发),有这个思维即可。
胡耀超5 天前
服务器·数据结构·人工智能·windows·python·大模型
3.Python高级数据结构与文本处理学习目标:完善Python数据结构知识体系,掌握文本数据的处理方法,建立数据预处理的基础能力想象一下,你在整理书架上的书籍,发现有些书买了两本相同的。你想要去掉重复的,只保留每种书一本。集合(Set) 就像一个神奇的书架,它会自动去掉重复的书籍,只保留独一无二的那些。
CoderJia程序员甲5 天前
ai·开源·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2025-09-09)生成于:2025-09-09共发现热门项目:14 个榜单类型:日榜本期GitHub热门项目聚焦AI智能体和隐私安全两大趋势。emcie-co/parlant和微软AI入门教程推动低门槛AI代理开发,UI-TARS-desktop展示多模态AI代理的落地应用。FHEVM将全同态加密与区块链结合,体现隐私计算技术的突破。本地化工具Stirling-PDF和kotaemon满足数据隐私需求,而Kilocode等开源编程助手正重塑开发流程。总体呈现AI应用平民化、隐私保护强化和开发工具智能化三大行业动向。
kailp6 天前
人工智能·ai·大模型·gpu算力·图片渲染
突破效率与质量边界:深入解析MiniMax-Remover视频物体移除方案在视频编辑与后期处理领域,物体移除一直是一个具有挑战性的任务,尤其在保持时间一致性与视觉真实感方面,传统方法往往在速度、效果与稳定性之间难以兼顾。然而,基于minimax优化策略构建的MiniMax-Remover,通过一种创新的两阶段训练架构,显著提升了视频中物体移除的效率与质量,为这一领域带来了新的突破。
roshy6 天前
人工智能·大模型·agent
MCP(模型上下文协议)入门教程1MCP(Model Context Protocol,模型上下文协议)是一个开放协议,专门用于AI模型与外部数据源和工具之间的标准化交互。简单来说,MCP就像是AI世界的"万能插座",它定义了一套标准化的接口,让大语言模型(LLM)能够安全、高效地访问和使用外部工具、数据源和能力。该协议由AI公司Anthropic于2024年11月推出,旨在解决AI模型在访问碎片化外部数据时面临的难题。
胡耀超6 天前
人工智能·深度学习·ai·架构·大模型·transformer·技术趋势分析
大模型架构演进全景:从Transformer到下一代智能系统的技术路径(MoE、Mamba/SSM、混合架构)当前大模型发展正经历着一个关键的技术分水岭。虽然Transformer架构自2017年问世以来主导了整个AI领域,但我们正见证着多种创新架构的涌现,每种都在试图解决Transformer的固有局限。本指南将系统性地解析当前主流架构的技术原理、适用场景与发展趋势,帮助读者建立完整的认知框架。
程序员鱼皮7 天前
计算机·ai·程序员·大模型·互联网·编程
扒了下 Cursor 的提示词,被狠狠惊艳到了!如果让你开发一个 AI 编程工具(比如 Cursor),你觉得最大的难点是什么?是前端技术、后端技术、UI 设计、还是别的?
bylander7 天前
人工智能·大模型·智能体
【论文阅读】自我进化的AI智能体综述论文链接:https://arxiv.org/pdf/2508.07407 【AI 进化新物种:自演化智能体正在诞生】 还在手动调 Prompt?新一代 AI 已经“自己升级自己”!格拉斯哥等 8 所顶尖高校联合发布的《自演化 AI 智能体全景综述》透露:AI 正从“训练完就冻结”的 MOP 时代,走向终身成长的 MASE 时代——像生物一样在环境中持续变异、适应、变强。