大模型

山顶夕景41 分钟前
大模型·llm·mllm·多模态rag
【多模态RAG】Purifying Multimodal Retrieval【多模态RAG进展】打的点一个去噪工作。是现有 MRAG 框架均采用文档级检索与重排,默认文档内所有内容同等有效,但是检索文档含大量无关、冗余、矛盾噪声,引发 MLLM 幻觉,图像仅小区域感兴趣(ROI)有用,文本仅少量句子相关。所以,搞了个Retrieve–Rerank–Select–Generate四阶段 pipeline,新增片段级筛选模块净化证据,目标是在量化证据的边际效用,从而能够过滤掉通常会损害下游推理的无关、冗余或矛盾噪声,工作在《Purifying Multimodal Retrieval
AIGC安琪1 小时前
人工智能·深度学习·ai·语言模型·程序员·大模型·transformer
Transformer 和 LLM 到底是什么关系?现在大家聊大模型,总容易把两个词弄混:Transformer 和 LLM。有人觉得,Transformer 不就是大模型嘛。
Resistance丶未来2 小时前
gpt·ai·大模型·api·claude·gemini·hy3 preview
Hy3 Preview 免费模型快速上手指南在本地部署大语言模型时,很多开发者最头疼的往往不是模型本身的原理,而是如何让它真正跑起来。面对动辄几十 GB 的模型文件和复杂的依赖环境,初学者很容易在第一步就卡住。Hy3 Preview 作为一款免费的预览版模型,虽然在资源占用上做了不少优化,但要让它在你的机器上稳定运行并产出高质量内容,依然需要一套清晰的实操流程。
哥本哈士奇(aspnetx)10 小时前
大模型
SQL Server RAG 笔记3:SQLServer2025 向量数据库在大模型RAG应用中,提起向量数据库大家想到的更多的是Chroma和FAISS,微软也紧跟时代的步伐,并且在2025年底发布的 SQLServer 2025 也提供了原生向量支持,此篇将介绍如何在SQLServer 2025里搭建向量数据库环境。
AI精钢11 小时前
大模型·llm推理·kv cache·deepseek·ai工程
DeepSeek KV Cache 入门解读:98% 命中率背后的工程逻辑最近 Reddit 上有一个帖子引发了不少关注:一位开发者用 Claude 的 developer mode 对接 DeepSeek API 做 Web 开发,单日消耗了约 8900 万 tokens,总费用只有 4.39 元人民币(约 $0.64),缓存命中率高达 98.07%。
牧子川15 小时前
人工智能·大模型·零样本
001-Zero-shot-Prompting💡 摘要:Zero-shot Prompting 是一种让 AI 模型在没有示例的情况下,仅通过指令就能完成任务的技术。本文将揭示其背后的原理,并分享 8 条实用的 Prompt 编写技巧。
AI精钢16 小时前
大模型·llm·向量检索·rag·ai工程
如何提高 RAG 的检索质量?这才是真正的瓶颈所在有一句在 AI 工程圈流传的话:“RAG 没问题,问题出在你的检索层。”大多数开发者遇到 RAG 效果差时,第一反应是换更大的模型、调 temperature、改 prompt。折腾一圈发现没用——因为根本没对症。
薛定谔的猫36916 小时前
人工智能·自动化·大模型·llm·ai agent
深入浅出:大语言模型 Agent 的工作原理与应用随着大语言模型(LLM)技术的飞速发展,AI Agent(人工智能智能体)作为一种能够感知、思考并采取行动的新型 AI 范式,正逐渐成为研究热点。本文旨在深入探讨 LLM Agent 的核心组成部分、工作机制及其在自动化任务中的潜力。
Resistance丶未来19 小时前
gpt·大模型·llm·agent·claude·多智能体·trading agents
TradingAgents 多智能体交易框架深度评测在量化交易领域,单个策略模型往往难以应对复杂多变的市场环境。面对突发的宏观新闻、剧烈的盘中波动或是长期的趋势转换,单一算法容易陷入过拟合或反应迟钝的困境。近年来,多智能体系统(Multi-Agent Systems, MAS)的概念逐渐被引入金融工程,试图通过模拟专业交易团队的协作模式来突破这一瓶颈。TradingAgents 正是这一思路下的开源实践,它不再依赖一个“全能”的黑盒模型,而是将研究、分析、风控和执行等职能拆解给不同的智能体,让它们在一个共享环境中交互、辩论并最终达成交易共识。
E等于MC平方1 天前
人工智能·ai·大模型·模拟·物理·实验
AI 辅助物理课堂实验如何用「内置实验模板 + AI 路由」模式,在不生成任意代码的前提下,让 AI 辅助物理课堂实验?传统方案要么找一个通用物理模拟器(功能复杂、上手成本高),要么直接用静态图片讲解(缺乏交互感),要么让 AI 现场生成一段物理模拟代码(危险:生成代码的行为无法预测、无法测试)。
huisheng_qaq1 天前
人工智能·gpt·ai·chatgpt·大模型·transfomer
【AI入门篇-02】深入理解ChatGPT发展流程上一篇讲解了AI从感知智能到认知智能的发展流程,接下来这篇,就以比较有代表性的chatgpt为例子,来讲解一下整个AI的发展流程,所以这篇文章不会只讲 ChatGPT 本身,而是会以 GPT 系列的发展为主线,把背后的 Transformer、预训练、微调、指令微调、RLHF、多模态、RAG、Agent 等关键概念串起来。至于为什么选chatgpt也显而易见,因为chatgpt是将大语言模型推向大众视野的标志性产品
MClink1 天前
人工智能·大模型
Trae 自定义模型接入指南:把 DeepSeek、GLM、Qwen 装进你的 AI 编程助手📌 导读:Trae 默认用豆包模型,但你可能更想用 DeepSeek 的推理能力,或者 GLM 的长文本理解。好消息:Trae 支持自定义模型接入,而且操作比你想象的简单。今天手把手教你,5 分钟换上你想要的模型。
zhangfeng11331 天前
人工智能·语言模型·大模型
国家超算中心 scnet.cn 跨用户文件分享流程总结 多个用户之间 文件共享 不需要反复下载上传一句话概括:网页端分享并记住文件名 → Linux 到 /root/public_data/other 找到 .tar.gz 包 → 解压到私有目录使用。
独断万古他化1 天前
大模型·llm·api·sdk
大模型接入指南:API、本地部署与 SDK 三种接入如果需要自己写一个AI应用来实现相关AI行为,则需要自行接入LLM。 常见的原生LLM(不经过第三方平台或复杂的代理层,直接与大语言模型提供方进行交互的方法)接入方式有三种:【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】
翔云1234562 天前
人工智能·ai·大模型
端侧推理:全面解析与深度洞察端侧推理(On-Device/Edge Inference) 是指将训练完成的AI模型部署在终端设备本地,直接在设备上完成数据处理、模型计算和结果输出的技术范式,无需或仅需少量云端交互。它是边缘计算与AI结合的核心应用,与传统云端推理形成互补的智能计算体系。
DogDaoDao2 天前
人工智能·深度学习·程序员·大模型·github·ai编程·andrej-karpathy
【GitHub】andrej-karpathy-skills:让 AI 编程助手告别三大通病项目仓库:forrestchang/andrej-karpathy-skills Star 数:105,000+ ⭐ Fork 数:10,300+ 开源协议:MIT License 灵感来源:Andrej Karpathy 对 LLM 编码缺陷的深刻洞察
程序员小崔日记2 天前
大模型·web开发·deepseek
DeepSeek V4,我在做项目和写软著材料时,顺手用了一段时间前阵子 DeepSeek 更新到了 V4。一开始我其实没太当回事。现在大模型更新太快了,几乎隔一段时间就来一次“版本升级”,但很多时候用起来差别并不大。
CoderJia程序员甲2 天前
ai·大模型·llm·github·ai教程
GitHub 热榜项目 - 日榜(2026-05-03)生成于:2026-05-03共发现热门项目: 8 个榜单类型:日榜Token赞助:siliconflow
guslegend2 天前
人工智能·大模型·ai编程
第4节:应用架构与代码组织AI编程企业级实战上一节:第3节:动第一行代码前,你应该想清楚什么本节:第4节:应用架构与代码组织下一节:待更新
你可以叫我仔哥呀2 天前
人工智能·ai·大模型
Agent架构之ReAct随着AI的发展,大模型一词越来越多的出现在我们的生活工作中,一开始大家更多的是把大模型当成一个聊天机器人,但是随着AI的进一步发展,我们不再仅仅满足于和大模型聊天,所以一个更深一层的概念就出来了 —— Agent。