大模型

牧子川1 小时前
人工智能·大模型·零样本
001-Zero-shot-Prompting💡 摘要:Zero-shot Prompting 是一种让 AI 模型在没有示例的情况下,仅通过指令就能完成任务的技术。本文将揭示其背后的原理,并分享 8 条实用的 Prompt 编写技巧。
AI精钢3 小时前
大模型·llm·向量检索·rag·ai工程
如何提高 RAG 的检索质量?这才是真正的瓶颈所在有一句在 AI 工程圈流传的话:“RAG 没问题,问题出在你的检索层。”大多数开发者遇到 RAG 效果差时,第一反应是换更大的模型、调 temperature、改 prompt。折腾一圈发现没用——因为根本没对症。
薛定谔的猫3693 小时前
人工智能·自动化·大模型·llm·ai agent
深入浅出:大语言模型 Agent 的工作原理与应用随着大语言模型(LLM)技术的飞速发展,AI Agent(人工智能智能体)作为一种能够感知、思考并采取行动的新型 AI 范式,正逐渐成为研究热点。本文旨在深入探讨 LLM Agent 的核心组成部分、工作机制及其在自动化任务中的潜力。
Resistance丶未来5 小时前
gpt·大模型·llm·agent·claude·多智能体·trading agents
TradingAgents 多智能体交易框架深度评测在量化交易领域,单个策略模型往往难以应对复杂多变的市场环境。面对突发的宏观新闻、剧烈的盘中波动或是长期的趋势转换,单一算法容易陷入过拟合或反应迟钝的困境。近年来,多智能体系统(Multi-Agent Systems, MAS)的概念逐渐被引入金融工程,试图通过模拟专业交易团队的协作模式来突破这一瓶颈。TradingAgents 正是这一思路下的开源实践,它不再依赖一个“全能”的黑盒模型,而是将研究、分析、风控和执行等职能拆解给不同的智能体,让它们在一个共享环境中交互、辩论并最终达成交易共识。
E等于MC平方9 小时前
人工智能·ai·大模型·模拟·物理·实验
AI 辅助物理课堂实验如何用「内置实验模板 + AI 路由」模式,在不生成任意代码的前提下,让 AI 辅助物理课堂实验?传统方案要么找一个通用物理模拟器(功能复杂、上手成本高),要么直接用静态图片讲解(缺乏交互感),要么让 AI 现场生成一段物理模拟代码(危险:生成代码的行为无法预测、无法测试)。
huisheng_qaq9 小时前
人工智能·gpt·ai·chatgpt·大模型·transfomer
【AI入门篇-02】深入理解ChatGPT发展流程上一篇讲解了AI从感知智能到认知智能的发展流程,接下来这篇,就以比较有代表性的chatgpt为例子,来讲解一下整个AI的发展流程,所以这篇文章不会只讲 ChatGPT 本身,而是会以 GPT 系列的发展为主线,把背后的 Transformer、预训练、微调、指令微调、RLHF、多模态、RAG、Agent 等关键概念串起来。至于为什么选chatgpt也显而易见,因为chatgpt是将大语言模型推向大众视野的标志性产品
MClink12 小时前
人工智能·大模型
Trae 自定义模型接入指南:把 DeepSeek、GLM、Qwen 装进你的 AI 编程助手📌 导读:Trae 默认用豆包模型,但你可能更想用 DeepSeek 的推理能力,或者 GLM 的长文本理解。好消息:Trae 支持自定义模型接入,而且操作比你想象的简单。今天手把手教你,5 分钟换上你想要的模型。
zhangfeng113318 小时前
人工智能·语言模型·大模型
国家超算中心 scnet.cn 跨用户文件分享流程总结 多个用户之间 文件共享 不需要反复下载上传一句话概括:网页端分享并记住文件名 → Linux 到 /root/public_data/other 找到 .tar.gz 包 → 解压到私有目录使用。
独断万古他化1 天前
大模型·llm·api·sdk
大模型接入指南:API、本地部署与 SDK 三种接入如果需要自己写一个AI应用来实现相关AI行为,则需要自行接入LLM。 常见的原生LLM(不经过第三方平台或复杂的代理层,直接与大语言模型提供方进行交互的方法)接入方式有三种:【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】
翔云1234561 天前
人工智能·ai·大模型
端侧推理:全面解析与深度洞察端侧推理(On-Device/Edge Inference) 是指将训练完成的AI模型部署在终端设备本地,直接在设备上完成数据处理、模型计算和结果输出的技术范式,无需或仅需少量云端交互。它是边缘计算与AI结合的核心应用,与传统云端推理形成互补的智能计算体系。
DogDaoDao1 天前
人工智能·深度学习·程序员·大模型·github·ai编程·andrej-karpathy
【GitHub】andrej-karpathy-skills:让 AI 编程助手告别三大通病项目仓库:forrestchang/andrej-karpathy-skills Star 数:105,000+ ⭐ Fork 数:10,300+ 开源协议:MIT License 灵感来源:Andrej Karpathy 对 LLM 编码缺陷的深刻洞察
程序员小崔日记1 天前
大模型·web开发·deepseek
DeepSeek V4,我在做项目和写软著材料时,顺手用了一段时间前阵子 DeepSeek 更新到了 V4。一开始我其实没太当回事。现在大模型更新太快了,几乎隔一段时间就来一次“版本升级”,但很多时候用起来差别并不大。
CoderJia程序员甲1 天前
ai·大模型·llm·github·ai教程
GitHub 热榜项目 - 日榜(2026-05-03)生成于:2026-05-03共发现热门项目: 8 个榜单类型:日榜Token赞助:siliconflow
guslegend1 天前
人工智能·大模型·ai编程
第4节:应用架构与代码组织AI编程企业级实战上一节:第3节:动第一行代码前,你应该想清楚什么本节:第4节:应用架构与代码组织下一节:待更新
你可以叫我仔哥呀2 天前
人工智能·ai·大模型
Agent架构之ReAct随着AI的发展,大模型一词越来越多的出现在我们的生活工作中,一开始大家更多的是把大模型当成一个聊天机器人,但是随着AI的进一步发展,我们不再仅仅满足于和大模型聊天,所以一个更深一层的概念就出来了 —— Agent。
索木木2 天前
人工智能·机器学习·大模型·attention·训练·显存优化·aiinfra
Flash Attention反向梯度优化显存前面我有文章介绍子Flash Attention 针对长序列的正向优化,而其反向算子(Backward Pass)的优化由于涉及到复杂的梯度重计算和显存权衡,往往比正向过程更具挑战性。
哥本哈士奇(aspnetx)2 天前
大模型
SQL Server 图数据库学习笔记1:构建图数据库在AI开发中,知识图谱是非常火的一个领域,而提到图数据库大家都会第一时间想到Neo4J,其实在SQLServer中早已有支持,此篇将简单演示如何在SQLServer下构建图数据库,实现知识图谱的管理。
码点滴2 天前
人工智能·gpt·架构·大模型·deepseek
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?写在前面:这篇文章不是模型评测,是决策工具。你要回答的问题只有一个:给定我的业务场景和预算约束,哪个模型组合的预期收益最高? 本文从这个问题出发,给出可操作的判断框架。
翔云1234562 天前
人工智能·ai·大模型
vLLM全解析:定义、用途与竞品对比vLLM(Very Large Language Model inference) 是由加州大学伯克利分校LMSYS团队于2023年6月开源的高性能大模型推理与服务引擎,专注解决大模型部署中的显存效率低、吞吐量瓶颈、延迟高三大核心问题 。