大模型

Mr_Dwj6 小时前
开发语言·人工智能·python·大模型·编程语言
【Python】Python 基本概念更好的阅读体验:https://wiki.dwj601.cn/develop/back-end/python/basic-concepts/
探模之翼6 小时前
大模型·ocr·deepseek-ocr
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩DeepSeek-OCR 论文:DeepSeek-OCR: Contexts Optical Compression(上下文光学压缩)
Mr.zwX16 小时前
大模型·longcat
美团龙猫大模型LongCat-Flash总结美团大模型之前很少被关注过,但是近期推出的龙猫大模型很受关注,来简单总结下龙猫做了什么样的事情。 总的来说,LongCat-Flash是一个 560B的模型(28层、64个attention head),每个token激活18.6B~31.3B(平均27B)参数。 模型在30天内完成超过20T个token的训练,同时推理速度可达每秒100 token,成本低至每百万个token输出只需0.7美元。 为了让LongCat-Flash具有Agent智能,首先在混合数据集上进行大规模pre-train,随后针对
CoderJia程序员甲1 天前
ai·开源·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2025-11-12)生成于:2025-11-12共发现热门项目: 17 个榜单类型:日榜本期GitHub趋势显示AI代理开发与智能化工具成为绝对热点,开发者正积极构建能解决实际问题的代码驱动方案。谷歌开源的adk-go工具包和微软面向初学者的AI智能体教程,显著降低了构建复杂AI代理的门槛。同时,实用型工具如TrendRadar和LEANN聚焦信息过载与隐私保护,通过多平台聚合和本地化RAG技术,让用户能用自然语言高效分析热点并节省97%存储空间。此外,serverless-dns和Sunshine等项目体现了无服务器架构与
TGITCIC2 天前
人工智能·大模型·prompt·提示词·ai大模型·大模型ai·上下文工程
User Prompt 与 System Prompt:大模型沟通的“双引擎”机制深度拆解在企业推进大模型落地的过程中,一个高频出现的困惑是:“模型能力明明很强,为什么我用起来总是差一口气?”很多团队把问题归咎于模型选型、算力不足或数据质量,却忽略了最基础也最关键的环节——人与模型之间的沟通方式。提示词工程(Prompt Engineering)正是解决这一断层的核心桥梁。它不是玄学,也不是堆砌华丽辞藻,而是一套可学习、可复现、可优化的交互设计方法论。笔者在多个行业的大模型项目实践中反复验证:一个结构清晰、角色明确、边界合理的提示体系,往往比更换更强的底模带来更显著的效果提升。而要构建这样的体
CoderJia程序员甲3 天前
ai·开源·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2025-11-11)生成于:2025-11-11共发现热门项目: 14 个榜单类型:日榜本期GitHub热榜显示AI应用开发是核心焦点,Go与Python工具库备受关注。Google推出的adk-go为构建AI智能体提供了代码优先的Go框架,强调灵活性与可控性。微软开源的call-center-ai展示了AI代理在电话呼叫场景的实用化落地。同时,开源教材与多媒体资源库持续获得高星,反映开发者对知识共享及实用工具的热情。趋势表明,AI技术正从底层框架向具体业务场景快速渗透,注重代码可复现性和解决实际问题。
only-code3 天前
数据库·python·大模型·函数调用·mcp
MCP驱动的Rgentic RRG(向量数据库+网络搜索)项目地址:Rgentic RRG效果展示:这是一个基于 MCP 协议的智能 RAG 工具,简单来说就是:
居7然3 天前
人工智能·分布式·架构·大模型·transformer
详解监督微调(SFT):大模型指令遵循能力的核心构建方案监督微调(SFT)作为大模型从通用预训练迈向特定任务适配的关键环节,通过特定任务的标签数据集,让预训练LLM习得指令遵循能力,无需依赖海量特定领域数据即可实现任务适配。本文将从核心概念、数据处理、模型训练到评估体系,全面拆解SFT的实践逻辑与关键要点。
探模之翼3 天前
docker·大模型·ocr
DeepSeek-OCR 部署、配置解析与测试完整指南DeepSeek-OCR 是 DeepSeek-AI 提出的用于探索视觉 2D 映射压缩长上下文可行性的视觉语言模型(VLM),由DeepEncoder(核心编码器,~380M 参数) 和DeepSeek3B-MoE-A570M 解码器(激活 570M 参数) 构成;其核心优势在于 DeepEncoder 通过串联窗口注意力(SAM-base)、16× 卷积压缩器与全局注意力(CLIP-large),实现高分辨率输入下的低激活内存与高压缩比,实验显示在 Fox 基准上压缩比 < 10× 时 OCR 精度达
不叫猫先生4 天前
华为·语言模型·大模型·cann
基于华为昇腾CANN的自定义算子开发昇腾CANN,作为异构计算架构的核心组件,具有以下特性:在大模型推理中,Attention机制通常由多个基础算子组成(MatMul、Softmax、Dropout等),导致频繁的内存读写。我们将开发一个融合Attention算子,减少内存访问,提升性能。
菠菠萝宝4 天前
人工智能·深度学习·大模型·llm·nlp·attention·llama
【AI应用探索】-7- LLaMA-Factory微调模型我们统一使用conda来管理我们的python环境创建python环境为3.10的conda环境并激活
CoderJia程序员甲4 天前
ai·开源·大模型·github·ai教程
GitHub 热榜项目 - 日榜(2025-11-07)生成于:2025-11-07共发现热门项目:13 个榜单类型:日榜本期GitHub热榜集中体现了AI自主化与开发工具生态的双重热潮。AI领域中,BettaFish、LocalAI与Skyvern等项目引领多Agent智能体、自主浏览器自动化和本地AI替代方案的趋势,显示出社区对可控、安全、自主的AI方案需求增长;NocoBase与OpenTUI则强化了低代码与终端UI的灵活开发理念,推动应用构建的轻量化与可扩展化;同时,How-To-Secure-A-Linux-Server与LocalStack等项目体
AI 研究所4 天前
人工智能·语言模型·开源·大模型·交互·agent
1024开发者节:开源发布,引领生态繁荣技术浪潮奔涌的时代,人工智能正以前所未有的速度深刻改变世界。2025科大讯飞全球1024开发者节汇聚了全球优秀开发者与产业力量,全景呈现人工智能前沿技术、产品创新与行业应用。从「技术突破」奔赴「产业共生」,从「应用创新」迈向「人才培养」,讯飞持续引领中国人工智能产业发展。
哥本哈士奇(aspnetx)4 天前
大模型
实现AI和BI整合的初步思路和探索-Part2在上一篇中我提到了一个B站最新的一个LangChain 1.0的SQL Agent的视频,通过提供给SQL Agent的tools,可以引导大模型先查看数据库下都有哪些表,然后查看指定表的结构,最后再将这些相关表关联在一起生成查询,完全符合我们在处理相应问题时的处理逻辑。 这种场景在处理简单问题或者数据结构比较简单的时候,没有问题,但是当我们的相应表的关联逻辑如果比较复杂,我们很难相信也很难指定让大模型能生成正确的查询时,有什么解决方案吗? 这个时候我们就要结合AI+BI的能力,也就是让大模型和DWH一起
KG_LLM图谱增强大模型4 天前
人工智能·架构·大模型·知识图谱·graphrag
突破AI助手成本壁垒:知识图谱思维架构让小模型实现大性能https://github.com/spcl/knowledge-graph-of-thoughts
喜欢吃豆4 天前
网络·人工智能·自然语言处理·架构·大模型
[特殊字符] 深入解构 Assistants API:从“黑盒”抽象到“显式”控制的架构演进与终极指南OpenAI 已宣布 Assistants API 将被 Responses API 所取代,并计划于 2026 年 8 月 26 日关停 [1]。然而,正如许多开发者所观察到的,该 API 的架构范式在行业中的重要性不减反增 [3]。
珊珊而川4 天前
大模型
AUTOACT论文翻译论文题目:AUTOACT: Automatic Agent Learning from Scratch for QA via Self-Planning 发表会议:ACL 2024(第62届国际计算语言学协会年会,ACL 2024,Long Papers) 发表时间:2024年8月11-16日 团队:浙江大学、蚂蚁集团知识图谱联合实验室、AIWaves Inc.、阿里巴巴集团
一 铭4 天前
人工智能·大模型·llm·prompt
Claude Agent Skills:一种基于 Prompt 扩展的元工具架构随着大型语言模型(LLM)能力的不断增强,如何高效、可控地扩展其功能成为一个关键课题。Anthropic 的 Claude Agent Skills 系统提供了一种创新的解决方案。这篇文章是对 Claude Agent Skills 的原理性深度解析,揭示了其作为一种基于 Prompt 的元工具架构如何通过专门的指令注入来扩展 LLM 的能力。与传统的函数调用(Function Calling)或代码执行不同,Claude Skills 不运行可执行代码,而是通过修改会话上下文(Conversation
Wu Liuqi5 天前
人工智能·学习·语言模型·大模型
【大模型学习4】大语言模型(LLM)详解在前三章中,我们从自然语言处理(NLP)的基础概念出发,逐步深入到注意力机制和Transformer架构——这些引发NLP领域革命性变革的核心技术。随着Transformer的出现,NLP领域进入了预训练-微调的全新范式,一系列基于Transformer的预训练语言模型不断刷新各类NLP任务的性能上限。
哥本哈士奇(aspnetx)5 天前
大模型
实现AI和BI整合的初步思路和探索这些年AI火的一塌糊涂,很多行业和传统技术领域都在积极的跟其产生交集。 BI是一个20年前开始火起来的技术,跌跌荡荡这些年,如今虽然不是网红菜,但绝对是企业的必点菜。 AI的出现让很多东西跟人们越来越近,那么AI配合BI有没有搞头呢?