大模型

小饼干超人

【cs336学习笔记】[第6课]内核优化与Triton框架应用课程内容：当我们拥有A100或H100这类设备时, 会有大量SM流式多处理器, 每个SM内部包含大量计算单元, 我们有FP32或FP64精度的计算单元，每个SM将启动大量线程。

小饼干超人

详解triton.jit及PTX@triton.jit 是 Triton 框架提供的一个装饰器（decorator），用于将 Python 函数编译为高效的 GPU 内核（kernel）。它的核心作用是将可读性高的 Python 代码自动转换为可在 GPU 上并行执行的低级代码，同时保留 Python 的易用性，无需手动编写 CUDA C++ 代码。

LangChain4J-基础(整合Spring、RAG、MCP、向量数据库、提示词、流式输出)LangChain4J(LangChain For Java)是专门为了简化Java应用在接入LMM的过程，它提供了统一的API如LLM模型的调用，向量数据库等方法，可以让Java应用程序快速接入大模型

【每天一个知识点】训推一体机训推一体机一般指集“模型训练（Training）+ 推理部署（Inference Serving/推理服务）”于一体的智能计算设备。这种一体机的设计思路是，把 AI 模型从研发到应用的全过程（数据准备 → 训练 → 验证 → 部署 → 推理）都封装在一台硬件平台里，便于企业、科研机构或高校快速落地 AI 应用。

今天也要学习吖

Azure TTS Importer：一键导入，将微软TTS语音接入你的阅读软件！文章来源：Poixe AI厌倦了机械、生硬的文本朗读？想让你的阅读软件拥有自然流畅的AI语音？今天，我们将为您介绍一款强大且安全的开源工具——Azure TTS Importer。

OpenAI重新开源！gpt-oss-20b适配昇腾并上线魔乐社区2025年8月5日，OpenAI发布了两款全新的开源权重语言模型，均为混合专家（MoE）架构，其规模设计可在消费级GPU和云端的多种硬件上高效运行。这些模型采用 Apache 2.0 许可协议，因此可用于蒸馏到其他推理模型中、部署到商业产品里，且无下游使用限制。这两款模型分别是规模较小的 gpt-oss-20b（总参数 210 亿，激活参数 36 亿）和规模较大的 gpt-oss-120b（总参数1170亿，激活参数 51 亿）。此次发布的亮点在于，OpenAI 推出的这两款开源模型在性能和策略上带来了显

AI扶我青云志

Milvus 安装和启动指南Milvus 是一个高性能的开源向量数据库，广泛应用于大规模向量检索。安装 Milvus 的方法有多种，包括 Docker 安装、源码安装和二进制文件安装。下面是几种常见的安装方法。

文心一言4.5开源模型实战：ERNIE-4.5-0.3B轻量化部署与效能突破文心一言4.5开源模型实战：ERNIE-4.5-0.3B轻量化部署与效能突破，本文介绍百度文心一言 4.5 开源模型中 ERNIE-4.5-0.3B 的轻量化部署与效能。该 3 亿参数模型破解大模型落地的算力、效率、安全困局，在 FastDeploy 框架下实现单张 RTX 4090 承载百万级日请求等突破。文章解析其技术架构，给出本地化部署步骤，通过工业场景、中文特色、工程数学计算等测试验证其能力，还提供性能优化、安全加固及故障排查方法，展现其轻量高效与能力均衡特性。

利用图数据库高效解决 Text2sql 任务中表结构复杂时占用过多大模型上下文的问题要实现“自然语言先转Cypher语句查询图数据库的表结构信息，再结合表结构与原始查询转SQL语句查询关系型数据库”的流程，需要分阶段处理自然语言理解、图数据库交互、关系型数据库查询等环节。以下是详细的流程拆解、技术实现及关键要点：

GitHub Copilot：AI编程助手的架构演进与真实世界影响本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

用什么都重名

《GPT-OSS 模型全解析：OpenAI 回归开源的 Mixture-of-Experts 之路》目录一、引言二、GPT-OSS 模型简介1. 版本与定位2. 架构设计与技术亮点2.1 Mixture-of-Experts（MoE）架构

open webui源码分析5-Tools本文从最简单的时间工具入手，分析Tools相关的代码。一、安装工具git clone https://github.com/open-webui/openapi-servers cd openapi-servers

【深度长文】Anthropic发布Prompt Engineering全新指南目录1.什么时候适合用提示工程?2.如何进行提示工程2.1 使用提示模板2.1.1 使用提示模板和变量

RAG优化实战 - LinkAI智能体平台的知识库升级之路RAG（Retrieval-Augmented Generation，检索增强生成）技术经过近两年的快速发展，已经从初期的概念验证阶段进入到了大规模企业级应用的关键时期。在这个过程中，单纯依靠简单的文档切分和基础的向量检索技术已经无法满足企业对于知识库问答质量的要求，需要在RAG技术的各个环节进行更为深入的优化。

造梦师阿鹏

004.从 API 裸调到 LangChain该教程旨在带大家从 0 起步，掌握用 Python 开发大模型应用的技能。若当前内容让你感到晦涩，可回溯本合集的前期文章，降低学习难度。

Transformer中的编码器和解码器是什么？今天，我们来具体介绍Transformer的架构设计。一个完整的Transformer模型就像一个高效的语言处理工厂，主要由两大车间组成：编码车间和解码车间。

UTMatrix VS VideoLingo 到底哪个好？相较于 VideoLingo，UTMatrix 的优势在于：

Spring AI Alibaba 项目接入兼容 OpenAI API 的大模型主要的 maven 依赖如下所示：jdk 21 + springboot 3.4.5 + spring-ai-alibaba-starter-dashscope 1.0.0.2 + spring-ai-openai 1.0.0

用 Python 实现一个“小型 ReAct 智能体”：思维链 + 工具调用 + 环境交互在大语言模型（LLM）的应用开发中，如何让模型具备调用外部工具的能力是一个关键问题。我们不希望模型只是“生成答案”，而是能像一个智能体（Agent）一样，按照推理链条自主决定调用搜索、计算、或数据库查询等工具，再结合结果给出最终答案。

open webui源码分析3—一次对话对话过程是open webui的核心逻辑，本文针对最简单的一个对话中的一次交互进行分析，暂不涉及知识库、推理、function calling、过滤、搜索、多模态等功能。