大语言模型

2401_841495644 小时前
人工智能·自然语言处理·大语言模型·多模态融合·统计学习·规则驱动·通用语言智能
【自然语言处理】自然语言处理(NLP)的全景应用:从生活便利到产业革新的全维度渗透目录一、引言二、基础认知:NLP的技术内核与发展脉络2.1 技术内核:从基础分析到深层理解2.2 发展脉络:从规则驱动到智能涌现
HyperAI超神经18 小时前
人工智能·学习·大语言模型·cpu·gpu·编程语言·triton
【Triton 教程】triton_language.loadTriton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
OpenBayes1 天前
人工智能·深度学习·机器学习·大语言模型·tts·对话生成·语音生成
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话近年来,文本转语音(TTS)合成技术进展显著,已能够为单一说话者合成高保真、听觉自然的短话语。然而,在面对长格式、多说话人对话音频的可扩展合成时,仍存在重要挑战,限制了诸如播客与多角色有声书场景下的应用边界。
HyperAI超神经2 天前
人工智能·python·深度学习·学习·大语言模型·gpu·vllm
【vLLM 学习】Prithvi Geospatial MaevLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
youcans_2 天前
论文阅读·人工智能·大语言模型·多模态·眼底图像
【医学影像 AI】FunBench:评估多模态大语言模型的眼底影像解读能力更多内容请关注【医学影像 AI by youcans@Xidian 专栏】2025 年 Qijie Wei 等在 MICCAI 2025 发表论文 “FunBench: Benchmarking Fundus Reading Skills of MLLMs(FunBench:评估多模态大语言模型的眼底影像解读能力)”。
HyperAI超神经2 天前
开发语言·人工智能·python·学习·大语言模型·vllm·gpu编程
【vLLM 学习】vLLM TPU 分析vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
山科智能信息处理实验室5 天前
大语言模型·时间序列预测·重编程
(ICLR-2024)TIME‑LLM:基于大语言模型重编程的时间序列预测论文内容:TIME-LLM 提出了一种无需微调大语言模型主体、即可用于时间序列预测的全新框架。通过将时间序列片段重编程为一组可被 LLM 理解的“文本原型”,并结合包含数据背景、任务指令与统计特征的 Prompt-as-Prefix 提示结构,模型成功激活了 LLM 的跨模态推理能力。实验表明,TIME-LLM 在长期、短期、少样本与零样本预测任务中均显著超越现有专用时间序列模型,在效率上又极其轻量,为构建通用、跨领域的时序预测模型提供了新的范式。
deephub6 天前
人工智能·python·深度学习·大语言模型
DeepSeek-R1 与 OpenAI o3 的启示:Test-Time Compute 技术不再迷信参数堆叠过去2年,整个行业仿佛陷入了一场参数竞赛,每一次模型发布的叙事如出一辙:“我们堆了更多 GPU,用了更多数据,现在的模型是 1750 亿参数,而不是之前的 1000 亿。”
deephub10 天前
人工智能·大语言模型·vllm·kv缓存
LMCache:基于KV缓存复用的LLM推理优化方案LLM推理服务中,(Time-To-First-Token) 一直是个核心指标。用户发起请求到看见第一个token输出,这段时间越短体验越好,但实际部署中往往存在各种问题。
java1234_小锋11 天前
深度学习·语言模型·llm·transformer·大语言模型
Transformer 大语言模型(LLM)基石 - Transformer简介锋哥原创的Transformer 大语言模型(LLM)基石视频教程:https://www.bilibili.com/video/BV1X92pBqEhV
亚里随笔12 天前
人工智能·深度学习·机器学习·语言模型·大语言模型·rlhf
SAPO:软自适应策略优化——大语言模型强化学习训练的稳定新范式强化学习已成为提升大语言模型推理能力的关键技术,但训练过程中的不稳定性问题长期困扰着研究者。阿里巴巴Qwen团队最新提出的SAPO(Soft Adaptive Policy Optimization)方法通过引入温度控制的软门控机制,巧妙地平衡了训练稳定性与学习效率。本文将深入解析这一突破性方法如何在保持序列连贯性的同时实现token级自适应,为大规模语言模型的RL训练开辟新路径。
deephub13 天前
人工智能·python·大语言模型·rag
自愈型RAG系统:从脆弱管道到闭环智能体的工程实践RAG系统在生产环境中有个老大难问题:脆弱。演示时用精心准备的问题去问,效果看起来很惊艳。但真正上线后,用户的问题五花八门,向量数据库返回的文档语义上相似但实际答非所问,LLM又特别喜欢讨好,拿着一堆噪音数据照样能编出一套看似合理的答案。
韩曙亮14 天前
人工智能·ai·langchain·llm·大语言模型·prompts·agents
【AI 大模型】LangChain 框架 ① ( LangChain 简介 | LangChain 模块 | LangChain 文档 )LangChain 是一款专为 构建 基于 大语言模型 ( LLM ) 的 应用程序 而 设计的 开源框架 ;
deephub14 天前
人工智能·google·大语言模型·nano banana
Gemini 2.5 Flash / Nano Banana 系统提示词泄露:全文解读+安全隐患分析本文作者找到了一种方法可以深入 Nano Banana 的内部运作机制,具体手法没法公开,但结果可以分享。
盼小辉丶14 天前
语言模型·transformer·大语言模型·llama
Transformer实战(29)——大语言模型(Large Language Model,LLM)近年来,大语言模型 (Large Language Model, LLM) 领域取得了显著进展,涌现了诸如 GPT-3 (1750 亿参数)、PaLM (5400 亿参数)、BLOOM (1750 亿参数)、LLaMA (650 亿参数)、Falcon (1800 亿参数)、Mistral (70 亿参数)、DeepSeek (6710 亿参数)等模型,这些模型在各种自然语言任务中展现出优异性能。在本节中,我们将介绍大语言模型,还将介绍如何对大语言模型进行微调。
华师数据学院·王嘉宁15 天前
大语言模型·强化学习·大模型推理
DeepSeek-Math-V2解读:稠密Reward信号回归到RLVR最近半年博主工作科研比较繁忙,有段时间没有写博客了,但并不代表博主没有更新相关技术,后续会补上更多科研信息。
deephub15 天前
人工智能·python·大语言模型·rag·llamaindex
LlamaIndex检索调优实战:七个能落地的技术细节RAG系统搭完其实才是工作的开始,实际跑起来你会发现,答案质量参差不齐,有时候精准得吓人、有时候又会非常离谱。这个问题往往不模型本身,而是在检索环节的那些"小细节"。
一个处女座的程序猿18 天前
人工智能·机器学习·大语言模型
AI:新书预告—从机器学习避坑指南(分类/回归/聚类/可解释性)到大语言模型落地手记(RAG/Agent/MCP),一场耗时5+3年的技术沉淀—“代码可跑,经验可抄”—【一个处女座的程序猿】携两本AIAI:新书预告—从机器学习避坑指南(分类/回归/聚类/可解释性)到大语言模型落地手记(RAG/Agent/MCP),一场耗时5+3年的技术沉淀—“代码可跑,经验可抄”—【一个处女座的程序猿】携两本AI实战书终于正式来了!
deephub22 天前
人工智能·python·大语言模型·agent
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent很多人第一次看到 AI Agent 自己编辑文件、跑代码、修 bug,还能一直运行下去的时候,都觉得挺神奇。其实远没有想象中那么复杂。这里没什么秘密算法,也没有什么"智能体大脑"这种玄学概念。
deephub1 个月前
人工智能·prompt·大语言模型
TOON:专为 LLM 设计的轻量级数据格式这几天好像这个叫 TOON 的东西比较火,我们这篇文章来看看他到底是什么,又有什么作用。TOON 全称 Token-Oriented Object Notation,它主要解决的问题就是当你把JSON 输入给LLM 的时候,token 消耗太高了。 一个长 JSON 数组扔进模型token 计数直接起飞。因为引号、大括号、重复的键名,到处都是这些没什么实际意义的字符,而TOON 就是从这个痛点出发,它不是要干掉 JSON,而是说:既然主要是语言模型,那些装饰性的字符完全可以省掉。