语言模型

Funny_AI_LAB20 小时前
人工智能·ai·语言模型·chatgpt
OpenAI DevDay 2025:ChatGPT 进化为平台,开启 AI 应用新纪元2025年10月6日,OpenAI 在旧金山举办了其年度开发者大会 DevDay,吸引了全球超过1500名开发者的目光。本次大会不仅是 OpenAI 迄今为止规模最大的一次盛会,更是一场定义未来 AI 应用形态的发布会。CEO Sam Altman 携一系列重磅更新登场,核心信息明确:ChatGPT 不再仅仅是一个聊天机器人,它正在进化为一个强大的应用平台,一个全新的 AI 操作系统。本文将深入解析 DevDay 2025 的核心发布内容,探讨其背后的技术逻辑、战略意图以及对开发者和整个行业的深远影响。
minhuan1 天前
人工智能·语言模型·workflow·langgraph·自定义工作流
构建AI智能体:五十七、LangGraph + Gradio:构建可视化AI工作流的趣味指南相信我们身边或多或少总是听到很多人在说大模型大模型,可大模型具体怎么用还是一道很深的门槛,我们博文也写了很多,但具体的用法和作用,使我们还面临着一个有趣的矛盾:大模型的能力越来越强,但真正能让普通用户直接使用的AI应用却少之又少。今天,我想分享我们如何用LangGraph和Gradio构建一个可视化、可配置的AI工作流系统,让非技术用户也能轻松组合各种AI能力。
人工智能技术派1 天前
人工智能·语言模型·音视频
Qwen-Audio:一种新的大规模音频-语言模型现有的多任务语言模型主要关注特定类型的音频(如人类语音)或特定任务(如语音识别和字幕生成),限制了模型的通用性和交互能力。于是提出了一个新颖的音频-语言模型,该模型拥有通用音频理解模型的能力,结构图如下。
大模型任我行2 天前
人工智能·语言模型·自然语言处理·论文笔记
复旦:LLM隐式推理SIM-CoT📖标题:SIM-CoT: Supervised Implicit Chain-of-Thought 🌐来源:arXiv, 2509.20317
人工智能技术派3 天前
人工智能·语言模型·whisper·语音识别
Whisper推理源码解读Whisper是一个由OpenAI开发的自动语音识别(ASR)系统,在多语言环境和嘈杂背景下的语音识别任务中表现出色。它具有如下特点:
wa的一声哭了3 天前
人工智能·pytorch·python·深度学习·神经网络·语言模型·transformer
Stanford CS336 assignment1 | Transformer Language Model Architecture我们每次都去激活环境太繁琐这里建议直接把激活环境的命令写进.bashrc文件 找到家目录下的.bashrc文件 然后找到项目根目录下面有一个.venv文件 .venv目录下有一个bin,然后bin中有一个activate脚本,这个脚本就是用来激活uv环境的,我们只需要在每次打开终端也就是shell启动的时候执行一遍这个脚本就好了。
qq_314009833 天前
人工智能·语言模型
大模型之用LLaMA-Factory微调Deepseek-r1-8b模型实践前期尝试用Unsloth微调大模型(大模型之用Unsloth微调医疗大模型实践),但整体步骤比较多,对初学者不太友好,下面介绍一款戏相对比较简单的大模型微调框架——LLaMA-Factory。
丁学文武3 天前
人工智能·语言模型·自然语言处理·大模型·t5·encoder-decoder
大模型原理与实践:第三章-预训练语言模型详解_第2部分-Encoder-Decoder-T5第一章 NLP基础概念完整指南第二章 Transformer 架构原理第三章 预训练语言模型第四章 大语言模型
skywalk81634 天前
网络·人工智能·语言模型·tiktoken
调试parlant的大模型配置,最终自己动手写了g4f的模块挂载parlant安装参见:https://skywalk.blog.csdn.net/article/details/152094280
丁学文武4 天前
人工智能·gpt·语言模型·自然语言处理·大模型·llama·glm
大模型原理与实践:第三章-预训练语言模型详解_第3部分-Decoder-Only(GPT、LLama、GLM)第一章 NLP基础概念完整指南第二章 Transformer 架构原理第三章 预训练语言模型第四章 大语言模型
老赵聊算法、大模型备案4 天前
大数据·人工智能·安全·语言模型·aigc
2025年6-8月中国大模型备案分析报告本报告对2025年6月至8月期间中国国家网信办公布的99项大模型备案信息进行多维度分析。数据显示,中国大模型产业发展已进入 “应用落地深耕期” ,呈现出 区域聚集化、行业垂直化、场景多元化 的显著特征。政策引导与市场驱动双重发力,推动人工智能技术与实体经济深度融合。
我爱计算机视觉5 天前
人工智能·语言模型·自然语言处理
ICCV 2025 | VideoOrion: 将视频中的物体动态编码进大语言模型,理解视频涨点10%以上!论文标题:VideoOrion: Tokenizing Object Dynamics in Videos
CV-杨帆5 天前
人工智能·语言模型
复现 Qwen3Guard 实时安全,逐词响应总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
人工智能技术派5 天前
人工智能·语言模型·语音识别
LTU-AS:一种具备音频感知、识别、理解的大模型架构人类生活在一个多样化的音频信号环境中,包括语音和各种非语音声音。人可以准确辨识、解释和整合这些语音和非语音音频元素,以及深刻理解它们之间的关系。无所不能的人工智能也应该具备这样的能力!
之墨_5 天前
人工智能·语言模型·transformer
【大语言模型】—— Transformer的QKV及多头注意力机制图解解析当我们用神经网络做翻译任务时,如下 先用词嵌入的方式把每个词转为对应的词向量,假设维度为6 如果把每个词直接丢到一个全连接神经网络中,那每个词都没有上下文的信息,且长度只能一一对应
东方芷兰5 天前
人工智能·笔记·python·神经网络·语言模型·自然语言处理·cnn
LLM 笔记 —— 02 大语言模型能力评定本文探讨了评估语言模型性能的不同方法及其局限性。对于选择题,模型输出可能包含文字、概率或推断,难以标准化评判,开放性问题则更难统一标准,解决方案包括wit人类评审、使用更强模型模型(如GPT-4)评判,但需注意"内卷"(过长输出)的影响。
小苑同学5 天前
人工智能·语言模型·自然语言处理
联邦大型语言模型、多智能体大型语言模型是什么?要理解“联邦大型语言模型”和“多智能体大型语言模型”,核心是抓准它们的“核心目标”——前者解决“数据隐私+数据孤岛”问题,后者解决“复杂任务拆分+专业分工”问题,结合具体场景和技术细节就能轻松搞懂:
安娜的信息安全说5 天前
人工智能·ai·语言模型·ollama
Ollama 使用详解:本地部署大语言模型的指南随着大语言模型(LLM)在各类应用中的广泛落地,开发者对模型的可控性、数据隐私和成本控制提出了更高的要求。相比依赖云端服务,本地部署大模型成为越来越多技术团队的选择。而在众多本地部署工具中,Ollama 凭借其极简的使用方式和强大的兼容性,迅速成为开发者圈的热门工具。
东方芷兰5 天前
人工智能·笔记·python·语言模型·自然语言处理·nlp·gpt-3
LLM 笔记 —— 03 大语言模型安全性评定本文探讨了大型语言模型的四个关键问题:1)错误信息问题,可通过事实核查和有害词检测补救; 2)固有偏见问题,提出了使用红队模型检测偏见的方法; 3)AI生成内容识别难题,讨论了分类和水印技术; 4)模型安全风险,分析了越狱攻击和提示注入等攻击手段。
MilesShi5 天前
数据库·人工智能·语言模型
RAG:解锁大语言模型新能力的关键钥匙RAG全称 Retrieval-Augmented Generation, 是一种将检索模型与生成模型相结合的混合技术,它将检索组件集成到生成模型中