语言模型

程序猿202311 分钟前
人工智能·语言模型·自然语言处理
大语言模型简介大语言模型的本质是文字统计大师和模式识别高手,LLM的全称是large language model,属于基础模型。
CodeLinghu16 分钟前
前端·人工智能·语言模型
提示词链模式:一种利用LLM大语言模型处理复杂任务的强大范式提示词链模式:Prompt Chaining也被叫做管道模式。其核心思想是:将原始的复杂问题分解为一系列更小、更易管理的子问题。每个子问题通过专门设计的提示词单独处理,并且一个提示词的输出会作为输入传递给链中的下一个提示词。
Robot侠1 小时前
人工智能·语言模型·自然语言处理·transformer·rag·多模态大模型
多模态大语言模型(Multimodal LLM)技术实践指南本文从工程与研究双重视角梳理多模态 LLM 的关键模块、训练方案与推理要点,适合希望在 CSDN/博客平台记录经验的开发者参考。示意公式均以 LaTeX 格式呈现。
海边夕阳20061 小时前
人工智能·深度学习·机器学习·计算机视觉·语言模型·自然语言处理
【每天一个AI小知识】:什么是多模态学习?目录一、小明的旅行攻略:从故事说起二、多模态学习的基本概念2.1 什么是多模态学习?2.2 多模态学习的特点
RanceGru3 小时前
人工智能·笔记·学习·语言模型·vllm
LLM学习笔记7——unsloth微调Qwen3-4B模型与vllm部署测试参考博客 参考博客大模型微调的核心目的是让通用预训练模型适应特定领域或任务,以解决“通用但不专精”的问题。主要原因包括: 领域适应——通用模型在医疗、法律等专业领域表现欠佳,微调可使其掌握专业知识和术语; 任务定制——针对文本分类、客服对话等具体需求优化模型性能; 成本效益——相比从头训练,微调只需少量数据和计算资源,成本极低、周期极短; 数据隐私——企业可利用内部数据定制专属模型,保障信息安全。 此外,微调还能减少模型“幻觉”、提高输出一致性,是连接通用能力与实际应用的关键桥梁。
如意鼠3 小时前
人工智能·算法·语言模型
大模型教我成为大模型算法工程师之day20: 预训练语言模型 (Pre-trained Language Models)摘要:在 Word2Vec 时代,每个词只有一个固定的向量,无法解决“一词多义”的问题(比如 “Apple” 既是水果也是公司)。2018 年,ELMo 和 BERT 的横空出世彻底改变了局面,NLP 进入了 “Pre-training + Fine-tuning” (预训练+微调) 的新纪元。本文将带你梳理从 ELMo 到 BERT 再到 GPT 的演进之路。
hay_lee3 小时前
人工智能·语言模型·自然语言处理·llada2.0
LLaDA2.0:蚂蚁开源业内首个 100B 扩散语言模型传统扩散模型最早用于图像生成(比如 Stable Diffusion),其原理是从纯噪声开始,通过多步“去噪”逐步还原出清晰内容。过去人们认为这种机制难以用于离散的文本(因为文字不像像素可微)。
敢敢のwings4 小时前
人工智能·语言模型·自然语言处理
从Spatial-MLLM看到Multi-SpatialMLLM的多模态大语言模型Multi-SpatialMLLM是由Meta AI团队与香港中文大学联合开发的创新性多模态大语言模型,专门针对多帧空间理解任务进行了优化。该项目通过集成深度感知、视觉对应和动态感知三大核心能力,为MLLM注入了强大的多帧空间理解能力。项目的核心贡献包括MultiSPA大规模数据集(包含超过2700万个训练样本,涵盖多样化的3D和4D场景)、统一评估基准(提供全面的空间任务测试框架,使用统一的评估指标)、多任务协同优化(展现出显著的多任务学习效益和新兴能力)以及机器人应用(可作为多帧奖励标注器应用于机器人
余俊晖4 小时前
人工智能·语言模型·自然语言处理·gui
从豆包手机等看GUI Agent:MobileRL GUI Agent训练框架和安卓XML预处理最近在各个平台看了看”豆包手机“和特斯拉集成GORK实现车机Agent的相关视频演示,个人从技术角度归纳两个关注的技术点:
空城雀17 小时前
语言模型·幻觉
大模型知识之幻觉模型生成看似合理、连贯,但事实上不准确或完全虚假的信息。它不是“胡说八道”,而是“一本正经地胡说八道”。
nopSled20 小时前
人工智能·语言模型
AlphaAvatar:一个基于 LiveKit 的插件化实时 Omni-Avatar 架构项目地址: https://github.com/AlphaAvatar/AlphaAvatar近年来,大模型 Agent、语音助手、数字人等方向发展迅速,但在真实工程实践中,“实时交互 + 长期状态 + 多模态 + 可视化角色” 仍然是一个高度复杂的问题。
IT知识分享1 天前
人工智能·语言模型·架构
中科天玑全要素AI舆情系统功能、架构解析传统舆情监控系统往往停留在“关键词+情感分值”的1.0阶段,漏报、误报、滞后成为常态。中科天玑(成立于2010年,中国科学院计算技术研究所大数据智能方向唯一产业化平台,中科曙光投资的国有控股高新技术企业)发布的「全要素AI舆情监控」系统,首次把 DeepSeek-R1 大模型、曙光浸没式液冷算力集群 与 多模态认知引擎 做端到端封装,把舆情监控推进到“社会认知大脑”2.0时代:
会飞的小新1 天前
人工智能·语言模型·自然语言处理
大语言模型训练全流程(技术深度拆解版)---以DeepSeek为例DeepSeek不只是一个模型,而是一套完整的训练工程体系。它涵盖:数据工程、分词策略、模型架构设计、预训练、微调、对齐训练(SFT+RL)、分布式训练优化、推理部署和持续迭代体系。
gorgeous(๑>؂<๑)1 天前
人工智能·语言模型·自然语言处理·无人机
【清华大学-MM25】Open3D VQA:面向无人机开放空间的多模态大语言模型空间推理基准文章:Open3D-VQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space
_abab1 天前
人工智能·语言模型
《大模型实战指南》—— 面向软件开发者的系统性入门“Transformer 不是魔法,而是一套精心设计的信息路由系统。”—— 本书作者 _abab当你向大模型输入一句 “你好,今天天气怎么样?”,它经历了以下步骤:
天河归来2 天前
docker·语言模型·容器
在本地windows电脑使用Docker搭建xinference环境Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。
lpfasd1232 天前
语言模型·agent·多模态
多模态多Agent智能助手系统完整方案汇总一个具备“感知-思考-执行-创造”能力的通用智能体,可作为:示例场景:💡 混合部署建议:日常对话用本地模型,关键任务(如高清图生成)调用云API
AI浩2 天前
人工智能·语言模型·自然语言处理
【Block总结】门控注意力机制,最新注意力机制|即插即用|最佳论文奖论文标题:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 作者:Zihan Qiu, Zekun Wang, Bo Zheng 等 会议:NeurIPS 2025(Oral Presentation,入选前1.5%) 论文链接:https://arxiv.org/abs/2505.06708 代码仓库:https://github.com/qiuzh20/gated_at
阿杰学AI2 天前
人工智能·ai·语言模型·aigc·ai-native·moe·混合专家模型
AI核心知识57——大语言模型之MoE(简洁且通俗易懂版)MoE 是 Mixture of Experts(混合专家模型)的缩写。它是目前解决大模型 “既要变得超级聪明(参数量大),又要跑得快(推理成本低)” 这个矛盾的核心架构技术。
阿杰学AI2 天前
人工智能·ai·语言模型·提示工程·tot·pe·思维树
AI核心知识56——大语言模型之ToT(简洁且通俗易懂版)Tree of Thoughts (ToT / 思维树) 是提示工程(Prompt Engineering)中一种高级且强悍的推理框架。