语言模型

时光轻浅,半夏挽歌4 小时前
人工智能·语言模型·自然语言处理
小分子的语言模型MolT5的使用提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档这是MolT5的安装和embedding获取(gpu版)。
Coovally AI模型快速验证1 小时前
人工智能·计算机视觉·3d·语言模型·机器人·无人机
开放词汇3D实例分割新思路:框引导+超点融合,精准检索罕见物体定位并从场景级点云中检索物体是机器人技术和增强现实领域中一项具有广泛应用的挑战性问题。该任务通常被定义为开放词汇的三维实例分割。尽管现有方法表现出较强的性能,但它们严重依赖 SAM 和 CLIP 来生成和分类从点云所附图像中提取的三维实例掩码,导致巨大的计算开销和缓慢的处理速度,限制了其在实际应用中的部署。
破烂pan1 小时前
人工智能·游戏·语言模型
大语言模型在翻译领域的演进与游戏本地化应用分析当前大语言模型在翻译方向已形成三大主要产品形态:通用翻译工具、AI辅助本地化平台和垂直领域翻译解决方案。这些产品正经历从单一文本翻译向多模态理解与生成、从通用能力向专业领域适配、从云端服务向混合部署架构转变的技术演进。在游戏行业,LLM的应用已从传统的文本翻译扩展到NPC对话生成、关卡设计辅助、多语言客服系统等全流程场景,未来1-3年有望在实时多模态翻译、文化适配增强和边缘端部署三个方面实现突破性落地。
weixin_446260851 小时前
人工智能·语言模型·自然语言处理
探索大语言模型:基础知识与应用指南在人工智能的浪潮中,大语言模型(LLM)逐渐成为了技术发展的热点。无论是科研、课程设计,还是学生的创新项目,掌握大语言模型的基本原理和应用技巧都显得尤为重要。为此,我们推荐一本极具价值的学习资料——《大模型基础》。这本书旨在系统性地讲解大语言模型的相关基础知识,并融入前沿技术的介绍,适合所有对这一领域感兴趣的读者。
弓.长.1 小时前
人工智能·机器学习·语言模型·架构
深入解析MoE架构:大模型高效训练的核心技术在人工智能快速发展的今天,大型语言模型的参数规模已从数亿增长到数万亿。2023年,GPT-4的参数数量据估计达到1.8万亿,而谷歌的PaLM模型更是达到了惊人的5400亿参数。这种规模的增长带来了前所未有的性能提升,但同时也带来了巨大的计算挑战。
WitsMakeMen3 小时前
人工智能·语言模型·自然语言处理
大语言模型在线推理过程大语言模型(如 Qwen3)的输出过程本质是基于自回归机制的逐 token 生成循环,从 “输入预处理” 到 “最终文本输出” 可拆解为「预处理→初始化→逐 token 生成→后处理」四大阶段,每个阶段都对应具体的张量计算、缓存更新和采样逻辑。以下结合 Qwen3 的实际推理流程,详细拆解输出的完整过程:
心疼你的一切4 小时前
目标检测·microsoft·机器学习·ai·语言模型·自然语言处理
多模态AI与视觉语言模型人类感知世界是多模态的:我们同时看到图像、听到声音、阅读文字、感受触觉。传统人工智能往往专注于单一模态——要么处理图像,要么理解文本。然而,真实世界的智能需要跨越感官的界限,实现视觉、语言、声音等多种信息的统一理解与生成。多模态AI正是这一方向的核心技术,CLIP、DALL-E、GPT-4V等模型的出现标志着我们进入了多模态智能的新时代。本文将深入解析多模态学习的原理、架构和应用,并通过实战代码帮助读者掌握这一前沿技术。
ytgytg284 小时前
语言模型
Dify1.11.1+Ollama0.13.5安装说明系统:virtualbox虚拟机安装的centos stream 10系统。 网络:virtualbox采用 桥接模式,使虚拟机系统与宿主机一个ip段,方便测试
Lethehong5 小时前
人工智能·语言模型·sglang·昇腾npu
昇腾Atlas 800T平台下Qwen-14B大语言模型的SGLang适配与性能实测目录摘要引言一、GitCode Notebook 环境配置与 Qwen-14B 模型准备1.1 环境规格确认
Dragon水魅15 小时前
人工智能·语言模型
使用 LLaMA Factory 微调一个 Qwen3-0.6B 猫娘古人云,铸万象言机,笼天地妙文,其本意所归,唯在猫娘而已。详见:https://blog.csdn.net/qq_43650934/article/details/148948282?spm=1001.2014.3001.5501
胡伯来了17 小时前
人工智能·语言模型·自然语言处理
16 Transformers - 使用大语言模型NLP 是一个更广泛的领域,专注于使计算机能够理解、解释和生成人类语言。NLP 包含许多技术和任务,如情感分析、命名实体识别和机器翻译。
飞Link1 天前
论文阅读·人工智能·语言模型·自然语言处理
【论文笔记】A Survey on Data Synthesis and Augmentation for Large Language Models2024大型语言模型(LLM)的成功与否,本质上与用于训练和评估的海量、多样化和高质量数据的可用性息息相关。然而,高质量数据的增长速度明显落后于训练数据集的扩展速度,从而导致迫在眉睫的数据耗尽危机。这突显了提高数据效率和探索新数据来源的迫切需求。在此背景下,合成数据已成为一种有前景的解决方案。目前,数据生成主要包括两种主要方法:数据增强和合成。本文全面回顾并总结了LLM生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调整、偏好对齐和应用。此外,我们还讨论了这些方法目前面临的限制,并探讨了未来发展
汉克老师1 天前
人工智能·语言模型·自然语言处理·小学生0基础学习大语言模型
小学生0基础学大语言模型应用(第0课 课前准备)🎒 适合对象:编程 0 基础的小学生 🎯 本节目标:不学代码,只做一件事: 👉 让电脑准备好,迎接我们的第一行 Python 程序
喜欢吃豆1 天前
人工智能·语言模型·架构·moe
大语言模型混合专家(MoE)架构深度技术综述—— 理论前沿、系统工程与应用实践在人工智能的发展历程中,模型规模的扩张(Scaling)已被证实是提升模型性能、解锁涌现能力(Emergent Capabilities)的最有效途径之一。然而,随着模型规模突破千亿(100B+)大关,传统的稠密(Dense)Transformer 架构面临着边际效应递减的挑战。在此背景下,混合专家(Mixture-of-Experts, MoE) 架构作为一种“条件计算”范式,凭借其在扩大模型容量的同时保持计算成本可控的特性,成为了大模型领域的绝对核心技术。
雪花desu1 天前
人工智能·深度学习·神经网络·语言模型
大模型应用评估—— 从 BLEU 到 Agent 综合评价随着大语言模型(LLM)的应用形态从简单的文本生成进化为复杂的多轮对话机器人、检索增强生成(RAG)系统以及自主智能体(Agent),开发者面临着一个共同的难题:代码跑通了,但效果怎么测?
前端程序猿之路1 天前
人工智能·python·gpt·语言模型·aigc·mybatis·ai编程
AI大模型应用之-RAG 全流程给新手看的 RAG(检索增强生成)完整入门指南看得懂流程、记得住原理、能在本地跑起来一个知识库问答系统。
喜欢吃豆1 天前
人工智能·语言模型·架构·大模型·deepseek
深度解析DeepSeek大语言模型架构演进——从多头注意力机制到 DeepSeek 核心技术体系 (DeepSeek-MoE, MTP, MLA)——从多头注意力机制到 DeepSeek 核心技术体系 (DeepSeek-MoE, MTP, MLA)
绒绒毛毛雨1 天前
人工智能·深度学习·语言模型
Tending Towards Stability : Convergence Challenges in Small Language Models增加语言模型的参数数量是提升其性能的常见策略。然而,由于运行成本较低,小型语言模型依然具有重要价值。尽管如此,即使在使用相同的数据和计算资源条件下,小型模型的性能常常不及大型模型。具体来说,小型模型的性能往往在预训练的后期出现下降。这一现象通常被归因于其较低的表达能力,但造成性能下降的具体原因仍不清楚。我们使用Pythia模型组对该现象背后的训练动态进行了分析。在不同规模的模型中,我们研究了注意力机制(Attention)和多层感知机(MLP)激活值向最终状态的收敛情况,并考察了参数的有效秩(effect
clarance20151 天前
人工智能·搜索引擎·语言模型
语言模型的“锯齿”与符号的“迷宫”:智能探索中的同一困境在人工智能的探索之路上,我们常被两种截然不同的风景所吸引:一边是如GPT-4般流畅对话、博闻强识的现代语言模型,其能力宛如山脉的锯齿轮廓,在某些领域高耸入云,在另一些看似简单之处却陡然下跌;另一边则是早期人工智能研究中那些逻辑严谨、规则明确的符号系统,它们构建的精致迷宫理论上可以通往任何目的地,却总在复杂现实面前陷入“穷举困境”。有趣的是,这两种表面上大相径庭的智能形态,却可能面临着本质上相同的困境——它们都在用不同的方式揭示着同一个根本问题:智能的本质究竟能否被还原为某种可计算的形式?
阿杰学AI1 天前
人工智能·ai·语言模型·自然语言处理·aigc·ml·机械学习
AI核心知识66——大语言模型之Machine Learning (简洁且通俗易懂版)机械学习(英文 Machine Learning, ML)是大语言模型(LLM)的“祖宗” ,也是整个 AI 大厦的地基 。