自然语言处理

xwz小王子34 分钟前
人工智能·语言模型·自然语言处理
从LLM到WM:大语言模型如何进化成具身世界模型?1.引言这学期在方老师开设的《机器人大模型基础和前沿》选修课上接触并学习了具身智能方面的相关知识。作为交互组的组长,我和组员们在幻尔机器狗的功能开发上有切身的实践与探索,在张江具身智能大会上,也见识到了前沿的技术和行业的发展现状和无限的潜力,这些不仅对我个人能力有提升,还让我有未来在具身智能方面进一步投入的热忱。近年来,大语言模型取得了突破性的进展,人们在工作生活中或多或少地和它们打交道,但其缺乏对物理世界的感知和环境交互的经验,使其无法直接应用在具身智能体上作为“大脑”,这也就引出了世界模型(World
静心问道35 分钟前
人工智能·语言模型·自然语言处理
FLAN-T5:规模化指令微调的语言模型在将数据集表述为指令的形式上进行语言模型微调,已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调,特别关注以下三个方面:(1) 任务数量的扩展,(2) 模型规模的扩展,以及 (3) 基于链式思维(chain-of-thought)数据的微调。我们发现,结合上述方面的指令微调显著提升了多种模型类别(如PaLM、T5、U-PaLM)、提示设置(如零样本、少样本、链式思维)以及评估基准(如MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。例如
李师兄说大模型36 分钟前
人工智能·深度学习·机器学习·语言模型·自然语言处理·大模型·deepseek
KDD 2025 | 地理定位中的群体智能:一个多智能体大型视觉语言模型协同框架今天跟大家分享一篇被KDD 25录用的多模态大模型智能体协同框架,该文章提出了一种多智能体大模型协作机制以及一种大模型智能体之间关系的动态学习策略,有效减少了大模型智能体之间冗余的交互次数,从而提高了系统的地理定位效率。具体而言,该论文参考审稿机制与流程来尽最大可能发挥不同大模型智能体对于不同地标的定位能力。同时,根据不同图像定位请求,自适应生成智能体社交网络结构,来规划哪些智能体之间的讨论可以产生对准确定位图像产生正面促进作用的结果。提出的框架在3个数据集上的实验表明,该框架表现显著优于其他目前最先进的
静心问道37 分钟前
人工智能·计算机视觉·自然语言处理
SqueezeBERT:计算机视觉能为自然语言处理在高效神经网络方面带来哪些启示?人类每天阅读和撰写数千亿条消息。得益于大规模数据集、高性能计算系统和更优的神经网络模型,自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了显著进展。因此,将 NLP 部署于各类应用中,以帮助网页用户、社交网络和企业具有重要价值。特别是,我们认为智能手机和其他移动设备是大规模部署 NLP 模型的关键平台。然而,当今高精度的 NLP 神经网络模型(如 BERT 和 RoBERTa)计算开销极大,例如在 Pixel 3 手机上运行 BERT-base 对一个文本片段进行分类需要约 1.7 秒。本文观
Sherlock Ma37 分钟前
人工智能·百度·自然语言处理·开源·大模型·文心一言·多模态
百度开源文心一言4.5:论文解读和使用入门近日,百度ERNIE团队发布的ERNIE 4.5模型家族。该家族包含10种不同的大规模多模态模型变体,涵盖了47B和3B激活参数的混合专家(MoE)模型,以及拥有424B总参数的模型和一个0.3B的密集模型。这些模型采用了新颖的异构模态结构,支持跨模态的参数共享,同时允许每个模态拥有独立的参数,以增强多模态理解能力,且不会损害文本相关任务的性能。所有模型均使用PaddlePaddle深度学习框架进行高效训练,实现了高性能推理和简化部署。
John_今天务必休息一天1 天前
人工智能·语言模型·自然语言处理·gpt-3
大语言模型预训练数据——数据采样方法介绍以GPT3为例这是 GPT - 3 训练时的数据集配置,核心是非等比例采样——不按数据集原始大小分配训练占比,而是人工设定不同数据集在训练中被抽取的概率(Weight in training mix ),让小数据集也能被多次学习,大数据集适当降低重复度,平衡模型学习广度与深度。
weisian15142 分钟前
人工智能·语言模型·自然语言处理
人工智能-基础篇-18-什么是RAG(检索增强生成:知识库+向量化技术+大语言模型LLM整合的技术框架)RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合外部知识检索与大语言模型(LLM)生成能力的技术框架,旨在提升生成式AI在问答、内容创作等任务中的准确性、实时性和领域适应性。
xiangduanjava3 小时前
人工智能·语言模型·自然语言处理
关于安装Ollama大语言模型本地部署工具Ollama 是一个开源的大型语言模型(LLM)本地部署工具,支持在 Windows、macOS 和 Linux 系统上运行。它简化了在本地计算机上运行和管理大语言模型的流程,让开发者能够轻松部署各种开源模型。
东临碣石821 天前
人工智能·语言模型·自然语言处理
【AI论文】数学推理能否提升大型语言模型(LLM)的通用能力?——探究大型语言模型推理能力的可迁移性摘要:数学推理已成为大型语言模型(LLMs)取得进展的典型代表,新模型在MATH和AIME等基准测试中迅速超越人类水平。然而,随着数学排行榜每周不断更新,我们有必要思考:这些进步反映的是更广泛的问题解决能力,还是仅仅局限于特定任务的过拟合?为回答这一问题,我们在涵盖数学、科学问答、智能体规划、编程以及标准指令遵循等广泛任务上,对20多个开源权重且经过推理微调的模型进行了评估。令人惊讶的是,我们发现大多数在数学任务上表现优异的模型,未能将其优势迁移至其他领域。为严谨研究这一现象,我们使用仅包含数学数据但采用
一ge科研小菜鸡2 天前
人工智能·语言模型·自然语言处理
云原生环境下部署大语言模型服务:以 DeepSeek 为例的实战教程📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹随着 DeepSeek、Qwen、ChatGLM 等大语言模型(LLM)的开放与普及,企业将其私有化部署并服务化的需求愈发迫切。然而,从 HuggingFace 下载模型,到提供一个结构化、稳定、可调用的 API,并不是一个简单过程。它涉及:
FF-Studio2 天前
大数据·人工智能·深度学习·机器学习·数学建模·自然语言处理·概率论
【硬核数学】3. AI如何应对不确定性?概率论为模型注入“灵魂”《从零构建机器学习、深度学习到LLM的数学认知》在前两章中,我们已经掌握了如何用向量和矩阵来优雅地表示数据(线性代数),以及如何通过梯度下降等方法让模型学习和优化(微积分)。但这些似乎都建立在一个“确定性”的世界里:数据是给定的,参数只要朝着梯度的反方向更新,就一定能变得更好。
羊小猪~~2 天前
人工智能·自然语言处理·分类
【NLP入门系列四】评论文本分类入门案例博主简介:努力学习的22级本科生一枚 🌟;探索AI算法,C++,go语言的世界;在迷茫中寻找光芒🌸 博客主页:羊小猪~~-CSDN博客 内容简介:这一篇是NLP的入门项目,以AG_NEW新闻数据为例。 🌸箴言🌸:去寻找理想的“天空“”之城 上一篇内容:【NLP入门系列三】NLP文本嵌入(以Embedding和EmbeddingBag为例)-CSDN博客 💁💁💁💁: 如果在conda安装环境,由于nlp的核心包是torchtext,所以如果把握不好就重新创建一虚拟环境(小编的“难忘”经历)
zeroporn12 天前
人工智能·深度学习·算法·自然语言处理·embedding·word2vec·skip-gram
以玄幻小说方式打开深度学习词嵌入算法!! 使用Skip-gram来完成 Word2Vec 词嵌入(Embedding)在浩瀚的修真界中,存在一种上古秘术名为《词嵌真经》。修士们发现,世间万物皆有其“道韵”,而语言中的每个字词都暗含天地法则。传统修炼方式需逐个参悟字词,耗时千年方能小成。
Zhijun.li@Studio12 天前
人工智能·自然语言处理·llama·多模态大模型
【LLaMA-Factory 实战系列】二、WebUI 篇 - Qwen2.5-VL 多模态模型 LoRA 微调保姆级教程本教程将详细介绍如何使用 LLaMA-Factory 的图形化 WebUI 界面,对强大的开源多模态模型 Qwen2.5-VL-3B-Instruct 进行 LoRA 微调。LLaMA-Factory 是一个功能强大、简单易用的一站式大模型微调平台,它集成了多种主流的微调方法(如 LoRA、QLoRA、全量微调等),并通过简洁的 WebUI 和命令行工具,极大地降低了个人或小型团队进行模型训练的门槛。我们将以经典的宝可梦图文数据集为例,一步步带您完成从环境搭建到模型评估的全过程。
lgbisha12 天前
人工智能·ai·语言模型·自然语言处理·华为云·ai写作
华为云Flexus+DeepSeek征文|体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建自己的AI写作神器Dify-LLM 应用开发平台是一个基于大型语言模型(LLM)的低代码/无代码开发平台,旨在帮助开发者快速构建、部署和管理基于 AI 的应用程序。它提供了可视化的操作界面和丰富的工具,简化了从模型调用到应用上线的全流程,适合不同技术背景的用户使用。
大模型最新论文速读12 天前
人工智能·深度学习·机器学习·缓存·语言模型·自然语言处理
Agent成本降低46%:缓存规划器的思路模板论文标题Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching
unityのkiven12 天前
人工智能·自然语言处理
Happy-LLM task2 第一章 NLP 基础概念(2天)自然语言处理(Natural Language Processing,NLP)是人工智能领域的核心分支,旨在让计算机理解、处理并生成人类语言,实现人机自然交互。
东临碣石8212 天前
人工智能·语言模型·自然语言处理
【AI论文】扩展大型语言模型(LLM)智能体在测试时的计算量摘要:扩展测试时的计算量在提升大型语言模型(LLMs)的推理能力方面已展现出显著成效。在本研究中,我们首次系统地探索了将测试时扩展方法应用于语言智能体,并研究了该方法在多大程度上能提高其有效性。具体而言,我们探索了不同的测试时扩展策略,包括:(1)并行采样算法;(2)顺序修订策略;(3)验证器与结果合并方法;(4)多样化推演策略。我们仔细分析并消融了不同设计策略对语言智能体应用测试时扩展的影响,并得出以下发现:1. 扩展测试时的计算量能够提升智能体的性能。2. 知道何时进行反思对智能体而言至关重要。3.
H4ppyD0g12 天前
人工智能·语言模型·自然语言处理
预训练语言模型基础知识概述以图像领域的预训练为例,CNN一般用于图片分类任务,越浅的层学到的特征越通用(横竖撇捺),越深的层学到的特征和具体任务的关联性越强。
UQI-LIUWJ13 天前
人工智能·语言模型·自然语言处理
论文笔记:Large language model augmented narrative driven recommendationsRecSys 2023代码:iesl/narrative-driven-rec-mint: Mint: A data augmentation method for narrative driven recommendation.