语言模型

刘阿宾1 小时前
服务器·华为·语言模型·gpu算力·kylin
【华为昇腾|CUDA】服务器A6000显卡部署LLM实战记录ollama官方提供aarch64 docker,按照https://hub.docker.com/r/ollama/ollama文档操作即可
强哥之神1 小时前
人工智能·深度学习·计算机视觉·语言模型·自然语言处理·llama
Meta AI 推出 Multi - SpatialMLLM:借助多模态大语言模型实现多帧空间理解多模态大语言模型(MLLM)作为多功能 AI 助手,在处理各类视觉任务方面取得了巨大进步。然而,它们作为独立数字实体部署,限制了其潜在影响。随着将 MLLM 整合到像机器人技术和自动驾驶汽车这类现实应用中的需求不断增长,这些应用需要复杂的空间理解能力。当前的 MLLM 存在基本的空间推理缺陷,常常连左右区分这类基础任务都难以完成。以往研究将这些局限归因于缺乏专门的训练数据,并通过在训练期间纳入空间数据来解决,但这些方法侧重于单图像场景,从而使模型的感知局限于静态视场分析,缺少动态信息。
行走的山峰3 小时前
语言模型
npu-driver 23.0.3驱动安装宿主机器上安装npu-driver/ npu-firmware这两个东西wget -O Ascend-hdk-910b-npu-driver_23.0.3_linux-aarch64.run https://bj.bcebos.com/v1/aipe-easyedge-public/cann/eb_speed/Ascend-hdk-910b-npu-driver_23.0.3_linux-aarch64.run?authorization=bce-auth-v1%2F50c8bb753dcb4e1d864
九年义务漏网鲨鱼14 小时前
人工智能·深度学习·学习·语言模型·多模态
【大模型学习 | MINIGPT-4原理】在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的LLM模型,因此,作者在BLIP2的基础上,将LLM模型替换为了Vicuna,同样也是通过一个线性映射层将图像表征映射为LLM的输入。此外,作者还提出只在短标题文本对上训练会出现不自然的语言描述(重复)。因此作者也构建了一个更加详细的图像描述数据集。
kebijuelun19 小时前
人工智能·深度学习·百度·语言模型·自然语言处理·aigc
百度文心 4.5 大模型详解:ERNIE 4.5 Technical ReportPaper nameERNIE 4.5 Technical ReportPaper Reading Note
MUTA️21 小时前
人工智能·语言模型·自然语言处理
ELMo——Embeddings from Language Models原理速学参考视频:词向量 | ELMO | 原理简介+代码简析_哔哩哔哩_bilibili传统的词向量表示:一个单词对应一个固定的向量,尽管一个单词可能存在多个含义
jerwey21 小时前
人工智能·语言模型·分类
大语言模型(LLM)按架构分类选择Encoder-Only当:选择Decoder-Only当:选择Encoder-Decoder当:
茫茫人海一粒沙2 天前
人工智能·语言模型·自然语言处理
为什么大语言模型训练和推理中越来越多地使用 bfloat16?随着大语言模型(LLM)的参数规模从几十亿(B)飙升到千亿(T)级别,模型的训练与推理效率变得尤为关键。为了在保证精度的同时节省显存、加快运算,混合精度训练(Mixed Precision Training) 成为主流技术路径。其中,bfloat16(Brain Floating Point 16)这种“脑力型”数据类型,在众多精度方案中脱颖而出。
FF-Studio1 天前
人工智能·python·深度学习·神经网络·机器学习·语言模型·自然语言处理
大语言模型(LLM)课程学习(Curriculum Learning)、数据课程(data curriculum)指南:从原理到实践在人工智能的浪潮之巅,我们总会惊叹于GPT-4、Llama 3.1、Qwen 2.5这些顶尖大语言模型(LLM)所展现出的惊人能力。它们似乎无所不知,能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是:它们是如何“学”会这一切的?
Liudef062 天前
人工智能·语言模型·自然语言处理·ai作画·aigc
FLUX.1-Kontext 高效训练 LoRA:释放大语言模型定制化潜能的完整指南在人工智能领域,尤其是大型语言模型(LLM)的应用浪潮中,高效、低成本地定制模型行为已成为关键需求。LoRA(Low-Rank Adaptation)技术以其参数高效、资源节省的特性脱颖而出。而 FLUX.1-Kontext 作为一款创新的训练框架,通过其独特的动态上下文扩展技术,极大地优化了 LoRA 的训练过程,特别是在处理长文本和复杂任务时。本文将深入探讨如何利用 FLUX.1-Kontext 的强大功能训练高质量的 LoRA 适配器。
静心问道2 天前
人工智能·语言模型·大模型
大型语言模型中的自动化思维链提示大型语言模型(LLMs)能够通过生成中间推理步骤来执行复杂的推理任务。为提示演示提供这些步骤的过程被称为思维链(CoT)提示。CoT提示有两种主要范式。一种使用简单的提示语,如“让我们一步一步思考”,在回答问题之前促进逐步思考。另一种则逐个使用一些手动示范,每个示范包含一个问题和一个推理链,最终得出答案。第二种范式的优越性能依赖于逐个手工制作任务特定的示范。我们展示了通过利用带有“让我们一步一步思考”提示的LLMs生成推理链来逐个构建示范,这样可以消除手动制作的工作。即,让我们不仅仅是一步一步思考,还要逐
难受啊马飞2.02 天前
运维·人工智能·ai·语言模型·程序员·大模型·大模型学习
如何判断 AI 将优先自动化哪些任务?思考 AI 将优先自动化哪些任务,有一个独特的视角,那就是 “描述-执行鸿沟”:描述一个任务的难度,与亲手完成该任务的难度相比,差距究竟有多大?
静心问道2 天前
人工智能·计算机视觉·语言模型
GoT:超越思维链:语言模型中的有效思维图推理随着语言模型(LMs)在自然语言处理(NLP)任务中的广泛应用,研究人员发现 Chain-of-Thought(CoT)能够通过生成中间推理步骤来辅助语言模型完成复杂的推理任务。然而,人类的思维过程往往是非线性的,而非简单的线性思维链。因此,我们提出 Graph-of-Thought(GoT)推理方法,该方法将人类思维过程建模为图结构而不仅仅是链结构。通过将思维单元表示为节点,将它们之间的联系表示为边,我们的方法捕捉了人类思维的非顺序特性,并允许更真实地建模思维过程。GoT 采用两阶段框架,引入额外的 G
风信子的猫Redamancy5 天前
百度·语言模型·开源·文心一言·多模态
百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代随着DeepSeek-R1的横空出示,越来越多大公司开始开源模型,像DeepSeek R1发布的时候Kimi同步开源了技术文档,随着R1推动着思维链推理技术的发展,开源社区也出现了越来越多开源推理大模型,比如前段时间开源的Qwen3,开始使用MOE架构并且能自由切换思维模式,以及Kimi也开源了一些模型,比如Kimi-VL多模态模型,也适用了思维链R1的方式应用到多模态大模型中。最近冲浪中,我又发现百度也开始进行开源了,6.30号的时候刚刚发布了开源模型,也就是文心大模型 ERNIE 4.5系列,现在在h
静心问道2 天前
人工智能·语言模型·大模型
大语言模型能够理解并可以通过情绪刺激进行增强情绪智能在我们日常行为与互动中具有重要影响。虽然大型语言模型(LLMs)因在众多任务中表现出色而被视为迈向通用人工智能的重要一步,但目前尚不清楚它们是否真正能够理解心理层面的情绪刺激。理解并回应情绪线索使人类在解决问题方面具有独特优势。本文首次探索了LLMs对情绪刺激的理解能力。为此,我们在45个任务上使用多种LLM(包括Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT 和 GPT-4)进行了自动化实验。这些任务涵盖了确定性与生成式任务,构成了全面的评估场景。
onceco2 天前
人工智能·python·深度学习·语言模型·自然语言处理·自动化
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)除上述四大模块外,OpenManus 和 Qwen-Agent 各自包含一些辅助组件。OpenManus 有 Flow 模块(如 PlanningFlow)用于组织多步规划执行,并通过 FlowFactory 管理不同类型流程。Qwen-Agent 则在工具层面集成了更多功能模块,例如内置的 代码执行器(Code Interpreter)和 多轮规划 支持(如并行函数调用模板),还提供了与外部检索器集成的能力(例如向量检索、RAG)。在多智能体和上下文管理方面,Qwen-Agent 还支持 MCP(Mod
Sweet锦3 天前
人工智能·语言模型·文心一言
零基础保姆级本地化部署文心大模型4.5开源系列近两年随着大模型的迅猛崛起,吸引了各行各业的广泛关注,更对我们的工作方式与生活产生着显著积极影响。在这样一个技术范式转换的关键节点,百度文心大模型开源事件无疑具有里程碑意义——它不仅为中国自主研发的AI技术底座打开了通向世界的大门,更以"开源共享、协同创新"的开放姿态,为千行百业的数字化转型注入了强劲动能,为数智化经济时代添上浓墨重彩的一笔。
强哥之神3 天前
人工智能·深度学习·语言模型·架构·llm·transformer·边缘计算
英伟达发布 Llama Nemotron Nano 4B:专为边缘 AI 和科研任务优化的高效开源推理模型英伟达推出了 Llama Nem)otron Nano 4B,这是一款专为在科学任务、编程、符号运算、函数调用和指令执行方面提供强大性能与效率而设计的开源推理模型,其紧凑程度足以支持边缘部署。该模型仅包含 40 亿参数,却在内部基准测试中实现了比其他多达 80 亿参数的同类开源模型更高的准确率,并且推理吞吐量高出 50%。
陈敬雷-充电了么-CEO兼CTO3 天前
人工智能·深度学习·语言模型·自然语言处理·chatgpt·aigc·transformer
大模型技术原理 - 基于Transformer的预训练语言模型注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
asyxchenchong8883 天前
机器学习·语言模型·chatgpt
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模随着人工智能技术的快速发展,大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练,能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。