语言模型

roykingw5 小时前
人工智能·语言模型·自然语言处理
什么是世界模型?和大语言模型有什么区别?现在的AI,包括ChatGPT,其实是个笨蛋?最近,AI圈出了个大瓜,但我发现很多人根本没看懂这个瓜有多大。
zenRRan10 小时前
人工智能·机器学习·语言模型·数据挖掘·回归
英伟达提出“思考用扩散,说话用自回归”:实现语言模型效率与质量的双赢!近年来,大型语言模型(LLMs)在自然语言处理任务中取得了突破性进展,但其生成效率仍面临严峻挑战。主流的自回归(AR)模型在生成文本时只能逐词输出,导致 GPU 计算资源利用率低,生成速度受内存带宽限制。另一方面,扩散语言模型(dLMs)支持并行生成多个词,理论上能大幅提升吞吐量,但往往以牺牲生成质量为代价。这种“效率与质量不可兼得”的困境,成为制约语言模型实际应用的关键瓶颈。
Sirius Wu11 小时前
开发语言·人工智能·语言模型·开源·aigc·swift
开源训练框架:MS-SWIFT详解MS-SWIFT(Microsoft Scalable Windowed Inference for Fine-Tuning)是微软提出的一种高效处理长序列的Transformer优化技术,主要解决大模型在长文本、多模态序列(如长文档、视频帧序列)处理中的计算效率与内存瓶颈问题。其核心思路是通过多尺度稀疏窗口注意力机制,在保证模型性能的同时,大幅降低长序列场景下的计算复杂度,使大模型能够高效处理远超传统上下文窗口的输入(如10万+token的文本或视频序列)。
oranglay1 天前
人工智能·语言模型·开源
本地运行开源大语言模型工具全览与对比本地运行开源大语言模型工具对比• 个人本地一键与桌面 GUI:Ollama、LM Studio、Jan、GPT4All、Llamafile
xinyu_Jina1 天前
人工智能·语言模型·自然语言处理
AI 塔罗占卜(塔罗之心):大语言模型在主观情境中“意图聚焦”与“心理模型”的构建技术实践观察地址: AI 塔罗占卜(塔罗之心)摘要: 情感、事业等主观情境下的决策辅助,要求AI能够超越事实性判断,深入用户问题的深层意图与心理模型。本文将探讨LLM如何处理这类“非事实性”问答,分析其在复杂语义链中实现**意图聚焦(Intent Focusing)的技术难度,并讨论如何通过符号学解释的“反安慰剂效应”(Nocebo Effect)**来引导用户进行现实行动的决策架构。
大模型实验室Lab4AI1 天前
人工智能·语言模型·音视频
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测论文名称:VTimeLLM: Empower LLM to Grasp Video Moments—— 赋能大语言模型以精准理解视频时序瞬间
温柔哥`2 天前
人工智能·语言模型·音视频
HiProbe-VAD:通过在免微调多模态大语言模型中探测隐状态实现视频异常检测HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs ACM MM’25 新疆大学;西安交通大学;
羊羊小栈2 天前
人工智能·语言模型·毕业设计·知识图谱·neo4j·大作业
基于知识图谱(Neo4j)和大语言模型(LLM)的图检索增强(GraphRAG)的医疗健康知识问诊系统(vue+flask+AI算法)b站演示视频与部署教程视频(点击这里) https://www.bilibili.com/video/BV19dCBB6EfU/?share_source=copy_web&vd_source=31c839f46a9a845dd6dd641cbd5c2ac1
聚梦小课堂2 天前
人工智能·语言模型·新闻资讯·ai大事件
2025.11.18 AI快讯
冻感糕人~2 天前
java·人工智能·学习·语言模型·大模型·agent·大模型学习
Agent框架协议“三部曲”:MCP、A2A与AG-UI的协同演进纵观当前AI行业发展态势,基础模型训练领域正逐渐呈现集中化趋势,头部企业凭借资源优势形成显著优势;而在AI应用创新层面,却展现出百花齐放的活力,各类突破性应用持续涌现。在一个完整的AI应用体系中,用户、AI Agent与外部工具构成核心交互三角,如何实现三者间高效顺畅的通信,成为决定系统效能的关键所在。
美人鱼战士爱学习3 天前
人工智能·语言模型·知识图谱
2025 Large language models for intelligent RDF knowledge graph construction学术/应用场景与痛点: 医疗健康领域正经历着一场“数据洪流 (data deluge)”。海量的医疗数据以多样的格式存在,数据内部的关联错综复杂,且包含大量敏感信息。RDF 知识图谱因其灵活和富有表现力的框架,成为整合这些数据的理想范式。然而,将这些数据,特别是从常见的 CSV 等结构化格式,映射到 RDF 知识图谱,面临着巨大挑战:
汗流浃背了吧,老弟!3 天前
深度学习·语言模型·自然语言处理
预训练语言模型(Pre-trained Language Model, PLM)介绍预训练语言模型是自然语言处理(NLP)领域的里程碑技术,其核心思想是先在大规模无标注文本上进行通用语言知识学习(预训练阶段),再针对具体下游任务进行微调(微调阶段),实现“一次预训练,多任务复用”的高效开发模式。
余俊晖3 天前
人工智能·算法·语言模型·自然语言处理·多模态
英伟达开源多模态视觉语言模型-Nemotron Nano V2 VL模型架构、训练方法、训练数据英伟达的技术报告一般细节都比较多,本次开源的12B的参数模型-Nemotron Nano V2 VL专为文档理解、长视频理解及推理任务而设计。下面来快速过一下。
盼小辉丶3 天前
深度学习·语言模型·bert·transformer
Transformer实战(26)——通过领域适应提升Transformer模型性能我们已经使用经典 Tansformer 模型解决了许多任务,但我们可以通过利用特定的技术来进一步提高模型性能。有多种方法可以提升 Transformer 模型的性能,在节中,我们将介绍如何通过领域适应技术将模型性能提升到超越普通训练流程的水平。领域适应是一种提高 Transformer 模型性能的方法,由于大语言模型是在通用和多样化的文本上进行训练的,因此在应用于特定领域时,可能会存在一定的差异,我们可能需要根据特定的应用领域调整这些语言模型,并考虑多种因素。
聚梦小课堂3 天前
人工智能·安全·语言模型·新闻资讯·ai大事件
2025.11.17 AI快讯
智算菩萨3 天前
gpt·语言模型·文心一言
2025年通用大语言模型前沿进展评测:GPT-5.1、Claude 4.5、文心一言5.0 等全面解析2025年11月,通用大语言模型(LLM)领域竞争激烈,各大技术公司相继推出了新一代模型版本,推动人工智能对话助手进入前所未有的高度。本篇深度技术文章将全面评估当前主流通用大模型的最新表现,重点分析 OpenAI 的 GPT-5.1、Anthropic 的 Claude 4.5、百度的文心一言5.0(Ernie 5.0)预览版,并对比中国主要厂商模型如科大讯飞星火(SparkDesk)、智谱清言(GLM-4.5)、MiniMax 等。在文章中,我们将从模型的技术架构与训练规模、功能与使用体验、典型应用案例
海底的星星fly4 天前
人工智能·语言模型·prompt
【Prompt学习技能树地图】检索增强生成(RAG)核心技术剖析与实践指南检索增强生成 是一种将信息检索系统与大语言模型相结合的技术范式。其核心思想是,在面对用户查询时,首先从一个外部知识库中检索出相关的信息片段,然后将这些信息作为上下文,连同原始查询一起提供给LLM,从而生成更准确、更可靠的答案。
wangchen01124 天前
语言模型·音视频
基于视频识别的大模型项目实战心得
学历真的很重要4 天前
人工智能·pytorch·后端·深度学习·语言模型·职场和发展
PyTorch 零基础入门:从张量到 GPU 加速完全指南原始来源: https://www.learnpytorch.io/00_pytorch_fundamentals/ GitHub仓库: https://github.com/mrdbourke/pytorch-deep-learning
kanimito4 天前
人工智能·笔记·语言模型
大语言模型入门指南:从科普到实战的技术笔记(2)在人工智能快速发展的今天,大型语言模型(LLM)已成为技术领域的热点。然而,如何有效地与这些模型交互,最大化其潜力,提示词工程(Prompt Engineering)便成为了一门关键技能。本文将系统性地介绍提示词工程的核心概念、技巧与实战案例。