语言模型

余俊晖5 小时前
人工智能·算法·语言模型·自然语言处理·多模态
英伟达开源多模态视觉语言模型-Nemotron Nano V2 VL模型架构、训练方法、训练数据英伟达的技术报告一般细节都比较多,本次开源的12B的参数模型-Nemotron Nano V2 VL专为文档理解、长视频理解及推理任务而设计。下面来快速过一下。
盼小辉丶9 小时前
深度学习·语言模型·bert·transformer
Transformer实战(26)——通过领域适应提升Transformer模型性能我们已经使用经典 Tansformer 模型解决了许多任务,但我们可以通过利用特定的技术来进一步提高模型性能。有多种方法可以提升 Transformer 模型的性能,在节中,我们将介绍如何通过领域适应技术将模型性能提升到超越普通训练流程的水平。领域适应是一种提高 Transformer 模型性能的方法,由于大语言模型是在通用和多样化的文本上进行训练的,因此在应用于特定领域时,可能会存在一定的差异,我们可能需要根据特定的应用领域调整这些语言模型,并考虑多种因素。
聚梦小课堂9 小时前
人工智能·安全·语言模型·新闻资讯·ai大事件
2025.11.17 AI快讯
智算菩萨12 小时前
gpt·语言模型·文心一言
2025年通用大语言模型前沿进展评测:GPT-5.1、Claude 4.5、文心一言5.0 等全面解析2025年11月,通用大语言模型(LLM)领域竞争激烈,各大技术公司相继推出了新一代模型版本,推动人工智能对话助手进入前所未有的高度。本篇深度技术文章将全面评估当前主流通用大模型的最新表现,重点分析 OpenAI 的 GPT-5.1、Anthropic 的 Claude 4.5、百度的文心一言5.0(Ernie 5.0)预览版,并对比中国主要厂商模型如科大讯飞星火(SparkDesk)、智谱清言(GLM-4.5)、MiniMax 等。在文章中,我们将从模型的技术架构与训练规模、功能与使用体验、典型应用案例
海底的星星fly1 天前
人工智能·语言模型·prompt
【Prompt学习技能树地图】检索增强生成(RAG)核心技术剖析与实践指南检索增强生成 是一种将信息检索系统与大语言模型相结合的技术范式。其核心思想是,在面对用户查询时,首先从一个外部知识库中检索出相关的信息片段,然后将这些信息作为上下文,连同原始查询一起提供给LLM,从而生成更准确、更可靠的答案。
wangchen01121 天前
语言模型·音视频
基于视频识别的大模型项目实战心得
学历真的很重要1 天前
人工智能·pytorch·后端·深度学习·语言模型·职场和发展
PyTorch 零基础入门:从张量到 GPU 加速完全指南原始来源: https://www.learnpytorch.io/00_pytorch_fundamentals/ GitHub仓库: https://github.com/mrdbourke/pytorch-deep-learning
kanimito1 天前
人工智能·笔记·语言模型
大语言模型入门指南:从科普到实战的技术笔记(2)在人工智能快速发展的今天,大型语言模型(LLM)已成为技术领域的热点。然而,如何有效地与这些模型交互,最大化其潜力,提示词工程(Prompt Engineering)便成为了一门关键技能。本文将系统性地介绍提示词工程的核心概念、技巧与实战案例。
聚梦小课堂1 天前
人工智能·安全·语言模型
2025.11.16 AI快讯
汗流浃背了吧,老弟!2 天前
人工智能·语言模型·自然语言处理
语言模型(Language Model)介绍语言模型是自然语言处理(NLP)的基础技术,核心能力是判断文本的“合理性”并计算其成句概率。掌握某门语言的人能直观判断一句话是否“通顺”,比如“今天天气不错”符合语言逻辑,而“今错不天气天”完全无意义。语言模型正是将这种直觉转化为数学计算的工具。
DogDaoDao2 天前
人工智能·语言模型·架构·大模型·transformer·循环神经网络·对抗网络
大语言模型四大核心技术架构深度解析2017年,Google团队在《Attention Is All You Need》中提出的Transformer架构彻底改变了序列建模范式。与传统循环神经网络(RNN)逐 token 处理不同,Transformer 通过自注意力机制实现了序列的并行处理,这一突破使其成为 BERT、GPT 等革命性模型的基础。
想成为PhD的小提琴手2 天前
论文阅读·语言模型·自动驾驶
论文阅读13——基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架:DriveLLM-V的设计与应用An explainable end-to-end autonomous driving framework based on large language model and vision modality fusion: design and application of DriveLLM-V
是Dream呀3 天前
语言模型·llm·aigc·文心一言·ernie-5.0
OpenAI与百度同日竞速,文心5.0以原生全模态重新定义AI理解力目录一、技术底层的硬实力1.万亿级参数高效推理2.基准测试实力二、多模态理解三、实战测试1.视频理解2.情绪识别
野生面壁者章北海3 天前
人工智能·语言模型·自然语言处理
ICML2025|基于Logits的大语言模型端到端文本水印方法由澳门大学研究者联合完成的论文《An End-to-End Model for Logits-Based Large Language Models Watermarking》发表于2025年ICML国际机器学习大会。该研究针对当前大语言模型生成内容在版权溯源与真实性验证方面的难题,提出了一种创新性的端到端logits扰动水印模型。论文首次实现了编码器与解码器的联合优化,显著提升了水印检测的鲁棒性与文本质量之间的平衡。为解决端到端训练中的非可微问题,研究者提出了一种“在线提示”技术,使模型能够通过运行时大
DisonTangor3 天前
人工智能·百度·语言模型·开源·aigc
【百度拥抱开源】介绍ERNIE-4.5-VL-28B-A3B-Thinking:多模态AI的重大突破基于强大的ERNIE-4.5-VL-28B-A3B架构全新升级的ERNIE-4.5-VL-28B-A3B-Thinking,在多模态推理能力上实现了质的飞跃。🧠✨通过大规模的中期训练阶段,模型吸收了海量且高度多样化的优质视觉语言推理数据。这种超大规模训练显著提升了模型的表征能力,同时加深了视觉与语言模态间的语义对齐——解锁了前所未有的精细化图文推理能力。📊
野生面壁者章北海3 天前
人工智能·语言模型·自然语言处理
NeurIPS 2024|大语言模型高保真文本水印新范式由法国雷恩大学研究者联合完成的论文《WaterMax: Breaking the LLM Watermark Detectability–Robustness–Quality Trade-off》发表于2024年NeurIPS大会。该研究聚焦于大语言模型文本生成的可追溯性与版权保护难题,提出了一种全新的水印框架WaterMax,突破了以往检测性–鲁棒性–文本质量三者无法兼得的瓶颈。与现有通过修改 logits 或采样分布的方案不同,该方法完全不改变模型权重与采样机制,而是通过多候选文本生成与选择策略实现水
走上未曾设想的道路3 天前
语言模型
vllm缓存使用基础调优实验我在使用显卡时发现,vllm会倾向用直接占用所有显存,纵然是一个很小的模型的情况下。我更期待在同一张先看上部署多个模型,并行使用。
Ma0407133 天前
人工智能·语言模型·自然语言处理
【论文阅读17】-LLM-TSFD:一种基于大型语言模型的工业时间序列人机回路故障诊断方法题目:Brain-Like Cognition-Driven Model Factory for IIoT Fault Diagnosis by Combining LLMs With Small Models
喜欢吃豆3 天前
人工智能·语言模型·自然语言处理·大模型·parquet
Parquet 范式:大语言模型训练数据格式优化的基础解析将数据格式转换为 Apache Parquet 并非一种随意的偏好,而是针对大规模数据处理(尤其是大语言模型 (LLM) 训练)的一项基础性能优化。Parquet 格式通过其列式存储架构,在 I/O 效率、存储成本和查询性能方面提供了数量级的提升。
电科_银尘4 天前
人工智能·语言模型·自然语言处理
【大语言模型】-- 私有化部署文章目录一、按交付形态 一体机 整机柜出厂即交付,插电即用 纯软件 仅授权模型+推理框架,客户自购服务器 私有化 SaaS 模型以容器/Helm 包交付,部署在客户私有 K8s 上