语言模型

余俊晖1 小时前
人工智能·语言模型·自然语言处理
多模态视觉语言模型增强原生分辨率继续预训练方法-COMP架构及训练方法原生分辨率在前期介绍了多期,相比固定分辨率,原生分辨率在多种任务上尤其是OCR任务上效果显著。那么如何在一些现有的视觉模型(如:SigLIP、AIMv2)上继续训练让多模态视觉语言模型支持原生支持任意分辨率图像输入?下面简单看一下一个多模态继续预训练框架-COMP(Continual Multimodal Pre-training)。
HPC_C4 小时前
人工智能·语言模型·自然语言处理
LLama: Open and Effecient Foundation Language ModelsThis paper is inspired by the Chinchilla scaling law. It found that given a fixed computing budget, the best performance is not generated by the larger models, but by the smaller models trained on more data. So it proposed a collection of models ranging f
无垠的广袤6 小时前
人工智能·python·嵌入式硬件·语言模型·树莓派·智能体·小智
【工业树莓派 CM0 NANO 单板计算机】小智语音聊天本文介绍了树莓派 CM0 NANO 单板计算机通过本地部署 py-xiaozhi 小智实现 AI 智能体语音对话的项目设计。
海边夕阳20067 小时前
人工智能·深度学习·计算机视觉·语言模型·自然语言处理
【每天一个AI小知识】:什么是自然语言处理?目录一、小明的智能助手:从故事说起二、自然语言处理的基本概念2.1 什么是自然语言处理?2.2 自然语言处理的核心任务
阿杰学AI1 天前
人工智能·ai·语言模型·chatgpt·aigc·生成式ai·generative ai
AI核心知识35——大语言模型之Generative AI(简洁且通俗易懂版)生成式 AI (Generative AI),就是那个让全世界为之疯狂的 “G”(Generative)。
阿杰学AI1 天前
人工智能·ai·语言模型·aigc·agi
AI核心知识36——大语言模型之AGI(简洁且通俗易懂版)AGI 是 Artificial General Intelligence(通用人工智能)的缩写。它是计算机科学的“圣杯”,也是所有 AI 科学家梦寐以求的终极目标。
知行力1 天前
语言模型·开源·github
【GitHub每日速递 20251205】ByteDance开源verl:灵活高效的大语言模型RL训练库,解锁多项前沿技术!原文: https://mp.weixin.qq.com/s/zV-ZAEDY17DAoKCXRsmqYw
hjs_deeplearning1 天前
服务器·人工智能·python·深度学习·语言模型
应用篇#4:Qwen2视觉语言模型(VLM)的服务器部署pip install "transformers>=4.57.1" "qwen_vl_utils>=0.0.14" pip install "ms-swift>=3.9.1" #modelscope依赖 pip install modelscope #下载模型 modelscope download --model Qwen/Qwen3-VL-2B-Instruct --local_dir /root/Qwen
小陈phd1 天前
人工智能·语言模型·自然语言处理
大模型从入门到精通(一)——大语言模型微调的前沿技术与应用大模型(以 LLaMA-65B 为代表)是参数规模超十亿级的 AI 模型,核心特点是 “大参数 + 大数据训练”: 它通过海量数据(文本、图像等)学习通用规律,能处理复杂任务(如对话、创作、推理); 对比传统模型(如 ResNet50 仅 2500 万参数),大模型参数量(650 亿)和内存需求(780GB)呈指数级增长,代价是更高算力成本,但能实现更强的泛化能力与智能表现。
盼小辉丶1 天前
语言模型·transformer·大语言模型·llama
Transformer实战(29)——大语言模型(Large Language Model,LLM)近年来,大语言模型 (Large Language Model, LLM) 领域取得了显著进展,涌现了诸如 GPT-3 (1750 亿参数)、PaLM (5400 亿参数)、BLOOM (1750 亿参数)、LLaMA (650 亿参数)、Falcon (1800 亿参数)、Mistral (70 亿参数)、DeepSeek (6710 亿参数)等模型,这些模型在各种自然语言任务中展现出优异性能。在本节中,我们将介绍大语言模型,还将介绍如何对大语言模型进行微调。
一只乔哇噻2 天前
java·开发语言·人工智能·学习·语言模型
java后端工程师+AI大模型开发进修ing(研一版‖day60)目录今日总结详细内容java随笔录redis作为分布式锁,是如何实现的呢?AI随探录智能输入法案例数据集
ReinaXue2 天前
图像处理·人工智能·深度学习·计算机视觉·语言模型
跨模态预训练大模型【CLIP】:Contrastive Language–Image Pre-trainingCLIP (Contrastive Language–Image Pre-training) 是由 OpenAI 于 2021 年推出的一种**跨模态(Cross-Modal)**预训练模型,它的出现极大地改变了计算机视觉和自然语言处理的结合方式,并成为了后来所有优秀文生图模型(如 DALL-E 2、Stable Diffusion)的基础。
阿杰学AI2 天前
人工智能·ai·语言模型·自然语言处理·语音识别·asr·自动语音识别
AI核心知识33——大语言模型之ASR(简洁且通俗易懂版)ASR 是 Automatic Speech Recognition(自动语音识别)的缩写。在人工智能和大语言模型的生态系统中,ASR 的角色非常简单明确:它是 AI 的“耳朵”。
懂AI的老郑2 天前
语言模型·架构·transformer
Transformer架构在大语言模型中的优化技术:原理、方法与前沿摘要 Transformer架构已成为现代大语言模型(Large Language Model, LLM)的基石,其强大的序列建模能力彻底改变了自然语言处理领域。然而,随着模型规模指数级增长至数十亿甚至万亿参数,Transformer模型在训练和推理过程中面临着计算复杂度高、内存消耗巨大、训练时间长、推理延迟显著以及对硬件资源要求严苛等严峻挑战。本文旨在系统性地探讨针对Transformer架构,特别是其核心的自注意力机制,所发展出的各类优化技术。我们将深入分析这些技术的原理、代表性方法、优势与局限,并涵
kebijuelun2 天前
人工智能·语言模型·自然语言处理
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language ModelsPaper nameNemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
阿杰学AI2 天前
人工智能·ai·语言模型·自然语言处理·aigc·语音识别·多模态语音
AI核心知识32——大语言模型之多模态语音(简洁且通俗易懂版)多模态语音(Multimodal Voice / Audio) 是指大语言模型不仅能“看懂”文字和图片,还能直接“听懂”声音并“说出”声音的能力。
极客BIM工作室2 天前
人工智能·语言模型·自然语言处理
AI导读AI论文: DeepSeek-V3.2: Pushing the Frontier of Open Large Language ModelsDeepSeek-V3.2是DeepSeek-AI推出的开源大语言模型,核心突破在于通过DeepSeek Sparse Attention (DSA) 机制将长上下文场景下的计算复杂度从O(L2)O(L^2)O(L2)降至O(Lk)O(Lk)O(Lk)(k为选中token数),在保证性能的同时提升计算效率;依托可扩展强化学习(RL)框架(后训练计算量超预训练成本10%),其基础版在推理任务上与GPT-5表现相当,高计算变体DeepSeek-V3.2-Speciale更超越GPT-5,在2025年国际数学奥
莫叫石榴姐2 天前
语言模型·json
如何让大模型更好地理解和处理 JSON 数据?目录引言一、输入层优化:让 JSON 数据 “清晰无歧义”1. 明确 JSON 数据边界2. 清理不规范 JSON 格式
zhangfeng11332 天前
人工智能·搜索引擎·语言模型
suppr.wilddata.cn 文献检索,用中文搜 PubMed 一种基于大语言模型的智能搜索引擎构建方法根据检索结果,专利CN118964589B的详细信息如下:该专利公开了一种基于大语言模型的智能搜索引擎构建方法,包含6个核心步骤,重点优化了查询改写模块和文档重排序模块:
啊吧怪不啊吧2 天前
人工智能·ai·语言模型·ai编程
从数据到智能体大模型——cozeAI大模型开发(第一篇)目录1. 什么叫做coze2. coze的内部构成3. 智能体创建前置知识3.1 智能体agent选择