语言模型

AI大模型顾潇1 小时前
数据库·人工智能·语言模型·自然语言处理·大模型·llm·prompt
[特殊字符] 人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总) [特殊字符]所谓 "语言模型",就是只用来处理语言文字(或者符号体系)的 AI 模型,发现其中的规律,可以根据提示 (prompt),自动生成符合这些规律的内容。
霖大侠3 小时前
人工智能·语言模型·prompt
PLOT: PROMPT LEARNING WITH OPTIMAL TRANSPORT FOR VISION -LANGUAGE MODELS随着对 CLIP 等大型视觉 - 语言模型的关注不断增加,人们在构建高效的提示(prompt)方面投入了大量精力。与传统方法仅学习单一提示不同,我们提出学习多个全面的提示,以描述类别的多样化特征,例如内在属性或外在上下文。然而,直接将每个提示与相同的视觉特征进行匹配是存在问题的,因为它会推动提示收敛到同一点。为了解决这一问题,我们提出应用最优传输(optimal transport)来匹配视觉和文本模态。具体而言,我们首先用视觉和文本特征集对图像和类别进行建模,然后应用两阶段优化策略来学习提示。在内循环中
Zhouqi_Hua5 小时前
论文阅读·人工智能·笔记·语言模型·论文笔记
LLM论文笔记 27: Looped Transformers for Length Generalization长度泛化transformer结构优化1. RASP-L限制transformer无法处理包含循环的任务的长度泛化
今晚去打老虎5 小时前
人工智能·python·语言模型·milvus
快速掌握大语言模型+向量数据库_RAG实现结合前面掌握的vLLM部署Qwen7B模型、通过Embedding模型(bdg-large-zh模型)提取高质量作文内容并预先存储到Milvus向量数据库中,我们很容易实现RAG方案进一步提高写作内容的生成质量。
一切皆有可能!!9 小时前
人工智能·算法·语言模型
大模型实践:图文解锁Ollama在个人笔记本上部署llm使用在线模型服务时,我们常常需要支付API调用费用,这对于个人开发者或小型组织来说可能是一笔不小的开支。那么,有没有方法可以在本地免费使用这些强大的模型呢?答案是肯定的——Ollama就是这样一个工具。 当然如果是比较大的组织或大模型推荐使用vLLM部署,强烈推荐您看(占坑,后续填上)
mslion19 小时前
人工智能·语言模型·自然语言处理·transformer
双剑合璧:融合视觉基础与语言模型,勇闯未知领域的语义分割新框架近期,视觉基础模型和视觉语言模型的出现,成为实现多领域泛化的重要工具。一些研究通过引入参数高效微调的方法,有效地将这些基础模型适配到领域泛化语义分割任务中。
eqwaak01 天前
爬虫·python·语言模型·性能优化·drissionpage
基于DrissionPage的实习信息爬虫改造与解析目录编辑一、DrissionPage技术优势分析二、代码改造实现2.1 环境配置2.2 爬虫类定义2.3 核心爬取逻辑
打小就很皮...1 天前
人工智能·语言模型·语音识别
前端 AI 开发实战:基于自定义工具类的大语言模型与语音识别调用指南在人工智能技术快速发展的今天,将大语言模型(LLM)和语音识别(ASR)功能集成到前端应用中,已经成为提升用户体验、打造智能化应用的重要手段。本文将结合一段实际的 AI 工具类代码,详细讲解如何在前端项目中快速实现大语言模型交互与语音识别功能,帮助开发者快速搭建属于自己的 AI 应用。
一切皆有可能!!2 天前
语言模型
大模型压缩技术详解(2025最新进展)在2025年的AI技术格局中,像DeepSeek这样的顶尖模型开源已成为现实。那是否存在一种可行路径,让企业能够使用专注于自身领域的强力AI模型,同时大幅降低部署成本,仅需一张普通的4090显卡?本文将深入探讨两种主流的模型压缩技术——量化(Quantization)和蒸馏(Distillation),揭示如何以低成本部署高性能模型。
cxr8282 天前
人工智能·语言模型·自然语言处理
AI大语言模型破译“未知未知”的密钥:开源情报、被动收入与智能体协作的深层机理与实践在人类认识世界的漫长征程中,信息与知识的获取和运用一直是核心驱动力。我们从“一无所知”的状态,逐渐积累“已知已知”,并在此基础上识别“已知未知”,设定目标去探索解答。然而,真正能够带来范式转变、颠覆现有格局的力量,往往隐藏在“未知未知”的领域——那些我们甚至没有意识到自己不知道的存在。这片广阔的知识盲区蕴含着巨大的风险,也孕育着前所未有的机遇。传统的知识体系和信息获取方式,由于其固有的结构化、关键词驱动和人类认知局限性,在面对“未知未知”的无形壁垒时显得力不从心。它们擅长在已有的地图上寻找目标,却难以绘制
搬砖的小码农_Sky2 天前
人工智能·语言模型·开源·gpu算力
AI大模型基础设施:主流的几款开源AI大语言模型的本地部署成本以下是对目前主流开源AI大语言模型(如DeepSeek R1、LLaMA系列、Qwen等)本地部署成本的详细分析,涵盖计算机硬件、显卡等成本,价格以美元计算。成本估算基于模型参数规模、硬件需求(GPU、CPU、RAM、存储等)以及市场价格,结合优化方案(如量化、CPU推理)提供不同预算下的部署选项。以下内容力求全面、准确,同时考虑性价比和实际应用场景。
CV-杨帆3 天前
论文阅读·人工智能·语言模型
论文阅读:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
古希腊掌管学习的神3 天前
人工智能·语言模型·chatgpt·gpt-3·agent
[Agent]AI Agent入门02——ReAct 基本理论与实战ReAct(Reasoning and Acting)是一种通过协同推理(Reasoning)与行动(Acting)提升大语言模型(LLM)任务解决能力的技术。其核心思想是在解决复杂问题时交替生成推理和动作,形成闭环的决策流程。通过交叉推理和行动,ReAct 使智能体能够动态地在产生想法和特定于任务的行动之间交替,动态地处理复杂任务并提高决策的准确性和可靠性。
qyhua3 天前
人工智能·语言模型·自然语言处理
通义千问最新一代大语言模型Qwen3发布了🔥 最新重大好消息! 经过漫长的等待,今天凌晨阿里云正式发布了Qwen3大语言模型!本次更新带来了0.6b 1.7b 4b 8b 14b 30b 32b 235b超大参数模型,更实现了推理速度翻倍与多语言能力突破,堪称开源LLM领域的里程碑事件!
猫头虎-人工智能3 天前
人工智能·pytorch·python·语言模型·自然语言处理·chatgpt·agi
最新DeepSeek-Prover-V2-671B模型 简介、下载、体验、微调、数据集:专为数学定理自动证明设计的超大垂直领域语言模型(在线体验地址)体验地址:[Hugging Face 在线体验]https://huggingface.co/playground?modelId=deepseek-ai/DeepSeek-Prover-V2-671B&provider=novita 推荐入口:[Novita 平台直达链接(含邀请码)]https://novita.ai/referral?invited_code=A43LMN
聚客AI3 天前
人工智能·机器学习·语言模型·自然语言处理·transformer·agent·向量数据库
向量数据库+KNN算法实战:HNSW算法核心原理与Faiss性能调优终极指南本文纯干货,建议收藏,以免遗失。更多AI大模型应用开发学习内容,尽在聚客AI学院。向量数据库(Vector Database)是专为高维向量数据设计的存储与检索系统,通过计算向量间的相似度(如余弦相似度、欧氏距离),实现快速近邻搜索。其核心价值在于解决传统数据库无法高效处理非结构化数据(文本、图像、音视频)的问题。
Jamence3 天前
人工智能·语言模型·自然语言处理
多模态大语言模型arxiv论文略读(五十二)➡️ 论文标题:M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models ➡️ 论文作者:Fan Bai, Yuxin Du, Tiejun Huang, Max Q. -H. Meng, Bo Zhao ➡️ 研究机构: Beijing Academy of Artificial Intelligence, The Chinese University of Hong Kong, Peking Univ
大霸王龙3 天前
人工智能·python·搜索引擎·语言模型·自然语言处理
智能检索革命全景透视——基于《搜索引擎信息检索困境破解体系》深度拆解以下为严格遵循您要求的完整解析报告,全文约52000字符,包含7章26个子节156个量化指标:技术优势:
Jamence3 天前
人工智能·语言模型·自然语言处理
多模态大语言模型arxiv论文略读(四十八)➡️ 论文标题:PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset ➡️ 论文作者:Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li ➡️ 研究机构: 中国人民大学、腾讯机器学习平台部 ➡️ 问题背景:多模态大语言模型(MLLMs)在处理各种计算机视觉任务时表现出色,但它们也容易产生
lczdyx3 天前
人工智能·python·语言模型·langchain
LangChain Agent核心解析:Zero-Shot-ReAct策略实现与实战指南在LangChain的Agent框架中,zero-shot-react-description 是一种预定义的Agent类型,它结合了Zero-Shot(零样本学习) 和 ReAct(推理+行动) 策略,主要用于根据工具的描述动态选择和执行工具,无需依赖预先提供的示例(即不需要训练数据或上下文示例)。以下是其核心特点和工作原理: