语言模型

计算机sci论文精选几秒前
人工智能·深度学习·语言模型·多模态·acl·机器翻译模型
ACL 2024 大模型方向优秀论文:洞察NLP前沿关键突破关注gongzhonghao【计算机sci论文精选】近年来,以Transformer架构为核心的大语言模型重塑了自然语言处理领域的技术范式。当前ACL相关研究呈现多维度深化态势,从开源社区推动轻量化架构与低成本训练技术革新,到学术界探索检索增强等机制突破长尾知识覆盖局限,再到医疗、海洋等垂直领域专用模型开发成为新热点。
__風__5 分钟前
人工智能·python·mysql·语言模型
从本地 Docker 部署的 Dify 中导出知识库内容(1.6版本亲测有效)适用场景:你使用 Docker 在本地部署了 Dify,构建了 QA 知识库,现在想将所有处理好的文本内容导出为 Excel 文件,按原始文档分 Sheet 保存。 系统环境:Windows 宿主机 + Docker 部署 Dify 目标:安全、完整、结构化地导出知识库内容
MUTA️5 小时前
人工智能·深度学习·语言模型·多模态
视觉语言模型在视觉任务上的研究综述论文链接:arxiv.org/pdf/2504.09480摘要——视觉-语言模型(VLM)已在开放词汇(OV)目标检测与分割任务中得到广泛应用。尽管它们在与开放词汇相关的任务中展现出良好的性能,但其在传统视觉任务中的有效性迄今尚未得到系统评估。
大千AI助手7 小时前
人工智能·神经网络·机器学习·语言模型·自然语言处理·mlm·掩码
掩码语言模型(MLM)技术解析:理论基础、演进脉络与应用创新掩码语言模型(Masked Language Modeling, MLM)是一种自监督预训练目标,其核心思想是通过随机掩盖输入序列中的部分词汇,让模型基于上下文预测被掩盖的原始词汇,从而学习语言的深层双向表示。这一机制由Google AI团队在2018年提出的BERT(Bidirectional Encoder Representations from Transformers)模型中首次系统化实现并广泛应用,彻底改变了自然语言处理领域的预训练范式。
ReinaXue16 小时前
人工智能·神经网络·语言模型·transformer·语音识别·迁移学习·audiolm
大模型【进阶】(四)QWen模型架构的解读Qwen(通义千问)是阿里巴巴云开发的大型语言模型(LLM)和多模态模型系列,旨在提供强大的自然语言理解、文本生成、图像理解、音频处理及工具使用能力。
缘友一世17 小时前
语言模型·langchain·大模型·llm·langgraph
LangGraph智能体(天气和新闻助手)开发与部署
木鱼时刻1 天前
人工智能·机器学习·语言模型
李宏毅2025《机器学习》-第九讲:大型语言模型评测的困境与“古德哈特定律”**摘要: 随着大型语言模型(LLM)的推理能力日益增强,如何公平、准确地评测其“智力”水平,成了一个极其棘手的问题。本文基于李宏毅教授的最新课程,深入探讨了当前LLM评测面临的困境。文章首先揭示了标准数学和编程测试背后可能存在的“数据污染”问题,即模型可能是在“背答案”而非真正地推理。随后,文章考察了两种试图规避此问题的先进评测方案:以抽象智力测验为核心的ARC-AGI,以及以全民投票为机制的Chatbot Arena。然而,即便是这些方案,也分别面临着被“应试技巧”攻破和被“人类风格偏好”干扰的风险。最终
三道杠卷胡1 天前
人工智能·python·计算机视觉·语言模型·aigc
【AI News | 20250729】每日AI进展1、500-AI-Agents-Projects 该资料库精选并收录了500多个跨行业AI Agent用例,展示了AI代理在医疗、金融、教育等领域的实际应用,并提供了开源项目链接供参考实现。它详尽罗列了基于CrewAI、AutoGen、Agno和Langgraph等主流框架的AI Agent应用,涵盖了从邮件自动化、市场分析到代码生成、供应链优化等广泛场景。无论是开发者、研究者还是商业爱好者,该资源库都是获取AI Agent灵感和学习的理想之选,旨在推动AI代理技术的实际落地和行业转型。
懂得节能嘛.1 天前
java·人工智能·语言模型
【LangChain4j 详解】Java生态大语言模型框架设计哲学与架构原理一、框架设计理念与核心定位1.1 诞生背景与技术诉求1.2 核心设计哲学二、技术架构纵深解析2.1 双层级 API 设计
真实的菜1 天前
人工智能·语言模型·自然语言处理
大语言模型(LLM):重塑AI未来的技术革命🚀 引言:从GPT的突破性创新到ChatGPT的现象级应用,大语言模型正在重新定义人工智能的边界。本文将深入解析LLM的核心技术架构、演进历程以及未来发展趋势。
Sherlock Ma1 天前
人工智能·计算机视觉·语言模型·机器人·大模型·aigc·具身智能
字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)GR-3 是一个大规模的视觉 - 语言 - 动作(VLA)模型。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外,GR-3 支持少量人类轨迹数据的高效微调,可快速且经济地适应新任务。GR-3 在处理长周期和灵巧性任务(包括需要双手操作和底盘移动的任务)上也展现出稳健且可靠的性能。
sonrisa_1 天前
人工智能·语言模型·自然语言处理
大语言模型API付费?下面是目前主流 大语言模型 API 的付费情况总览:GPT-4o 单次调用价格(截至 2025):$0.005-$0.01 / 1K tokens
wa的一声哭了1 天前
开发语言·jvm·人工智能·python·机器学习·语言模型·自然语言处理
Python多进程并行multiprocess基础python中多进程编程可以通过内联的模块multiprocess实现。multiprocess模块是用于并行处理任务的工具,通过创建多个独立的进程(process)可以避开Cpython的全局解释器锁(GIL),适合于CPU密集型任务。
之墨_2 天前
语言模型·架构·transformer
【大语言模型入门】—— Transformer 如何工作:Transformer 架构的详细探索翻译:《How Transformers Work: A Detailed Exploration of Transformer Architecture》
Jay Kay2 天前
人工智能·笔记·语言模型
从0到1理解大语言模型:读《大语言模型:从理论到实践(第2版)》笔记——读《大语言模型:从理论到实践(第2版)》笔记如果你只有 30 分钟,又想快速搞懂“大语言模型到底怎么炼成的”,这篇文章就是为你准备的。 我提炼了官方 400 页巨著的前 3 章,用中文讲人话,帮你把“概念 → 结构 → 数据”一次性串起来。
生信宝典2 天前
人工智能·语言模型·自然语言处理
通用温度感知语言模型用于设计具备增强稳定性和活性的蛋白质设计兼具高稳定性和高活性的蛋白质突变体是蛋白质工程中关键而富有挑战的任务。本文提出的深度学习模型PRIME无需特定蛋白的预实验突变数据,即可设计出稳定性与活性提升的蛋白质突变体。基于温度感知语言建模技术,PRIME在涵盖283套蛋白质检测实验的公共突变数据集上展现出超越现有最优模型的预测能力。通过对五种蛋白质的验证,我们评估了PRIME推荐的30至45个单点突变对多种蛋白特性的影响,包括热稳定性、抗原-抗体结合亲和力、非天然核酸聚合能力及极端碱性耐受性。所有测试蛋白质中,超过30%的PRIME推荐突变体在
SugarPPig2 天前
人工智能·语言模型·自然语言处理
“非参数化”大语言模型与RAG的关系?这个问题触及了一个关键的技术细节,两者关系密切,但层面不同:“非参数化”大语言模型是一个更广泛的概念或类别,而RAG(Retrieval-Augmented Generation)是实现这一概念最主流、最具体的一种技术框架。
墨尘游子3 天前
人工智能·语言模型·自然语言处理
11-大语言模型—Transformer 盖楼,BERT 装修,RoBERTa 直接 “拎包入住”|预训练白话指南目录1、先理清关系:Transformer、BERT、RoBERTa 是啥?2、RoBERTa 和 BERT、Transformer 的关键区别
金井PRATHAMA3 天前
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·知识图谱
主要分布于内侧内嗅皮层的层Ⅲ的网格-速度联合细胞(Grid × Speed Conjunctive Cells)对NLP中的深层语义分析的积极影响和启示网格-速度联合细胞(Grid × Speed Conjunctive Cells)主要分布于内侧内嗅皮层(MEC)层Ⅲ,通过整合空间位置(网格编码)与运动速度信息,形成动态路径整合能力。这一神经机制为自然语言处理(NLP)中的深层语义分析提供了以下关键启示与技术突破方向:
vibag3 天前
人工智能·python·语言模型·自然语言处理
LLM大语言模型大语言模型LLM( Large Language Model)是基于深度学习构建的自然语言处理工具,通过在海量的文本数据进行训练,能够理解和生成人类语言。 大语言模型的应用广泛,LLM可以用于文本生成,可以生成连贯的段落、文章、对话等,因此可应用于自动写作、机器翻译等实际任务,在问答场景中,它能够应对复杂问题的解答,甚至支持对话式交互,在语义处理领域,它可实现情感倾向分析、命名实体识别、文本类别划分等推理类任务。除此之外,智能助手交互、机器人对话系统、文本自动摘要、关键信息提取等场景,也能借助大语言模型提