语言模型

Yuer202513 分钟前
人工智能·机器学习·语言模型·ai安全·edca os
低熵回答倾向:语言模型中的一种系统稳定态在当前主流的大模型系统中,存在一个几乎不可避免、却长期被误解的现象:当系统缺乏明确的裁决结构、责任边界与失败定义时,语言模型会系统性地将输出收敛到低信息密度区。
大厂技术总监下海24 分钟前
语言模型·金融·开源·bert
市场情绪如何量化?FinBERT给出答案:将金融文本转化为情感得分1.1 项目概要FinBERT 是一个针对金融文本情感分析任务进行领域自适应(Domain Adaptation)的预训练语言模型。项目由 Prosus AI 团队的研究人员发布,其核心贡献在于证明了在特定领域(金融)语料上对通用 BERT 模型进行中间阶段训练(Further Pre-training),再在特定任务(情感分类)上微调的有效性。
Study9961 小时前
人工智能·ai·语言模型·自然语言处理·大模型·llm·agent
大语言模型的详解与训练随着2022年底 ChatGPT 再一次刷新 NLP 的能力上限,大语言模型(Large Language Model,LLM)开始接替传统的预训练语言模型(Pre-trained Language Model,PLM) 成为 NLP 的主流方向,基于 LLM 的全新研究范式也正在刷新被 BERT 发扬光大的预训练-微调范式,NLP 由此迎来又一次翻天覆地的变化。从2022年底至今,LLM 能力上限不断刷新,通用基座大模型数量指数级上升,基于 LLM 的概念、应用也是日新月异,预示着大模型时代的到来。
闲看云起1 小时前
人工智能·语言模型·nlp
大模型注意力机制进化史:从全局到稀疏,从标准到线性、滑动窗口、MQA……更新时间:2026年1月12日如果你关注大模型(LLM)的发展,一定听过这些术语:而这些突破的背后,往往离不开一个核心组件的革新——注意力机制(Attention Mechanism)。
lkbhua莱克瓦242 小时前
人工智能·语言模型·自然语言处理
大语言模型的非技术漫游指南当你在深夜向某个聊天框输入一个问题,并在一秒后得到一段流畅、准确、仿佛带着思考温度的文字回复时——你正站在人类文明史的一个奇点边缘。而这一切的核心,正是大语言模型。
Watermelo6172 小时前
数据结构·人工智能·语言模型·自然语言处理·数据挖掘·数据分析·json
探究TOON的价值边界:比JSON更优的大模型友好数据格式?目录探究TOON的价值边界:比JSON更优的大模型友好数据格式?一、TOON 的适用边界1、哪些情况不适用 TOON?
laplace01233 小时前
人工智能·语言模型·自然语言处理·agent·rag
agent模型基础语言模型 (Language Model, LM) 是自然语言处理的核心,其根本任务是计算一个词序列(即一个句子)出现的概率。一个好的语言模型能够告诉我们什么样的句子是通顺的、自然的 (1)统计语言模型与N-gram的思想 ![[Pasted image 20260111214303.png]] 为了解决这个问题,研究者引入了马尔可夫假设 (Markov Assumption) 。其核心思想是:我们不必回溯一个词的全部历史,可以近似地认为,一个词的出现概率只与它前面有限的 𝑛−1词有关,如图3.1所示。
霍格沃兹软件测试开发3 小时前
microsoft·语言模型·自动化
大语言模型提示词工程教程:实现自动化工具推理@openai: 函数调用为 OpenAI 模型提供了一种强大而灵活的方式,可以与您的代码或外部服务进行交互。通过函数调用,您可以向 Assistant 描述函数,并让其智能地返回需要调用的函数及其参数。@openai
m0_603888714 小时前
人工智能·ai·语言模型·自然语言处理·论文速览
Over-Searching in Search-Augmented Large Language ModelsAuthors: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
狮子座明仔4 小时前
人工智能·gpt·语言模型·自然语言处理
GDPO:英伟达提出多奖励强化学习的“解耦归一化“策略,解决GRPO的优势崩溃问题一句话总结:NVIDIA 提出 GDPO(Group reward-Decoupled Normalization Policy Optimization),通过对每个奖励信号单独进行组内归一化后再聚合,解决了 GRPO 在多奖励场景下的"优势崩溃"问题,在工具调用、数学推理、代码推理三大任务上全面超越 GRPO。
rgb2gray4 小时前
大数据·人工智能·机器学习·语言模型·自然语言处理·数据分析·可解释
论文深度解析:基于大语言模型的城市公园多维度感知解码与公平性提升原文:Beyond sentiment: Using large language models to decode multidimensional urban park perceptions for enhanced equality
huazi-J6 小时前
语言模型·大模型·tokenizer·datawhale
Datawhale 大模型基础与量化微调 task0:Tokenizer假设一个分词路径由一个词语序列组成,将其表示为 w 1 , w 2 , . . . , w n w_1, w_2, ..., w_n w1,w2,...,wn,其中 w i w_i wi 代表序列中的第 i 个词。那么这条路径的概率可以近似为:
实战项目16 小时前
人工智能·语言模型·自然语言处理
大语言模型幻觉抑制方法的研究与实现随着人工智能技术的迅猛发展,大语言模型(Large Language Models,LLMs)在自然语言处理领域展现出巨大的潜力。LLMs能够生成高质量的文本内容,广泛应用于信息检索、机器翻译、文本摘要、问答系统等多个领域。然而,LLMs在文本生成过程中容易产生幻觉,即生成与事实不符的内容,这严重影响了模型的可信度和实用性。
闲看云起20 小时前
人工智能·语言模型·ai编程
大模型应用开发框架全景图更新时间:2026年1月7日随着大模型(LLM)能力的爆发,“如何高效构建 AI 应用” 成为开发者最关心的问题。 你是否也面对过这些困惑:
PeterClerk21 小时前
人工智能·深度学习·机器学习·语言模型·自然语言处理
RAG 评估入门:Recall@k、MRR、nDCG、Faithfulness适用场景:企业知识库问答 / 课程资料问答 / 文档助手 / 内部制度查询 / 产品手册助手 目标:把“感觉还行”的 RAG,变成“可量化、可对比、可迭代”的 RAG。
laplace01231 天前
人工智能·语言模型·自然语言处理·agent·rag
第三章 大语言模型基础核心问题:现代智能体是如何工作的? 核心答案:以 Transformer / Decoder-Only 架构为核心,通过大规模预训练 + 自回归生成 + 提示工程实现。
Nile1 天前
语言模型·agent·ai编程
OpenSpec技术规范+实例应用不谈玄学,只讲落地。 我是一名深耕算法工程化一线的实践者,擅长将 新技术、关键技术、AI/ML 技术从论文和 demo 转化为可规模化部署的生产系统。在这里,你看不到堆砌公式的理论空谈,只有真实项目中踩过的坑、趟过的路,每一篇文章都源自实战经验的提炼。我相信技术的价值在于解决真实问题,而不是制造焦虑。如果你也厌倦了"收藏即学会",渴望掌握让算法真正跑起来的硬核能力,那么这里就是你的技术补给站。
Aaron_9451 天前
人工智能·语言模型·自然语言处理
BitNet:1-bit大语言模型的高效推理框架详解在人工智能领域,大语言模型(LLMs)如GPT系列的发展已经彻底改变了自然语言处理的面貌。然而,传统LLMs通常需要巨大的计算资源和存储空间,这限制了它们在资源受限环境(如移动设备或边缘计算)中的应用。为了应对这一挑战,1-bit量化技术应运而生,它通过将模型权重大幅压缩到极低比特数(如1.58比特),显著降低了模型大小和推理成本。微软推出的BitNet正是这一趋势下的重要成果,它是官方推出的1-bit LLMs推理框架,专为高效运行BitNet b1.58等模型而设计。BitNet不仅基于成熟的llam
gravity_w2 天前
人工智能·经验分享·笔记·深度学习·语言模型·nlp
Hugging Face使用指南在~/.bashrc中添加下述内容,将huggingface换成国内镜像,重新打开终端,这样每次都会指向镜像站
余俊晖2 天前
人工智能·语言模型·自然语言处理
多页文档理解强化学习设计思路:DocR1奖励函数设计与数据构建思路传统GRPO适用于单图/单页任务,无法解决多页文档的两大关键问题:1、需从多页中筛选少量相关证据页;2、需平衡证据检索与答案生成的可靠性。EviGRPO是基于GRPO改进的强化学习框架,专门针对多页文档理解优化——先全局理解文档并定位相关证据页,再基于证据页细粒度推理生成答案,而非直接生成结果。