语言模型

狮子座明仔12 小时前
人工智能·深度学习·语言模型·自然语言处理
MatchTIR:用二分匹配解决LLM工具调用的“吃大锅饭“难题一句话总结:MatchTIR 提出用二分匹配(Hungarian算法/最优传输)来给多轮工具调用中的每一步精确打分,配合双重级优势估计,让4B小模型在复杂工具使用任务上干翻一众8B大模型。
机器学习社区16 小时前
人工智能·语言模型·自然语言处理·面试·职场和发展·面试题
《大模型面试宝典》(2026版) 正式发布!2025年12月11日,OpenAI发布GPT-5.2,这次升级确实挺猛的,核心亮点就是‌更专业、更高效、更可靠‌,直接瞄准了办公、开发这些实际场景。
一碗甜汤ᐝ17 小时前
语言模型·云计算·腾讯云
腾讯云部署bisheng毕昇小白学习记录,如有错误,请大家多多指教。毕昇(Bisheng)是 DataElement 团队开发的开源大模型应用开发平台,专为企业级场景设计。 毕昇基于 Langchain、Langflow 等流行的开源技术栈构建,以中国古代活字印刷术发明人毕昇命名,寓意推动知识和智能应用的广泛传播与高效开发。它是完全开源的项目,允许企业进行二次开发和定制化,免费使用,目标是降低大模型应用的开发门槛,满足企业级需求。 项目文档:https://dataelem.feishu.cn/wiki/ZxW6wZyAJicX4W
打工的小王17 小时前
java·后端·ai·语言模型
Langchain4j(二)RAG知识库当用户把问题发送给AI应用,AI应用会先根据用户的问题从知识库中检索对应的知识片段,得到知识片段后AI应用需要结合用户的问题以及知识库中检索到的知识片段组织要发送给大模型的消息,大模型接收到消息后会同时根据用户的问题、知识库检索到的知识片段以及自身的知识储备,生成对应的结果响应给AI应用,最终再返回给用户。
程序员:钧念18 小时前
开发语言·人工智能·python·机器学习·语言模型·自然语言处理·transformer
【sh脚本与Python脚本的区别】这是一个非常经典且在实际工程中至关重要的问题。简单来说:Shell 是“指挥官”,Python 是“专家”。
程序员老周66619 小时前
人工智能·深度学习·语言模型·大模型·transformer·gpu算力·cuda
10.一文学会GPU与cuda原理,并从其原理来理解FlashAttentioncuda的每个block对应gpu中的每个sm(stream multiprocessor ), cuda的一个block可以分为多个warp,一个warp内有32个线程(在不同的数据上执行相同指令)
网络安全研发随想20 小时前
人工智能·机器学习·语言模型
主流大语言模型(LLM)的后训练技术预训练(Pre-training)后训练(Post-training / Alignment) 这一阶段专门为“让模型变成好用、听话、安全的助手”,典型包括:
老鱼说AI20 小时前
大数据·人工智能·深度学习·神经网络·机器学习·语言模型
论文精读第五期:V-STAR提高复杂推理能力这篇论文《V-STaR: Training Verifiers for Self-Taught Reasoners》发表于COLM 2024,提出了一种名为V-STaR的新方法,旨在通过更高效地利用模型自身生成的数据来提升大型语言模型在复杂推理任务(如数学解题和代码生成)中的性能。
盼小辉丶20 小时前
深度学习·语言模型·transformer
Transformer实战(34)——多语言和跨语言Transformer模型我们已经学习了多种 Transformer 架构,从仅编码器模型到仅解码器模型,从高效 Transformer 到长上下文 Transformer,还学习了基于孪生网络 (Siamese network) 的语义文本表示方法,但这些模型都局限于单语言任务。这些模型仅能理解单一语言,无法对文本进行跨语言的通用理解。事实上,其中一些模型已经有了多语言变体,例如:多语言双向 Transformer 编码器 (multilingual bidirectional encoder representations f
Ma04071321 小时前
论文阅读·人工智能·语言模型
【论文阅读33】-FR-LLM:采用信号到文本编码和自适应优化的用于联合故障诊断和 RUL 预测的多任务大型语言模型题目:FR-LLM: Multi-task large language model with signal-to-text encoding and adaptive optimization for joint fault diagnosis and RUL prediction
Kakaxiii1 天前
人工智能·语言模型·自然语言处理
【2025.8 npj】图检索增强的大型语言模型用于面部表型相关的罕见遗传疾病https://www.nature.com/articles/s41746-025-01955-x?error=cookies_not_supported&code=37605f54-d943-4353-8d5f-0f5253f44b3f#:~:text=In%20diagnostic%20tests%2C%20RAG%20LLMs,latter%20was%20unrecorded%20in%20FPKG
renhongxia12 天前
人工智能·语言模型·自动化
从文本到仿真:多智能体大型语言模型(LLM)自动化化学工艺设计工作流程过程模拟是化工设计的核心基石。当前自动化化工设计方法主要集中于各类流程图的表达形式。然而,将这些图示转化为可执行的模拟流程图,仍是一项耗时费力的任务,需要在模拟软件中进行大量手动参数配置。
Kakaxiii2 天前
人工智能·语言模型·知识图谱
【2024ACL】Mind Map :知识图谱激发大型语言模型中的思维图谱https://aclanthology.org/2024.acl-long.558/#:~:text=challenges%2C%20we%20propose%20a%20novel,LLMs%20and%20KGs%20for%20combined
___波子 Pro Max.2 天前
人工智能·语言模型·自然语言处理
LLM大语言模型定义与核心特征解析LLM 是 “Large Language Model” 的缩写,中文译为“大语言模型”。简单来说:在书面表达中,需要根据语境来区分:
weixin_437497772 天前
人工智能·语言模型
部分LLM小参数模型特征汇总ollama网站模型(主要的 <3b 模型)特征汇总(2026.01采集)
AndrewHZ2 天前
人工智能·语言模型·大模型·cpu·访存·计算逻辑
【AI黑话日日新】什么是访存bound?在后端高性能开发、算法性能调优、大数据处理等场景中,我们总会遇到一个共性问题:明明CPU配置很高,程序运行速度却始终上不去。
狮子座明仔2 天前
人工智能·深度学习·学习·机器学习·语言模型
PRL:让大模型推理不再“开盲盒“——过程奖励学习的理论与实践论文标题: PRL: Process Reward Learning Improves LLMs’ Reasoning Ability and Broadens the Reasoning Boundary 作者: Jiarui Yao, Ruida Wang, Tong Zhang 机构: 伊利诺伊大学厄巴纳-香槟分校 (UIUC) 论文链接: https://arxiv.org/abs/2601.10201
博思云为2 天前
人工智能·语言模型·云原生·数据挖掘·云计算·语音识别·aws
企业级智能PPT生成:Amazon云+AI驱动,全流程自动化提效PPT是企业业务沟通、数据呈现、对外展示的核心载体,但传统制作流程早已成为效率瓶颈:财务熬夜整合财报、市场耗时适配多区域推广、技术跨部门对接数据才能完成汇报……
莱昂纳多迪卡普利奥2 天前
人工智能·语言模型·自然语言处理
LLM学习指南(四)—— 预训练语言模型(PLM)本章围绕Transformer架构衍生的三大主流PLM类型(Encoder-Only、Encoder-Decoder、Decoder-Only)展开,系统讲解各类型代表模型的架构设计、预训练任务、优化方向及发展历程,揭示现代大语言模型(LLM)的技术根基。
Swift社区2 天前
人工智能·深度学习·语言模型
AI赋能智汇高校 - 从零掌握大模型本地部署与微调全流程大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。