语言模型

SmartBrain1 天前
人工智能·语言模型·架构
DeerFlow 实践:华为IPD流程的评审智能体设计目录一、项目背景与目标二、IPD 流程关键评审点与 TR 点解析(一)4 个关键评审点(二)6 个 TR 点
JoannaJuanCV1 天前
人工智能·语言模型·transformer
大语言模型基石:Transformer如今火爆的 GPT、LLaMA、通义千问、ChatGLM 等大语言模型,背后都离不开一个核心架构——Transformer。
大千AI助手1 天前
人工智能·语言模型·自然语言处理·llm·模型评估·truthfulqa·事实性基准
TruthfulQA:衡量语言模型真实性的基准本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
张较瘦_1 天前
论文阅读·人工智能·语言模型
[论文阅读] 人工智能 + 软件工程 | 大语言模型驱动的多来源漏洞影响库识别研究解析为解决现有漏洞影响库识别方法仅聚焦NVD英文报告、忽略中文来源及不同包管理器差异的问题,徐近伟等人提出基于Qwen1.5-14B大语言模型的多来源识别方法:先从CNNVD(中文)和NVD(英文)抽取漏洞信息实现输入增强,再通过Alpaca模板+LoRA技术微调模型,最后用文本相似度算法消除幻觉;实验以9260份中/英文报告为数据集,结果显示该方法较基线在中文、英文报告F1分别提升4%和8%,中/英文互补时F1达0.85,在PyPI、Composer等多数包管理器上表现优异,同时公开标注数据集以支持后续研究
什么都想学的阿超1 天前
人工智能·语言模型·自然语言处理
【大语言模型 58】分布式文件系统:训练数据高效存储关键词:分布式文件系统、HDFS、Lustre、GlusterFS、数据本地性、I/O优化、存储架构、大数据存储、训练数据管理、存储性能调优
J_Xiong01172 天前
人工智能·语言模型·自然语言处理
【VLMs篇】07:Open-Qwen2VL:在学术资源上对完全开放的多模态大语言模型进行计算高效的预训练该论文的实现流程可以分解为数据准备、模型训练和评估三个核心阶段。输入 (Input):流转逻辑和数据流程 (Processing Logic & Data Flow):
艾醒(AiXing-w)2 天前
linux·人工智能·语言模型
探索大语言模型(LLM):Ollama快速安装部署及使用(含Linux环境下离线安装)Ollama 是一个开源的本地化大模型运行平台,支持用户直接在个人计算机上部署、管理和交互大型语言模型(LLMs),无需依赖云端服务。而且其混合推理的特性也使得CPU和GPU的算力能够充分被使用,能够在同等配置下跑更大的模型,是非常适合个人学习使用的平台。本篇将详细介绍Ollama在各种平台上的详细安装过程以及应用。
这张生成的图像能检测吗2 天前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型
(综述)视觉任务的视觉语言模型论文题目:Vision-Language Models for Vision Tasks: A Survey(视觉任务的视觉语言模型:综述)
semantist@语校2 天前
大数据·数据库·人工智能·百度·语言模型·矩阵·prompt
第二十篇|SAMU教育学院的教育数据剖析:制度阈值、能力矩阵与升学网络系列延续:500所日本语言学校结构数据工程 关键词:SAMU教育学院、新宿百人町、合规阈值建模、JLPT/EJU能力矩阵、升学路径网络
fanstuck2 天前
人工智能·语言模型·自然语言处理·nlp·prompt
Prompt提示工程上手指南(六):AI避免“幻觉”(Hallucination)策略下的Prompt这是本系列的第六篇文章,在这篇中我们需要了解并处理语言模型最为棘手的问题,也就是AI"幻觉”(Hallucination)问题。在大型语言模型和聊天机器人的世界里,"幻觉"现象指的是这些智能系统有时会基于给定的提示,创造出并不存在的信息或事实。简而言之,就是这些先进的AI在对话过程中可能会偶尔"脱轨",提供与问题无关的回答,或者讲述一些与现实不符的内容。这种现象反映了AI在理解和生成语言时,尽管它们通常表现出色,但有时仍会犯错或产生与期望不符的输出。
eqwaak02 天前
python·tcp/ip·3d·语言模型·matplotlib
Matplotlib 动画显示进阶:交互式控制、3D 动画与未来趋势在上一篇文章中,我们深入探讨了 Matplotlib 动画显示的核心技术、应用场景及未来趋势,涵盖了 FuncAnimation 和 ArtistAnimation 的基础应用。然而,随着数据可视化需求的日益复杂,交互式动画、3D 动态、实时渲染优化等高级技术逐渐成为科研和工程领域的刚需。本文将延续前文的技术深度,聚焦以下三个方向:
Orange_sparkle2 天前
人工智能·深度学习·语言模型·chatgpt
解决Dify中接入xinference模型无法开关思考模式和使用function calling的问题不知道大家有没有发现使用xinference作为模型供应商时,是没有是否启用思考模式的开关的。比如在调用qwen3时,使用xinference就不显示开关,而qwen官方api调用是可以显示的。
SmartBrain3 天前
人工智能·语言模型
DeerFlow实践:华为ITR流程的评审智能体设计目录一、ITR 流程关键点解析二、智能体设计总体架构(一)技术服务请求评审智能体(二)非技术问题评审智能体
亚里随笔3 天前
人工智能·语言模型·自然语言处理·llm·rlhf·agentic
小型语言模型:智能体AI的未来?本文解读NVIDIA研究团队论文,颠覆“越大越好”的语言模型认知,论证小型语言模型(SLMs)在智能体AI(Agentic AI)中的性能、经济性与适配性优势,结合案例与迁移算法,为Agentic系统低成本部署提供思路,回应行业对LLM依赖的惯性挑战。
mit6.8243 天前
人工智能·语言模型·代码复审
[code-review] AI聊天接口 | 语言模型通信器欢迎回来在第3章:部署配置(托管策略)中,我们学习了ChatGPT-CodeReview机器人如何接收来自GitHub的消息
SmartBrain3 天前
华为·语言模型
DeerFlow实践:华为LTC流程的评审智能体设计目录一、机制设计核心逻辑二、4 个评审点智能体机制详解(一)立项决策(ATI)智能体机制1. 知识调用与匹配
盼小辉丶3 天前
深度学习·语言模型·回归·transformer
Transformer实战(18)——微调Transformer语言模型进行回归分析在自然语言处理领域中,预训练 Transformer 模型不仅能胜任离散类别预测,也可用于连续数值回归任务。本节介绍了如何将 DistilBert 转变为回归模型,为模型赋予预测连续相似度分值的能力。我们以 GLUE 基准中的语义文本相似度 (STS-B) 数据集为例,详细介绍配置 DistilBertConfig、加载数据集、分词并构建 TrainingArguments,并定义 Pearson/Spearman 相关系数等回归指标。
程序员ken3 天前
人工智能·语言模型·自然语言处理
深入理解大语言模型(5)-关于token到目前为止对 LLM 的描述中,我们将其描述为一次预测一个单词,但实际上还有一个更重要的技术细节。即 LLM 实际上并不是重复预测下一个单词,而是重复预测下一个 token 。对于一个句子,语言模型会
FunTester3 天前
人工智能·语言模型·编程·vibecoding
拥抱直觉与创造力:走进VibeCoding的新世界在传统观念里,编程是一项高度理性、逻辑严密的活动,开发者需要像建筑师一样,用代码一行行地精确构建数字世界。然而,随着人工智能技术的飞速发展,一种全新的编程理念和体验正在兴起——它就是 VibeCoding(氛围编码)。它不仅仅是一种工具,更是一种哲学,旨在重塑人与机器之间的创造性合作关系。
eqwaak03 天前
大数据·开发语言·人工智能·华为·语言模型
科技信息差(9.13)从SK海力士的HBM4内存量产就绪,到拓斯达首款人形机器人在工业场景落地,再到华工科技打破国外垄断的光电互联产品,2025年9月13日这一天,全球科技公司呈现了一幅人工智能与硬件创新相互促进的壮阔画卷。