语言模型

玄同76511 小时前
人工智能·python·语言模型·自然语言处理·llm·nlp·prompt
Python 真零基础入门:从 “什么是编程” 到 LLM Prompt 模板生成你可能听过 “编程”“代码”,但不知道它们到底是什么 —— 其实编程就是「人类用计算机能懂的 “极简语言”,给计算机写 “任务清单”」。
凌乱风雨121111 小时前
人工智能·语言模型
使用Vite+ Lit 构建webcomponent 组件创建一个新的 Vite 项目并选择适合的模板(如 vanilla 或 vanilla-ts)。运行以下命令:
独孤--蝴蝶15 小时前
人工智能·语言模型·自然语言处理
AI人工智能-大语言模型的神秘力量ICL(下)-第十一周(小白)ICL:In-context Learning(上下文学习),其核心是大语言模型(LLM)的一种“特殊能”——无需更新模型参数(不用Fine-tune),仅通过“任务描述+少量示例”的上下文提示,就能完成任务。
zhangfeng113316 小时前
学习·语言模型·pdf
大语言模型llm学习路线电子书 PDF、开源项目、数据集、视频课程、面试题、工具镜像汇总成一张「一键下载清单」收到!下面把“大模型学习路线”重新梳理成一张「可直接照抄的 14 周行动表」,并把所有提到的电子书 PDF、开源项目、数据集、视频课程、面试题、工具镜像汇总成一张「一键下载清单」。 两部分内容都按“先跑通→再深入→最后面试/落地”的节奏排好,你可以直接 Ctrl+C/Ctrl+V 开始执行,也可以按需取用。
LeeZhao@17 小时前
人工智能·深度学习·机器学习·语言模型·agi
2025年-波澜壮阔的AI大模型科技盛宴目录一、前序:从“智能涌现”到“深度融入”的变革之年二、技术突破:从规模竞赛到范式创新1 可验证奖励强化学习(RLVR)引领推理新浪潮
前端程序猿之路17 小时前
人工智能·python·语言模型·云原生·eureka·ai编程·改行学it
AI大模型应用开发之容器化部署专门为新手设计的「容器化部署 + AI 服务落地」完整指南搞懂 Docker 在干什么 → 会写 Dockerfile → 会用 Docker Compose 编排 → 知道 K8s 在什么时候该用 → 能把 RAG + Agent 跑成一个“像样的服务”
deephub17 小时前
人工智能·python·语言模型·大语言模型
dLLM:复用自回归模型权重快速训练扩散语言模型大语言模型的文本生成方式一直都是以自回归为主:一个token接一个token,从左往右,生成完就定了。
深圳佛手18 小时前
语言模型·ai编程
国内外开源与闭源大模型清单国内外开源与闭源大模型清单国外开源LLaMA 3.x(Meta):通用基座,覆盖多尺寸,生态完善。Mixtral 8x7B / Mixtral 22B(Mistral AI):MoE 架构,高效推理。
thinkerCoder1 天前
人工智能·语言模型·自然语言处理
SmoothQuant:一种用于大型语言模型的准确高效的训练后量化方法LLMs量化的主要难点:激活值(activations)中存在持续性的异常值(outliers),使得激活值难以精确量化。虽然per-channel activation quantization(每个通道独立量化)可以有效解决这个问题,但它无法在硬件上高效实现,因为硬件加速的GEMM内核要求缩放只能沿矩阵乘法的外维度进行(即激活的token维度T和权重的输出通道维度Co)。
万事可爱^1 天前
人工智能·深度学习·语言模型·gitcode·本地部署·昇腾npu
GitCode+昇腾部署Rnj-1模型实践教程GitCode Notebook是GitCode平台推出的云端交互式开发环境,对标Google Colab,为开发者提供了免本地配置的算力资源和一站式开发体验。其核心优势体现在三个方面:
哈__1 天前
人工智能·语言模型·自然语言处理·gitcode·sglang
实测VLM:昇腾平台上的视觉语言模型测评与优化实践资源与支持:随着多模态大模型的快速发展,视觉语言模型在图像理解、视觉问答、文档分析等场景中的应用日益广泛。vlm-ascend作为专门为昇腾平台优化的视觉语言模型推理框架,旨在充分发挥昇腾硬件的计算潜力。本次性能测评聚焦于经过深度优化的vlm-ascend框架,评估其在昇腾Atlas 800T服务器平台上的实际表现。
海森大数据1 天前
人工智能·语言模型
数据筛选新范式:以质胜量,揭开大模型后训练黑箱在大模型技术高速发展的今天,后训练阶段——包括监督微调(SFT)和强化学习——已被公认是模型性能“最后一公里”的关键。然而,一个突出的矛盾在于:决定顶尖模型能力的关键后训练数据集,其构成往往如同“黑箱”,缺乏透明度与系统分析。这导致研究社区难以洞悉,究竟哪些数据样本、任务类型或筛选策略真正驱动了下游性能的提升。近期一项针对两大主流开源SFT数据集(Tulu-3-SFT-Mix与SmolTalk)的并排研究,及其催生的新数据集TuluTalk,为破解这一困境提供了崭新的、原则性的范式。
Ma0407131 天前
人工智能·语言模型·自然语言处理
【论文阅读27】-LMPHM:基于因果网络和大语言模型-增强知识图网络的故障推理诊断题目:LMPHM: Fault Inference Diagnosis Based on Causal Network and Large Language Model-Enhanced Knowledge Graph Network
longfei.li2 天前
人工智能·语言模型
AI项目工程化落地如何降本30%?当下大模型火爆全球!各种AIGC应用、Agent应用都在争先恐后的发布,而这背后不可忽视的Tokens成本是巨大的。前几天跟一个创业者朋友聊天,他们上半年面向国内用户做了一款DeepReasearch产品,运营两个月后悄悄关闭了服务~原因是Tokens成本太高、国内用户付费意愿太低,每月消耗数千刀Tokens费用缺连零头的成本都收不回来!
汉克老师2 天前
人工智能·语言模型·自然语言处理·小学生0基础学习大语言模型
小学生0基础学大语言模型应用(第4课 《数字盒子与算数魔法》)欢迎来到 数字魔法城!在这座城市里,电脑不认识汉字、也不认识故事, 它只认识一种东西——数字 🔢好消息是: 电脑 特别擅长算数, 只要你教会它 算数魔法,它就能帮你算得又快又准!
开放知识图谱2 天前
人工智能·学习·语言模型·自然语言处理
论文浅尝 | G2S:一个用于大语言模型的时间知识图预测的通用到具体的学习框架(ACL2025)笔记整理:张艺汶,研究方向为大语言模型、AI for Science论文链接:https://aclanthology.org/2025.findings-acl.1077/
WitsMakeMen2 天前
人工智能·语言模型·自然语言处理
大语言模型要用分组注意力机制GQAQwen3 中 “Query(Q)的 head 数是 Key(K)/Value(V)的 2 倍”,是其采用分组查询注意力(Grouped-Query Attention, GQA) 的核心设计(属于 Multi-Query Attention, MQA 的进阶优化),本质是在 “推理效率” 和 “模型表达能力” 之间做的精准权衡,且该设计高度适配中文场景和大模型线上推理的需求。
CaiGuoHui12 天前
人工智能·深度学习·语言模型·自然语言处理
利用大型语言模型(LLM)实现Verilog设计中的功能缺陷定位论文题目:《Location is Key: Leveraging LLM for Functional Bug Localization in Verilog Design》
renhongxia12 天前
人工智能·语言模型·自然语言处理
用大型语言模型进行复杂相对局部描述的地理定位深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训地理参照文本文件通常采用两种方法:一是基于地名录的方法,通过地名分配地理坐标;二是通过语言建模方法,将文本术语与地理位置相关联。然而,许多位置描述通过空间关系来相对地指定方位,这使得仅依赖地名或地理指示词进行地理编码往往不够精确。这一问题在生物标本采集记录中尤为常见——在使用全球定位系统(GPS)之前的记录,其位置常以叙述性文字而非坐标形式记载。尽管准确的地理参照对生物多样性研究至关重要,但该过程仍依赖大量人
赋创小助手2 天前
运维·服务器·人工智能·深度学习·计算机视觉·语言模型·自然语言处理
超微SYS-821GE-TNHR深度测评:8卡 NVIDIA H200 风冷 AI 服务器在高端 AI 服务器领域,Supermicro(超微)SYS-821GE-TNHR 是一款颇具代表性的“非典型产品”。 当行业讨论的重心普遍集中在液冷方案与极限算力密度时,这台服务器选择了另一条更务实的路径: 基于 NVIDIA HGX H200 的 8 卡平台,采用风冷设计,并以 8U 机箱形态,面向主流数据中心的真实部署环境。