技术栈
语言模型
玄同765
11 小时前
人工智能
·
python
·
语言模型
·
自然语言处理
·
llm
·
nlp
·
prompt
Python 真零基础入门:从 “什么是编程” 到 LLM Prompt 模板生成
你可能听过 “编程”“代码”,但不知道它们到底是什么 —— 其实编程就是「人类用计算机能懂的 “极简语言”,给计算机写 “任务清单”」。
凌乱风雨1211
11 小时前
人工智能
·
语言模型
使用Vite+ Lit 构建webcomponent 组件
创建一个新的 Vite 项目并选择适合的模板(如 vanilla 或 vanilla-ts)。运行以下命令:
独孤--蝴蝶
15 小时前
人工智能
·
语言模型
·
自然语言处理
AI人工智能-大语言模型的神秘力量ICL(下)-第十一周(小白)
ICL:In-context Learning(上下文学习),其核心是大语言模型(LLM)的一种“特殊能”——无需更新模型参数(不用Fine-tune),仅通过“任务描述+少量示例”的上下文提示,就能完成任务。
zhangfeng1133
16 小时前
学习
·
语言模型
·
pdf
大语言模型llm学习路线电子书 PDF、开源项目、数据集、视频课程、面试题、工具镜像汇总成一张「一键下载清单」
收到!下面把“大模型学习路线”重新梳理成一张「可直接照抄的 14 周行动表」,并把所有提到的电子书 PDF、开源项目、数据集、视频课程、面试题、工具镜像汇总成一张「一键下载清单」。 两部分内容都按“先跑通→再深入→最后面试/落地”的节奏排好,你可以直接 Ctrl+C/Ctrl+V 开始执行,也可以按需取用。
LeeZhao@
17 小时前
人工智能
·
深度学习
·
机器学习
·
语言模型
·
agi
2025年-波澜壮阔的AI大模型科技盛宴
目录一、前序:从“智能涌现”到“深度融入”的变革之年二、技术突破:从规模竞赛到范式创新1 可验证奖励强化学习(RLVR)引领推理新浪潮
前端程序猿之路
17 小时前
人工智能
·
python
·
语言模型
·
云原生
·
eureka
·
ai编程
·
改行学it
AI大模型应用开发之容器化部署
专门为新手设计的「容器化部署 + AI 服务落地」完整指南搞懂 Docker 在干什么 → 会写 Dockerfile → 会用 Docker Compose 编排 → 知道 K8s 在什么时候该用 → 能把 RAG + Agent 跑成一个“像样的服务”
deephub
17 小时前
人工智能
·
python
·
语言模型
·
大语言模型
dLLM:复用自回归模型权重快速训练扩散语言模型
大语言模型的文本生成方式一直都是以自回归为主:一个token接一个token,从左往右,生成完就定了。
深圳佛手
18 小时前
语言模型
·
ai编程
国内外开源与闭源大模型清单
国内外开源与闭源大模型清单国外开源LLaMA 3.x(Meta):通用基座,覆盖多尺寸,生态完善。Mixtral 8x7B / Mixtral 22B(Mistral AI):MoE 架构,高效推理。
thinkerCoder
1 天前
人工智能
·
语言模型
·
自然语言处理
SmoothQuant:一种用于大型语言模型的准确高效的训练后量化方法
LLMs量化的主要难点:激活值(activations)中存在持续性的异常值(outliers),使得激活值难以精确量化。虽然per-channel activation quantization(每个通道独立量化)可以有效解决这个问题,但它无法在硬件上高效实现,因为硬件加速的GEMM内核要求缩放只能沿矩阵乘法的外维度进行(即激活的token维度T和权重的输出通道维度Co)。
万事可爱^
1 天前
人工智能
·
深度学习
·
语言模型
·
gitcode
·
本地部署
·
昇腾npu
GitCode+昇腾部署Rnj-1模型实践教程
GitCode Notebook是GitCode平台推出的云端交互式开发环境,对标Google Colab,为开发者提供了免本地配置的算力资源和一站式开发体验。其核心优势体现在三个方面:
哈__
1 天前
人工智能
·
语言模型
·
自然语言处理
·
gitcode
·
sglang
实测VLM:昇腾平台上的视觉语言模型测评与优化实践
资源与支持:随着多模态大模型的快速发展,视觉语言模型在图像理解、视觉问答、文档分析等场景中的应用日益广泛。vlm-ascend作为专门为昇腾平台优化的视觉语言模型推理框架,旨在充分发挥昇腾硬件的计算潜力。本次性能测评聚焦于经过深度优化的vlm-ascend框架,评估其在昇腾Atlas 800T服务器平台上的实际表现。
海森大数据
1 天前
人工智能
·
语言模型
数据筛选新范式:以质胜量,揭开大模型后训练黑箱
在大模型技术高速发展的今天,后训练阶段——包括监督微调(SFT)和强化学习——已被公认是模型性能“最后一公里”的关键。然而,一个突出的矛盾在于:决定顶尖模型能力的关键后训练数据集,其构成往往如同“黑箱”,缺乏透明度与系统分析。这导致研究社区难以洞悉,究竟哪些数据样本、任务类型或筛选策略真正驱动了下游性能的提升。近期一项针对两大主流开源SFT数据集(Tulu-3-SFT-Mix与SmolTalk)的并排研究,及其催生的新数据集TuluTalk,为破解这一困境提供了崭新的、原则性的范式。
Ma040713
1 天前
人工智能
·
语言模型
·
自然语言处理
【论文阅读27】-LMPHM:基于因果网络和大语言模型-增强知识图网络的故障推理诊断
题目:LMPHM: Fault Inference Diagnosis Based on Causal Network and Large Language Model-Enhanced Knowledge Graph Network
longfei.li
2 天前
人工智能
·
语言模型
AI项目工程化落地如何降本30%?
当下大模型火爆全球!各种AIGC应用、Agent应用都在争先恐后的发布,而这背后不可忽视的Tokens成本是巨大的。前几天跟一个创业者朋友聊天,他们上半年面向国内用户做了一款DeepReasearch产品,运营两个月后悄悄关闭了服务~原因是Tokens成本太高、国内用户付费意愿太低,每月消耗数千刀Tokens费用缺连零头的成本都收不回来!
汉克老师
2 天前
人工智能
·
语言模型
·
自然语言处理
·
小学生0基础学习大语言模型
小学生0基础学大语言模型应用(第4课 《数字盒子与算数魔法》)
欢迎来到 数字魔法城!在这座城市里,电脑不认识汉字、也不认识故事, 它只认识一种东西——数字 🔢好消息是: 电脑 特别擅长算数, 只要你教会它 算数魔法,它就能帮你算得又快又准!
开放知识图谱
2 天前
人工智能
·
学习
·
语言模型
·
自然语言处理
论文浅尝 | G2S:一个用于大语言模型的时间知识图预测的通用到具体的学习框架(ACL2025)
笔记整理:张艺汶,研究方向为大语言模型、AI for Science论文链接:https://aclanthology.org/2025.findings-acl.1077/
WitsMakeMen
2 天前
人工智能
·
语言模型
·
自然语言处理
大语言模型要用分组注意力机制GQA
Qwen3 中 “Query(Q)的 head 数是 Key(K)/Value(V)的 2 倍”,是其采用分组查询注意力(Grouped-Query Attention, GQA) 的核心设计(属于 Multi-Query Attention, MQA 的进阶优化),本质是在 “推理效率” 和 “模型表达能力” 之间做的精准权衡,且该设计高度适配中文场景和大模型线上推理的需求。
CaiGuoHui1
2 天前
人工智能
·
深度学习
·
语言模型
·
自然语言处理
利用大型语言模型(LLM)实现Verilog设计中的功能缺陷定位
论文题目:《Location is Key: Leveraging LLM for Functional Bug Localization in Verilog Design》
renhongxia1
2 天前
人工智能
·
语言模型
·
自然语言处理
用大型语言模型进行复杂相对局部描述的地理定位
深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训地理参照文本文件通常采用两种方法:一是基于地名录的方法,通过地名分配地理坐标;二是通过语言建模方法,将文本术语与地理位置相关联。然而,许多位置描述通过空间关系来相对地指定方位,这使得仅依赖地名或地理指示词进行地理编码往往不够精确。这一问题在生物标本采集记录中尤为常见——在使用全球定位系统(GPS)之前的记录,其位置常以叙述性文字而非坐标形式记载。尽管准确的地理参照对生物多样性研究至关重要,但该过程仍依赖大量人
赋创小助手
2 天前
运维
·
服务器
·
人工智能
·
深度学习
·
计算机视觉
·
语言模型
·
自然语言处理
超微SYS-821GE-TNHR深度测评:8卡 NVIDIA H200 风冷 AI 服务器
在高端 AI 服务器领域,Supermicro(超微)SYS-821GE-TNHR 是一款颇具代表性的“非典型产品”。 当行业讨论的重心普遍集中在液冷方案与极限算力密度时,这台服务器选择了另一条更务实的路径: 基于 NVIDIA HGX H200 的 8 卡平台,采用风冷设计,并以 8U 机箱形态,面向主流数据中心的真实部署环境。