语言模型

zhangfeng11331 小时前
语言模型·架构·transformer·芯片
定制化,面向大语言模型的GPU,Etched 把 Transformer 架构直接“烧“进硅片您指的应该是 Etched 这家美国公司。它可能是当前硅谷最"极端"的 AI 芯片创业公司——不做通用 GPU,而是把 Transformer 架构直接"烧"进硅片,造出一颗只能跑 Transformer 大模型的 ASIC。
hhzz4 小时前
语言模型·多智能体·openclaw
OpenClaw中文案例精选:多智能体内容工厂在内容生产场景中,无论是内容创作者批量产出推文、职场人撰写工作报告,还是企业批量制作产品文案,往往面临“效率低、重复劳动多、质量不稳定”的痛点——从素材收集、主题提炼,到内容撰写、校对排版,每个环节都需要手动干预,耗时耗力且易出错。而 OpenClaw 作为开源本地优先的 AI 智能体框架,其强大的多智能体协作能力,恰好能解决这一核心痛点,帮我们搭建【多智能体内容工厂】,实现“素材输入→分工处理→成品输出”的全自动化,让 AI 替我们完成重复劳动,聚焦更有价值的创意工作。
zhangfeng11334 小时前
人工智能·语言模型·架构·transformer·gpu算力
ai算力卡,Tenstorrent 公司Jim Keller 和 Ljubisa Bajic的故事,taals公司这里有一个常见的误解需要澄清:Jim Keller 和 Ljubisa Bajic 并没有"一起成立"公司。Tenstorrent 是 Bajic 创立的,Keller 是后来加入的第一个投资人和高管。
zhangfeng11334 小时前
人工智能·语言模型·transformer·gpu算力·芯片
非传统架构 AI 算力卡前沿研究报告:技术痛点、破局路2021-2026我已完成三轮审核(事实核查、逻辑结构、语言规范),发现原文存在1处重大事实错误、多处数据存疑、若干术语及格式问题。以下是修改后的完整报告:
东方佑21 小时前
人工智能·学习·语言模型
可学习破坏策略:实现大语言模型二倍推理加速的统一自洽框架自回归生成是当前大语言模型(LLM)推理延迟的根本瓶颈。基于 Jacobi 迭代的解码方法可将自回归过程转化为并行修正,理论上能将生成步数从序列长度 nnn 压缩至约 n/2n/2n/2,实现近 2 倍加速。现有工作(如 CLLMs)通过一致性训练让模型学会从任意含噪状态直接映射到完整序列,从而加速收敛。然而,这些方法中施加于训练数据的破坏策略(mask/噪声类型、位置、比例)均由手工规则设计,无法针对模型内部能力自适应调整。本文提出一种完全自适应的训练框架——Self-Masked Consistenc
清辞8531 天前
大数据·人工智能·学习·语言模型
入门大模型工程师第四课----通过RAG增强大模型原本无法回答的问题学完这节课后,你将能够:了解什么是 RAG,以及它的实现原理通过实践案例和动手实验,掌握 RAG 应用的构建方法
kylin-运维1 天前
语言模型·voxcpm
VoxCPM 2.0 离线部署GitHub 地址https://github.com/OpenBMB/VoxCPM使用版本 v2.0.3
F_D_Z2 天前
人工智能·语言模型·自然语言处理
扩散大语言模型新框架TraceRL扩散概率模型在图像生成领域取得了显著成功,近年来研究者开始探索其在语言建模中的潜力。扩散大语言模型采用迭代去噪的生成机制,与传统的自回归模型形成本质区别。然而,如何有效地对扩散语言模型进行后训练,特别是引入强化学习以提升推理能力,仍然是一个开放性问题。
jeffer_liu2 天前
java·人工智能·后端·spring·语言模型
Spring AI 生产级实战:记忆管理我们平时使用 ChatGPT、通义千问、DeepSeek 等大模型时,经常会感觉模型“记得”前面聊过的内容。
z小猫不吃鱼2 天前
人工智能·语言模型·自然语言处理
10 大语言模型基本术语总结:参数、Token、Context、Logits、Temperature在前面的文章中,我们已经讲过 Transformer、Self-Attention、Encoder、Decoder、Tokenizer、位置编码,以及 MLM、CLM、Seq2Seq LM 等训练目标。
MartinYeung52 天前
人工智能·学习·安全·语言模型
[论文学习]大型语言模型的安全性、安全与隐私问题综述:核心挑战、攻击防禦与未来方向分析On Large Language Models Safety, Security, and Privacy: A Survey (Journal of Electronic Science and Technology, ~2025)
我爱cope2 天前
人工智能·语言模型·职场和发展
【Agent智能体18 | 构建AI工作流的技巧-评估】声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。
MartinYeung52 天前
人工智能·学习·语言模型
[论文学习]使用使用者层级差分隐私(User-Level DP)微调大型语言模型(LLM)Fine-tuning LLMs with User-level Differential Privacy (Google Research, 2025)
jeffer_liu2 天前
java·人工智能·spring boot·后端·spring·语言模型·ai编程
Spring AI 生产级实战:模型选择在做 AI 应用时,很多团队容易一开始就纠结:到底用哪个大模型? 用 OpenAI、通义、智谱、DeepSeek,还是本地 Ollama? Chat 模型、Embedding 模型、图像模型、语音模型有什么区别? 是不是一个大模型就能解决所有问题?
东方佑2 天前
人工智能·语言模型·自然语言处理
WDLM-Turbo:为什么纯实数神经波动力学语言模型可行?——从薛定谔方程到离散序列建模的深层动机与原理分析WDLM-Turbo(Wave Dynamics Language Model)提出了一种全新的语言模型架构:它完全摒弃了传统的注意力机制与复数运算,而是用一种纯实数的“神经波”演化来建模离散符号序列。该模型将每个 token 映射为高维实向量,并在实数域内模拟波的传播、干涉与非线性混合。本文从物理直觉、数学结构与信息传播三个层面,系统性地回答了“WDLM 为何能够工作”这一核心问题。我们将展示,WDLM 的设计并非随意拼凑,而是与非线性薛定谔方程、KdV
z小猫不吃鱼2 天前
人工智能·语言模型·自然语言处理
09 语言模型训练目标:MLM、CLM、Seq2Seq LM 有什么区别?在前面的文章中,我们已经讲过 Transformer Encoder、Transformer Decoder、以及位置编码等核心内容。
qxq_sunshine2 天前
人工智能·gpt·语言模型
千问(Qwen)模型Linux部署操作手册基于实际环境:Ubuntu 22.04 + 双 RTX 4090 + llama.cpp + Qwen GGUF 模型
兰令水2 天前
python·语言模型
【helloagent】第四章 agent范式总结+面经在大模型对话中,messages 数组的每个元素都是一个对象,其中 role 字段是其核心。不同的 role 承担着不同的功能,共同构建了完整的对话上下文。
硅谷秋水3 天前
大数据·人工智能·深度学习·机器学习·语言模型
SkillOpt:自演化智体技能的执行策略26年5月来自微软、上海交大、同济大学和复旦的论文“SkillOpt: Executive Strategy for Self-Evolving Agent Skills”。
硅谷秋水3 天前
人工智能·深度学习·算法·计算机视觉·语言模型·机器人
Qwen-VLA:跨任务、环境与机器人形态的视觉-语言-动作统一建模26年5月来自qwen团队的论文“Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments”。