技术栈
语言模型
码农小旋风
15 小时前
开发语言
·
人工智能
·
语言模型
·
自然语言处理
·
chatgpt
·
claude
大语言模型基础
前两章分别介绍了智能体的定义和发展历史,本章将完全聚焦于大语言模型本身解答一个关键问题:现代智能体是如何工作的?我们将从语言模型的基本定义出发,通过对这些原理的学习,为理解LLM如何获得强大的知识储备与推理能力打下坚实的基础。
硅谷秋水
16 小时前
机器学习
·
计算机视觉
·
语言模型
·
机器人
SkillVLA:通过技能复用应对双-臂操纵中的组合多样性
26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。
惊鸿一博
17 小时前
人工智能
·
语言模型
·
transformer
大语言模型_概念_Transformer_位置编码 RoPE 解释
RoPE(Rotary Position Embedding,旋转位置编码)是 Transformer 架构中用于注入位置信息的一种方法。它由苏剑林等人提出,目前是 Llama、GPT-NeoX、Falcon 等绝大多数开源大模型的事实标准。
东方佑
17 小时前
人工智能
·
语言模型
·
自然语言处理
OpenASH-85M:基于累积最大值注意力的无 Softmax 语言模型,支持有状态推理
Softmax 不是注意力的必要组成。OpenASH 用累积最大值(torch.cummax)——一种纯比较运算——替代了整个 softmax 注意力机制,并与可学习的多项式混合层结合。该架构:
暴躁小师兄数据学院
19 小时前
大数据
·
python
·
ai
·
语言模型
【AI大模型应用开发工程师特训】第01讲—AI在企业中的定位
目录第一章:大模型在企业中的战略定位1.1 从“+AI”到“AI+”:定位的根本跃迁1.2 从“通用回答”到“专家思维”:能力的专业化转向
硅谷秋水
20 小时前
人工智能
·
语言模型
·
机器人
ALRM:用于机器人操纵的智体大语言模型
26年1月来自技术创新研究所(阿布扎比,阿联酋)和爱尔兰都柏林城市大学的论文“ALRM: Agentic LLM for Robotic Manipulation”。
LCG元
20 小时前
人工智能
·
语言模型
大模型LoRA微调与推理优化:从显存溢出到低延迟部署的进阶之路
大模型产业落地过程中,针对下游特定任务的模型适配是核心环节。全参数微调7B量级模型需要上百GB的显存,多数中小公司没有高端GPU集群支撑,而轻量微调方案往往遇到显存溢出、推理延迟高的问题,很多训练好的模型一直卡在实验阶段无法上线。
P-ShineBeam
20 小时前
人工智能
·
python
·
算法
·
语言模型
·
自然语言处理
智能体-DeepAgent入门
本文基于一个最小示例,阐明 DeepAgents 的核心使用方式: 如何接入大模型、如何定义工具、如何创建主代理、如何配置子代理。
星辰AI
1 天前
人工智能
·
ai
·
语言模型
Transformers 架构核心原理:从注意力机制到 GPT
Transformers 架构是现代大语言模型的基石。无论是 GPT 系列、LLaMA、还是 BERT,都基于 Transformer 的核心组件构建。理解它的原理,对于更好地使用和优化大模型至关重要。
星辰AI
1 天前
人工智能
·
ai
·
语言模型
LLM 安全与对齐技术:构建可信赖的人工智能
随着大语言模型(LLM)在各领域的广泛应用,AI 安全问题变得越来越重要。一个未经对齐的模型可能会产生有害内容、虚假信息,甚至被恶意利用。作为 AI 开发者,我们有责任了解并应用安全和对齐技术,构建可信赖的 AI 系统。
韦胖漫谈IT
1 天前
人工智能
·
语言模型
·
自然语言处理
不当输出处理 - 大语言模型 OWASP TOP 10系列
AI 大模型生成的内容,如果不经过检查就直接交给其他系统使用,就可能引发安全问题。举个例子:如果 AI 生成了一段 SQL 查询,你不加验证直接拿去数据库执行,攻击者就可以通过构造特殊输入,让 AI 生成恶意的数据库操作语句。这个问题与"过度依赖 AI"不同——这里关注的是 AI 输出的内容在被使用前没有经过安全检查。
YueJoy.AI
2 天前
人工智能
·
ai
·
语言模型
创业团队如何管理远程工作
疫情后,我们开始尝试远程工作。一开始担心效率下降,结果发现:远程工作不仅可行,还能提高效率。但远程工作也有挑战:沟通变难、协作变慢、团队凝聚力下降。今天,分享我们是如何管理远程团队的。
GOTXX
2 天前
服务器
·
网络
·
人工智能
·
语言模型
SenseNova U1 实战体验:API 调用 + OpenClaw 接入全流程
最近商汤科技开源了 SenseNova U1 系列,主打"理解与生成统一"。这个方向我关注了很久——市面上大多数多模态模型要么偏重理解,要么偏重生成,两者能力是割裂的。SenseNova U1 基于自研的 NEO-unify 架构,号称把语言和视觉信息放在同一个表示空间里建模。
生成论实验室
2 天前
人工智能
·
学习
·
算法
·
语言模型
·
可信计算技术
用事件关系网络重新理解AI(三):激活函数、微调与元学习
在前两篇文章中,我用事件关系网络理论解释了十四项AI核心技术。这篇文章将继续这一工作,用同一个理论框架来审视另外七项同样重要但通常不被放在一起讨论的技术——激活函数、权重初始化、微调、LoRA、元学习、对比学习、联邦学习。
星辰AI
2 天前
人工智能
·
ai
·
语言模型
大模型对抗攻击与防御:保护 AI 系统安全
随着大模型的广泛应用,对抗攻击成为一个重要的安全问题。攻击者可以通过精心设计的输入来欺骗模型,导致错误输出。
星辰AI
2 天前
人工智能
·
ai
·
语言模型
Stable Diffusion 实战教程:从安装到图像生成
Stable Diffusion 是当前最流行的开源图像生成模型之一。它能够根据文字描述生成高质量的图像,在创意设计、游戏开发等领域有广泛应用。
大模型任我行
2 天前
人工智能
·
语言模型
·
自然语言处理
·
论文笔记
人大:揭示大模型推理的几何约束机制
📖标题:Reasoning emerges from constrained inference manifolds in large language models 🌐来源:arXiv, 2605.08142v1
生成论实验室
2 天前
数据结构
·
人工智能
·
深度学习
·
算法
·
语言模型
用事件关系网络重新理解AI(二):损失函数、优化器与深度学习的动力学
在前两篇文章中,我用事件关系网络理论解释了自注意力机制、词向量、CNN、GAN、强化学习、Dropout和知识蒸馏这七项核心AI技术。这篇文章将继续这一工作,用同一个理论框架来重新审视深度学习中最基础、最底层、也最容易被忽视的七项技术——损失函数、优化器、残差连接、归一化层、Scaling Law、灾难性遗忘、RAG与提示工程。
韦胖漫谈IT
2 天前
网络
·
人工智能
·
语言模型
·
大模型安全
·
owasp
提示词注入- 大语言模型 OWASP TOP 10系列
提示词注入,简单说就是攻击者通过精心设计的文字输入,让 AI 大模型做出它"不应该做"的事。AI 大模型会把用户发来的内容当作指令来执行。攻击者利用这一点,把恶意指令伪装成普通输入,从而让模型绕过限制、泄露机密或执行危险操作。这些恶意内容甚至不需要肉眼可见——只要 AI 能"读懂",就能触发攻击。就像你和一个非常听话但缺乏判断力的员工说话,换个措辞,他可能就会帮你做一些本来被禁止的事。
生成论实验室
2 天前
人工智能
·
算法
·
语言模型
·
可信计算技术
·
安全架构
事件、信息荷与六维态势空间——每一个事件都是一次空间的弯曲
在第一篇中,我论证了一个核心命题:智能的本质不是“知道什么”,而是“知道在发生什么”。 要实现这种智能,我们的AI系统必须从处理“实体”转向处理“事件”。