揭秘 AI 推理:OpenAI 稀疏模型让神经网络首次透明化;Calories Burnt Prediction:为健身模型注入精准能量数据

近年来,大语言模型在能力上突飞猛进,但其内部决策过程如同一个深度纠缠的「黑箱」,难以追溯和理解。这一根本性难题,严重阻碍了AI在医疗、金融等高风险领域的可靠应用。如何让模型的思考过程变得透明、可追溯,仍是悬而未决的关键问题。

基于此,**OpenAI 于 2025 年 12 月发布的 0.4B 参数大语言模型 Circuit Sparsity,它采用电路稀疏技术,将 99.9% 的权重置零,构建出可解释的稀疏计算架构,**突破传统 Transformer 的「黑箱」决策限制,使 AI 推理过程可逐层解析。该模型的核心,是通过一套独特的训练方法,将传统密集神经网络改造为结构化的稀疏「电路」。

*动态强制稀疏:与传统方法不同,它在训练的每一步都执行「动态剪枝」,每轮仅保留权重中绝对值最大的极少数(如0.1%),其余强制归零,迫使模型从一开始就学习在极简连接下工作。

*激活稀疏化:在注意力机制等关键位置引入激活函数,使神经元的输出趋于「非此即彼」的离散状态,从而在稀疏网络中形成清晰的信息通道。

*定制化组件:采用 RMSNorm 替代 LayerNorm 以防止破坏稀疏性;并引入 Bigram 查找表来处理简单词汇预测,让主网络更专注于复杂逻辑。

通过上述方法训练出的模型,其内部自发形成了功能明确、可被解析的「电路」。每个电路负责一个特定子任务。研究人员可明确识别出,某些神经元专门用于检测「单引号」,而另一些则充当逻辑「计数器」,相比传统密集模型,完成相同任务所需的活跃节点数量大幅减少。其配套的「桥梁网络」 技术,试图将稀疏电路中获得的解释映射回 GPT-4 等高性能密集模型,也为分析现有大模型提供了潜在工具。

目前,HyperAI超神经官网已上线了「Circuit Sparsity:OpenAI 开源新稀疏模型」,快来试试吧~

在线使用:https://go.hyper.ai/WgLQc

1 月 5 日-1 月 9 日,hyper.ai 官网更新速览:

* 优质教程精选:4 个

* 热门百科词条:5 条

* 1 月截稿顶会:9 个

访问官网:hyper.ai

公共教程精选

1.Circuit Sparsity:OpenAI 开源新稀疏模型

Circuit-sparsity 是 OpenAI发布的 0.4B 参数大语言模型。它采用电路稀疏技术,将 99.9% 的权重置零,构建出可解释的稀疏计算架构,突破传统 Transformer 的「黑箱」决策限制,使 AI 推理过程可逐层解析。随模型发布的 Streamlit 工具包提供「激活桥」技术,支持研究者追踪内部信号路径、分析功能对应电路,并比较稀疏与密集模型的性能差异。

在线运行:https://go.hyper.ai/zui8w

Demo 页面

2.HY-MT1.5-1.8B:多语言神经机器翻译模型

HY-MT1.5-1.8B 是腾讯混元团队发布的 18 亿参数多语言机器翻译模型。它基于统一 Transformer 架构,支持 33 种语言与 5 种民族语言/方言的互译,并针对混合语言、术语控制等真实场景优化。该模型在接近 7B 模型翻译质量的同时,参数规模仅为三分之一,支持量化部署与 HuggingFace 生态集成,适用于高效、低成本的多语言在线翻译服务。

在线运行:https://go.hyper.ai/I0pdR

Demo 页面

3.AWPortrait-Z 肖像美术 LoRA

AWPortrait-Z 是一款基于 LoRA 技术的肖像增强模型。它作为插件与主流文生图扩散模型结合,无需重训基础模型,即可显著提升人像生成的真实感与摄影质感。该模型专门优化了面部结构、肤质纹理与光影氛围的渲染,生成效果更自然、细腻,适用于需要摄影级真实感的人像创作与图像合成。

在线运行:https://go.hyper.ai/wRjIp

Demo 页面

4.Granite-4.0-h-small 一站式进行多语言对话与代码任务

Granite-4.0-h-small 是 IBM 发布的 32 亿参数长上下文指令微调模型。它基于基础模型微调,融合开源与合成数据,采用监督微调、强化学习对齐及模型合并技术。该模型具有优秀的指令遵循与工具调用能力,采用结构化对话格式,专为高效的企业级应用场景优化。

在线运行:https://go.hyper.ai/1HhB9

Demo 页面

热门百科词条精选

1. 人机回圈 HITL

2. 超倒数排序融合 RRF

3. 具身导航 Embodied Navigation

4. 多层感知机 Multilayer Perceptron

5. 强化微调 Reinforcement Fine-Tuning

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

相关推荐
程序猿追6 小时前
深度解读 CANN HCCL:揭秘昇腾高性能集体通信的同步机制
神经网络·架构
慢半拍iii6 小时前
CANN算子开发实战:手把手教你基于ops-nn仓库编写Broadcast广播算子
人工智能·计算机网络·ai
User_芊芊君子6 小时前
CANN数学计算基石ops-math深度解析:高性能科学计算与AI模型加速的核心引擎
人工智能·深度学习·神经网络·ai
小白|6 小时前
CANN与联邦学习融合:构建隐私安全的分布式AI推理与训练系统
人工智能·机器学习·自动驾驶
艾莉丝努力练剑6 小时前
hixl vs NCCL:昇腾生态通信库的独特优势分析
运维·c++·人工智能·cann
梦帮科技6 小时前
Node.js配置生成器CLI工具开发实战
前端·人工智能·windows·前端框架·node.js·json
程序员泠零澪回家种桔子6 小时前
Spring AI框架全方位详解
java·人工智能·后端·spring·ai·架构
Echo_NGC22376 小时前
【FFmpeg 使用指南】Part 3:码率控制策略与质量评估体系
人工智能·ffmpeg·视频·码率
笔画人生7 小时前
深度解析 CANN 项目:以 `ops-transformer` 为例探索高性能 AI 算子库
学习·开源
纤纡.7 小时前
PyTorch 入门精讲:从框架选择到 MNIST 手写数字识别实战
人工智能·pytorch·python