技术栈
语言模型
生成论实验室
2 小时前
人工智能
·
深度学习
·
语言模型
·
机器人
·
自动驾驶
用事件关系网络重新理解AI:自注意力机制、词向量、CNN、GAN、强化学习、Dropout、知识蒸馏
在前几篇文章中,我提出了一个核心命题:智能的本质不是“知道什么”,而是“知道在发生什么”。 要实现这种智能,我们的AI系统必须从处理“实体”转向处理“事件”。事件不是孤立的存在者,而是在关系网络中确定自身意义的发生。事件之间的关系——因果的、依赖的、冲突的、共振的——构成了认知的基本语法。
LCG元
7 小时前
人工智能
·
语言模型
深耕 RAG 工程,解锁大模型知识库开发之路
当前大模型落地普遍面临三大痛点:训练数据有截止日期,无法实时更新企业私有知识;通用大模型在垂直领域幻觉问题严重,回答可信度不足;全参数微调成本高,知识更新周期长,无法满足企业快速迭代的需求。
迁旭
9 小时前
前端
·
javascript
·
chrome
·
机器学习
·
语言模型
·
gpt-3
Claude Code 项目 /init 命令详解
本文档详细讲解 Claude Code 项目中 /init 命令的源码实现、执行流程、生成文件的层级体系及相关机制。
生成论实验室
10 小时前
人工智能
·
深度学习
·
语言模型
·
agi
·
安全架构
Token即事件:Transformer为何是“事件-关系网络”的最佳实现——兼论大语言模型如何从“概率鹦鹉”进化为“认知主体”
当我们谈论大语言模型时,几乎所有讨论都围绕着参数规模、训练数据、基准分数展开。但在这些技术细节之下,隐藏着一个更根本的哲学事实——它从未被认真对待,却决定了这些模型能做以及不能做的一切。
枫叶林FYL
11 小时前
人工智能
·
语言模型
·
php
【强化学习】6 MoE-GRPO:视觉语言模型中基于强化学习的混合专家路由优化
核心结论前置:MoE-GRPO 将传统 MoE 的确定性 Top-K 路由改造为可学习的强化学习策略,通过 Group Relative Policy Optimization(GRPO)同时优化"生成什么 token"和"走哪条专家路径",在保持稀疏推理效率的前提下,显著缓解专家过拟合并诱导任务级专家特化。
阿拉伯柠檬
11 小时前
人工智能
·
python
·
语言模型
·
自然语言处理
·
langchain
大语言模型 LLM
AI 里的“模型”, 本质上就是一个从输入到输出的数学函数, 它由大量的参数(数字)来定义, 而这些参数是从海量数据中“学”出来的, 这些模型可以进行预测、生成文本、图像或其他输出,从而为各行各业赋能. 可以简单理解为模型是⼀个"超级加工厂",这个工厂是经过特殊训练的,训练师给它看了海量的例子 (数据),并告诉它该怎么做。通过看这些例子,它自己摸索出了一套规则,学会了完成某个"特定任 务"。模型就是一套学到的"规则"或者"模式", 它能根据你给的东西,产生你想要的东西。
生成论实验室
1 天前
人工智能
·
语言模型
·
架构
·
创业创新
·
agi
通用人工智能(AGI)完整技术方案:以字序生命模型(WOLM)为认知内核的双脑协同架构
在讨论技术方案之前,先定义什么是AGI。当前主流的AGI定义,强调一个系统能在绝大多数人类能做的智力任务上达到或超越人类水平。这个定义隐含了一个假设:AGI的核心是“智力”——逻辑推理、知识储备、创造力。
数智工坊
1 天前
论文阅读
·
人工智能
·
算法
·
语言模型
·
机器人
·
无人机
【Inner Monologue论文阅读】: 首次将大语言模型嵌入机器人控制闭环,实现自我反思和动态行为调整
想象一下,你让机器人去厨房拿一瓶可乐。传统的机器人会怎么做?它会生成一个僵硬的计划:1. 走到厨房 2. 拿起可乐 3. 拿给你。然后就一条路走到黑——如果可乐不在桌子上,它会傻站在那里;如果第一次没拿起来,它会直接放弃;如果冰箱里只有雪碧,它完全不知道该怎么办。
LCG元
1 天前
人工智能
·
语言模型
大模型微调指南:从数据处理到工业落地全解析
当前通用大模型已经解决了通用场景的基础能力问题,但针对垂直行业场景,依然需要通过微调来对齐业务需求,解决幻觉、专业知识不足等问题。很多开发爱好者和企业工程师都卡在了「从实验性调参到工业级落地」的环节,要么缺少完整流程说明,要么代码无法直接运行,本文梳理从数据处理到生产部署的全流程,所有步骤可复现,新人小白也能跟着一步步落地,企业可直接复用这套方案。
AI技术控
1 天前
人工智能
·
语言模型
·
自然语言处理
·
langchain
·
nlp
NeuroH-TGL 论文解读:面向脑疾病诊断的神经异质性引导时序图学习方法
论文标题:《NeuroH-TGL: Neuro-Heterogeneity Guided Temporal Graph Learning Strategy for Brain Disease Diagnosis》 会议:NeurIPS 2025 研究方向:动态功能脑网络、时序图学习、图神经网络、脑疾病诊断、fMRI 分析 本文基于上传论文原文整理。:contentReference[oaicite:0]{index=0}
IceSugarJJ
1 天前
语言模型
·
微信小程序
·
github
Open-AutoGLM项目学习
Open-AutoGLM是一个面向自动化自然语言处理任务的开源框架,专为简化大语言模型(LLM)在实际业务场景中的部署与调优而设计。其核心机制融合了提示工程自动化、动态上下文优化与轻量化推理引擎,使开发者无需深入模型内部结构即可实现高效的任务适配。
xiaoyuchidayuma
1 天前
笔记
·
语言模型
【cherrystudio接入硅基流动的DeepSeek R1大模型API】
登录网址,选择windows https://cherry-ai.com/直接下一步就行第一次登录需要联网,在打开的网址上注册账号
Jump 不二
1 天前
人工智能
·
语言模型
·
系统架构
AI Agent Skill 系统架构全解析:SKILL 规范与框架实现
最近刚好需要自己实现一套完整的 Skills 运行框架,所以把官方协议、源码、实现方案都啃了一遍。写这篇文章,就是想把自己踩的坑、悟出来的门道记录下来。对做 Agent 开发、做 skill 开发,或者单纯想搞懂 “我的 skill 为什么效果不稳定” 的人,应该都有帮助。
AI人工智能+
1 天前
深度学习
·
语言模型
·
ocr
·
文档抽取
基于高精度OCR与大模型融合的智能文档抽取系统,著提升政务服务效率,推动从“自动化“向“智能化“转型
在政务服务数字化转型的浪潮中,政务服务中心作为服务群众和企业的最前沿,每日需处理海量各类申请表单,涵盖企业开办、社保参保、不动产登记、民生福利申领等多个领域。这些申请表单形式多样,既有标准化的结构化表格,也有因业务特性衍生的半结构化表格,传统人工录入与处理模式面临效率低下、误差率高、信息流转不畅等诸多痛点,已成为制约政务服务效能提升的关键瓶颈。
风落无尘
2 天前
gpt
·
rnn
·
语言模型
·
transformer
第九章《语言与理解》 完整学习资料
本资料为《智能重生:从垃圾堆到AI工程师》第九章的配套学习内容。 阅读小说原文:第九章《语言与理解》 专栏总目录:《智能重生》AI工程师成长小说专栏
malog_
2 天前
人工智能
·
深度学习
·
机器学习
·
ai
·
语言模型
大语言模型后训练全解析
本文系统阐述了大语言模型(LLM)从预训练基础模型到对齐人类需求的 AI 助手的核心后训练流程,明确了后训练与传统微调的区别,拆解了 SFT、DPO、GRPO 三个核心阶段的原理、实现与实践要点,并梳理了后训练技术的发展历程与落地考量。
神秘的土鸡
2 天前
ai
·
语言模型
·
agent
Agent 落地:贴合健身真实场景的 AI 人物跟练方案
目录一、健身 Agent:演示好看,真实场景难用二、健身场景适配:单向演示 vs 实时跟练三、为什么选魔珐星云SDK?
qq_52551375
2 天前
深度学习
·
学习
·
语言模型
# 第七章 指令微调学习(四) 7.6基于指令数据对大语言模型进行微调
3. 训练模型:初始化优化器、设置训练轮数,根据第7.5节中讨论的第一个验证集指令(val_data[0])来定义评估频率及初始上下文,以便在训练过程中评估生成的LLM响应。
玄米乌龙茶123
2 天前
人工智能
·
笔记
·
语言模型
LLM成长笔记(四):大语言模型(LLM)基础认知
大语言模型(LLM)是当前 AI 浪潮的核心。这篇博客从实际问题出发,用生活化类比建立直觉,通过术语详解深入概念本质,再用原理剖析、图解演示和可运行代码带你一步步理解。每一个概念都力求让初学者也能完全看懂,并指明它们在 AI 应用开发中的实际用途。
Yingjun Mo
2 天前
人工智能
·
语言模型
·
自然语言处理
(二) LLM探索能力-1. 大语言模型能够进行上下文探索吗?
如果想让模型学会“预测房价”,你通常需要收集大量数据,针对“房价预测”这个任务对模型进行微调(Fine-tuning)。这意味着你要修改模型的权重(参数),这是一个昂贵且持久的过程。(传统机器学习逻辑)