深度学习

一个处女座的程序猿1 小时前
深度学习·scaling law·cross-entropy
LLMs之Scaling Law之Cross-Entropy:《What Scales in Cross-Entropy Scaling Law?》翻译与解读LLMs之Scaling Law之Cross-Entropy:《What Scales in Cross-Entropy Scaling Law?》翻译与解读
*JOKER2 小时前
人工智能·深度学习·机器学习·大模型·生成模型·flow matching
Flow Matching&生成算法今天学习flow matching算法。Flow matching是近年来生成模型领域中快速崛起的一类新方法。许多先进模型如stable diffusion3 imagen3都采用了它的核心思想。他通过直接学习概率流的方式,将简单分布平滑地变为复杂的数据分布,比传统扩散模型更高效、训练更稳,采样更快。Flow match解决了过去噪声预测不稳定、采样步骤多等问题,为下一代生成模型奠定了重要的基础。
霖大侠4 小时前
人工智能·深度学习·算法·机器学习·transformer
Wavelet Meets Adam: Compressing Gradients forMemory-Efficient Training大型语言模型(LLMs)在多种自然语言处理任务中展现出了卓越的性能。然而,其庞大的参数规模在训练过程中带来了显著的内存挑战,尤其是在使用像Adam这样内存消耗较高的优化器时。现有的内存高效算法通常依赖于奇异值分解投影或权重冻结等技术。尽管这些方法有助于缓解内存限制,但与全秩更新相比,它们通常会产生次优的结果。在本文中,我们探索了超越低秩训练的内存高效方法,提出了一种名为梯度小波变换(GWT)的创新解决方案。该方法通过将小波变换应用于梯度,显著降低了维护优化器状态所需的内存需求。我们证明了GWT能够与高内存
龙俊俊4 小时前
服务器·人工智能·深度学习
服务器模型部署与加载将大模型部署到服务器上,这是一种常见的方式,部署之前请检查一下服务器内存和模型加载内存是否符合,接下来,我们将介绍两种最常用的模型下载方式,分别是从huggingface和modelscope两个平台下载。
章鱼丸-5 小时前
人工智能·深度学习·cnn
DAY41简单 CNN🧩 简单 CNN PyTorch 代码模板(含数据增强、BatchNorm、学习率调度器)@浙大疏锦行
AI视觉网奇5 小时前
人工智能·深度学习
CosyVoice 加速实践找到 async_cosyvoice.py 第 37 行附近,将:python改为:python
badhope5 小时前
人工智能·深度学习·机器学习·数据挖掘·github
概率论如何让机器学习不再玄学别被“概率”俩字吓退!它不是赌场骰子,而是你训练的每个模型背后默默记账的会计、预测未来的天气预报员、以及在千万维空间里为你打手电筒的向导。 本文不堆定义、不抄教科书,用真实代码+生活类比+可运行公式+踩坑现场复盘,带你把贝叶斯、似然、KL散度这些“高冷名词”,变成你调试模型时脱口而出的日常用语。
阿钱真强道5 小时前
人工智能·深度学习·机器学习·cnn·分类算法·lenet
02 从 MLP 到 LeNet:数据、标签和任务:机器学习到底在解决什么问题?机器学习初学阶段最常见的问题,不是公式太难,也不是代码太复杂,而是很多基础概念彼此之间没有真正连起来。
卡梅德生物科技小能手6 小时前
经验分享·深度学习·生活
免疫检查点核心机制解析:CD274(分化抗原274)的信号通路与药物研发进展在免疫学与生物药研发领域,CD274(又称PD-L1)作为B7家族的关键成员,因其在调控免疫稳态中的核心作用而备受关注。作为免疫细胞表面的关键抑制性配体,CD274通过与受体PD-1结合,传递抑制信号,防止免疫系统过度激活。本文将从技术角度,对CD274靶点的分子机制、下游信号通路验证以及抗体药物研发方向进行系统解析。
Forrit6 小时前
大数据·人工智能·深度学习
Agent长期运行(Long-Running Tasks)实现方案与核心挑战长期运行过程中,Agent会面临多重隐患,任何一环失控都会导致任务中断、结果出错、目标偏离,核心痛点集中在以下六大方面:
冰西瓜6006 小时前
人工智能·深度学习
深度学习的数学原理(二十二)—— Seq2Seq编码器-解码器基础框架上一节我们系统性证明了:传统RNN/LSTM受梯度链式连乘与串行递推约束,既无法高效建模长距离依赖,又丧失并行加速能力,难以胜任复杂序列转换任务。
AI医影跨模态组学6 小时前
人工智能·深度学习·机器学习·医学·医学影像
J Immunother Cancer(IF=10.6)中山大学孙逸仙纪念医院陈柏深等团队:动态时间数据预测NSCLC新辅助免疫化疗主要病理反应01文献学习今天分享的文献是由中山大学第五附属医院曹庆东、中山大学孙逸仙纪念医院陈柏深等团队于2025年10月在《Journal for ImmunoTherapy of Cancer》(中科院1区top,IF=10.6)上发表的研究“Attention-guided framework for integrative omics and temporal dynamics in predicting major pathological response in neoadjuvant immunoche
liliwoliliwo6 小时前
人工智能·深度学习·transformer
vision transformertransformer只能处理序列,所以需要把图像变成“词序列”怎么变?切patches!每个patch变成"词向量"
冰西瓜6007 小时前
rnn·深度学习·lstm
深度学习的数学原理(二十一)—— 传统序列模型(RNN/LSTM)的缺陷在前文的序列建模与词嵌入部分,我们明确了序列数据(文本、语音、时序信号等)顺序敏感、变长、上下文依赖的核心特征,也知道传统MLP因无法捕捉序列时序关联而难以处理这类数据。为解决这一问题,学界先后提出了循环神经网络(RNN)及其改进版长短期记忆网络(LSTM),通过引入循环连接让模型具备“记忆”能力,能逐词处理序列数据并捕捉时序依赖。
清空mega7 小时前
人工智能·深度学习
动手学深度学习——卷积层详解:卷积核是怎么被学出来的?在上一节“图像卷积”中,我们已经知道了卷积最基本的计算方式:卷积核在输入图像上滑动每次取一个局部区域做逐元素相乘再求和
cyyt7 小时前
人工智能·深度学习
深度学习周报(3.23~3.29)本周主要阅读了两篇关于甲烷泄漏检测的文献,两篇都基于同样的数据集 GasVid,前者侧重于检测甲烷是否泄漏,属于二分类任务,后者在前者的基础上侧重于对甲烷泄漏的程度进行划分定级。此外拓展了部分相关知识,如全球变暖潜能、羽流以及甲烷泄漏的相关量化技术等。
badhope7 小时前
python·深度学习·计算机视觉·数据挖掘·github
10个高星GitHub项目推荐预警!风格延续:如果没看过上一篇的开局,那么记住,这里的“幽默活泼”是认真的,目录是必须的,项目是好玩的。如果嫌字多,直接看目录跳转,或者——你知道的——右上角,Fork那个项目,然后关掉!给想动手和想找乐子的你,10个新鲜出炉的GitHub珍宝。
DeepModel8 小时前
人工智能·python·深度学习·算法
【特征选择】嵌入法(Embedded)嵌入法是机器学习里最高效、最常用、最适合论文与工程的特征选择方式。它把特征选择直接嵌在模型训练里,一边训练一边自动筛选,不用单独跑特征筛选流程,速度快、效果稳。
tyler_download8 小时前
人工智能·深度学习·transformer
揉扁搓圆Transformer架构: 激活函数说明在充分了解Transformer架构前,我们需要知道它的一些前置知识,如果对前置知识了解不清楚,我们深入transformer架构时就会愈发糊涂最后走不下去。Transformer其实是有早期深度学习网络进化而来,他是基于早起深度学习网络架构上进行的一次进化。
STLearner9 小时前
大数据·论文阅读·人工智能·python·深度学习·学习·机器学习
AI论文速读 | 元认知监控赋能深度搜索:认知神经科学启发的分层优化框架论文标题:Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience