dl

LeonYi10 天前
nlp·dl
【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读本文主要是在复现和实践Phi2-mini-Chinese后,简要分析下Phi2-mini-Chinese这个项目,做一个学习实战总结。
活蹦乱跳酸菜鱼21 天前
dl
深度学习(DL)算法分分类深度学习(DL)算法是机器学习的一个子集,专注于使用深度神经网络(DNN)来模拟人脑的学习过程,从而解决复杂的数据处理和模式识别问题。以下是一些常见的深度学习算法:
LeonYi24 天前
nlp·dl
【LLM训练系列】NanoGPT源码详解和中文GPT训练实践本文是【训练LLM系列】的第一篇,主要重点介绍NanoGPT代码以及中文、英文预训练实践。最新版参见我的知乎:https://zhuanlan.zhihu.com/p/716442447
Michaelliu_dev4 个月前
人工智能·深度学习·算法·dl·segmentation
《Mask2Former》算法详解文章地址:《Masked-attention Mask Transformer for Universal Image Segmentation》 代码地址:https://github.com/facebookresearch/Mask2Former
Mysticbinary6 个月前
深度学习·dl·图片识别
手写数字图片识别——DL 入门案例Deep Learning Demo of Primary下面介绍一个入门案例,如何使用TensorFlow和Keras构建一个CNN模型进行手写数字识别,以及如何使用该模型对自己的图像进行预测。尽管这是一个相对简单的任务,但它涵盖了深度学习基本流程,包括:
LeonYi6 个月前
nlp·dl
【预训练语言模型】 使用Transformers库进行BERT预训练基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。鉴于算力限制,选用了较小的英文数据集wikitext-2
LeonYi9 个月前
nlp·dl
【大语言模型基础】60行Numpy教你实现GPT-原理与代码详解本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理,并加入了自己的理解。 中文翻译:https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on 项目地址:https://github.com/jaymody/picoGPT
ariesjzj10 个月前
人工智能·分布式·深度学习·llm·dl
LLM时代中的分布式AI深度学习相较传统机器学习模型,对算力有更高的要求。尤其是随着深度学习的飞速发展,模型体量也不断增长。于是,前几年,我们看到了芯片行业的百家争鸣和性能指标的快速提升。正当大家觉得算力问题已经得到较大程度的缓解时,大语言模型(LLM, Large language model)的兴起又带来了前所未有的挑战。当网络模型达到一定量级后(比如参数量达到10B级别),表现出In-context learning,Instruction following和Step-by-step reasoning等涌现能力(Eme
LeonYi1 年前
nlp·dl
大语言模型基础-Transformer模型详解和训练Transformer是由谷歌在17年提出并应用于神经机器翻译的seq2seq模型,其结构完全通过自注意力机制完成对源语言序列和目标语言序列的全局依赖建模。