自然语言处理系列六十》分布式深度学习实战》主流深度学习开源平台

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书 《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列六十
- 分布式深度学习实战》主流深度学习开源平台
- - TensorFlow深度学习框架
总结

自然语言处理系列六十

分布式深度学习实战》主流深度学习开源平台

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标------人工智能(AI, Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在人脸识别、语音识别、对话机器人、搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

深度学习是一种基于对数据进行表证学习的机器学习方法，近些年不断发展并广受欢迎。同时也有很多的开源框架和开源库，有16种GitHub中最受欢迎的深度学习开源平台和开源库给大家一一介绍下：

TensorFlow

TensorFlow最初由谷歌的Machine Intelligence research organization 中Google Brain Team的研究人员和工程师开发的。这个框架旨在方便研究人员对机器学习的研究，并简化从研究模型到实际生产的迁移的过程。

链接：

https://github.com/tensorflow/tensorflow

Keras

Keras是用Python编写的高级神经网络的API，能够和TensorFlow，CNTK或Theano配合使用。

链接：

https://github.com/keras-team/keras

Caffe

Caffe是一个重在表达性、速度和模块化的深度学习框架，它由Berkeley Vision and Learning Center（伯克利视觉和学习中心）和社区贡献者共同开发。

链接：

https://github.com/BVLC/caffe

Microsoft Cognitive Toolkit

Microsoft Cognitive Toolkit（以前叫作CNTK）是一个统一的深度学习工具集，它将神经网络描述为一系列通过有向图表示的计算步骤。

链接：

https://github.com/Microsoft/CNTK

PyTorch

PyTorch是与Python相融合的具有强大的GPU支持的张量计算和动态神经网络的框架。

链接：

https://github.com/pytorch/pytorch

Apache MXnet

Apache MXnet是为了提高效率和灵活性而设计的深度学习框架。它允许使用者将符号编程和命令式编程混合使用，从而最大限度地提高效率和生产力。

链接：

https://github.com/apache/incubator-mxnet

DeepLearning4J

DeepLearning4J和ND4J，DataVec，Arbiter以及RL4J一样，都是Skymind Intelligence Layer的一部分。它是用Java和Scala编写的开源的分布式神经网络库，并获得了Apache 2.0的认证。

链接：

https://github.com/deeplearning4j/deeplearning4j

Theano

Theano可以高效地处理用户定义、优化以及计算有关多维数组的数学表达式。但是在2017年9月，Theano宣布在1.0版发布后不会再有进一步的重大进展。不过不要失望，Theano仍然是一个非常强大的库足以支撑你进行深度学习方面的研究。

链接：

https://github.com/Theano/Theano

TFLearn

TFLearn是一种模块化且透明的深度学习库，它建立在TensorFlow之上，旨在为TensorFlow提供更高级别的API，以方便和加快实验研究，并保持完全的透明性和兼容性。

链接：

https://github.com/tflearn/tflearn

Torch

Torch是Torch7中的主要软件包，其中定义了用于多维张量的数据结构和数学运算。此外，它还提供许多用于访问文件，序列化任意类型的对象等的实用软件。

链接：

https://github.com/torch/torch7

Caffe2

Caffe2是一个轻量级的深度学习框架，具有模块化和可扩展性等特点。它在原来的Caffe的基础上进行改进，提高了它的表达性，速度和模块化。

链接：

https://github.com/caffe2/caffe2

PaddlePaddle

PaddlePaddle（平行分布式深度学习）是一个易于使用的高效、灵活、可扩展的深度学习平台。它最初是由百度科学家和工程师们开发的，旨在将深度学习应用于百度的众多产品中。

链接：

https://github.com/PaddlePaddle/Paddle

DLib

DLib是包含机器学习算法和工具的现代化C ++工具包，用来基于C ++开发复杂的软件从而解决实际问题。

链接：

https://github.com/davisking/dlib

Chainer

Chainer是基于Python用于深度学习模型中的独立的开源框架，它提供灵活、直观、高性能的手段来实现全面的深度学习模型，包括最新出现的递归神经网络（recurrent neural networks）和变分自动编码器（variational auto-encoders）。

链接：

https://github.com/chainer/chainer

Neon

Neon是Nervana开发的基于Python的深度学习库。它易于使用，同时性能也处于最高水准。

链接：

https://github.com/NervanaSystems/neon

Lasagne

Lasagne是一个轻量级的库，可用于在Theano上建立和训练神经网络。

链接：

https://github.com/Lasagne/Lasagne

在这些深度学习框架中，TensorFlow、PyTorch是目前最为主流的深度学习框架，备受大家的喜爱。

TensorFlow深度学习框架

下一篇文章具体分享TensorFlow深度学习框架，更多详细内容也可参见
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】书籍。

更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频：

新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。

全书共分为19章，详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型（Language Model）、分布式深度学习实战等内容，同时配套完整实战项目，例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。

本书理论联系实践，深入浅出，知识点全面，通过阅读本书，读者不仅可以理解自然语言处理的知识，还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

新书特色：深入浅出，逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战视频教程【陈敬雷】

视频特色：把目前互联网热门、前沿的项目实战汇聚一堂，通过真实的项目实战课程，让你快速成为算法总监、架构师、技术负责人！包含了推荐系统、智能问答、人脸识别等前沿的精品课程，下面分别介绍各个实战项目：

1、推荐算法系统实战

听完此课，可以实现一个完整的推荐系统！下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目！

2、智能问答/对话机器人实战

由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程！

3、人脸识别实战

从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向，从理论到源码实战、再到服务器操作给大家深度讲解！

自然语言处理NLP原理与实战视频教程【陈敬雷】

视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

人工智能《分布式机器学习实战》视频教程【陈敬雷】

视频特色：视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战（推荐算法系统实战、人脸识别实战、对话机器人实战）。

上一篇：自然语言处理系列五十九》自然语言模型》N-Gram统计自然语言模型
下一篇：自然语言处理系列六十一》分布式深度学习实战》TensorFlow深度学习框架