本文作者为 360 奇舞团前端开发工程师
前言
Python 被认为是人工智能、机器学习的首选语言。因为人工智能要求机器能自主学习成长,机器要会学习,首先要积累大量的数据,然后运用机器学习算法如线性回归、决策树、神经网络等,让机器能从大量的数据中自主实现学习。Python 简洁易用的特点,以及在数据处理方面的强悍能力,使得目前市面上大部分人工智能的代码,都由 Python 来实现。
一、Python 语言的简单介绍
Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。
Python 语言由荷兰程序员吉多·范·罗苏姆 (Guido van Rossum)于 1989年开始开发,并于 1991 年发布了其第一个公开版本 (Python 0.9.0)。 2000 年,Python 2.0 发布,影响力开始逐渐扩大。2008 年,Python 发布了 3.0 版本,其与 2.0 系列并不完全兼容。
根据基于谷歌搜索指数的 PYPL(程序语言流行指数)统计,Python是目前世界上最受欢迎的编程语言。
这几种编程语言各有千秋。
JavaScript 主要用于前端 Web 开发,用来增强网页的交互性。
C 语言是可以用来编写操作系统的贴近硬件的语言,所以,C 语言适合开发那些追求运行速度、充分发挥硬件性能的程序。
Python 是用来编写应用程序的高级编程语言。它适合开发的应用首选是网络应用,包括网站、后台服务等等;其次是许多日常需要的小工具,包括系统管理员需要的脚本任务等等;另外就是把其他语言开发的程序再包装起来,方便使用。
许多大型网站就是用 Python 开发的,例如YouTube、Instagram,还有国内的豆瓣。很多大公司,包括 Google、Yahoo 等,甚至 NASA(美国航空航天局)都大量地使用 Python。
二、流行的原因
(1)Python 是开源的、免费的,并且拥有庞大的开源社区。
(2)较强的易读性。Python 是一种高级编程语言,其在设计上更为接近人类使用的自然语言(英语)。具备英语基础和少许编程基础的人可以很轻松地阅读 Python 代码。
(3)简洁的语法(规则)。Python 语言的设计哲学是"优雅"、"明确"和"简单",力图用最简洁的方式完成程序内容。相比于传统编程语言,Python 通常可以用更短的语句执行同样的功能。
例如,下面的 C# 语言程序段落可以在屏幕上打印出"Hello World!"字样。
arduino
using System;
class Program
{
static void Main(string[] args)
{
Console.WriteLine("Hello World!");
}
}
而使用 Python 语言实现同样的功能则只需要写入:
bash
print("Hello World!")
(4)强大的可扩展性。由于 Python 是一个完全开放的编程语言环境,其拥有大量强大的标准库和第三方开源库,例如数学计算包 NumPy、游戏开发包 pygame、机器学习包 TensorFlow 等。正是因为这一特点,Python 目前是人工智能编程的首选语言。
(5)Python有大量免费的开源应用程序。
(6)便利的可移植性。Python 几乎可以运行于任何操作系统,将 Python 代码移植到 Windows、macOS、Linux 等不同环境中非常便利。
(7)应用领域广泛。在系统编程、游戏开发、图形界面开发、科学计算、Web开发、数据分析、人工智能等方面有广泛应用;还在科学领域被大量用于学术研究和应用研究。
三、缺点
(1)速度慢,Python 的运行速度相比 C 语言确实慢很多,跟 JAVA 相比也要慢一些,因此这也是很多所谓的大牛不屑于使用 Python 的主要原因,但是在大多数情况下 Python 已经完全可以满足你对程序速度的要求,除非你要写对速度要求极高的搜索引擎等,这种情况下,当然还是建议你用 C 去实现的。
(2)代码不能加密,因为 Python 是解释性语言,它的源码都是以明文形式存放的,不过我不认为这算是一个缺点,如果你的项目要求源代码必须是加密的,那你一开始就不应该用 Python 来去实现。
四、应用领域
- 数据科学:数据科学涉及领域很广,涉及到当前火热的人工智能领域。Python 的数据科学包括数据分析、数据可视化、数据挖掘、自然语言处理、机器学习、深度学习等。典型的 Python 库有:Numpy,Scipy,Pandas,Matplotlib,Seaborn,Scikit-learn,tensorflow 等。
- 云计算:典型应用------ Python 开发的 OpenStack
- WEB 开发:众多优秀的 WEB 框架,比如:Django、flask、tornado
- 网络爬虫:使用 Python 可以便捷的编写网络爬虫,从网页上爬取相关信息,常用的 Python 库包括:Requests, BeautifulSoup,Scrapy 等。
- 系统运维:运维人员必备,slatstack(系统自动化配置和管理工具),Ansible(自动化运维工具)
- 图形界面开发: wxPython、PyQT、TKinter
在对以上应用领域进行开发前,需要对其领域知识有所了解。
4.1 面向对象的编程概念
对象,更准确地说是构造对象的类,其本质上可以看作可重用的软件组件。对象包括日期对象、时间对象、音频对象、视频对象、汽车对象、人物对象,等等。就其具有的属性(例如名称、颜色和大小)和行为(例如计算、移动和通信)而言,几乎任何名词都可以表示为软件对象。相较于早期流行的软件开发技术(如"结构化编程"),现在的软件开发小组能够使用模块化、面向对象的设计和实现方法使软件开发更加高效。面向对象的程序通常更容易理解、检查和修改。
4.2 大数据
对于计算机科学家和数据科学家来说,数据的重要性不亚于编写程序。根据IBM的统计,每天大约有2.5EB的数据被创建,在过去两年中被创建的数据量占当前世界全部数据总量的90%。IDC估计,到2025年,每年全球数据供应量将达到175ZB(相当于175万亿GB或1750亿TB)。
4.3 人工智能(AI)---计算机科学与数据科学的交叉学科
人工智能(AI)是旨让机器人获得和人类相同的能力而开发的一套算法。AI 使得机器人可以自己做决定、与人类互动以及识别物体。
4.3 自然语言处理(Natural Language Processing,NLP)
是 AI 中的一个专门领域,旨在研究实现人类与机器之间的交流的不同方式。NLP 是一种能够让机器人理解并使用人类语言的技术。
对用户来说,如果一款应用可以与用户交流,那么这种交流最好类似于人与人之间的对话。如果仿人机器人病句迭出,或是答非所问,那么用户体验一定不会很好,这种机器人对消费者也就没什么吸引力了。因此,在机器人学中,理解并善用 NLP 是一件非常重要的事情。
4.4 计算机视觉
是机器人学中一种常用的技术,可以使用不同的摄像机来模拟人眼的生物力学。
计算机视觉可以定义为用来获取、分析和处理图像并将其转换为对计算机有价值的信息的一组方法。在这个过程中,收集到的信息被转换为数字数据,以便计算机利用。
4.5 人工神经网络
是一种软件构造,其运作方式与科学家认为的人类大脑的工作方式类似。我们的生物神经系统通过神经元受控制,神经元之间沿着突触相互通信。特定的神经元使我们能够更有效地执行给定的任务,比如行走、彼此交流。这些神经元在任何我们需要行走的时候都会被激活。
4.6 人工神经元
在神经网络中,相互连接的人工神经元通过模拟人脑的神经元来帮助网络学习,在学习过程中加强特定神经元之间的联系,以达到特定结果。
4.7 机器学习和深度学习技术
就是让机器自动从提供的数据中去学习,然后变得智能,也就是让程序变得"聪明"。比如对磨菇来说,机器学习研究问题的流程如图:
机器学习就是用机器学习的算法来建立模型进行学习,当有新的数据出现时,可以通过模型来进行预测。
机器学习研究问题的一般步骤:
- 收集数据
- 准备数据
- 分析数据
- 训练算法
- 测试算法
- 使用算法
五、案例
当你用一种语言开始作真正的软件开发时,你除了编写代码外,还需要很多基本的已经写好的现成的东西,来帮助你加快开发进度。比如说,要编写一个电子邮件客户端,如果先从最底层开始编写网络协议相关的代码,那估计一年半载也开发不出来。高级编程语言通常都会提供一个比较完善的基础代码库,让你能直接调用,比如,针对电子邮件协议的 SMTP 库,针对桌面环境的 GUI 库,在这些已有的代码库的基础上开发,一个电子邮件客户端几天就能开发出来。Python 就为我们提供了非常完善的基础代码库,覆盖了网络、文件、GUI、数据库、文本等大量内容,被形象地称作"内置电池(batteries included)"。用 Python 开发,许多功能不必从零编写,直接使用现成的即可。除了内置的库外,Python 还有大量的第三方库,也就是别人开发的,供你直接使用的东西。当然,如果你开发的代码通过很好的封装,也可以作为第三方库给别人使用。
这些库很多都是封装的,因此不能看到这些算法的复杂工作细节和数学运算。使用它们的感受就如同,我们在不知道发动机、变速箱、制动系统和转向系统工作细节的情况下驾车。在不了解智能手机的硬件和软件的内部工作原理的情况下使用手机一样。
下面将结合 Python 的第三方库,描述一些案例。
5.1 Twitter 数据挖掘
通过 Twitter 提供的免费API获取到想要的推文内容。再使用自然语言处理技术将部分或全部数据进行清理任务,以进行推文的规范化。最后对推文进行情感分析。了解人们对特定政治家和问题的看法;公司可能会通过推文情感分析,了解人们对其产品和竞争对手产品的看法。
Tweepy 库是最受欢迎的 Python 库之一。通过 Tweepy 库,可以在不知道 Twitter API 返回的 JSON 对象的处理细节的情况下,轻松地使用 Twitter 的各种功能。关于 Tweepy 库的文档,请参阅docs.tweepy.org/en/latest/。
5.2 旅行者翻译伴侣 APP
这个案例中需要安装 Watson 开发者云 Python 软件开发工具包(SDK),以便使用 Python 代码以编程的方式访问 Watson 服务。然后,将通过混合几个 Watson 提供的服务来快速方便地开发一款旅行者翻译伴侣 APP。借助这款 APP,只说英语和只说西班牙语的人可以跨越语言的障碍进行口头交流。在这款 APP 中,我们将英语或西班牙语音频转录为文本,再将文本翻译为其他语言,最后从翻译后的文本中合成并播放英语或西班牙语音频。
5.3 将含有狗和猫的图像,分类为"狗"或"猫"
scikit-learn 也称为 sklearn,可以方便地将最有效的机器学习算法打包为估计器。
通过 scikit-learn 和少量的 Python 代码,可以快速地创建功能强大的模型来分析数据、从数据中提取信息,最重要的是进行预测。案例会使用scikit-learn 在数据集的一个子集上训练模型,然后测试剩余数据来查看模型的工作情况。一旦模型经过训练,就可以用来对未知数据进行预测。
scikit-learn 支持很多分类算法,包括最简单的k近邻(k-NN)算法。通过用k近邻算法和Digits数据集拆分数据以进行训练和测试。最终完成图像的分类。
5.4 人脸检测和人脸识别
案例基于 Python 平台安装 OpenCV,通过图像处理和视频分析,以及深度估计和分割,最终结合神经网络处理人脸检测和人脸识别的问题。
总结
人工智能的里程碑事件之一,即 2015 年,由 Google 的 DeepMind 小组使用两个神经网络深度学习技术开发的 AlphaGo 击败了围棋冠军范辉。
Python 有点儿像围棋,既简单又深奥,老少皆宜。
它的深奥更多的体现在应用上,他需要程序员背后强大的知识体系和实践经验。
当代中国小学生的科技教育口号 STEAM
即:= Science(科学)+ Technology(技术)+ Engineering(工程)+ Art(艺术)+ Mathematics(数学),放到程序员的自我提升上也是合适的。
后记
为什么名字叫 "Python"?
我们知道英文单词 "Python" 的中文翻译是 "蟒蛇" 或者 "巨蛇" 的意思。但作为一名编程语言的名称,Python 的初始意思并不是这样的。Python 这个名字,来自 Guido 所挚爱的电视剧 "Monty Python's Flying Circus" 。他希望这个新的叫做 Python 的语言,能符合他的理想:创造一种 C 和 shell 之间,功能全面,易学易用,可拓展的语言。
谢谢你读到了这里~
参考书目及文章:
- 《Python编程:从入门到实践(第3版)》[美] 埃里克 • 马瑟斯(Eric Matthes)
- 《OpenCV4计算机视觉:Python语言实现(原书第3版)》(加)约瑟夫·豪斯(Joseph Howse);(爱尔兰)乔·米尼奇诺(Joe Minichino)
- 《人工智能+机器人 入门与实战》陈宇航 侯俊萍 叶昶 编著
- 《Python程序设计:人工智能案例实践》(美)保罗·戴特尔(Paul Deitel);(美)哈维·戴特尔(Harvey Deitel)
- 《Python 知识手册-v4.1》作者:阳哥
- 《如何看待小学生开始学 Python?》www.zhihu.com/question/30...