图像识别系统

图像识别系统智慧城市
雷锋网读懂智能&未来首页 AI研习社 AI影响因子活动专题精选爱搞机

业界人工智能智能驾驶AI+ Fintech&区块链未来医疗网络安全AR/VR机器人开发者智能硬件物联网GAIR
人工智能正文
2

机器学习零基础？手把手教你用TensorFlow搭建图像识别系统（一）| 干货
本文作者：晟炜 2017-01-16 11:45
导语：这是Wolfgang Beyer的一篇博文，详细介绍了如何使用TensorFlow搭建一个简单的图像识别系统。本篇主要介绍图像识别和本试验中会遇到的一些概念。
机器学习零基础？手把手教你用TensorFlow搭建图像识别系统（一）| 干货

如果你觉得这是一篇简单介绍人工智能、机器学习和深度学习的文章，那就错啦。你可以在网上搜罗到一大堆相关话题的文章，而这篇文章也并不是讨论人工智能是否会奴役人类或抢走人们饭碗之类的话题，毕竟相关的各种推论和谣言已经满天飞了。

这只是一篇详细描述如何开始搭建一个机器学习系统，并让它可以识别所看到图像的文章。

作者Wolfgang Beyer目前现在正在学习人工智能和机器学习的内容。他认为最好的学习方式不是仅仅阅读各类材料，而是要真正地去动手搭建一个系统。这就是雷锋网翻译本文的目的，也是作者要向你介绍的。在这篇文章中Beyer将向你展示如何搭建一个系统，去完成一项简单的计算机视觉任务：识别图像内容。

Beyer强调，他并不是一个专家。“我正在学习，而且还有很多东西需要学习。我只是简单介绍我正在做的事情。如果这对你能有所帮助，或者你也觉得很有趣，就已经很好了。如果你发现了错误或有什么改进建议也请告诉我，你的回复对我也很重要。”

阅读本文前你并不需要具备机器学习的相关经验。示例代码是使用Python写的，如果你有Python的基础知识是最好的。但如果你只是掌握其他的编程语言，那也已经足够了。由于篇幅限制，本系列将分四篇文章发布，雷锋网(公众号：雷锋网)编译，未经许可不得转载。

为什么让机器学会图像识别？

图像识别是开发和测试机器学习的一项重要任务，因为视觉可能是最重要的一项感知能力。虽然对于人类来说，它是与生俱来的。但它是怎么实现的？大脑是怎样将视网膜上的图像转化成我们对周围环境的心智模式的？我想没人能对此一清二楚。关键是，对我们来说这看起来如此简单——我们不需要有意识地去做这件事，而对于计算机来说却困难重重（事实上，对我们来说也并不是看上去那么简单。只是我们并没有意识到进行了多少工作。有超过一半的大脑区域直接或间接参与了视觉活动）。

在我们甚至都不知道自己怎么看到东西的情况下，怎么让计算机去做到这样的事情呢？这就是机器学习要研究的事情。我们采取的方法是让计算机自己去完成这样的过程，而不是手把手地一步步教会计算机如何解释图像并翻译成计算机程序。我们给计算机提供总体结构，让计算机从经验中学习，就像我们人类做的那样。

但是，在我们开始构想计算机视觉的整体方案之前，让我们把这个任务简化为一个容易掌握的小目标。

图像分类和CIFAR-10数据集
我们尝试解决一个尽可能小而简单的问题，另外也不要期望它能瞬间让我们成为机器学习大师。我们希望计算机能做的包括以下方面：当我们向计算机展示一幅图片（特定尺寸）时，它能够对图片进行分析并打上标签。他可以从固定数量的标签中进行选择，每一类的标签描述了一种图像的内容。我们的目标就是这个模型能够尽可能地挑选出正确的标签。这个任务被称作图像分类。

我们将使用标准的CIFAR-10数据集。CIFAR-10包含了60000幅图片。它有10个不同的分类，每类包含6000幅图片。每幅图片的规格是32x32像素。这么小尺寸的图片对我们人类来说有时很难进行正确的分类，但它却简化了计算机模型的任务，并降低了分析图片的计算负载。

机器学习零基础？手把手教你用TensorFlow搭建图像识别系统（一）| 干货

CIFAR-10数据集中10个分类中的随机图片。由于分辨率低，人类很难进行正确的标签。

我们将图片转化为一连串的数字输送给计算模型。每个像素由代表红色，绿色和蓝色的三个浮点数来表示。其结果就是32x32x3=3072个值。

除了CIFAR-10，还有很多其他的图像数据集可以用于计算机视觉的研究。之所以使用标准数据集，有两个目的：

第一，要收集这么多的图片是一项巨大的工作。你需要有大量的图片资源，并根据需要对他们进行分别标签。

第二，使用相同的数据集，可以让我们有目的地比较不同方法的优劣。

另外，使用标准数据集，可以相互比较，在竞赛中排出名次。最有名的比赛是Image-Net图像识别大赛，它需要对1000个不同的种类进行识别。2012年的胜者是来自多伦多大学（University of Toronto）的亚力克斯•克利则夫斯基（Alex Krizhevsky），伊利亚·苏特斯科娃（Ilya Sutskever）和杰夫·辛顿（Geoffrey Hinton）设计的算法（雷锋网注：可点击论文链接查看）。这个系统领跑整个比赛并且以巨大的优势获胜。

这次比赛对整个研究领域产生了巨大的冲击，因为这是第一次使用卷积神经网络的方法获得胜利。卷积神经网络是一种人工神经网络，它大致模拟了动物视觉的皮质行为。这一技术的应用已经有一段时间，但它的潜力还没被多数人认识到。2012 Image-Net竞赛后，这种情况出现了改变。人们突然对神经网络和深度学习（深度学习是使用多层神经网络的方法解决机器学习的问题）产生了巨大兴趣，而这次赛事也极大地推动了以后几年深度学习的快速发展。

监督学习
我们怎么使用图像数据集让计算机自己学习呢？即使计算机自己能够学习，我们也需要告诉它学习什么和怎样学习。所以，我们需要通过制定一个大致的流程让计算机能够对图像进行评估。

我们定义一个通用的数学模型，将输入图像转换为输出标签。这个模型的实际输出不仅仅依赖于图像本身，还依赖模型内建的参数。这些参数并不是由我们提供，而是由计算机通过学习获得。

这样一来，这个过程可以被理解为一个优化问题。我们初始定义一个模型并提供初始的参数值。然后再向模型输入图像数据集和已知的正确标签。这就是训练的过程。在这个阶段模型重复校验，训练数据，持续调整参数值。目标是找到合适的参数使模型输出尽可能多的正确结果。这种同时使用输入数据和正确结果的训练方法叫做监督学习。还有一种叫做非监督学习，这种学习中只使用了输入数据而没有标签，但在这篇文章中我们不做讨论。

当训练完成，模型参数被固定下来，并可以被用于图像集以外的图像分类。

机器学习零基础？手把手教你用TensorFlow搭建图像识别系统（一）| 干货

在训练期间，模型的预测结果与真实值进行比较。这些信息被用于更新参数值。在测试过程中就不再有反馈，模型只是产生标签。

TensorFlow
TensorFlow是机器学习的开源软件库，它由Google在2015年发布并很快成为全世界的研究者和学习者中最流行的机器学习库之一。它在图像分类模型中承担重要作用。

接下来，我们就要开始学习如何用TensorFlow搭建一个合适的模型。

建立模型，一个Softmax分类器
Github支持这个模型的完整代码。在使用之前，你需要安装以下软件：

· Python(代码经过了Python2.7测试，Python3.3+也应该可以工作，安装链接）

· TensorFlow（安装指导链接）

· CIFAR-10数据集：下载Python版本的数据集

从https://www.cs.toronto.edu/~kriz/cifar.html下载或者使用链接中的压缩文档。请把 cifar-10-batches-py解压到python源代码的目录下，这样图像的路径应该为/path-to-your-python-source-code-files/cifar-10-batches-py/。

好了，现在我们可以开始了。让我们先来看看试验的主文件softmax.py，一行一行地来分析：

from __future__ import absolute_import

from __future__ import division

from __future__ import print_function

import numpy as np

import tensorflow as tf

import time

import data_helpers

根据TensorFlow代码规范，在所有TensorFlow Python文件中为了Python2和3的兼容性，都应该添加future语句。然后导入TensorFlow，numpy用于数值计算和时间模块。data_helper.py包括加载和准备数据集的函数。

beginTime = time.time()

# Parameter definitions

batch_size = 100

learning_rate = 0.005

max_steps = 1000

# Prepare data

data_sets = data_helpers.load_data()

我们启动一个计时器测量运行时间和定义一些参数。稍后在实际使用它们时再进行讨论。然后加载CIFAR-10数据集。因为读取数据并不是我们要做的核心，我把这部分的函数单独放在data_helper.py文件中。它只是负责读取包含数据集的文件，并把数据放入一个方便我们操作的数据结构中。

需要提到的重要的一点是，load_data()是将60000幅图像分为两部分。大的一部分包含50000幅图像。这些数据集用于训练我们的模型。另外的10000幅图像被称作测试集。在训练结束之前，我们的模型将不会看到这些图像。直到模型中的参数不再变换，我们使用测试集作为模型输入来检验模型的性能。

将数据分为训练集和测试集非常重要。我们并不知道我们的模型在遇到训练数据集或测试数据集的时候是否有相同的表现。最糟的情况在于，模型记录下了它看过的所有图像。如果我们使用相同的训练集进行测试，模型通过查找存储下来的正确答案，可能表现得非常完美。但是如果使用它从未见过的图像则原形毕露。这在模型学习中有个专门的概念叫做过度拟合，就是说特定的训练数据可能掩盖一些更为通常的特征。在机器学习中避免过度拟合是一项重大的课题。关于过度拟合和为什么建议将数据分成2个或者3个数据集，可以参考Coursera上吴恩达（Andrew Ng）机器学习课程的节选视频。

回到我们的代码，load_data()返回一个dictionary类型数据：

images_train：训练集转换为50000x3072（32像素x32像素x3个颜色通道）的数组

labels_train:训练集的50000个标签（每个数字从0到9代表图像训练集的10个分类）

images_test：测试集（10000x3072）

labels_test：测试集的10000个标签

classes：10个文本标签，将数字转换成文字（0代表“飞机”，1代表“车”，等等）

# Define input placeholders

images_placeholder = tf.placeholder(tf.float32, shape=[None, 3072])

labels_placeholder = tf.placeholder(tf.int64, shape=[None])

做好了这些工作后，雷锋网在下篇将带大家开始建立这个模型。

via wolfib

雷锋网版权文章，未经授权禁止转载。详情见转载须知。

机器学习零基础？手把手教你用TensorFlow搭建图像识别系统（一）| 干货
35人收藏分享：
相关文章
图像识别TensorFlowCIFAR-10人工智能机器学习

忽悠AI图像识别系统的新方法：随机复制并粘贴

ICPR 图像识别与检测挑战赛冠军方案出炉，基于偏旁部 ...

如何使用 TensorFlow mobile 将 PyTorch 和 Keras 部 ...

图普科技 CEO 李明强：如何用图像识别云服务，建立商 ...
文章点评：

我有话要说……
表情同步到新浪微博提交
最新评论

lanbo58 05月14日 16:01
源代码在哪里下载？
回复 (0)

来自二次元 01月16日 12:59
和文本分类大同小异
回复 (0)

晟炜
知情人士

发私信
当月热门文章
室内没有GPS信号，要怎么精确导航？
最新文章
专访Geoff Hinton：全新的想法将比微小的改进更有影响力
吴恩达发布一本全新电子书《转型成为 AI 企业快速指南》
12月19日，人工智能顶级论文报告会暨 CAAI 青年科技成果奖报告会将于哈工大（深圳）开幕
神经架构优化(NAO)：新的神经架构搜索(NAS)算法
让你的电脑拥有“视力”，用卷积神经网络就可以！
「2018 第六届全国计算机学科博士后论坛」今天召开，鹏城实验室博士后工作站挂牌
热门搜索
区块链机器学习AppleiPhone 6计算机视觉大疆雷锋微视点数据分析PS4搜索引擎FBI
热门关键字
热门标签人工智能机器人机器学习深度学习金融科技未来医疗智能驾驶自动驾驶计算机视觉激光雷达图像识别智能音箱区块链智能投顾医学影像物联网IoTCV微信小程序平台微信小程序在哪CES 2017CES2016年最值得购买的智能硬件2016 互联网小程序微信朋友圈抢票软件智能手机智能家居智能手环智能机器人智能电视360智能硬件智能摄像机智能硬件产品智能硬件发展智能硬件创业黑客白帽子大数据云计算新能源汽车无人驾驶无人机大疆小米无人机特斯拉VR游戏VR电影VR视频VR眼镜VR购物AR直播扫地机器人医疗机器人工业机器人类人机器人聊天机器人微信机器人微信小程序移动支付支付宝P2P区块链比特币风控高盛人脸识别指纹识别黑科技谷歌地图谷歌IBM微软乐视百度三星s8腾讯三星Note8 小米MIX小米Note华为小米阿里巴巴苹果MacBook ProiPhoneFacebookGAIRIROS双创周云栖大会优葩智能硬件公司智能硬件QQ红包支付宝红包敬业福obd谷歌火星inspire 2airplay windows床头灯crazybaby air自制涡轮喷气发动机x6plus拆机小米网络摄像头赚钱宝是真的吗微信买单双十一是天猫还是淘宝hyperloop one商家微信支付自制涡喷发动机更多
联系我们关于我们加入我们意见反馈投稿
Copyright © 2011-2018 www.leiphone.com 雷锋网-移动互联网智能终端第一媒体 All Rights Reserved 粤ICP备11095991号-1 ICP证粤B2-20150332 0daybank

图像识别系统

文章评论