分分3分快3_3分快3官方这5种计算机视觉技术,刷新你的世界观 | 雷锋网

  • 时间:
  • 浏览:2

本文为 AI 研习社编译的技术博客,原标题 :

The 5 Computer Vision Techniques That Will Change How You See The World

作者 | James Le

翻译 | jinlilei

校对 | 酱番梨        派发 | 菠萝妹

原文链接:

https://heartbeat.fritz.ai/the-5-computer-vision-techniques-that-will-change-how-you-see-the-world-1ee19334354b

计算机视觉是目前深层学习领域最热门的研究领域之一。它处于已经 学术科目的交汇点,如计算机科学(图形学,算法,理论,系统,建筑),数学(信息检索,机器学习),工程学(机器科学好,语音,自然语言正确处理,图像正确处理),物理学(光学) ,生物学(神经科学)生和熟理学(认知科学)。已经 计算机视觉代表了对视觉环境及其背景的相对理解,已经 科学家认为,该领域已经 其跨域掌握为人工智能铺平了道路。

这么那先 是计算机视觉?以下是已经 正式的教科书定义:

  • 从图像中构建明确,有意义的物理对象描述”(Ballard&Brown,1982)

  • “从一两个 或多个数字图像计算3D世界的属性”(Trucco&Verri,1998)

  • “根据感知的图像分分3分快3_3分快3官方做出有关真外部体和场景的有分分3分快3_3分快3官方用决策”(Sockman&Shapiro,30001)

为什么会么会学习计算机视觉?最明显的答案是,从已经 研究领域衍生出的快速增长的有用的应用集合。以下是其中的一小每种:

  • 人脸识别:Snapchat和Facebook使用  面部检测  算法应用卷积核并在图片中识别出你。

  • 图像检索:Google图像使用基于内容的查询来搜索相关图像。算法分析查询图像中的内容,并根据最匹配的内容返回结果。

  • 游戏和控制:Microsoft Kinect是使用立体视觉的游戏中的一两个 很好的商业产品。

  • 监视:监控摄像机在公共场所无处不出,它用于检测可疑行为。

  • 生物识别:指纹,虹膜和面部匹配仍然是生物识别中的已经 常用土办法。

  • 智能汽车:视觉仍然是检测交通标志和信号灯以及已经 视觉型态的主要信息来源。

分分3分快3_3分快3官方我最近完成了斯坦福大学关于使用卷积神经网络进行视觉识别的精彩CS231n课程。视觉识别任务,如图像分类,定位和检测,是计算机视觉的关键组成每种。神经网络和深层学习土办法的最新发展极大地提高了那先 最先进的视觉识别系统的性能。该课程是一两个 非凡的资源,它教会了我在里边计算机视觉研究中使用深层学习架构的细节。在本文中,我须要分享我学到的5种主要计算机视觉技术,以及使用每种技术主要的深层学习模型和应用。

  1--图像分类

图像分类的间题是一两个 的:给定一组单一类别标注的图像,要求给我门都 对一组新的测试集预测那先 类别已经 测试预测的准确率。关于已经 任务有全都挑战,包括视点变化,尺度变换,类内变化,图像变形,图像遮挡,条件,以及杂乱的背景。

给我门都 何如来编写一两个 能将图像分成不类事别的算法?计算机视觉研究人员已经 提出四种 数据驱动的土办法来正确处理已经 间题。 给我门都 一定会试图直接在代分分3分快3_3分快3官方码中指定每个感兴趣的图像类别,全都为计算机提供每张图像类的已经 样本,已经 开发学习算法,查看那先 样本并了解每个类的视觉外观。换句话说,给我门都 首先派发一两个 带标注图像的训练集,已经 将它传给计算机去正确处理已经 数据。

鉴于已经 事实,整个图像分类的过程可形式化如下:

  • 给我门都 的输入是一两个 训练集,包括N 个图像,用K 个不同的类别给每个图像进行标注。

  • 已经 ,给我门都 用已经 训练集来训练分类器以了解每个类别像那先 。

  • 最后,给我门都 通过让已经 分类器预测一组它前一天没见过的新的图像集来评估分类器的效果。已经 给我门都 将那先 图像的真实标签与分类器预测的标签进行比较。

卷积神经网络(CNNs)是用于图像分类最流行的架构。CNNs一两个 典型的用例一定会你传给已经 网络图像,已经 网络对那先 数据分类。CNNs往往从输入”扫描器“ 开始英语 英文了了,它不打算一次解析所有的训练数据。比如,输入一张3000×3000像素的图像,你不须要具有10,000节点的图层。相反,给你创建一两个 10×10大小的扫描输入层,给你为图像的前10×10像素提供图像。通过该输入后,通过将扫描器向右移动一两个 像素,须要输入下一两个 10×10像素。已经 技术称为滑动窗口。

已经 ,通过卷积层而一定会正常层馈送输入数据。每个节点仅仅关注与自身相邻的每种。那先 卷积层随着网络的变深也趋于收缩,主全都通过输入的易分解因素。除了卷积层,它们通常还具有型态池化层。 池化是一两个 过滤细节的土办法:常见的池化技术是最大池化,给我门都 采用2×2像素,并传递具有最几瓶特定属性的像素。

目前大多数图像分类技术一定会在ImageNet里边训练的,它是一两个 约140万 个高分辨率的训练图像的数据集。测试图像不显示初始注释(这么分割已经 标签),已经 算法须要生成指定图像中处于的对象的标签。Oxford、INRIA、XRCE 等机构的领先计算机视觉小组用已有的最好计算机视觉土办法应用于已经 数据集。通常,计算机视觉系统是繁复的多级系统,往往须要在早期阶段通过手动调试优化参数。

第一届ImageNet 竞赛的冠军 Alex Krizhevsky (NIPS 2012) 由 Yann LeCun 开创的深层卷积神经网络。其型态包括7个隐藏层,不包括已经 最大池化层。前5层是卷积层,最后2层是全连接层。每个隐藏层的激活函数是ReLU。那先 训练比逻辑单元加快带宽更有表达力。除此之外,当相近的单元有更强的激活值,它还用竞争的归一化来抑制隐藏的活动。这助于带宽的变化。

在硬件要求方面,Alex在一两个 Nvidia GTX 53000 GPU(超过30000个快速小内核)上使用了非常有效的卷积网络实现。 GPU非常适合矩阵矩阵乘法,已经 具有非常高的存储器带宽。 这使他里能在一周内训练网络,并在测试时快速组合10个补丁的结果。 已经 给我门都 里能足够快地传达状况,给我门都 须要在多个核心上传播网络。 随着核心变得这么便宜而数据集这么大,大型神经网络的改进带宽将超过老式的计算机视觉系统。 自AlexNet以来,已有多种新型号使用CNN作为其骨干架构,并在ImageNet中取得了出色的成果:ZFNet(2013),GoogLeNet(2014),VGGNet(2014),ResNet(2015),DenseNet(2016)等。

  2--目标检测

在图像中定义目标的任务通常涉及单个目标的边界框和标签的输出。这与分类/定位任务的不同之处于于,它将分类和定位应用于已经 目标,而不仅仅是一两个 主导目标。我想要了2类目标分类,即目标边界框和非目标边界框。类事,在汽车检测中,您须要使用其边界框检测给定图像中的所有汽车。

已经 给我门都 就像对图像进行分类和定位的土办法使用滑动窗口技术,给我门都 须要将CNN应用于图像的已经 不同位置。已经 CNN将每个位置分类为目标或背景,给我门都 须要在CNN中应用已经 的位置和不同比例,计算上是非常昂贵的!

为了正确处理已经 状况,神经网络研究人员已经 提出使用区域来代替,在那里给我门都 找到已经 蕴含目标的“blobby”图像区域。已经 区域运行起来相对较快。第一两个 引人注目的模型是  R-CNN(基于区域的卷积神经网络)。在R-CNN中,给我门都 首先使用称为挑选性搜索的算法扫描输入图像以寻找已经 的目标,生成约2,000个候选区域。已经 给我门都 在每个区域框的基础上运行CNN。最后,给我门都 获取每个CNN的输出并将其输入到SVM以对区域进行分类,并使用线性回归来收紧目标的边界框。

基本上,给我门都 将目标检测转变成了图像分类间题。已经 ,处于已经 间题 - 训练缓慢,须要几瓶磁盘空间,推理也很快。

R-CNN的直接后代是快速R-CNN,它通过2次增强提高了检测带宽:1)在侯选区域前一天执行型态提取,已经 在整个图像上仅运行一两个 CNN,以及2)用softmax层替换SVM ,从而扩展神经网络的预测,而一定会创建一两个 新的模型。



快速R-CNN在带宽方面表现得更好,已经 它只为整个图像训练一两个 CNN。已经 ,挑选性搜索算法仍然须要花费几瓶时间来生成候选区域。

已经 ,发现了加快带宽的R-CNN,它现在是用于基于深层学习的目标检测的规范模型。通过插入区域生成网络(RPN)来预测来自型态的区域,它用快速神经网络取代慢的挑选性搜索算法。RPN用于决定“在哪里”以减少整个推理过程的计算要求。RPN快速有效地扫描每个位置,以评估不是须要在给定区域中进行进一步正确处理。它通过输出k个边界框区域来做到已经 点,  每个区域具一两个 分数,表示每个位置处目标的概率。

一旦给我门都 获得了给我门都 的候选区域,给我门都 就会直接将它们提供给基本上是快速R-CNN的内容。给我门都 去掉 了一两个 池化层,已经 全连接层,最后是一两个 softmax分类层和边界框回归器。

总而言之,加快带宽的R-CNN实现了更好的带宽和更高的精度。值得注意的是,尽管未来的模型在提高检测带宽方面做了全都工作,但很少有模型里能以更高的优势超越加快带宽的R-CNN。换句话说,加快带宽的R-CNN已经 一定会最简单或最快的目标检测土办法,但它仍然是表现最好的土办法之一。

近年来的主要目标检测趋势已转向加快带宽,更有效的检测系统。这在诸如You Only Look Once(YOLO),Single Shot MultiBox Detector(SSD)和基于区域的完全卷积网络(R-FCN)等土办法中可见,作为在整个图像上共享计算的四种 土办法。已经 ,那先 土办法将此人 与3种R-CNN技术相关联的昂贵子网区分开来。那先 趋势身旁的主要意味着着是正确处理让单独的算法孤立地关注所这么人 的子间题,已经 这通常会增加训练时间并降低网络准确性。

  3--目标跟踪

目标跟踪指的是在给定场景下跟踪特定感兴趣的一两个 已经 多个目标 。传统上,它应用在视频和现实世界的交互中,它们在初始目标检测前一天进行观察。现在,它对自动驾驶系统至关重要,类事优步和特斯拉等公司的自动驾驶车辆。

目标跟踪土办法须要根据观察模型分为两类:生成土办法和判别土办法。生成土办法使用生成模型来描述表观型态并最小化重建误差以搜索目标,类事PCA。判别土办法可用于区分目标和背景,其性能更加鲁棒,它逐渐成为跟踪的主要土办法。判别土办法也称为检测跟踪,深层学习属于已经 类。为了通过检测实现跟踪,给我门都 检测所有帧的候选目标,并使用深层学习从候挑选中识别所需目标。须要使用四种 基本网络模型:栈式自动编码器(SAE)和卷积神经网络(CNN)。

使用SAE跟踪任务的最流行的深层网络是深层学习跟踪器,它提出了离线预训练和在线微调网络。已经 过程是一两个 的:

  • 离线无监督预训练使用大规模自然图像数据集的栈式去噪自动编码器以获得一般目标表示。通过在输入图像中去掉 噪声并重建原始图像,栈式  去噪自动编码器须要获得更鲁棒的型态表达能力。

  • 将预训练网络的编码每种与分类器组合以获得分类网络,已经 使用从初始帧获得的正样本和负样一两个 微调网络,这须要区分当前目标和背景。DLT使用粒子滤波器作为运动模型来产生当前帧的候选补丁。分类网络输出那先 补丁的概率分数,表示其分类的置信度,已经 挑选那先 补丁中最高的补丁作为目标。

  • 在模型更新中,DLT使用限制阈值的土办法。

已经 其在图像分类和目标检测方面的优越性,CNN已成为计算机视觉和视觉跟踪的主流深层模型。一般而言,大规模CNN既须要作为分类器也须要作为跟踪器进行训练。一两个 代表性的基于CNN的跟踪算法是  完全卷积网络跟踪器(FCNT)和多域CNN  (MD Net)。

FCNT成功分析并利用VGG模型的型态图,这是一两个 经过预先训练的ImageNet,并产生以下观察结果:

  • CNN型态图可用于定位和跟踪。

  • 已经 CNN型态图区分特定目标与其背景的任务是嘈杂的或不相关的。

  • 较高层捕获对象类别的语义概念,而较低层编码更多的判别型态以捕获类内变异。

已经 那先 观察,FCNT设计了型态挑选网络,以在VGG网络的conv4-3和conv5-3层上挑选最相关的型态图。已经 ,为了正确处理在噪声上过拟合,它还分别为一两个 层的选定型态图设计了额外的一两个 通道(称为SNet和GNet)。GNet捕获目标的类别信息,而SNet将目标位置为中心的感兴趣区域(ROI)。最后,通过SNet和GNet,分类器获得一两个 预测热图,已经 跟踪器根据不是处于干扰者来决定将使用哪个热图来生成最终跟踪结果。FCNT的流程如下所示。

与FCNT的想法不同,MD Net使用视频的所有序列来跟踪其中的移动物体。上述网络使用不相关的图像数据来减少跟踪数据的训练需求,已经 想法与跟踪有已经 偏差。此视频中一两个 类的目标须已经 一两个 视频中的背景,已经 MD Net提出了多域的概念,以独立区分每个域中的目标和背景。域表示蕴含相类事型目标的一组视频。

如下所示,MD Net分为两每种:共享层和特定域层的K分支。每个分支蕴含一两个 具有softmax损失的二进制分类层,用于区分每个域中的目标和背景,以及共享层与所有域共享以确保一般性表示。

近年来,深层学习研究人员尝试了不同的土办法来适应视觉跟踪任务的型态。给我门都 已经 探索了已经 方向:应用已经 网络模型,如递归神经网络和深层置信网络,设计网络型态以适应视频正确处理和端到端学习,优化过程,型态和参数,已经 甚至将深层学习与传统的计算机视觉土办法或语言正确处理和语音识别等已经 领域的土办法相结合。  

  4--语义分割

计算机视觉的核心是分割过程  ,它将整个图像分成像素组,已经 须要对其进行标记和分类。很重是,语义分割试图在语义上理解图像中每个像素的作用(类事,它是汽车,摩托车还是其它类型的类?)。类事,在上图中,除了识别人,道路,汽车,树木等之外,给我门都 还须要描绘每个物体的边界。已经 ,与分类不同,给我门都 须要从模型中进行密集的逐像素预测。

与已经 计算机视觉任务一样,CNN在分割间题上取得了巨大成功。其中四种 流行的初始土办法是通过滑动窗口进行补丁分类,其中每个像素使用其互近的图像分别分为类。然而,这在计算上是非常低效的,已经 给我门都 不重用重叠补丁之间的共享型态。

相反,正确处理方案是加州大学伯克利分校的全卷积网络(FCN),它推广了端到端的CNN架构,用于密集预测而不不任何全连接层。这允许为任何大小的图像生成分割图,已经 与补丁分类土办法相比也快得多。几乎所有后续的语义分割土办法都采用了已经 范式。



然而,仍然处于一两个 间题:原始图像分辨率下的卷积将非常昂贵。为了正确处理已经 间题,FCN在网络外部使用下采样和上采样。下采样层称为条纹卷积,而上采样层称为反卷积。

尽管采用了上采样/下采样层,但已经 在池化期间信息丢失,FCN会生成粗分割图。 SegNet  是四种 比使用最大池化和编码 - 解码器框架的FCN更高效的内存架构。在SegNet中,从更高分辨率的型态映射引入快捷/跳跃连接,以改善上采样/下采样的粗糙度。  

最近的语义分割研究在很大程度上依赖于全卷积网络,类事扩张卷积,DeepLab和RefineNet。 

  5--实例分割

除了语义分割之外,实例分割将不类事的实例分段,类事用5种不同颜色标记5辆汽车。在分类中,通常一两个 图像,其中一两个 目标作为焦点,任务是说已经 图像是那先 。已经 为了分割实例,给我门都 须要执行更繁复的任务。给我门都 就看繁复的景点有多个重叠的物体和不同的背景,给我门都 不仅要对那先 不同的物体进行分类,须要挑选它们之间的界限,差异和关系!  

到目前为止,给我门都 已经 就看了何如以已经 有趣的土办法使用CNN型态来有效地定位蕴含边界框的图像中的不同目标。给我门都 须要扩展那先 技术来定位每个目标的精确像素而不仅仅是边界框吗?使用称为Mask R-CNN的架构在Facebook AI上探索该实例分割间题。

就像Fast R-CNN和Faster R-CNN一样,Mask R-CNN的潜在原理很简单。鉴于 Faster  R-CNN在目标检测中运行得非常好,给我门都 不是须要扩展它以进行像素级分割?

Mask R-CNN通过向 Faster  R-CNN去掉 分支来完成此操作,该分支输出二进制掩码,该掩码表示给定像素不是目标的一每种。该分支是基于CNN的型态图之上的全卷积网络。给定CNN型态图作为输入,网络在像素属于目标的用1s在所有位置输出矩阵,在已经 地方输出0(这称为二进制掩码)。

另外,当在原始Faster R-CNN架构上运行而这么修改时,由RoIPool(感兴趣区域池化)挑选的型态图的区域与原始图像的区域略微不对准。已经 图像分割须要像素级特异性,与边界框不同,这自然会意味着着不准确。Mask R-CNN通过使用称为RoIAlign(感兴趣区域对齐)的土办法调整RoIPool以更精确地对齐来正确处理此间题。从本质上讲,RoIAlign使用双线性插值来正确处理舍入误差,从而意味着着检测和分割不准确。

一旦生成了那先 掩模,Mask R-CNN将它们与来自Faster R-CNN的分类和边界框组合在同去,以生成这么精确的分割:

  结论

这5种主要的计算机视觉技术须要帮助计算机从一两个 或一系列图像中提取,分析和理解有用的信息。我还这么谈到已经 已经 先进技术,包括样式转移,着色,动作识别,3D对象,人体姿势估计等。事实上,计算机视觉领域的成本太高而无法深入探讨,我鼓励您进一步探索,无论是通过在线课程,博客教程还是正式文档。对于初学者,我强烈推荐CS231n课程,已经 您将学习何如实现,训练和调试此人 的神经网络。作为奖励,您须要从我的GitHub存储库获取所有演讲幻灯片和作业指南。假如它能指导你改变对世界的看法!

我想要继续查看该篇文章相关链接和参考文献?

长按链接点击打开或点击【这5中计算机视觉技术,刷新你的世界观】:雷锋网雷锋网雷锋网(公众号:雷锋网)

http://ai.yanxishe.com/page/TextTranslation/1251

AI研习社每日更新精彩内容,观看更多精彩内容:

自然语言正确处理产业界的力量

迁移学习:何如将预训练CNN当成型态提取器

谷歌开源BERT不费吹灰之力轻松训练自然语言模型

数据科学家应当了解的一两个统计基本概念:统计型态、概率分布、降维、过采样/欠采样、贝叶斯统计

等你来译:

基于图像的路径规划:Dijkstra算法

GANGogh:使用GANS创造艺术

掌握机器学习须要要了解的一两个 概念

取得自然语言正确处理SOA结果的分层多任务学习模型(HMTL)