计算机视觉算法导读篇

文章目录

1 深度学习发展史
2 计算机视觉概述

1 深度学习发展史

起源：深度学习所需要的神经网络技术起源于 20 世纪 50 年代，叫做感知机。当时也通常使用单层感知机，尽管结构简单，但是能够解决复杂的问题。后来感知机被证明存在严重的问题，因为只能学习线性可分函数，连简单的异或 (XOR) 等线性不可分问题都无能为力，1969 年 Marvin Minsky 写了一本叫做《Perceptrons》的书，他提出了著名的两个观点：1. 单层感知机没用，我们需要多层感知机来解决复杂问题 2. 没有有效的训练算法。
发展：20 世纪 90 年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机（SVM，Support Vector Machines）、 Boosting、最大熵方法（如 LR，Logistic Regression）等。这些模型的结构基本上可以看成带有一层隐层节点（如 SVM、Boosting），或没有隐层节点（如 LR）。这些模型无论是在理论分析还是应用中都获得了巨大的成功。相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个时期浅层人工神经网络反而相对沉寂.
2006 年，杰弗里・辛顿以及他的学生鲁斯兰・萨拉赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术期刊《科学》发表的一篇文章中详细的给出了 “梯度消失” 问题的解决方案 —— 通过无监督的学习方法逐层训练算法，再使用有监督的反向传播算法进行调优。该深度学习方法的提出，立即在学术圈引起了巨大的反响，以斯坦福大学、多伦多大学为代表的众多世界知名高校纷纷投入巨大的人力、财力进行深度学习领域的相关研究。而后又迅速蔓延到工业界中。
2012 年，在著名的 ImageNet 图像识别大赛中，杰弗里・辛顿领导的小组采用深度学习模型 AlexNet 一举夺冠。AlexNet 采用 ReLU 激活函数，从根本上解决了梯度消失问题，并采用 GPU 极大的提高了模型的运算速度。同年，由斯坦福大学著名的吴恩达教授和世界顶尖计算机专家 Jeff Dean 共同主导的深度神经网络 ——DNN 技术在图像识别领域取得了惊人的成绩，在 ImageNet 评测中成功的把错误率从 26％降低到了 15％。深度学习算法在世界大赛的脱颖而出，也再一次吸引了学术界和工业界对于深度学习领域的关注。
2016 年，随着谷歌公司基于深度学习开发的 AlphaGo 以 4:1 的比分战胜了国际顶尖围棋高手李世石，深度学习的热度一时无两。后来，AlphaGo 又接连和众多世界级围棋高手过招，均取得了完胜。这也证明了在围棋界，基于深度学习技术的机器人已经超越了人类。
2017 年，基于强化学习算法的 AlphaGo 升级版 AlphaGo Zero 横空出世。其采用 “从零开始”、“无师自通” 的学习模式，以 100:0 的比分轻而易举打败了之前的 AlphaGo。除了围棋，它还精通国际象棋等其它棋类游戏，可以说是真正的棋类 “天才”。此外在这一年，深度学习的相关算法在医疗、金融、艺术、无人驾驶等多个领域均取得了显著的成果。所以，也有专家把 2017 年看作是深度学习甚至是人工智能发展最为突飞猛进的一年。
2019 年，基于 Transformer 的自然语言模型的持续增长和扩散，这是一种语言建模神经网络模型，可以在几乎所有任务上提高 NLP 的质量。Google 甚至将其用作相关性的主要信号之一，这是多年来最重要的更新
2020 年，深度学习扩展到更多的应用场景，比如积水识别，路面塌陷等，而且疫情期间，在智能外呼系统，人群测温系统，口罩人脸识别等都有深度学习的应用。

2 计算机视觉概述

2.1 定义

计算机视觉是指用摄像机和电脑及其他相关设备，对生物视觉的一种模拟。它的主要任务让计算机理解图片或者视频中的内容，就像人类和许多其他生物每天所做的那样。

2.2 任务分解

主要分为三大经典任务： 图像分类 、 目标检测 、 图像分割

图像分类（Classification）：即是将图像结构化为某一类别的信息，用事先确定好的类别 (category) 来描述图片。
目标检测（Detection）：分类任务关心整体，给出的是整张图片的内容描述，而检测则关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息（classification + localization）。
图像分割（Segmentation）：分割是对图像的像素级描述，它赋予每个像素类别（实例）意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割。

2.3 应用场景

人脸识别

人脸识别技术目前已经广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗等行业。据业内人士分析，我国的人脸识别产业的需求旺盛，需求推动导致企业敢于投入资金。

代表企业：Face++ 旷视科技、依图科技、商汤科技、深醒科技、云从科技等。

视频监控

人工智能技术可以对结构化的人、车、物等视频内容信息进行快速检索、查询。这项应用使得让公安系统在繁杂的监控视频中搜寻到罪犯的有了可能。在大量人群流动的交通枢纽，该技术也被广泛用于人群分析、防控预警等。

代表企业：SenseTime 商汤科技、DeepGlint 格灵深瞳、依图科技、云天励飞、深网视界等。

图片识别分析

代表企业：Face++ 旷视科技、图普科技、码隆科技、酒咔嚓、YI + 陌上花科技等。

辅助驾驶

随着汽车的普及，汽车已经成为人工智能技术非常大的应用投放方向，但就目前来说，想要完全实现自动驾驶 / 无人驾驶，距离技术成熟还有一段路要走。不过利用人工智能技术，汽车的驾驶辅助的功能及应用越来越多，这些应用多半是基于计算机视觉和图像处理技术来实现。

代表企业：纵目科技、TuSimple 图森科技、驭势科技、MINIEYE 佑驾创新、中天安驰等。

除了上述这些，计算机视觉在三维视觉，三维重建，工业仿真，地理信息系统，工业视觉，医疗影像诊断，文字识别（OCR），图像及视频编辑等领域也有广泛的应用。

2.4 计算机视觉发展史

1963 年， Larry Roberts 发表了 CV 领域的第一篇专业论文，用以对简单几何体进行边缘提取和三维重建。
1966 年，麻省理工学院 (MIT) 发起了一个夏季项目，目标是搭建一个 机器视觉系统 ，完成模式识别 (pattern recognition) 等工作。虽然未成功，但是计算机视觉作为一个科学领域的正式诞生的标志。
1982 年，学者 David Marr 发表的著作《Vision》从严谨又长远的角度给出了 CV 的 发展方向 和一些 基本算法 ，其中不乏现在为人熟知的 “图层” 的概念、边缘提取、三维重建等，标志着计算机视觉成为了一门独立学科。
1999 年 David Lowe 提出了 尺度不变特征变换 （SIFT, Scale-invariant feature transform）目标检测算法，用于匹配不同拍摄方向、纵深、光线等图片中的相同元素。
2009 年，由 Felzenszwalb 教授在提出基于 HOG 的 deformable parts model，可变形零件模型开发，它是深度学习之前最好的最成功的 objectdetection & recognition 算法。
Everingham 等人在 2006 年至 2012 年间搭建了一个大型图片数据库，供机器识别和训练，称为 PASCAL Visual Object Challenge ，该数据库中有 20 种类别的图片，每种图片数量在一千至一万张不等。
2009 年，李飞飞教授等在 CVPR2009 上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，发布了 ImageNet数据集 ，这是为了检测计算机视觉能否识别自然万物，回归机器学习，克服过拟合问题。
2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个 “大型的深度卷积神经网络”，也即现在众所周知的 AlexNet ，赢得了当年的 ILSVRC。这是史上第一次有模型在 ImageNet 数据集表现如此出色。自那时起，CNN 才成了家喻户晓的名字。
2014 年，蒙特利尔大学提出 生成对抗网络（GAN） ：拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据，而另一个网络则试图将假数据区分出来。随着时间的推移，两个网络都会得到训练，生成对抗网络（GAN）被认为是计算机视觉领域的重大突破。
2018 年末，英伟达发布的 视频到视频生成（Video-to-Video synthesis） ，它通过精心设计的发生器、鉴别器网络以及时空对抗物镜，合成高分辨率、照片级真实、时间一致的视频，实现了让 AI 更具物理意识，更强大，并能够推广到新的和看不见的更多场景。
2019，更强大的 GAN， BigGAN ，是拥有了更聪明的学习技巧的 GAN，由它训练生成的图像连它自己都分辨不出真假，因为除非拿显微镜看，否则将无法判断该图像是否有任何问题，因而，它更被誉为史上最强的图像生成器.