目标跟踪技术与行为识别-中关村在线

传统视频监控系统只提供视频的捕获、保存、传输、显示画面等功能，而视频内容的分析识别等需要人工实现，工作量巨大且容易出错。智能监控系统是指在特定的监控区域内实时监控场景内的永久或是临时的物体，通过对视频传感器获取的信息进行智能分析来实现自动的场景理解、预测被观察目标的行为以及交互性行为。本文就视频智能分析技术的原理和现状进行介绍。

引言

在传统视频监控系统中，视频内容的分析识别等需要人工实现，由于劳动强度高，工作量巨大且容易出错，因此视频监控系统正朝着智能化的方向发展。新一代的智能化监控系统采用了智能视频分析技术，克服了传统监控系统人眼识别的缺陷，具备实时对监控范围内的运动目标进行检测跟踪的功能；并且把行为识别等技术引入到监控系统中，形成新的能够完全替代人为监控的智能型监控系统。

智能视频分析技术涉及到模式识别、机器视觉、人工智能、网络通信以及海量数据管理等技术。视频智能分析通常可以分为几部分：运动目标的识别、目标跟踪与行为理解。

智能分析技术原理

一般情况下，视频智能化分析的基本过程是从给定的视频中读取每帧图像，并对输入图像进行预处理，如滤波、灰度转换等，然后判断输入图像中是否有运动目标，接下来判断运动目标是否为监控目标，最后对该目标根据需求进行监控、跟踪或是行为理解等分析。

1、目标检测技术

运动检测(Motion Detection)。运动检测是把视频中变化的区域与背景图像精确分离出来，即正确分割出运动目标区域或轮廓，这是任何系统设计实现首先要考虑的问题，它的效果好坏或成败与否直接影响后续的跟踪和行为理解等后期处理效果。

目标检测是从图像序列中将变化区域从背景图像中提取出来，从而检测出运动的目标，目标检测十分重要，它将影响目标对象的分类、行为识别等后期处理。目标检测分析多个差图像中区域之间的关系，并在原图像中验证，得到运动的目标和其运动轨迹。比如，如果已经知道3个不同时刻的二值差图像，若存在一个运动目标的话，该目标在这3个差图像中的大小基本不变，其运动方向和运动速度基本不变，在3个差图像对应的原图像中的区域，有基本相同的灰度分布等等。几种常用的动态视频目标检测方法简介如下：

背景减除，背景减除(Background Subtraction)方法是目前运动检测中最常用的一种方法，它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据，但对于动态场景的变化，如光线照射情况和外来无关事件的干扰等也特别敏感。由于该模型是固定的，一旦建立之后，对于该场景图像所发生的任何变化都比较敏感，比如阳光照射方向，影子，树叶随风摇动等。

时间差分，时间差分(Temporal Difference 又称相邻帧差)方法充分利用了视频图像的特征，从连续得到的视频流中提取所需要的动态目标信息。在一般情况下采集的视频图像，若仔细对比相邻两帧，可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法就是利用相邻帧图像的相减来提取出前景移动目标的信息的。

但在目标运动缓慢时，差分后的运动目标区域内会产生空洞，从而不能完全提取出所有相关的特征像素点，一般不能够完整地分割运动对像，不利于进行相关分析，因此差分法很少被单独使用。

光流，基于光流方法(Optical Flow)的运动检测采用了运动目标随时间变化的光流特性，如Meyer 等通过计算位移向量光流场来初始化基于轮廓的跟踪算法，从而有效地提取和跟踪运动目标。该方法的优点是在所摄场所运动存在的前提下也能检测出独立的运动目标。然而大多数的光流计算方法相当复杂，且抗噪性能差，如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。

2、目标跟踪技术

目标跟踪(Object Tracking)就是通过对摄像头采集到的图象序列进行计算分析，计算出目标在每帧图像上的二维位置坐标，并根据不同的特征值，将图像序列中不同帧中同一运动目标关联起来，得到各个运动目标完整的运动轨迹，也就是在连续的视频序列建立运动目标的对应关系。

可采用Mean Shift算法和Particle Filter算法实现目标跟踪。

Mean Shift算法本质上是最优化理论中的最速下降法(亦称梯度下降法，牛顿法等)，即沿着梯度下降方法寻找目标函数的极值。在跟踪中，就是为了寻找到相似度值最大的候选目标位置。

Mean Shift方法就是沿着概率密度的梯度方向进行迭代移动，最终达到密度分布的最值位置。其迭代过程本质上是最速下降法，下降方向为一阶梯度方向，步长为固定值。但是，Mean Shift没有直接求取下降方向和步长，它通过模型的相似度匹配函数的一阶Talor展开式进行近似，直接推到迭代的下一个位置。由此，沿着梯度方向不断迭代收敛到目标相似度概率目标分布的局部极大值。

Mean Shift算法在目标运动过快或背景过于复杂时，迭代寻找的局部极值并不是目标在下一帧中的最佳匹配位置。另外，Mean Shift作为最速下降法的一种，它的收敛速度并不快，且在接近最优值时，存在锯齿现象。

Particle Filter算法本质上是蒙特卡罗仿真，即通过采样粒子来近似描述概率密度分布。跟踪中，不可能求取下一帧中所有位置的相似度，即无法获取相似度概率密度分布。而Particle Filter就是通过粒子采样来近似描述这样的分布，有了该分布就可以获取目标的相似度最大位置。一般是根据粒子自身的匹配程度来确定概率密度的最值。Particle Filter没有迭代过程，它通过播散大量的粒子，通过这些粒子来获取最值位置。另外，因为粒子采样是遍布整个相似度概率密度空间的，故其具有全局最优性。

还可以使用如基于塔型结构的匹配跟踪、多子模板匹配、Kalman 滤波器、光流法等方法实现目标跟踪。

3、行为识别技术

行为识别(Behavior Understanding)是近年来被广泛关注的研究热点，它是指对目标的运动模式进行分析和识别，并用自然语言等加以描述。同目标识别与跟踪技术相比，行为动作识别技术是监控领域的较高研究层次，在计算机视觉中是一个极具有吸引力及挑战性的课题。是近年来计算机视觉领域和智能监控领域研究的热点也是难点，但仍处于未成熟的初级阶段。目前的视频智能监控系统中，尽管对于一些动作细节还不能做到准确识别，但是已经能够识别出物体的整体行为，比如可以识别物体的形状、颜色、体积、运动轨迹、运动速度、速度变化等，对这些数据进行进一步挖掘和分析就能够实现监控领域的一些特定需求，可以应用在禁区报警、数量统计、医疗监护以及环境检测等领域。

在视频行为动作识别中，通常是预先规定好若干动作类型(此过程由目标数据库所决定)，然后，利用数据库的训练样本对各种动作类型进行特征建模，在必要的时候还要加入训练的部分，构成一个动作模型库。也可以使用自然语言描述人的行为，实现对行为的识别和理解，近几年，更多研究者倾向于使用语义描述来分析人体动作行为，此方面的研究得到了一定的进展。自然语言描述的核心思想是：模仿人类语言的表达方式，通过有限的词汇的不同组合来表示具有不同意义的句子、段落与文章。在行为分析与理解领域中，可以把某个的图像看成是一个视觉词汇，或叫做视觉单词，把视觉词汇进行组合就可以得到视频的自然语言描述，由于不同行为有不同的描述，因此可以通过不同描述来区分不同的行为。

行为理解的推理中广泛采用了基于图像模型的推理方法，如隐马尔科夫模型(HMM) ，动态贝叶斯网络(DBN) ，条件随机场(CRF)等；也有的研究采用其他的推理方法，如使用基于规则的决策树来对一系列表示动作及对象的三元表达式进行分类；采用模板匹配的方法，将检测到的运动特征与训练好的样本逐个匹配，匹配的结果即为对行为识别的结果；还可以使用有限状态自动机，每个状态表示当前人体的位置，来对人的轨迹进行分类，识别异常事件。