主页(http://www.pttcn.net):视频分析技术与产品初探 视频分析与识别(video analyzing and recognition)技术指的是使用计算机从视频中通过运算和分析,提取视频中的有用信息的一项技术,也就是对视频的“内容”的提取和理解。就好像人看到某一段视频中“有一辆车”、“有一辆白色的车”、“有一辆白色的捷达车”、“有一辆白色的捷达车正在打着右转向灯准备向右转”。对于人来说,这段视频是有意义的,是包含了一定信息量的,并且人可以智能化地提取这些信息,获取“有一辆白色的捷达车正在打着右转向灯准备向右转”这一信息,而且这一信息包含了“车、白色、捷达、转向灯、开灯、开右转向灯、准备右转”这一系列的子信息。而视频分析与识别技术则是让计算机来完成这一信息提取和理解的过程,通常也可以简称为“视频分析技术”。 这里要特别指出的是两点:一是有时候“视频分析技术”也称为“视频图像分析技术”,为什么呢?这是因为视频本身是由一系列连续的图像组成的(这里不讨论视频压缩技术,仅指视频信号通过解压缩还原后的帧图像序列),对于视频内容的理解,则建立在对这个“图像序列”的分析与识别上,因此,二者是等同的,是同样的含义;二是很多时候视频中的信息都是十分丰富的,就如上面提到的这段视频,除了这辆白色捷达车之外,也许还有另外的信息,比如“路边上站着的是一位穿着深蓝色风衣的中年男人戴着墨镜抽着一根烟”,对于同样一段视频,我们关注的对象不同,需要提取的信息也就不同,人的大脑可以处理很复杂的工作,可以同时将视频中的大部分信息量一次性提取出来,而对于计算机来说,其智能化水平还比较低,也许只能有针对性地提取部分信息,比如只是提取车的信息或只提取人的信息。但无论是提取什么样的信息,都属于一种“视频分析技术”。 视频分析技术 由于习惯上的原因,当前的视频分析技术一般特指从视频中目标运动行为的分析、提取和识别。其所指的含义比之字面意思的含义已大幅缩小。 技术研究方向 另一个研究方向则以目标的局部部分的运动为研究目标,提取其局部“肢体语言”特征,如视频的手语识别,步态识别,表情识别,或者判断其是否在完成某种行为,如打电话,放下一个包,从某个地方取出或入下一件东西等等。此外,公共场所或文物古迹范围是否有涂抹蹬踏行为,体育运动里的运动姿态或运动动作是否最佳,甚至于舰载火炮炮管的旋转运动曲线的研究,所有这些都是属于这一方向。这一研究方向通常针对的是小视野场景的近景视频进行研究,而且其研究对象只是属于目标物的局部部分,如分析人的手、脚、头的动作,其最核心的实现步骤通常包括对研究对象的三维建模。这一研究方向由于要分析的动作比较细致和具体,因此大多属于那种针对某一具体需求的开发和应用,比较难以出现普适性略高一些的成形产品。 市场发展状况 虽然针对不同的应用需求,产品有着不同的目标市场和目标用户,其功能也不尽相同,但其实现过程中很多的核心技术或实现思路却是一样的,都需要解决一些共同的难题,然后再针对具体需求来增加一些特殊的处理和运算,使之精度更高,速度更快,准确率更高。 以第一类的研究方向,即以目标整体的运动轨迹的提取和分析为例,虽然其处理的技巧或方法各有不同,各有特色,但从整体的解决方案框架设计来说,都是先获取背景,然后提取前景目标,再分析前景目标的运动轨迹曲线,最后由该轨迹曲线的特征来实现对于异常行为的分析。在这一过程中,必然要涉及到的是对于光照、阴影、抖动、模糊等异常状态的处理和适应,使之能适应室外光照变化或室内的灯泡强弱变化;适应各种阴影,包括外界阴影和目标物本身的阴影;适应摄像头的抖动和树叶、水波、光的折射等造成的抖动;适应焦距不准或是雨雪雾天造成的视频的模糊等。在这些不利的外界环境条件下仍然能够准确地提取目标轨迹,分析目标行为,能准确报警并尽可能减少虚警误警,保证自动监测的有效性。在这一同时,又须尽量考虑到运算的速度,算法的复杂性,以保证报警的及时性。只有这样,才可能将所开发的视频分析技术转化为可以实际应用的产品。
|