数字监控视频MPEG-4编码压缩技术研究


  引言:数字视频在工农业生产中的重要性日益明显,数字视频编码技术也愈加显得重要和亟待解决的问题。近年来,由于MPEG-4压缩技术在实时视频监控方面,无论是压缩率,传输的速率,清晰度都比MPEG-1具有更大的优势,现在MPEG-4在视频监控上占有统治地位。同时,H.264在低码率高画质方面有很大的优势,相信H.264也是未来的发展趋势。本文首先重点讲述MPEG-4,然后对H.264中引进的最新视频编码技术及我国"数字音视频编解码技术标准工作组"制定的AVS标准进行简单的对比介绍。
  一、引言
  我国目前在视音频产业领域已经具备较强的产业基础,但由于不掌握核心技术标准,相关企业长期受制于国外持有标准化专利与技术的企业和组织。视音频编解码软件技术属于在市场前景好、产业关联度大、关系国民经济发展和国家安全的战略性技术,是数字视音频产业的核心技术,发展编解码软件技术,既可以占领编解码软件市场,也是发展数字多媒体产业的基础。视音频编解码软件技术属于在市场前景好、产业关联度大、关系国民经济发展和国家安全的战略性技术,是数字视音频产业的核心技术。视音频编解码软件的应用场合相当广泛,包括可视电话(固定或移动)、实时视频会议系统、视频监控系统、Internet网视频传输以及多媒体信息存储等。由于安防行业中对监控的视音频信息长期大量存储的迫切需求,视音频编解码技术的最新发展在该行业中得到了快速产业转化,并形成了一定的规模。近年来,迅速发展的安防市场极大促进了视音频编码板卡和数字硬盘录像机(DVR)的技术更新速度。而视音频编码板卡和DVR的关键技术就是数字视音频编解码技术。
  二、MPEG-4视频编码压缩技术
  MPEG-4视频编码标准支持MPEG-1、MPEC-2中的大多数功能,它包含了H.263的核心设计,并增加了优先特性和各种各样创造性的新特性。它提供不同的视频标准源格式、码率、帧频下矩形图像的有效编码,同时也支持基于内容的图像编码。采纳了基于对象(Object-Based)的编码、基于模型(Model-based)的编码等第二代编码技术是MPEG-4标准的主要特征。MPEG-4视频编码系统框图(如图)
  
  MPEG-4视频编码中主要包含以下关键技术:离散余弦编码(DCT);量化;Intra块DC系数和AC系数的帧内预测;之型扫描与游程编码;变字长编码(VLC);运动估计;运动补偿;高精度、多模式运动估计。
  DCT主要完成图像数据由空域转向频域,各系数相互独立,这意味着各系数可分开处理,同时,图像的高频系数大部分接近于零。人的视觉系统对低频比对高频敏感的多,因此可以用更大的量化步长来量化高频系数,使大部分高频系数为零,从得到较高的压缩比,而人眼很难察觉。量化是针对DCT变换系数进行的,量化过程就是以某个量化步长去除DCT系数。量化步长的大小称为量化精度,量化步长越小,量化精度就越细,包含的信息越多,但所需的传输频带越高。不同的DCT变换系数对人类视觉感应的重要性是不同的,因此编码器根据视觉感应准则,对一个8×8的DCT变换块中的64个DCT变换系数采用不同的量化精度,以保证尽可能多地包含特定的DCT空间频率信息,又使量化精度不超过需要。由于Intra编码方式的各块之间的DC和AC有较强的连续性,所以我们量化后可以进一步进行预测。DC和AC的预测方向有两个:水平方向和垂直方向。其预测方向主要取决于相邻块DC系数的相关性,AC的预测只对块的第一行或第一列进行预测。是对第一行进行预测还是对第一列进行预测主要取决于预测方向,其预测方向和DC预测方向一致。由于经量化后,大多数非零DCT系数集中于8′8二维矩阵的左上角,即低频分量区,之型扫描后,这些非零DCT系数就集中于一维排列数组的前部,后面跟着长串的量化为零的DCT系数,这些就为游程编码创造了条件。所谓游程编码就是对扫描后64个系数进行编码:用非0系数的大小(Level)、其前面连续0的个数(Run)及终止标志(Last:"0"便是其后还有不为0的系数;"1"表示该系数为最后不为0的数,余下的系数全为0)加起来构成一个三维矢量(Last,Run,Level)。然后就可以对这些矢量进行Huffman编码。游程编码形成的三维矢量是一种有效表示方式,实际传输前,还须对其进行比特流编码,产生用于传输的数字比特流。其中用得最多的就是Huffman编码,Huffman编码中,根据所有编码信号的概率生成一个码表,码表中对大概率信号分配较少的比特表示,对小概率信号分配较多的比特表示,使得整个码流的平均长度趋于最短。运动估计用于帧间编码,即P帧和B帧编码。通过在参考帧图像中搜索到与当前块最接近的块。从而使传输的误差块可以用更少的比特表示,从而达到压缩目的。运动估计的准确程度对帧间编码的压缩效果非常重要。运动估计以宏块或块为单位进行,计算被压缩图像与参考图像的对应位置上的宏块或块间的位置偏移。这种位置偏移是叫运动矢量(MV),一个运动矢量代表水平和垂直两个方向上的位移。现在MPEG-4所用的运动估计算法主要有:MVFAST(Motion Vector Field Adaptive Search Technique),改进的PMVFAST(Predictive MVFAST)和EPZS (Enhanced Predictive Zonal Search) 算法。运动补偿实际上是一种预测编码的思想,因此,运动补偿又可称为运动预测。运动预测的过程为:根据前面在运动估计中得到的匹配MV,在当前宏块/块和参考帧中的匹配宏块/块之间进行预测(即:计算差值),编码器只需对预测误差和使用的MV进行码流编码。帧内图像I帧不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法。每幅图像分成8×8的图像块,对每个图像块进行离散余弦变换DCT。DCT变换后对每个系数进行量化,然后对量化后的系数进行DC、AC预测,对预测后的差值按照Zig-zag进行扫描,然后再进行游程编码,最后用霍夫曼(Huffman)编码或者用算术编码得到最后的码流。其中DC预测后的DC差值可直接查表得到对应的码字。预测图像P帧的编码是以图像宏块为基本编码单元,一个宏块定义为16×16像素的图像块。预测图像P使用两种类型的参数来表示:一种参数是当前要编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的运动矢量。通过运动估计求得最佳运动矢量,然后通过运动补偿得到的宏块与编码宏块相应像素值之差的到差值模块。然后仿照I帧编码算法对差值进行编码,计算出的运动矢量也要进行Huffman编码。双向预测图像B帧的编码方法与预测图像P的算法类似。不过,它除了可以参考过去的图像之外,它还参考将来的图像,参考过去帧和将来帧的均值帧。除了这三个参考帧之外,它还有一种参考模式,即直接模式。直接模式就是以将来的P帧的运动矢量的一半作为自己的运动矢量,以此矢量进行运动补偿,这样的方法连MV都不用编码传输,加上其量化步长一般比I帧和P帧大,所以可以达到高的压缩率。
  三、结束语
  视频监控是安全防范行业中的一个核心组成部分,由于安防行业对系统间互联互通需求较低的特殊性及其对视频信息大量存储的迫切需求,随着视频编解码技术的发展,安防行业迅速完成了由模拟向数字视频的转变,并形成了一定的规模,这一转变过程走在了广播电视、通信等信息处理行业的前面。同时我们也应当看到,安防行业的发展趋势是逐步走向远程化、网络化、移动化,这其中必然涉及到通信网的构建技术、传输技术等多个不同层面。随着安防系统的复杂化,安防领域的核心技术问题将转变为信源编码、信道编码、传输质量保证(QoS)等通信领域一直关注的问题。安防行业的发展必将促进通信行业的发展,并最终将在某种层面演变成为通信网上的一个行业应用。
  参考文献
  [1]刘如京,王玲.一种NMF和SVD相结合的鲁棒水印算法[J].计算机科学,2011,38(2): 271-273.
  [2]朱贤坤.基于小波域的双彩色图像数字水印算法[D].西安:西北师范大学,2009.
  [3]董卫军,周明全等.基于多小波变换的彩色数字水印[J].小型微型计算机系统2006,27(8):1549-1551.
  作者简介
  刘冠群(1981-),女,硕士学位,讲师,工程师,主要研究领域为软件技术,通信技术.
  凌梓(1975-),男,硕士学位,讲师,主要研究领域为算法分析,数字图像处理.
  

推荐访问:技术研究 压缩 监控 编码 数字