智能图像识别技术【图像识别技术在录播系统中的应用研究】

　　【摘要】自动录播系统是教育信息化支撑体系中非常重要的一环，图像识别是人工智能的一个重要领域。图像识别应用于自动录播系统中，是实现录播系统从自动走向智能的重要环节。文章的研究基于目前图像识别研究中已经相对成熟且有成功应用案例的技术，构造录播系统的典型框架结构，给出基本设置，讨论可以获取的信息，分析如何解决实际应用中的问题。
　　【关键词】录播系统；图像识别；教学
　　【中图分类号】G431 【文献标识码】A 【论文编号】1009―8097（2009）01―0125―04
　　
　　引言
　　
　　讲授型课件在教学现场实时自动录播环境下如何提高录像的效果，从教育技术的角度分析，需要解决几个困难的问题。如师生交互时，发言学生的定位问题；垃圾画面的处理问题；如何区分教师播放录像片的问题等。可以通过增加相关检测设备的方法解决上述问题。随着计算机科学整体的发展，智能图像识别技术应用于录播系统，将提供一种全新的解决思路。
　　本文的研究工作基于目前图像识别研究中已经相对成熟，且已有成功应用案例的技术，构造录播系统的典型框架结构，给出基本设置，讨论利用图像识别可以获取的信息，分析如何解决实际应用中的问题。
　　
　　一图像识别与自动录播系统
　　
　　图像识别是人工智能的一个重要研究领域。图像识别系统经常采用的重要方法之一是利用图像匹配模型进行目标的定位、跟踪、识别。图像匹配模型的实现过程是把不同视频源或同一视频源在不同时间、不同成像条件下，对同一事物获取的两幅图像在空间上配准，或根据已知模式在另一幅图像中寻找相应的模式。目前，图像匹配中应用最广泛的是模板匹配法。模板匹配是一种最简单、最基础的模式识别方式，它的基本思想是：两幅图像之间的匹配可以归结为二者某一特征值的相关性度量。通过将模板图像与待匹配图像进行相关性运算，得到一个相关值，以判断二者的匹配度[1]。图像识别系统经常采用的另一个重要方法是利用原型匹配模型识别有一定相似程度的目标。这种模型假设在长期记录中存储的并不是所要识别的无数个模板，而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型，以检验所要识别的图像。如果能找到一个相似的原型，这个图像也就被识别了。这非常类似于人不仅能识别与脑中的模板完全一致的图像，也能识别与模板不完全一致的图像。还有一种分层识别模型，这种模型的思路是把图像识别过程分为不同的层次，每一层次都有承担不同职责的特征分析机制，它们依次进行工作，最终完成对图像的识别。
　　教育技术领域中讲的自动录播系统一般是指集成计算机、视音频设备和其它相关设备的系统，其核心功能是在教学过程中对老师、学生、黑板或白板、多媒体课件、视频展台等教学活动的相关信息实时动态采集、合成、压缩、纪录和同步提供网络服务，以实现网络直播、点播、后期集成、编辑[2]。目前主流的技术路线是利用外部事件触发方法实现自动录播控制。
　　如何根据教学过程中实际发生的事件（如教师书写板书，使用电子化教学设备等），及时、准确地调度自动录播系统中的相关设备展示教学内容？如何根据教学过程中的有效信息发布源（如计算机屏幕，师生互动过程等），调整视觉展示画面及其时长，优化信息源与信息接受者（如学生）所期望的展示画面的匹配程度？如何设计画面的形式及其组合，减少垃圾画面，实现优质、自然的输出结果？这些是教师、学生、教育技术工程师，以及自动录播系统的设计和开发人员共同关心的问题。智能图像识别技术的发展，为上述问题的解决提供了一种智能化的解决方法。
　　
　　二目前自动录播系统的一般框架结构
　　
　　目前我国各类学校正在使用的自动录播系统有多种类型，各系统采用的相关技术也不尽相同。但如果将这些不同类型的系统抽象为逻辑系统，则它们都具有相同或相似的逻辑结构。可以勾画出这些自动录播系统的一般框架结构，如图 1 所示。
　　
　　自动录播系统控制中目前采用的主流技术路线是事件驱动，利用设置在教室里的各类触发信号产生装置，确定实际教学过程中发生的事件，依此进行调度控制。其中利用图像识别技术的仅限于教师运动跟踪。自动录播系统可以获取的常用触发事件源有：
　　1时钟计时触发：计算机内部时钟中断，外部时钟信号。
　　2教师运动触发：红外线追踪，无线感应，图像识别等。
　　3板书定位触发：常用无线感应等。
　　4使用电脑触发：按动鼠标，键盘等操作计算机的动作。
　　5音源定位触发：话筒按键，按钮，音源方向驱动定位等。
　　6视频展示台、DVD等其它视频源接入触发：许多系统几乎不考虑。
　　
　　三利用图像识别技术构造录播系统的典型框架结构
　　
　　利用图像识别技术构造自动录播系统的典型框架结构如图2 所示。图 2 为教室俯视示意图，其中 A1、A2 是可调摄像机， G1、G2 是固定摄像机。电脑屏幕、视频展示台和 DVD 等视频源的接入假设来自讲台。音源信号不是讨论重点，故未标出。
　　
　　
　　四可以获取的教学过程信息
　　
　　图像识别结合基本的语音识别（特定来源的声音有、无），可以提供教学过程中许多对自动录播系统的控制非常有意义的信息，如表 1 所示。
　　
　　
　　五图像识别的基本设置
　　
　　对应于每一个视频源，都有特定的图像识别程序与之关联，进行特定需求的识别，给出相关信息。同时，所有图像识别程序都有历史信息记录。所有图像识别程序给出的相关信息经过控制部分子系统综合分析后，得到实际控制、调度的指令，指挥各个相关设备动作。
　　1画面划分
　　在自动录播系统中，不同的视频源可以提供的信息不同，但都需要有对目标定位的空间信息。一般把需要识别的视频画面划分为 32×24 个单元，就可以提供目标的大致空间方位和距离估算值，再利用多机图像识别的交叉定位，在大多数情况下，基本可以满足对于计算机屏幕、摄像机图像等识别目标的空间位置定位和识别的精度要求。另外，从摄像机获取的动态图像，通过对比前后的图像，可以得到摄像机的移动方向和速度等信息。
　　2画面定位点设置
　　当利用固定摄像机或可移动摄像机拍摄教师画面、板书或师生互动等场面时，需要利用图像识别确定需要聚焦的位置，以调度可移动摄像机拍摄合适的画面。这要求在初始安装、调试、设置完成后，固定摄像机的位置不发生变化和可移动摄像机的初始位置保持不变，否则可能发生定位错误。但在实际使用中，由于设备维修等诸多原因，对摄像机的调整不可避免，也很难保证调整后的位置与初始状态完全相同。解决的办法之一是重新调试初始设置，另一种办法是利用图像识别相对定位。有许多方法可以找出图像中给定的图形[3]。
　　在摄像机安装后的初始设置阶段，对于固定摄像机或可移动摄像机的初始位置，根据所拍摄的画面寻找和确定拍摄现场 3 个以上通常不会变动的参照点，作为该摄像机的画面定位点；通过图像识别，记录这些定位点的图像特征以及相对位置。实际运行中，当需要确定聚焦目标的位置时，给出相对于定位点的坐标。定位点也可以作为自动录播系统开机自检时的参考依据。
　　
　　六可以解决的一些实际问题
　　
　　对于教学过程中某一时刻发生的事件，综合利用各类信息，结合分析历史事件序列，可以相对准确的获知教学现场的情况，正确的实施调度。同时，也可以依据教学过程的发展，根据预测信息处理一些通常技术无法确定的事件，有针对性的调度多个视频画面，优化录像的输出。例如：　　1教师播放录像片的事件识别
　　在实际教学过程中，教师利用电脑或 DVD 等设备播放录像片，由于没有足够的外部触发事件可用于系统的调度决策，利用传统的外部事件触发技术手段就很难确定调度方案，可能导致的结果是录制的文件中没有包含充分的录像片信息。利用智能识别技术提供的教学现场信息，可以有效解决这类问题。播放录像片时，通常教师话筒没有声音，或相对较少；学生区无互动发言；板书基本不变；外部触发输入基本没有；计算机屏幕或 DVD信息源画面连续变化，同时可能伴有声音。这些事件特征的组合，具有很强的可预测性。
　　2学生发言时的摄像机定位
　　学生发言时，如何控制摄像机的定位与特写，一直是自动录播系统期望解决的难题之一。目前主流的技术路线是利用外部事件触发技术，根据事先设定的预置位调整摄像机运动，可以大致的定位一个区域。提高定位和特写效果的代价是增加触发外部事件的探测设备和元件，由此导致系统的复杂程度和出错率可能会加大。借助图像识别技术，利用一台固定摄像机和一台可调摄像机（处于初始位置）的交叉定位，可以相对精确的定位发言学生的地理位置，再调度可调摄像机定位移动和局部特写。结合对其它事件的组合分析，可以基本排除学生非发言移动等干扰情况。
　　3垃圾画面处理
　　利用传统的外部事件触发技术手段调度时，自动录播系统面临的另一个难题是如何减少垃圾画面。垃圾画面是对录像文件没有实际意义的，可能带来负面效应的画面，例如摄像机快速移动定位的画面，或应该看投影时，给出的却是无文字的黑板画面（老师运动时无意间触动黑板探测器）等。利用智能识别技术可以很方便的解决大多数这类问题。如果调度系统比较确切的知道每一个识别单元对应的区域曾经发生、正在发生，以及综合预测将来可能发生的事件，通过记忆和学习，自动录播系统就有可能不断调整和优化输出，把某一时刻最优的画面（包括预先录制的插入录像）作为输出，大大减少垃圾画面的出现。
　　4教师授课的行为偏好分析
　　教师授课的行为偏好分析，主要通过板书识别、计算机屏幕识别、其它接入视频识别、教师音频等信息与其它事件综合分析获得。对板书的识别，不是指识别板书的内容，而是指授课过程中，按一定时间间隔，利用智能识别技术分析和记录教师是否书写板书、内容的空间分布、持续时间、是否有移动黑板等事件。这个与时间相关的事件序列，在相当程度上反映了教师关于板书的授课行为偏好。同样，对计算机屏幕做类似的处理和记录，所得到的序列反映了教师使用电子教案的授课行为偏好。通过对教师音频和其它事件综合分析，可以得到教师讲授的行为偏好。调度系统可以根据教师讲授的行为偏好，预测将要发生的事件，自适应的调整调度规则。
　　
　　七结束语
　　
　　基于图像识别中成熟的技术，构造智能化的录播系统，不仅是有意义的尝试，也是可行的技术路线。图像识别与语音识别是实现录播系统从自动走向智能的重要环节。表面上，录播系统完成的是一件很普通的、转述或记录人类教学活动的事，实际上，它需要当今科学技术多个领域的最新科技成果支撑。
　　
　　参考文献
　　[1]张婕.基于先验估计算法的图像识别技术[J].弹箭与制导学报.2007,(5):332-334.
　　[2]张飞碧.全自动智能录播系统的架构分析[J].中国电化教育.2008,(5):104-108.
　　[3]张林,俞扬,朱怀宏.一种对图像中给定图形的定位方法[J]. 微机发展.2003,(9):1-2.

推荐访问:录播识别图像系统中的应用