智能图像识别技术【图像识别技术在录播系统中的应用研究】

  【摘要】自动录播系统是教育信息化支撑体系中非常重要的一环,图像识别是人工智能的一个重要领域。图像识别应用于 自动录播系统中,是实现录播系统从自动走向智能的重要环节。文章的研究基于目前图像识别研究中已经相对成熟且有成功应 用案例的技术,构造录播系统的典型框架结构,给出基本设置,讨论可以获取的信息,分析如何解决实际应用中的问题。
  【关键词】录播系统;图像识别;教学
  【中图分类号】G431 【文献标识码】A 【论文编号】1009―8097(2009)01―0125―04
  
  引言
  
  讲授型课件在教学现场实时自动录播环境下如何提高录 像的效果,从教育技术的角度分析,需要解决几个困难的问 题。如师生交互时,发言学生的定位问题;垃圾画面的处理 问题;如何区分教师播放录像片的问题等。可以通过增加相 关检测设备的方法解决上述问题。随着计算机科学整体的发 展,智能图像识别技术应用于录播系统,将提供一种全新的 解决思路。
  本文的研究工作基于目前图像识别研究中已经相对成 熟,且已有成功应用案例的技术,构造录播系统的典型框架 结构,给出基本设置,讨论利用图像识别可以获取的信息, 分析如何解决实际应用中的问题。
  
  一 图像识别与自动录播系统
  
  图像识别是人工智能的一个重要研究领域。图像识别系 统经常采用的重要方法之一是利用图像匹配模型进行目标的 定位、跟踪、识别。图像匹配模型的实现过程是把不同视频 源或同一视频源在不同时间、不同成像条件下,对同一事物 获取的两幅图像在空间上配准,或根据已知模式在另一幅图 像中寻找相应的模式。目前,图像匹配中应用最广泛的是模 板匹配法。模板匹配是一种最简单、最基础的模式识别方式, 它的基本思想是:两幅图像之间的匹配可以归结为二者某一 特征值的相关性度量。通过将模板图像与待匹配图像进行相 关性运算,得到一个相关值,以判断二者的匹配度[1]。图像识 别系统经常采用的另一个重要方法是利用原型匹配模型识别 有一定相似程度的目标。这种模型假设在长期记录中存储的 并不是所要识别的无数个模板,而是图像的某些“相似性”。 从图像中抽象出来的“相似性”就可作为原型,以检验所要 识别的图像。如果能找到一个相似的原型,这个图像也就被识别了。这非常类似于人不仅能识别与脑中的模板完全一致的图像,也能识别与模板不完全一致的图像。还有一种分层 识别模型,这种模型的思路是把图像识别过程分为不同的层 次,每一层次都有承担不同职责的特征分析机制,它们依次 进行工作,最终完成对图像的识别。
  教育技术领域中讲的自动录播系统一般是指集成计算 机、视音频设备和其它相关设备的系统,其核心功能是在教 学过程中对老师、学生、黑板或白板、多媒体课件、视频展 台等教学活动的相关信息实时动态采集、合成、压缩、纪录 和同步提供网络服务,以实现网络直播、点播、后期集成、 编辑[2]。目前主流的技术路线是利用外部事件触发方法实现自 动录播控制。
  如何根据教学过程中实际发生的事件(如教师书写板书, 使用电子化教学设备等),及时、准确地调度自动录播系统中 的相关设备展示教学内容?如何根据教学过程中的有效信息 发布源(如计算机屏幕,师生互动过程等),调整视觉展示画 面及其时长,优化信息源与信息接受者(如学生)所期望的 展示画面的匹配程度?如何设计画面的形式及其组合,减少 垃圾画面,实现优质、自然的输出结果?这些是教师、学生、 教育技术工程师,以及自动录播系统的设计和开发人员共同 关心的问题。智能图像识别技术的发展,为上述问题的解决 提供了一种智能化的解决方法。
  
  二 目前自动录播系统的一般框架结构
  
  目前我国各类学校正在使用的自动录播系统有多种类 型,各系统采用的相关技术也不尽相同。但如果将这些不同 类型的系统抽象为逻辑系统,则它们都具有相同或相似的逻 辑结构。可以勾画出这些自动录播系统的一般框架结构,如 图 1 所示。
  
  自动录播系统控制中目前采用的主流技术路线是事件驱动,利用设置在教室里的各类触发信号产生装置,确定实际 教学过程中发生的事件,依此进行调度控制。其中利用图像 识别技术的仅限于教师运动跟踪。自动录播系统可以获取的 常用触发事件源有:
  1时钟计时触发:计算机内部时钟中断,外部时钟信号。
  2教师运动触发:红外线追踪,无线感应,图像识别等。
  3板书定位触发:常用无线感应等。
  4使用电脑触发:按动鼠标,键盘等操作计算机的动作。
  5音源定位触发:话筒按键,按钮,音源方向驱动定位等。
  6视频展示台、DVD等其它视频源接入触发:许多系 统几乎不考虑。
  
  三 利用图像识别技术构造录播系统的典型框架结构
  
  利用图像识别技术构造自动录播系统的典型框架结构如图2 所示。图 2 为教室俯视示意图,其中 A1、A2 是可调摄像机, G1、G2 是固定摄像机。电脑屏幕、视频展示台和 DVD 等视频 源的接入假设来自讲台。音源信号不是讨论重点,故未标出。
  
  
  四 可以获取的教学过程信息
  
  图像识别结合基本的语音识别(特定来源的声音有、无),可以提供教学过程中许多对自动录播系统的控制非常有意义的信息,如表 1 所示。
  
  
  五 图像识别的基本设置
  
  对应于每一个视频源,都有特定的图像识别程序与之关 联,进行特定需求的识别,给出相关信息。同时,所有图像 识别程序都有历史信息记录。所有图像识别程序给出的相关 信息经过控制部分子系统综合分析后,得到实际控制、调度 的指令,指挥各个相关设备动作。
  1画面划分
  在自动录播系统中,不同的视频源可以提供的信息不同,但都需要有对目标定位的空间信息。一般把需要识别的视频 画面划分为 32×24 个单元,就可以提供目标的大致空间方位 和距离估算值,再利用多机图像识别的交叉定位,在大多数 情况下,基本可以满足对于计算机屏幕、摄像机图像等识别 目标的空间位置定位和识别的精度要求。另外,从摄像机获 取的动态图像,通过对比前后的图像,可以得到摄像机的移动方向和速度等信息。
  2画面定位点设置
  当利用固定摄像机或可移动摄像机拍摄教师画面、板书或师生互动等场面时,需要利用图像识别确定需要聚焦的位 置,以调度可移动摄像机拍摄合适的画面。这要求在初始安 装、调试、设置完成后,固定摄像机的位置不发生变化和可 移动摄像机的初始位置保持不变,否则可能发生定位错误。 但在实际使用中,由于设备维修等诸多原因,对摄像机的调 整不可避免,也很难保证调整后的位置与初始状态完全相同。 解决的办法之一是重新调试初始设置,另一种办法是利用图 像识别相对定位。有许多方法可以找出图像中给定的图形[3]。
  在摄像机安装后的初始设置阶段,对于固定摄像机或可 移动摄像机的初始位置,根据所拍摄的画面寻找和确定拍摄 现场 3 个以上通常不会变动的参照点,作为该摄像机的画面 定位点;通过图像识别,记录这些定位点的图像特征以及相对位置。实际运行中,当需要确定聚焦目标的位置时,给出 相对于定位点的坐标。定位点也可以作为自动录播系统开机 自检时的参考依据。
  
  六 可以解决的一些实际问题
  
  对于教学过程中某一时刻发生的事件,综合利用各类信 息,结合分析历史事件序列,可以相对准确的获知教学现场 的情况,正确的实施调度。同时,也可以依据教学过程的发 展,根据预测信息处理一些通常技术无法确定的事件,有针 对性的调度多个视频画面,优化录像的输出。例如:   1教师播放录像片的事件识别
  在实际教学过程中,教师利用电脑或 DVD 等设备播放录像片,由于没有足够的外部触发事件可用于系统的调度决策, 利用传统的外部事件触发技术手段就很难确定调度方案,可 能导致的结果是录制的文件中没有包含充分的录像片信息。 利用智能识别技术提供的教学现场信息,可以有效解决这类 问题。播放录像片时,通常教师话筒没有声音,或相对较少; 学生区无互动发言;板书基本不变;外部触发输入基本没有; 计算机屏幕或 DVD信息源画面连续变化,同时可能伴有声 音。这些事件特征的组合,具有很强的可预测性。
  2学生发言时的摄像机定位
  学生发言时,如何控制摄像机的定位与特写,一直是自动录播系统期望解决的难题之一。目前主流的技术路线是利 用外部事件触发技术,根据事先设定的预置位调整摄像机运 动,可以大致的定位一个区域。提高定位和特写效果的代价 是增加触发外部事件的探测设备和元件,由此导致系统的复 杂程度和出错率可能会加大。借助图像识别技术,利用一台 固定摄像机和一台可调摄像机(处于初始位置)的交叉定位, 可以相对精确的定位发言学生的地理位置,再调度可调摄像 机定位移动和局部特写。结合对其它事件的组合分析,可以 基本排除学生非发言移动等干扰情况。
  3垃圾画面处理
  利用传统的外部事件触发技术手段调度时,自动录播系统面临的另一个难题是如何减少垃圾画面。垃圾画面是对录 像文件没有实际意义的,可能带来负面效应的画面,例如摄像机快速移动定位的画面,或应该看投影时,给出的却是无 文字的黑板画面(老师运动时无意间触动黑板探测器)等。 利用智能识别技术可以很方便的解决大多数这类问题。如果 调度系统比较确切的知道每一个识别单元对应的区域曾经发 生、正在发生,以及综合预测将来可能发生的事件,通过记 忆和学习,自动录播系统就有可能不断调整和优化输出,把 某一时刻最优的画面(包括预先录制的插入录像)作为输出, 大大减少垃圾画面的出现。
  4教师授课的行为偏好分析
  教师授课的行为偏好分析,主要通过板书识别、计算机屏幕识别、其它接入视频识别、教师音频等信息与其它事件 综合分析获得。对板书的识别,不是指识别板书的内容,而 是指授课过程中,按一定时间间隔,利用智能识别技术分析和 记录教师是否书写板书、内容的空间分布、持续时间、是否有 移动黑板等事件。这个与时间相关的事件序列,在相当程度上 反映了教师关于板书的授课行为偏好。同样,对计算机屏幕做 类似的处理和记录,所得到的序列反映了教师使用电子教案的 授课行为偏好。通过对教师音频和其它事件综合分析,可以得 到教师讲授的行为偏好。调度系统可以根据教师讲授的行为偏 好,预测将要发生的事件,自适应的调整调度规则。
  
  七 结束语
  
  基于图像识别中成熟的技术,构造智能化的录播系统,不 仅是有意义的尝试,也是可行的技术路线。图像识别与语音识 别是实现录播系统从自动走向智能的重要环节。表面上,录播 系统完成的是一件很普通的、转述或记录人类教学活动的事, 实际上,它需要当今科学技术多个领域的最新科技成果支撑。
  
  参考文献
  [1]张婕.基于先验估计算法的图像识别技术[J].弹箭与制导 学报.2007,(5):332-334.
  [2]张飞碧.全自动智能录播系统的架构分析[J].中国电化教 育.2008,(5):104-108.
  [3]张林,俞扬,朱怀宏.一种对图像中给定图形的定位方法[J]. 微机发展.2003,(9):1-2.

推荐访问:录播 识别 图像 系统中的应用