基于民政大数据的动态数据中心构建研究


  摘要摘要:为建设友好共享的民政数据仓库,实现基础数据集聚化,满足大数据服务大民生的需求,提出了民政云解决方案总体架构。在民政云架构下采用Hadoop+MPP混搭方式构建动态数据中心,通过连接器和外部表两种方式实现Hadoop和不同数据库之间的数据同步和调用;通过统一的语言或服务接口实现上层应用对底层数据的透明访问,有效解决民政系统内部纵向数据与其它部门横向数据的实时交换,为民政公共服务信息平台提供全面、权威的数据。
  关键词关键词:民政云;Hadoop+MPP;ETL;数据互通
  DOIDOI:10.11907/rjdk.1511221
  中图分类号:TP392
  文献标识码:A文章编号文章编号:16727800(2016)001014103
  0引言
  近年来,数字民政有序推进,建设了一批信息系统,但存在系统建设单一、数据联系割裂的现象。民政部门历年积累了海量数据,构建基于民政大数据的动态数据中心,实现民政数据跨系统、多平台、全覆盖的实时采集、调用、分析,形成决策数据依据,建成技术成熟、运行高效、服务稳定的民政业务数据决策支持系统,是数字民政的基础工作 [1]。
  1民政云方案架构
  民政云解决方案基于“解决民生、落实民权、维护民利”的业务职责,以满足民政各级部门日常业务需求为根本目标,以服务社会、服务公众、服务民政业务发展为宗旨,依托各类网络资源,通过信息资源共享和业务系统整合,打造覆盖民政基层业务的应用平台,有效解决民政工作公开、公平、公正等问题,为建设人民满意的服务型民政提供强有力的技术支持[2]。
  民政云解决方案总体架构分为3个体系、5层建设,如图1所示。3个体系包含安全保障、标准规范、管理运维体系,5层建设包含基础设施、数据资源中心、应用支撑、应用系统、访问接入层建设。该框架的核心是建立统一的民政业务基础库以及业务对象库,为各类业务系统提供数据支撑,同时将城乡居民家庭经济状况核对、社会救助信息服务作为基础应用支撑,方便各业务系统对其进行调用、访问。各单位业务应用划分为日常业务、电子监察、决策分析3部分。为实现民政业务服务职能,建立公共服务平台,以门户网站、受理大厅、移动终端为访问渠道,方便社会公众信息获取及事项办理,与综合业务应用数据交互。
  整体部署策略为(省)集中与(地市)分布相结合、省市县乡村五级应用模式。系统建成后,实现社区工作、社会服务、社会管理、社会组织、分析决策等民政业务集中办理,实现业务处理网络化、决策分析智能化、服务规范标准化、事项办理便捷化、查询监管透明化。
  2构建动态数据中心
  2.1数据中心总体规划与设计
  以“整体一盘棋”的思想统领全局,围绕社会管理与服务体系发展方向大力创新,秉承“兼容并蓄,海纳百川”的开放式整体建设思路,实现以整合为手段,以服务民生为导向,提升民政社会管理服务水平;以创新为灵魂,以全面覆盖为目标,提高民政社会管理业务效能;以信息为基础,以数据挖掘为手段,加强民政社会管理科学决策。
  数据中心是建立在数据仓库与数据仓库之上的决策分析应用,包括数据源、数据ETL、ODS数据库、数据仓库、数据集市、商务智能应用、数据管理等功能。数据中心应该具备常见数据的处理与管理能力,具备对结构化、半结构化、非结构化等数据的处理能力,同时支持RDB、MPP、NoSQL,具备数据通用管理能力,以数据为中心进行平台建设。
  随着半结构化、非结构化数据、互联网数据等新型数据源的引入,民政数据中心越来越具备大数据平台特征,利用传统的单一数据仓库技术难以满足高效低成本需求,为此引进了Hadoop技术。民政大数据平台数据内容及实现技术如图2所示。
  民政大数据平台架构原则:
  (1)跨平台数据交换。批量和实时数据采用不同的技术手段和工具,遵循统一的文件接口标准。
  (2)平台内数据复制。跨同构/异构数据库(物理系统),基于文本、数据库的数据抽取和加载,数据的形式不发生变化,不涉及数据转换。数据复制后产生的数据副本主要是便于数据引用,需要制定数据副本的生命周期管理策略,保证数据副本的只读属性。
  (3)数据即服务。业务人员不用关心数据的物理存储方式,通过逻辑数据对象组件访问数据。数据严格遵循民政部下发的《全国民政业务数据共享与交换标准》,业务人员可以较快地定位和了解数据内容。
  (4)数据质量控制。通过一系列的技术和业务手段,实现平台数据质量控制,主要体现为数据正确性、完整性、一致性、有效性。
  (5)历史数据分级存储和访问。数据存储形式保持源表结构,主要以数据库形式存储,支持在线数据查询、访问和应用,响应时间达到秒级。归档数据以廉价大容量磁盘方式存储,存储形式根据数据环境和未来应用的差异,采用不同于源结构的存储形式。同时,归档数据需要创建“被动索引”并具备恢复到主题数据区或汇总数据区的能力。
  (6)非结构化数据管理。对于交易和处理过程中形态尚不稳定的非结构化数据,可由各平台根据时效性、一致性控制和完整性控制等要求自行处理。
  (7)数据访问安全。对于普通的查询访问,应该具备屏蔽敏感信息功能。面向民政工作人员的数据访问,应按照数据的属主进行访问隔离。
  (8)系统日常运行管理。在数据量不断增加、访问量增长、用户数据使用成熟度变化、数据ETL持续滚动开发等情况下,需要围绕日常性能管理,不断调整系统设计和运行策略。
  2.2数据中心技术实现
  根据上述分析,民政数据中心采用Hadoop+MPP混搭方式构建。MPP适合替代现有关系数据结构下的大数据处理,具有较高的效率。Hadoop在处理非结构数据和半结构数据上具备优势,尤其适合海量数据批处理等应用需求。

推荐访问:数据中心 民政 构建 动态 数据