数据管理平台实施方案

 1

  数据管理平台实施方案 ( V1.0)

  项目编号:

 项目名称:

 编写人:

 XX 编写日期:

 2020.05.10 审核人:

 审核日期:

 2020.05.15 批准人:

 批准日期:

 2

 文档修订记录

 日期 版本 说明 作者 审批人 2020.05.10 1. 0 第一稿 XXX XX

 3

 目 录

  第 1 章.

 编写说明 ······································· 5 1.1 编写目的 ········································ 5 1.2 术语定义 ········································ 5 第 2 章.

 项目实施总述 ····································· 6

  2.1

 数据管理平台项目建设目标与任务 · · · · · · ·· · ·· ·· · ·· · ·· ···6 2.1.1.

 数据管理平台项目建设总体目标 · · · · · · ·· · ·· ·· · ·· · ·· ··6 2.1.2.

 数据管理平台项目分阶段目标 · · · · · · ·· · ·· ·· · ·· · ·· ···6 2.2

 数据管理平台项目建设内容 ·· · · · · · · · ·· · ·· ·· · ·· · ·· ··7 2.2.1.

 数据管理平台项目总体架构 · · · · · · · ·· · ·· ·· · ·· · ·· ···7 2.2.1.1. 总体架构 ······································· 7 2.2.1.2. 系统定位 ······································· 7 2.2.2. 数据管理平台项目软硬件系统建设内容 ······················ 8 2.2.2.1. 元数据管理系统 ···································· 8 2.2.2.2. 数据集成系统 ···································· 12 2.2.2.3. 统一安全系统 ···································· 15 2.2.2.4. 一体化运维监控系统 ································· 24 2.2.3. 项目实施工作内容 ······························· 27 2.2.4. 项目实施进度规划 ······························· 28 2.2.5. 实施风险与关键点 ······························· 29 第 3 章.

 里程碑计划 ······································ 32 第 4 章. 2020 年详细工作计划 ································· 34

 4

 文档格式约定 : :

 一级标题:左对齐 黑体字 二号字 加粗 二级标题:左对齐 黑体字 小二号字 加粗 三级标题:左对齐 黑体字 三号字 加粗 四级标题:左对齐 黑体字 四号字 加粗

 正文:正文 首行缩进 2 字符 1.5 倍行距 宋体 小四号字 图片:居中 表格:居中

  表格文字 左对齐 宋字 五号字

 5

  第1章. 编写说明 1.1 编写目的 本方案不仅从实施目标、 任务、执行计划和组织分工等方面对沧州大数据中心项目数据中心项目(以下简称“本项目” )的实施工作进行了宏观定义,并对具体的基础设施建设、系统设计方案、标准规范及培训实施方案、系统实施、实施与保障等专项工作也做较为详细的定义,以指导后续的实施工作。

 1.2 术语定义 1. 共建单位:配合沧州大数据中心工程建设的政府机构、公共事业部门和企

 业。

 2. 承建单位:九次方大数据信息集团有限公司

 6

 第2章. 项目实施总述 2.1 数据管理平台项目建设目标与任务 2.1.1. 数据管理平台项目建设总体目标

 数据管理平台提供数据梳理、数据管理、服务监控、政务数据协同、数据服务集成、运行支撑、 IT 运维功能。

 2.1.2. 数据管理平台项目分阶段目标

 1. 第一阶段目标 2020 年 5 月 15 日工作目标 (1)完成平台基础功能建设,部署开放数据、云接口、云服务以及用户中心频道部署、测试与运行。

 (2)完成与省“互联网 +政务服务”平台对接。

 2. 第二阶段目标 2020 年 7 月工作目标 (1)

 完成数据共享交换平台功能完善、部署、测试与运行。

 (2)

 完成数据管理系统功能完善、部署、测试功能建设。

 3. 第三阶段目标

 2020 年 10 月工作目标 (1)

 完成与省共享交换平台对接、与市直部门信息系统对接、与一体化在线服务平台等对接。

 (2)

 完成数据管理平台初验、试运行和终验。

 7

 2.2 数据管理平台项目建设内容 2.2.1. 数据管理平台项目总体架构

 2.2.1.1. 总体架构 数据管理平台从总体架构设计上保证了平台在系统规模与业务场景上的先进 性和可扩展性。

 全平台采用基于

 X86硬件的全分布式架构, 可按需方便地进行水平扩展( ScaleOut )和弹性伸缩。平台由多个可插拔的独立系统组成, 系统间松耦合, 采用标准服务化接口进行互通。

 除必选系统外, 其它系统可根据需要灵活选择和独立安装部署。

 数据管理平台总体架构如下图所示:

 2.2.1.2. 系统定位 数据管理平台提供数据梳理、数据管理、服务监控、政务数据协同、数据服务 集成、运行支撑、 IT 运维功能。

 数据梳理功能提供政府部门的组织结构、 业务角色、信息资源类别、 信息化系 统等的管理和维护。

 能够对业务流程图和数据流程图进行管理, 能够识别协同关系 和信息共享需求,能够明确职责、整理和挖掘数据资源、规范数据表示;能够对数

 8

 据库的主题库、逻辑实体、实体关系图、数据映射图、数据元标准、信息分类编码进行管理。

 数据管理功能提供制定详细的加工规则及流程及质量监控, 保障基础数据库能够存储较高质量与细颗粒度的数据资源。主要包括数据采集抽取、数据过滤清洗、

 数据映射转换、数据比对、加工规则定义、数据维护管理等功能。

 服务监控功能即对数据抽取、清洗、转换、比对、入库等过程进行监控,并将

 结果展示给内部用户查阅; 提供网络检测与服务器检测, 使内部用户能够及时了解数据处理时网络和硬件的开销; 提供数据处理过程及历史情况查询和错误、 异常的定位工具。

 政务数据协同功能通过建立委办局间的资源共享交换机制, 促进信息更新和公开,提升信息资源的利用水平,实现跨部门信息资源的整合与共享。

 数据服务集成功能通过搭建基于数据服务总线( ESB)的服务集成管理平台, 构建数据服务的统一通信通道,提供在协议不同、格式不同、标准不同的情况下, 服务与对接服务之间的交互通信,传递消息。

 运行支撑功能通过构建覆盖全市各部门的多级政务数据资源目录体系架构, 采用元数据对共享政务数据资源特征进行描述, 形成统一规范的目录内容, 通过对目录内容的有效组织和管理, 形成部门间政务数据资源物理分散、 逻辑集中的信息共享模式, 提供政务数据资源的发现定位服务, 支持全市范围内跨部门、 跨地区的普遍信息共享。

 IT 运维功能包括 IT 基础环境运维、应用运行环境运维、数据处理监控管理、委办局支撑服务管理、运维服务报表统计、后台管理功能、角色管理。

  2.2.2. 数据管理平台项目软硬件系统建设内容

 2.2.2.1. 元数据管理系统 元数据是对数据的描述, 可以分为业务元数据、技术元数据和管理元数据。最重要的是业务元数据。元数据管理通过一系列手段采集所需的各种外部数据系统、

 数据仓库、数据集市的元数据定义信息, 并集中存储在平台中, 这个过程是采集过

 9

 10

 程。元数据采集以后可以进行四大类的操作与功能:

 1 通过一定的方法解析出数据之间的关联映射关系, 映射关系的上下游连在一起形成数据地图。通过数据地图可以进行数据的血缘分析(向上游查询)

 和影响分析(向下游查询); 2 保证元数据定义与实际情况的一致性。

 通过每天的元数据采集比对, 可以知 道发生变化或异常的表, 及时提醒相关人员关注, 同时可以保留多个元数据历史版本供查阅; 3 通过可视化界面,可以多层级,多角度地查询、展现元数据信息; 4 支撑数据质量与数据标准模块,提供接口调用。

 ? 元数据业务架构:

 11

 系统设置 主要提供资源管理、数据系统注册。

 ? 资源管理 分前置机和平台两种,前置机是客户的数据库机器连接信息,平台展示从一体化运维监控系统自动获取的平台内的各种数据库的信息 当需要从客户机器采集的数据的话,就需要在前置机处设置这个连接信息。

 目前支持 Oracle 、MYSQL 数据库 ? 数据系统注册 可新建前置机、平台内的新数据库,也可以注册前置机上已存在的数据库信息。

 新建 SFTP服务需要使用的 SFTP用户登录信息元数据定义 ? 数据表类

 可在前置机、平台内的生成实体表,也可以仅采集已注册的前置机数

 12

 据库上的表结构。

 ? 文件目录类 创建真正的 HDFS文件目录,并指定目录所属用户,及目录的公开等级 等

 ? ES索引 创建所属的 ES索引,供数据分析查询时使用。

 数据地图 以可视化地图方式展示由 ETL任务产生的数据关系的血缘分析 (即数据如何得来)、影响分析(即数据改变后,对下游数据的影响)

 ,及手工创建的数据关系 可展示的层级有:数据库、表、字段、文件类、各种属性 形成一个展现数据全貌的数据地图,清晰完整地揭示各种数据的来龙去脉数据关系管理 此处主要用于手工创建数据关系所用 数据关系包含以下几类:

 ? 表与文件目录的关系 ? 表与表之间的关系, 细分为以下类:

 生成关系— - 表示一张表是由另一张表生成而来,例如,在 ETL过程 中表与表之间的生成关系或由多张表生成宽表。生成关系属于强关联。

 对于表与表之间的生成关系,在配置元数据时或 ETL 时可以自动生成关系记录,也可以手工创建。

 引用关系— - 表示两张表间在业务上有关联, 但又不是生成关系。

 例如, 在地市 -GDP统计表中,现在要统计每个地区(粤东、粤西、粤北)的GDP即地区 -GDP表,需要有地区 - 地市的关系查找表。在本例中地市 -GDP 表与地区 -GDP 表是生成关系,而地区 -GDP 统计表与地区 - 地市查找表是引用关系。当然也可以说地市 -GDP统计表与地区 - 地市查找表是引用关系,其实两者选一就可以了。引用关系只能手工进行创建。

 13

 14

 ? 文件与文件的关系数据标准管理 数据标准管理主要为数据标准文档提供一个存储空间,租户内的各部门用户都可以按条件搜索、下载各种数据标准文档

  2.2.2.2. 数据集成系统

 数据集成系统为多源、多种类、多格式数据提供高速海量数据采集、清洗、转换、与加载能力,全程免代码编写。

 整个数据集成系统主要包括云化数据集成系统( CloudETL)和前置机系统。云化数据集成系统( CloudETL)承担数据集成的任务调度、流程配置、任务分 发和执行、过程监控、异常处理等工作; 前置机系统主要承担用户侧和数据源侧的数据缓存、 接口对接、采集控制等工作,前置机系统主要用在推模式的数据集成时。

 数据集成系统架构 数据集成系统架构如下图所示:

 13

 云化数据集成系统 云化数据集成系统( CloudETL)是大数据平台中负责数据集成的子系统,支持多源、多种类、多格式、多传输方式数据的高性能统一集成。

 ? 实现 ETL全流程 Web化(任务配置、监控、调度)

 ? 完整实现通用的 ETL功能(支持各种数据采集、清洗、转换、加载场景)

 ? 实现基于 HDFS的 Spark 计算引擎 ? 全面支持 Hadoop插件( HDFS/HIVE/HBASE 等)

 ? 支持 SFTPBridge 直连 HDFS,在小文件传输和安全性等方面进行优化和改

 进 ? 支持故障监控,告警,异常恢复和断点续传 ? 高可靠性( HA)改进,支持集群服务器间任务迁移 ? 支持基于多种采集技术( Flume/Kafka/Sqoop )的 ETL任务统一调度 ? 支持各种结构数据库:

 MYSQ、LORACL、EDB2、SQLSERVE 、A RCCES、SSQLSERVE、R

 SyBase等 ? 支持分布式部署 ? 支持 ETL任务分析,把数据关系展示到数据地图中 云化数据集成系统亦可作为独立产品进行部署, 适用于大规模数据采集、 同步迁移、异地备份、数据清洗、融合、交换等业务场景。

 1. 资源中心 数据源管理:

 CloudETL 资源中心进行数据源管理,从元数据系统中根据用户同步数据源配置信息, CloudET 流程的数据源连接配置都从统一维护的元数据中导入; 服务器管理:

 CloudETL 资源中心进行平台服务器、集群、前置机等的管理,从一体化运维监控系统根据用户同步配置信息, 保证用户只能使用经元数据系统授权的服务器上的资源; 2. 任务设计 用户可通过图形界面创建转换任务,转换任务以

 Ktr 文件保存转换任务; 也可创建调度任务,实现转换任务的定时执行,以 ktj

 文件保存调度任务。

 14

 任务组件有:

 输入、输出、大数据、脚本、转换步骤、 作业、查询、连接、流程、统计、检验等 1) 支持结构类文件、非结构类文件的输入、输出:

 文本文件、 EXCE、 L

 CSV、XLS、ACCES等 S 结构类文件,非结构类 PDF、WOR等 D 。

 2) 支持各种数据库输入、输出:

 Oracle 、MYSQ、L HBAS、 E HIVE、Sybase、DB2、ACCES、S SQL Server 等。

 3) 通过计算、清洗、查询、连接、统计、脚本等转换算子对源数据进行规则转换,以得到想要的输出结果。

 3. 任务管...

推荐访问:实施方案 管理平台 数据