长河数据资源服务平台是一套面向政府和社会的安全、可信、高性能的综合性数字化基础设施,通过资产梳理、动态归集、任务定制、服务编排、服务总线、分布式计算等新技术,围绕数据资源采集、治理、融合、应用、安全、分析六大基础需求,在建立数据治理标准规范基础上,构建数字政府、智慧城市新型数据治理服务体系,实现数据治理和数据应用能力的有效提升。
平台架构
图1:长河数据资源服务平台架构
2.平台功能
(1)数据采集
通过数据资产管理和数据采集汇聚等核心功能,支持多种数据源和格式的接入,利用自主创新的六大数据采集方式(实时采集、离线采集、共享接口、上级回流等),摸清数据资产底数,打通数据采集壁垒,实现多源数据的自动采集和实时同步。
数据资产管理
数据资产管理可有效解决政务数据管理部门难以管理数据资产的痛点,通过数据资产梳理服务、数据资产登记和管理等功能,加强数据资产的统一管理,摸清数据资产底数,规范数据资产使用流程,实现数据流和业务流互通共享,促进数据资产跨部门、跨区域的有序共享和安全应用。
数据采集汇聚
数据采集汇聚可有效解决各级部门和组织中各类数据难以落地的问题,通过多源异构的数据处理能力、库表交换能力、文件交换能力、增量和全量数据抽取能力,实现各类分散数据采集汇聚。
(2)数据治理
通过数据清洗治理和数据质量管理等核心功能,构建统一的数据目录,统一数据标准,清洗问题数据,对各类数据质量进行评估,最终构建数聚智能的全流程数据治理和质量管理能力。
数据清洗治理
数据清洗治理具有多种内置的数据清洗、数据转换规则,支持可视化拖拽配置ETL组件将数据按照规范的标准进行清洗转换,从而实现数据的标准化清洗治理。
数据质量管理
数据质量管理可根据用户的业务规则和逻辑,通过内置的多种质量校验规则对数据进行检查,并生成质检报告。数据提供方可根据质检报告及时修正业务数据,提升业务数据的完整性、一致性和准确性,形成数据质量管理闭环,改善总体数据质量。
(3)数据融合
通过数据开发融合和数据资源中心等核心功能,构建数据融合模型,融合多源数据,形成基础库和面向多种应用的主题库专题库,实现多源异构数据的统一融合。
数据开发融合
数据开发融合以一站式数据开发处理引擎为支撑,提供图形化开发工具、数据融合配置、智能代码开发、混编工作流、规范化任务发布等多种能力,基于业务场景实现多种数据关联融合。
数据资源中心
数据资源中心将采集、治理和标准化阶段的数据资源汇总整理,建立缓冲区、治理区、数据资产区,最终形成数据资源中心,实现从宏观到微观全面盘活数据资源,持续为政府积累数据资源,提供数据服务。
(4)数据应用
主要由数据供需对接和数据共享门户组成,可帮助各级各部门实现数据资产跨层级、跨部门、跨系统业务共享和数据应用,做到数据反哺业务,助力推动政务数据共享共用从“分散供给”向“业务协同”变革。
l数据供需对接
数据供需对接以数据资源供给和需求对接为抓手,规范数据供需对接标准,通过全流程线上对接需求方式,完善供需对接业务流程,实现各级各部门上下联动、纵横协同的数据供给需求精准匹配。
数据共享门户
数据共享门户主要构建一套安全规范的数据共享管控体系,利用“数据审批”“数据开放”等模块进行数据资源授权管理和审核发布,并通过数据建模分析、可视化等方式赋能数据资源,实现数据资源使用全流程安全管控。
(5)数据安全
通过数据安全管控和数据安全监测等核心功能,提供一整套数据全生命周期安全管理流程及方法,制定数据安全分级分类措施及对应的安全策略和程序,保证数据的完整性、有效性、一致性、安全性管控。
数据安全管控
数据安全管控贯穿于数据治理全过程,提供对隐私数据的加密、脱敏、水印、模糊化处理、数据库授权审计等多种数据安全管理方法与措施,全方位保障数据安全稳定运行。
数据安全监测
依托国家数据安全法规、行业数据安全监管政策和企业数据安全策略,以分布式的数据库流量探针、应用流量探针、运维流量探针、数据安全扫描评估工具为基础,实现对数据全生命周期的在线和离线合规监测。
(6)数据分析
主要由数据智能分析和数据指标管理组成,产品内置多种数据分析算法和模型,对数据进行统计分析、机器学习、数据挖掘等操作,并依靠丰富的可视化工具和仪表板,提取出有价值的信息和洞察,实现分析流程智能化。
数据挖掘分析
数据挖掘分析系统帮助用户管理数据资产并挖掘其价值。利用智能化的分析模型挖掘和发现数据逻辑关系,并对现有数据库技术无法统计出的数据报表进行有效统计和聚类,帮助用户发现并分析行业内部核心业务数据价值。
数据指标管理
指标管理是一款涵盖指标定义、指标建模和指标固化的指标管理工具。将分散在不同系统的各类指标集中管理,清晰展现用户指标及各指标的统计方法、数据来源、统计口径等信息,便于后续指标共享和应用
3.应用价值
(1)数据质量标准规范化
建立一整套基础数据建设指引与技术标准,解决异构数据存在的数据质量问题, 帮助数据在整合、应用过程中达到统一标准管理。
(2)数据汇聚渠道一体化
规范数据资源在政府和社会运行体系中的共享使用机制和数据管理机制,实现各类信息资源的有序采集、统一汇聚、集中维护、分级管理和有效利用。
(3)数据治理方式多元化
提供海量数据的采集、清洗、存储、计算服务,支持多种格式数据采集,提供多种数据清洗工具,满足海量、异构的大数据存储、共享、开放及分析挖掘。
(4)数据资源管控流程化
以业务需求为基础, 结合业务流程的特点,对业务数据重新定义,形成业务数据资源库,实现政府和社会数据的分级分类存储和安全管控。