数据结构难学吗(专升本数据结构难学吗)

随着数据治理的深入,数据架构越来越重要,那么什么是数据架构,它的重要性在哪里?TOGAF(开放组架构框架)标准企业架构包括业务架构、数据架构、应用架构和技术架构

随着数据治理的深入,数据架构越来越重要,那么什么是数据架构,它的重要性在哪里?

TOGAF(开放组架构框架)标准企业架构包括业务架构、数据架构、应用架构和技术架构。相对于业务架构和应用架构,数据更能真实有效地反映信息系统支撑的企业整体运行状态,因此数据架构在整体信息技术架构中既是基础又是核心。

根据DMBOK数据管理知识体系,数据架构组织了重要元素的定义、术语和模型设计标准,包括业务数据描述、数据采集、数据存储、数据集成、数据流通和分发等。数据架构包括数据模型(数据结构、数据规范)和数据流设计。

数据治理与数据架构实践

简单来说,数据架构就是如何使数据分布更加合理,更加高效地支持应用功能,快速满足各种业务流程中的增、删、查、改需求,同时解决系统内功能模块之间以及多个系统之间的引用关系。

01数据架构设计的挑战

近年来,数字化转型如火如荼。商业模式、产品和服务的竞争力转化是目标,新技术的应用是支点和手段。数据采集、整合、应用和管理是数字化转型的基础。

数据形式、格式和类型的变化势不可挡。半结构化和非结构化数据越来越多,数据量和复杂程度快速增加。快节奏迭代变化的应用也需要数据架构的变化跟上。新的角色(数据分析师)只需要更多的数据多样性,这对数据架构的设计和管理提出了更高的要求。

1.数据分发需要多样化。

数据的快速增长和数据类型的不断变化使得数据库技术飞速发展。目前,全世界有363种数据产品,包括传统的关系数据库,用于结构化数据存储和相关事务处理。

新兴的NoSQL数据库和专用数据库,高并发、高吞吐量,用于存储和处理非结构化或半结构化数据(如文档、图形、时间序列、time 空、k-v);其他分析数据库,如列存储,不仅进行海量数据存储和复杂的分析计算,还支持深入的智能分析。

数字化转型后,各应用系统的应用场景多样化,数据访问方式和性能的要求复杂化,数据生命周期的要求也更加细化。这些都决定了你需要选择不同的适合自己的数据库技术来进行整体方案设计,以满足业务需求。

2.数据建模的个性化

DMBOK2将数据建模与设计定义为“数据模型是正式表达和交流数据需求的过程和产物”。数据模型的主要目的是识别或确认数据需求,换句话说就是扩展业务需求的定义,使其能够在数据结构变化不大的情况下支持未来的应用功能,支持基于组件的敏捷开发。这是模型设计的方向。

然而,它是灵活的、复杂的、可追踪的、高效的和高质量的。数据模型的设计和管理需要适应新形势的发展要求,因地制宜。

数据模型分为三个阶段:概念建模、逻辑建模和物理建模。并且概念和逻辑模型阶段是为了更好的与业务人员沟通和理解,而在物理模型阶段,如何使系统简化数据冗余,减少磁盘空和提高传输效率,系统具有良好的兼容性,对外服务窗口的及时性、传输安全性和数据的整体完整性成为设计时首先考虑的问题。

数据治理与数据架构实践

面对不同类型的数据库,我们需要对不同业务线的系统采用不同的数据建模和设计方法,以满足业务对数据读写性能的要求。

强数据一致性的业务功能需要传统关系数据库的技术支持。其数据架构设计可以继续遵循业界公认的数据模型设计和模型管理方法论开展相关工作,制定和实施企业数据标准,做好数据一致性管理,根据企业的发展需求管理数据生命周期,通过发布数据模型和文档持续提供数据服务。

高并发查询或全文检索等场景需要一些非关系型数据库来实现其功能,其数据架构需要结合不同场景下读写模式的要求来设计,以达到各自的目的。这种数据库的存储系统加强了对数据模式灵活变化的支持,因此降低了对数据一致性的容忍度,削弱了对数据可用性和容灾的需求,增加了数据的延迟。在数据架构设计的过程中,他们不必遵循关系数据库中的范式约定,但为了性能,必要的规范和原则仍然是需要的。

不能做一个没有规则的方圆,不能因为灵活就放弃原则,比如HBase中rowkey结构的定义,行键应该包含什么信息和分布,一个表应该有多少列族;Redis中键值的格式规范,数值的控制等。在Elasticsearch中,索引设置和分词选择,索引映射配置(字段配置,索引关系处理)等。

因为他们不能没有模式或更少的模式概念,所以我们不必管理模型。事实上,我们需要很好地管理此类数据库中的实体和关系,以避免大量数据存储浪费等失控现象。

3.面向服务的架构管理

要改变思路,就要用面向服务、面向运营的方式来管理数据。这就需要数据架构管理者向各个方向的相关利益方提供所有数据的目录、记录、共享、报告、分析等信息,并通过建立数据共享机制来保证数据源的唯一性;通过数据质量审计确保数据的准确性和完整性;加强数据分发的集中维护、定期更新、策略备份等管理,避免数据来源失控造成的数据浪费,最终实现数据的真正共享。

有一句话很有道理:数据和信息的来源很重要,甚至比数据和信息本身更重要。这就需要我们明确数据的血缘关系,清楚地知道数据的来龙去脉,避免最终数据的混乱。

随着数字化转型,数据已经成为企业的数据资产。作为一项资产,需要通过运营使其利润最大化。

为了体现数据的价值,需要从数据的正确性、及时性、安全性、全面性、完整性等方面建立数据运营体系,通过设置相关指标,以可视化的方式完成相关统计和展示,将数据管理提升到数据资产管理。如何保证数据资产管理的流动、安全和有效,需要我们调整现有的组织架构和管理体系。

4.安全防护的重要性

欧盟2018年提出的《GDPR法案》和我国近年来提出的《数据安全法》、《个人信息保护法》、《个人金融信息(数据)保护试行办法》,主要对数据的使用和流向提出了一些要求,如个人数据敏感性的定义、数据匿名性、数据地图应用、数据角色等。

数据治理与数据架构实践

这些问题要求我们在数据处理和设计中采取一定的分离措施,以达到最小化的目标;在数据访问的设计上,对个人敏感信息的要求要区别对待,实现数据保护。在数据生命周期的设计上,要规划好信息的“采集、传输、存储、使用、删除、销毁”等每一个环节。

以上全部内容要求我们在数据架构的控制上,做好敏感数据的识别和数据分类的引导工作。通过设立专业的数据保护管理机构,制定相应的流程、业务规范和策略,提高数据合规管理的能力。

5.数据治理的场景

传统上,数据治理由元数据管理或主数据管理驱动,无法实现全面的数据治理。以监管要求作为数据治理的出发点,治理的价值很难在实际的业务端体现出来。

数据治理与数据架构实践

随着数据资产化的深入和价值体现的要求,数据要为业务赋能,所以我们需要从一开始就在数据服务的某个场景下进行数据治理,结合已有的元数据或主数据治理方案,两头并进,持续进行,逐步提升数据价值。

02 ABC数据架构管理实践

1.数据库能力跟上了发展和变化的步伐。

中国农业银行的信息系统建设经历了几十年,以数据流划分,数据生产系统以网上交易为主。这些系统用户群体大,业务量大,对交易响应速度有要求。第一次使用Sybase ASE。随着应用的并发需求越来越高,引入了Oracle,结合自主可控的开发需求,引入了开源的MySQL数据库及相关商业组件。为了进一步提高响应速度,银行进一步使用了一些开源的内存数据库,如Redis和MemCache,扩展了系统的应用支持能力。

数据消费系统主要是ABC在大数据计算分析领域的相关应用系统。Sybase IQ首先用于结构化数据库。随着大数据计算的升级,引入了MPP架构的数据库GBASE,结合Hadoop生态进行相关的计算和存储。同时,建立了一个数据中心来提供外部数据服务。非结构化方面主要利用Hadoop生态和ElasticSearch生态开展相关工作。

随着业务的进一步发展,为了满足应用快速开发、对用户透明、按需扩容、应用级隔离的要求,引入了MongoDB。同时引入图数据库,满足客户营销(获客)、反洗钱模型、虚假信用卡申请、信用风险监控等大数据关系建模和实时复杂关系遍历搜索的需求。

2.数据架构管理是一种双管齐下的方法。

目前,中国农业银行已建成数据架构管理系统,实现了企业级数据模型的全流程管理,涵盖基础数据项、概念模型和逻辑模型。通过基础数据项的复用,实现了数据标准的实施,提高了数据标准化水平,促进了数据之间的一致性。《中国农业银行软件开发中心应用系统数据模型设计和开发指南》已经实施。目前,该系统已经实现了主机DB2、Oracle、open DB2、GBASE、HBASE和MongoDB的模型设计和管理。

同时,农行建立元数据管理系统。一方面,以数据模型为枢纽,将数据治理与数据应用相结合,加强数据标准的执行,在数据应用过程中发现问题,促进治理,提高质量。

另一方面,创建企业级数据资产管理的统一视图,为ABC或分析挖掘平台等管理应用的所有用户提供全面、稳定、统一的数据资产服务,以满足当前大数据时代的元数据需求,从而提高数据管理、使用、质量管理和标准实施的工作能力。

3.数据安全管理和合规性。

目前,中国农业银行以数据保护影响评估(DPIA)为切入点,在项目全过程实施隐私数据保护,降低数据风险。

首先,在系统需求阶段,需要参考GDPR(General Data Protection Regulation)的要求,是否对欧盟的个人数据收集或处理等敏感事项进行了数据保护影响评估。其次,中国农业银行构建了个人数据识别平台,结合数据架构管理系统,对涉及个人信息的领域进行安全等级标注。生成的数据内容将作为个人信息保护和安全控制的基础,为行内各系统的开发和数据使用提供相应的数据安全服务。

03结论

数据决策能力反映了一个企业的数字化转型程度。如何让数据更好地支持业务发展和服务决策,是数字化转型的目标。数据架构的设计和管理是业务、数据和技术集成的产物。要解决“烟囱重复”,做好“服务能力的沉淀”,实现数据服务的组件化、平台化、共享化,体现数据作为生产要素的价值。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/121778.html

发表回复

登录后才能评论