笛卡尔积运算(离散笛卡尔积运算)

哪些用户需要迁移?原始社区用户社区版不再更新cloud era(cloud era cloud era和Hortonworks的合并)不再为所有产品提供社区版,

哪些用户需要迁移?

CDH/HDP迁移之路

原始社区用户

社区版不再更新

cloud era(cloud era cloud era和Hortonworks的合并)不再为所有产品提供社区版,用户无法获得新功能。

社区版不再免费

从2021年1月31日开始,所有Cloudera软件都需要有效的订阅,订阅费用昂贵(50个节点,一年50万美元的订阅费用)。

原始企业用户

企业版不再更新

Cloudera和Hortonworks合并推出新一代大数据平台CDP。CDH 6和HDP 3将是CDH和HDP最后的企业版,用户无法继续获得新的功能和性能提升。

企业版不再服务

到2022年3月,CDH/HDP都是EoS,用户得不到售后支持:

CDH/HDP迁移之路

来源:cloudera官网

迁移方向

CDH/HDP迁移之路

方向1: CDP

是CDP时代与Hortonworks合并后发布的新产品。它集成了原有的CDH和HDP功能,并添加了一些新功能和错误修复,以支持Cloudera部署。

虽然CDP已经提供了一些新的能力,并将继续更新和提供支持,但是国外的软件无法适应国内的软硬件生态(国产芯片、操作系统、服务器、中间件),技术方向无法自主掌控,许可证也受到国外法律的限制。俄罗斯最近发生的事件充分暴露了这方面的风险:

Oracle宣布暂停在俄业务

3月3日,甲骨文发布推文称:“为了甲骨文全球15万员工的利益,为了支持乌克兰民选政府和乌克兰人民,甲骨文已经暂停在俄罗斯联邦的所有业务。

众多科技公司断供俄罗斯

A.谷歌宣布在俄罗斯无限期暂停Google Pay

B.除了宣布在俄罗斯停产Apple Pay,苹果还停止在俄罗斯销售所有产品。

C.英特尔、戴尔和AMD宣布停止向俄罗斯供应芯片。

d.……

下一个或是GitHub?

外媒报道称,全球第一代代码托管平台GitHub正在考虑限制俄罗斯开发者使用开源软件。虽然这类软件的使用是免费的,但其许可协议仍然有很多限制,包括禁止被制裁国家使用原本对公众免费的代码。

方向二:中国打包的Hadoop商业版

封装开源组件,在安装、部署、操作和维护方面有一些增强。

但不可避免的是,封装开源组件总是受制于国外法律和国际形势,风险和方向等同于迁移到CDP。

同时,打包开源组件的厂商无法获得最新的源代码。另外,很多人认为源代码是可以独立控制的,实际代码只是技术的一个载体。仅仅拥有源代码并不意味着拥有核心技术。要清除几千万行代码中有意无意的漏洞是不现实的。在拥抱开源的同时,也要拥抱风险。

随着美国公司Cloudera不再更新社区版,这类产品除非也升级到CDP,否则将无法获得能力更新,彻底走向方向一。

方向三:国内自主研发大数据产品TDH

Transwarp Data Hub(TDH)是星环科技自主研发的企业级一站式多模式大数据基础平台。它采用领先的多模型技术架构,8个存储引擎支持10种数据模型。整套工具组件使得系统的安装部署、扩容升级、安全防御、风险预警、权限管理更加便捷。在技术领先、性能、易用性、安全性、国内生态兼容性、售后服务等方面具有优势。同时,国内开发的TDH与国内生态高度契合,符合新创的验收要求。

迁移到不同平台后获得的能力

CDH/HDP迁移之路

迁移到国内自主研发大数据产品TDH

如果你关注功能

TDH的多模式架构支持10种数据模型,包括关系表、文本、时间空地理、图形数据、文档、时间序列等。离线批处理、高并发在线数据服务、数据集市、数据仓库、数据湖、图存分析、空数据存储、实时数据处理、数据中间站、数据管理等各类大数据业务场景。,都是一站式解决。

如果你关注性能

TDH自主研发的高性能分布式计算和存储引擎,整体性能是CDP的5~25倍。

如果你关注开发

TDH完全支持SQL2003标准、PLSQL存储过程,并兼容Oracle、DB2、Teradata和其他方言,在每个场景中都没有windows套接字。

如果你关注运维

TDH提供开箱即用的可视化运维监控和安全控制工具,容器技术带来极致的安装、升级和补丁体验。

如果你关注售后

TDH原厂拥有超过1100人的R&D和支持团队,以及超过30000名通过星环科技认证的大数据工程师,更加专业,售后无忧。

如果你关注架构

TDH提供统一SQL引擎、统一计算引擎、统一分布式存储管理、统一资源调度、统一内联架构,高效处理湖库一体化、HTAP等复杂场景。,并且不需要批量装配组件。

如果你关注安全

TDH提供容器隔离、容灾、访问控制、联邦学习、隐私保护、可信计算等技术,保证网络层、加固层、治理层、流通层全方位的数据安全。

如果你关注国产化

TDH完全自主研发,通过了工信部自主R&D码率扫描测试。同时,TDH完成了与主流新创生态厂商的适配互认工作,满足了新创的验收要求。

CDH/HDP迁移之路

迁移到CDP

CDH/HDP迁移之路

迁移方向的对比分析

CDH/HDP迁移之路

从兼容性、技术领先性、性能、易用性、稳定性、容灾和可靠性、安全性、自控、国内生态、解决方案、售后服务等方面对迁移方向进行比较。供用户参考。

和睦相处

兼容性直接决定了迁移成本。很多客户认为CDP是CDH/HDP的高配版,应该可以顺利升级。基于开源集成的产品也可以顺利升级。TDH是我国自主研发的大数据产品,兼容性差,升级成本高,其实不然。

CDP

1) CDH 5升级CDP存在严重的组件版本兼容问题,包括将哨兵换成游侠,将Hive2升级到Hive3,对组件兼容性影响较大;

2)比如某客户的CDH5升级到CDP几个月。

开源封装产品

1)基本存储和计算组件也存在兼容性问题;

such安全、运维管理等非开源组件和功能无法升级,目前也没有好的解决方案。

星环科技TDH

1) TDH基础存储和计算组件兼容CDH/HDP,迁移成本低;

2) TDH提供迁移工具,一键迁移数据;

3)有大量成功迁移案例,不存在迁移风险。

技术领导

TDH产品技术始终领先同类型产品2~3年,在大数据技术领域更早实现多项技术突破。比如TDH4.0在2015年全面支持分布式事务,而Hive等同类型在多年后依然无法很好的支持;2016年发布的TDH5.0引入了新一代资源管理和调度技术,将容器技术与大数据技术有效结合,提供有效的资源隔离技术,带来极致的安装和升级体验。Cloudera也计划在2020年将该解决方案用于相关产品;2020年,TDH 7.0推出了创新的多模式技术架构,通过统一的SQL引擎实现了对关系、文本、图形数据、时间空、时间序列等数据模型的操作,处于行业先进水平。

CDH/HDP迁移之路

星空科技TDH多模型数据管理平台技术架构图

星空科技长期以来在大数据基础软件R&D和产品化过程中自主研发了一系列先进的核心技术,支撑了TDH产品的先进性,广泛应用于金融、政府、能源、交通、制造等国民经济关键领域。随着公司在R&D投资的大幅增加,TDH未来将继续保持技术领先地位。

CDH/HDP迁移之路

性能改进

TDH(Inceptor)整体性能是CDP(Hive on Tez)的5X

Inceptor是星环科技自主研发的关系分析引擎。基于TPCDS 1TB的数据规模,对比了相同配置下(4X10cores)TDH(Inceptor)和CDP(Hive on Tez)的性能,复杂场景性能提升7 ~ 25倍。

CDH/HDP迁移之路

TDH(Hyperbase)性能优于CDP(Hbase)

Hyperbase是星环科技自主开发的NoSQL宽表数据库。基于1000W数据集,TDH(Hyperbase)优于CDP(Hbase)。

CDH/HDP迁移之路

TDH(ArgoDB)性能是CDP(Impala)的2~6X

ArgoDB是星环科技自主研发的分布式关系数据库。基于TPCDS 1TB的数据规模,相同配置下(4x 10核)TDH(ArgoDB)和CDP(Impala)在Ad Hoc查询中的性能对比如图所示。

CDH/HDP迁移之路

基于TPC-H 1TB的数据规模,在相同配置、不同查询分析场景下,TDH(ArgoDB)的性能是CDP(Impala)的2 ~ 6倍。

CDH/HDP迁移之路

TDH(Slipstream) 优于CDP(Flink)

Slipstream是星环科技自主研发的实时流计算引擎,在多个场景下性能普遍优于CDP(Flink)。

CDH/HDP迁移之路

CDH/HDP迁移之路

TDH(Scope) 优于Elastic Search

星空科技的全文搜索引擎Scope在吞吐量测试性能上优于ES。

CDH/HDP迁移之路

可用性

统一计算引擎

CDP/开源包产品使用一系列隔离的SQL引擎,如Apache SparkSQL、Apache Hive、Phoenix(h base上的SQL)、Cloudera Impala等。每个SQL引擎都有自己的局限性,用户学习和掌握难度大,开发使用、应用对接、实际落地、后期运维成本高。

星空科技TDH采用自主研发的统一计算引擎,提供统一的SQL接口处理,支持SQL 2003标准和存储过程,支持Oracle/DB2/Teradata等SQL方言。

此外,统一引擎的另一个优点是,可以在一个作业(比如一条SQL语句)中将存储的各种数据提取到统一引擎中进行分布式计算,而不需要开发人员自己编写分布式代码,从各个引擎中读取数据进行再处理。整体可用性、开发效率和运行效率都有很大提高。

CDH/HDP迁移之路

一体多模架构

TDH的多模型支持功能可以轻松处理复杂的场景。通过8个独立的存储引擎,支持10种业界主流存储模式:关系数据存储、宽表存储、搜索引擎、地理空存储、图形存储、键值存储、事件存储、时间序列存储、文本存储和对象存储。在一个数据库中同时支持多种数据模型(例如,关系表、文本和图片)可以避免划分数据库和表,简化应用程序设计,并支持多种模型的数据的直接高速存储、检索和统计。

CDP/开源包产品通过多个独立的组件提供相应的能力。复杂场景需要多个组件+数据冗余,中间的开发和运维非常不方便。

全套工具集

TDH提供了大量的可用性工具,如SQL开发工具、轻量级ETL工具、数据调度工作流工具、图形数据建模工具、交互分析和立方体设计工具、元数据管理工具、可视化报告、大数据治理工具、灾难恢复工具等。

CDH/HDP迁移之路

稳定性

计算引擎

TDH星科公司自主开发的计算引擎Quark具有:

1) Furion调度器,一种分布式调度算法,支持任务级调度能力。与CDP/开源包产品任务集级调度相比,在业务混合负载并发时具有更高的效果和更好的稳定性,不会造成一个大任务占用资源导致引擎崩溃,尤其是在集群规模较大的情况下;

2) Shuffle进程内存控制技术,当数据量超过一定阈值时,中间结果会溢出到磁盘,不会出现OOM的情况;

3)聚合采样技术,当聚合速率不高或占用内存过多时,会放弃预聚合,直接洗牌,保证引擎稳定;

4)服务器级HA,不存在服务器单点故障;

5)任务重试机制,任务级重试使得大任务重试的成本很小,不会出现大任务不停重试而死机引擎的情况;

6)计算引擎的保护机制,在特殊情况下会直接拒绝执行SQL,比如错误提交计算超大型表笛卡尔积的任务,从而进一步保护计算引擎,保证其稳定性;

7)分布式检查点容错机制,与ACK机制相比,具有更好的效率和稳定性。

存储引擎

在存储层面,TDH星科公司拥有:

1)小文件自动合并技术,同样的数据量,文件数量远少于CDP/开源包产品,在大数据量的情况下稳定性高;

2)堆外内存技术,单机容量提升,避免了全GC带来的集群稳定性问题。比如稳定运行的Scope单机容量可以达到50TB,而CDP/开源ES的上限只有10TB;

3)分布式Raft协议,支持更大更稳定的集群规模。比如ArgoDB可以稳定支持2000+节点集群,可以根据企业需求线性扩展,支持PB级数据存储;但是CDP(Kudu)单集群最大规模不超过100个存储节点,单个节点超过8T存储就会不稳定。

此外,自主研发的读写分离技术、索引技术、坏盘处理技术等。,加上全程监控和报警能力,使TDH支撑系统7*24小时稳定运行。

这些能力是CDP/开源包产品所不具备的,所以在文件数量多、数据量大、任务并发度高、集群规模大的情况下,TDH的整体稳定性远远优于CDP/开源包产品。

备灾和可靠性

TDH有数据同步备份工具,由工厂级组件支持。基于块级复制的数据备份效率高、成本低。支持热备份、热备份、冷备份等多种数据备份模式,支持完全备份/完全同步/增量同步。它有开放的接口供其他工具或应用调用,有全流程可视化界面。

目前,CDP/开源打包产品主要依靠多拷贝机制来保证集群中数据的可靠性。没有高效的异地容灾方案,只有HDFS数据拷贝,效率低,成本高。

安全

星空科技TDH提供大数据安全合规能力,在为企业构建大数据能力的同时,确保数据业务的安全合规。基于平台敏感识别和分类分级,帮助企业实现大数据资产的分类管理和分级保护。它支持多种数据安全保护能力,包括静态脱敏、动态脱敏和数据水印,加强了数据业务中的控制能力。该平台还支持以数据为中心的监控和审计能力,可以识别敏感数据操作并进行用户实体行为分析,及时报警,并提供事后追溯。

CDP/开源打包产品不具备这些能力。

独立研发

TDH在可控性上有绝对优势,TDH产品通过工信部独立静态代码分析测试。

CDP完全是国外软件,不可控,国内软硬件支持也不行。

打包产品依赖于开源,不能独立控制。很多组件受到美国法律的限制,无法避免被“制裁”的风险。一些产品存在许可风险。比如ES改变了开源许可策略,后续商业使用存在一定风险。

家庭生态学

星空科技TDH已完成与主流新创生态厂商的适配互认工作,适配长城腾飞、华为泰山、浪潮、鲲鹏、腾飞CPU、麒麟、同心等服务器,并有官方认证,支持ARM和X86服务器混合部署有落地案例,满足新创的验收要求。CDP的国产服务器、CPU、GPU资源池、操作系统等方面不足,不能很好的满足国内生态。

CDH/HDP迁移之路

国内生态方面,TDH已经有了很多落地案例,业绩提升明显。不同指令集的CPU架构都表现出优异的性能。例如,ARM(鲲鹏)和X86(广海)在CPU密集型计算和IO密集型计算方面的性能都有显著提高。

CDH/HDP迁移之路

解决办法

星科TDH统一的内部数据库优于CDP/开源包产品的批量数据库。

CDP/开源打包产品,每个场景都需要一个组件独立交付,开发语言和接口基本完全不同,客户新业务开发和业务需求变更成本极高。

CDH/HDP迁移之路

CDH/HDP迁移之路

售后

TDH的产品提供商星环科技是国内厂商,拥有强大的R&D、技术支持和服务能力,能够快速响应客户的定制需求,提供原厂强大的售后服务支持能力。

CDP的产品提供商Cloudera依靠国内代理商提供销售和实施、运维服务;Cloudera在国内主要是运维人员。没有原始的R&D技术人员,很难保证SLA。由于支持不到位,许多国内CDH企业客户已经购买或想购买星环的技术支持。

一个开源包产品直接卖给运营商的客户,其他客户都是通过渠道销售,大部分行业的原厂售后服务保障能力较低。其核心产品R&D团队少,大部分技术人员不够专业,无法处理各种开源技术bug,为客户问题提供远程技术支持。

迁移案例

CDH/HDP迁移之路

交流小组

集团核心业务系统存量数据10PB级,日增量数TB,批量作业数千个,数据量大,商业价值高。

原系统采用CDH+Oracle混合架构。CDH有近200个节点,主要负责数据批量处理,Oracle与上层应用的接口。CDH批量架构和CDH+Oracle混合架构给客户带来了巨大的开发和运营成本,而批量性能、稳定性和安全性却无法满足客户的数据增长需求。

最终,星环科技在项目一期成功将客户CDH+Oracle混合架构数据平台与TDH进行了“一家独大”的迁移,数据审计、联邦计算、资源调度、安全性、高可用性、易用性等关键能力,从而真正实现了“降本增效”。

整个迁移过程不到6个月,充分体现了TDH对CDH的兼容性,以及对Oracle方言和存储过程的支持能力。

随着一些新应用程序的推出,目前的TDH集群生产环境已扩大到近200个节点,与业务分析、计费、客户服务、会计和结算等系统直接连接。

某航空公司空公司

航空空公司最初采用HDP+Oracle混合架构构建企业数据平台,涉及流处理、批处理、高并发查询等技术场景。

客户已经部署了几十个HDP集群,但是批量架构给客户带来了巨大的开发和运营成本,性能、实时性、稳定性都无法满足客户的需求。

最终,星环科技一期工程成功实现了客户HDP集群与TDH的迁移。由于TDH与HDP的高兼容性,所有数据+服务的迁移用时不到5个月(包括1个月的并行运行测试)。

目前,TDH集群中有近100个节点,TDH出色的SQL和Oracle方言支持使客户能够推出许多新的应用程序。

CDH/HDP迁移之路

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/49985.html

发表回复

登录后才能评论