聚星*引航| "加速业务创新 浅谈TDH 5.0的关键技术"演讲速记(附PPT)


#1

内容提要

北京时间5月4日,在上海举行的“2017前沿科技论坛暨星环用户和合作伙伴大会”上,刘汪根作了主题为“加速业务创新 浅谈TDH 5.0的关键技术”的演讲。因会后收到不少嘉宾反馈:对演讲内容非常非常感兴趣,演讲信息量很大,又无法同时参加多个会场,特在后期整理演讲速记稿以最大程度上弥补这个遗憾。

以下是演讲速记对应PPT:

TDH5.0的架构图

从上往下来看,最上层包含了全新的数仓开发工具集Transwarp Studio,以及机器学习开发套件。Studio用于提升大数据开发的效率,它包含5大交互式开发工具,分别涵盖SQL开发、ETL设计、工作流与调度、元数据管理以及OLAP Cube设计,可以承担数据仓库开发的主要任务。机器学习方面提供了交互式的开发工具Midas,通过拖拽的方式来生成数据挖掘模型;另外还整合了Zeppelin,可以给数据科学家提供很好的R、scala等开发接口和可视化功能,并可以做模型的团队共享。

往下可以看到原来4个产品变成了6个,新增了大规模搜索引擎Search和深度学习平台Sophon。此外,Stream带来了革命性的技术成果,并正式更名为Slipstream。

在底层,TOS已经正式成为底层的资源管理和调度平台。TOS内置Docker和Kubernetes服务,可以带来更好地弹性计算、更细粒度的资源调度,同时对服务快速升级、扩容和缩容等有更好的响应能力。

最后看左右两侧,左侧的Guardian在5.0里面正式变为一个独立的服务,包含一个独立的交互式页面来管理整个平台的安全和资源;右侧仍然是Transwarp Manager提供部署、运维等服务,相比较之前的版本,现在Manager管理的对象是一个一个的docker容器。

TDH 5.0在大的技术层面的变革,包括:
①基于Docker和k8s的基础部署平台,带来更好的弹性计算和资源管理;
②全面的数仓开发工具集合,让大数据开发的效率提升,数据质量得到改善;
③SQL更全面的涵盖了全文检索、流处理等新型业务的开发;
④Inceptor在批处理方面的体性能比4.6系列提升30%,在交互式分析的性能和并发性提高数倍,仍然大幅度领先Spark和MPP;
⑤新的调度器提供了混合负载下的QoS的管理能力,适应更多的复杂场景应用;
⑥Slipstream引入了低延时的事件处理模型,结合微批处理的计算模型,加上高可用、CEP等技术,大幅度提高了流计算的可用性和适用业务范围;
⑦Search通过SQL的引入和强劲的检索、分析能力,给用户构建大数据搜索引擎提供了一个简单的选择;
⑧新产品Sophon通过整合深度学习平台,让大数据的管道和人工智能的引擎能够高效的连接起来;
⑨Discover推出了多个行业挖掘模型,可以有效的降低企业在数据挖掘方面的学习成本,让新应用的构建更加简单。

有了这些新的技术创新,TDH可以满足更多领域内的数据开发工作:
①基于Inceptor,开发人员可以很方便的构建新型数仓如逻辑数仓或实时数仓,或者构建高并发的数据集市提供交互式分析;
②使用Slipstream,无论是搭建IoT的实时监控还是复杂的在线风控等实时应用,开发的难度都大大降低;
③通过Search来构建大数据搜索引擎,可以很好的解决Pb级别的高速数据检索需求;Inceptor Graphene能够提供大规模的图分析和社交分析能力;
④Sophon和Midas的组合,通过交互式的数据挖掘模型构建极大的降低了数据科学的入门门槛,大量的内置特征工程模型也加速了大型模型的开发;
⑤大量的行业模型,可以更有效的帮助用户来构建应用,如文本分析、用户画像、风险预测等。

很多客户可能都有一个隐忧,我选择一个平台,如何能够避免被锁定呢?另外底层技术的变化日新月异,应用的生命周期一般更长,如何避免底层技术的改动对系统的影响?还有个问题,如果要基于某个平台开发应用,很多时候需要充分了解架构细节,但是这个团队培养成本过高,怎样能够以更低的成本来做应用开发?

那么这个问题的答案就是:SQL。使用一个标准的语言来开发应用是不会过时的,也无需担心底层的变化,如果有很好的SQL支持,应用是可以迁移到更好的技术平台上的。
3年前TDH 3.0的时候,首先支持了SQL 99和2003 OLAP扩展,而后在4.0的时候发布了PL/SQL,TDH4.3完成了对DB2 SQL PL的支持。去年8月份TDH 4.6支持了StreamSQL和Graph SQL,比较好的将SQL推广到流处理和图分析。而TDH5.0将对Teradata、Oracle和DB2的方言的支持,同时增加了全文检索的SQL扩展和StreamSQL的CEP扩展。

大家可能会问做大数据分析为什么需要事务的保证呢?在我们接触的大部分ETL场景里面,都会涉及到一个表同时被多个数据源加工的情况,这个时候如果保证数据一致性,就必须引入事务;另外数据库或者Io操作本身都有出错的概率,在出错情况下需要能够回滚修改,这也是数据一致性的要求。另外如果没有事务,开发人员就需要在业务逻辑中来hack相关的逻辑,往往这个事情就非常复杂,很多时候需要在业务逻辑上给出妥协。所以对比批处理业务,事务是非常有必要的。

Inceptor是从2015年开始支持事务,应该说是Hadoop业界首个提供完整的事务支持的产品,它提供Serializable Snapshot Isolation和数据强一致性,可以保证Consistency和Availability的要求。这张PPT下方的图的技术方案的对比,可以看到在事务的ACID特性还是CRUD支持上,Inceptor和Oracle是比较相近的,而Hive和Impala都只是非常少的支持部分功能,完全不能适应生产的要求。

Holodesk是Inceptor内置的高速列式存储,兼备列式存储的高扫描吞吐和行式存储的快速检索能力。在我们的测试中,Holodesk可以在100毫秒内扫描1百万行记录,并且随机查找一行的延时都在5ms以内。相比较Parquet,Holodesk的存储性能可以到达Parquet的7倍以上,在高并发情况下领先更多。

我们开发了新的SLA scheduler,通过优先级区分、不同的pool隔离等方式来实现专道专用,就像这幅图里的高速道路一样。新的Furion Scheduler比FAIR Scheduler提供更好地调度策略,可以更细粒度,并且对权重和用户策略感知,从而提供更灵活的调度功能。因此,Inceptor可以比较好的处理各种混合负载情况下的应用部署,方便用户进行业务规划。

从5.0开始,流处理产品正式更名为Slipstream。流计算的发展历史经历了多次转变,最早的低延时的Storm到后面可用性更强的微批处理模式,Spark Streaming是它的代表,去年开始以Flink为代表的低延时和一般可用性的事件驱动模型又开始火热起来。今年我们去参加Strata Hadoop World,一共看到了大概10种流处理引擎,一个显著的特点是要么聚集在低延时上,要么聚焦在可用性上。

Slipstream可以说是在计算模式和可用性方面都做了巨大的变革。首先它提供了同时支持事件驱动和微批处理的混合模式的执行引擎,事件驱动模式下延时在5ms以内,而微批处理模式则有很高的吞吐率。在可用性方面,Slipstream一共有6项重要功能,包括复杂时间处理 CEP 引擎,全面的ANSI SQL支持,支持多种时间窗口并能容忍数据的乱序到达,能够允许多流的聚合分析,同时允许流上数据可以和历史数据关联,此外Slipstream也支持在流上运行一些数据挖掘的模型。

关于Slipstream的更多介绍,大家可以点击阅读:
聚星*引航|“Slipstream: 实时的复杂流处理引擎”演讲速记(附PPT)

Search也是5.0的一个新产品,提供大规模搜索的引擎,同时也可以提供海量数据上的统计分析能力。譬如说我需要在1PB的通话数据中按照某个条件或者组合条件来搜索某个人,这就是搜索;而我希望看到这个人在一段时间内的通话时长或者是跟谁打电话最多,这就是分析能力,因此Search能够很好的处理以上的混合场景。Search和Inceptor SQL engine配合使用,提供了标准的SQL接口,以及全文检索的SQL扩展,兼容Oracle的扩展标准。在系统可用性方面,Search也做了大量的工作,让系统更加可靠和稳定,并加速系统性能。在我们的一个测试中,使用10台机器构建的Search集群,对100TB的数据的模糊检索可以做到几百毫秒内完成。

Hyperbase是NewSQL数据库,能够支持超高的并发业务,并提供了非常好的SQL开发接口,提高开发效率。同时Hyperbase内置了多种索引的支持和对非结构化数据的支持。
从存储的角度来看,Hyperbase有很好的并发性和非结构化数据的支持,它非常适合一些高速的数据入库的场景。

机器学习是当前大数据的业务创新的主要领域,TDH也配备了两大产品,其中Discover是偏向给数据科学家使用的数据挖掘平台。提供了完善的R语言开发接口和环境,同时也支持Python和Spark编程,因此数据科学家可以比较灵活的实现特征工程的提取算法。同时Discover提供了多种行业的模板,给开发人员提供比较好的基础支持。此外,Discover支持模型导出,因此可以在其他引擎如Slipstream中做预测分析。整合了Zeppelin,方便做数据可视化以及团队共享与协助。

Sophon是另外一个机器学习产品,它和Discover不同的之处有三点: ①它包含交互式的开发IDE Midas,用户可以通过拖拽算子的方式来实现复杂的数据分析工作流程;②它内置了大量挖掘算子,基本上涵盖了常用的挖掘算法; ③整合了深度学习的框架TensorFlow和MxNet,用户可以很方便的在图形化平台上构建神经网络模型并灵活调参。

有关Sophon的更多细节,大家可以点击阅读:
聚星*引航|“机器学习和深度学习框架Sophon”演讲速记(附PPT)

如果把数据的开发周期划分为数据整合、数据治理、工作流调度、OLAP分析和应用开发者几个阶段,大数据开发工具集Transwarp Studio为每个阶段都提供了有效的工具。
①Transporter是数据整合工具,它能够在秒级别将数据从关系数据库同步到TDH中,同时支持多种格式的文件数据,以及去重、聚合、关联等在内的多种数据转换操作;
②Governor是数据治理工具,目前它可以有效的管理TDH中的元数据,同时提供可视化的数据血缘分析和影响分析,梳理数据的流转,提高数据的质量;
③Workflow是图形化的工作流设计、调度工具,同时还提供丰富的分析功能,帮助找到工作流中的异常问题、性能回归等问题;
④Rubik是OLAP Cube的设计工具,它能让用户很方便的根据业务特点来设计多维Cube,Inceptor可以利用这些Cube来加速SQL查询的性能和并发度;
⑤Waterdrop是SQL开发的IDE,它能非常好的帮助开发人员提供SQL开发效率,譬如关键字高亮、语法检查、格式化辅助等功能,用户可以直接做SQL或存储过程的编辑,执行SQL并预览数据等。

TDH5.0中正式将Apache Hadoop的版本升级到2.7.2。透明加密、灰度升级、分级存储以及Namenode Federation这些功能都可以使用了。另外一个重大变化就是5.0中Guardian正式成为一个最基础的安全与资源管理服务,它负责管理所有的TDH产品和组件的安全与权限。Guardian支持了完整的基于RBAC规则的安全和权限控制协议,内置了LDAP和Kerberos认证,服务本身支持高可用性,有独立的页面用于权限和资源的配置、查看和搜索。 另外Guardian提供REST API和Java Client两种模式,任何第三方应用都可以通过调用API来安全的接入TDH平台。

TDH 5.0的另外一个大的创新就是使用Docker和Kubernetes来部署和资源调度。容器技术实现了应用级别的一种隔离,它避免了传统的以虚拟化主机方式做隔离带来的性能损失问题。它性能更好,部署敏捷,足够轻量,这些优点可以非常好的满足TDH在性能和部署敏捷方面的要求。根据测试结果,同样配置的基于Docker的Inceptor和基于物理硬件的Inceptor相比,性能损失几乎可以忽略不计。


#2

请问这份ppt在哪里下载