【知识分享】Inceptor中不同的表格式对应的不同的应用场景

发布于2022-11-14 14:50:38

506人浏览过

摘要：在表的分类中，inceptor针对不同的业务场景提供了不同的表类型，在建表的时候结尾stored as 处可以直接指定表类型，如果不进行指定则默认为text表，那这些表分别是用在什么场景下呢？比如默认的text表，性能较差，一般作为外表使用。外表一般用于中转，数据在进行导入导出etl流转的时候很难保证数据的准确性，常常可能会因为编码或浮点数精度问题..

在表的分类中，Inceptor针对不同的业务场景提供了不同的表类型，在建表的时候结尾stored as 处可以直接指定表类型，如果不进行指定则默认为text表，那这些表分别是用在什么场景下呢？

比如默认的text表，性能较差，一般作为外表使用。外表一般用于中转，数据在进行导入导出ETL流转的时候很难保证数据的准确性，常常可能会因为编码或浮点数精度问题，导致数据不一致，最终影响业务准确性，因此数据一般会先存在HDFS中。这个时候不着急存进Inceptor，用户可以先看看有没有编码问题或者字段的数量是否一致等等，所以需要先建立外表，与数据建立一个软连接，这样在inceptor数据库中就可以对这张表进行查询，可以快速查看结果看看刚才的数据有没有问题，确定没问题了就可以把外表的数据导入到inceptor里变成一张内表，然后就可以进行一系列的数据运算计算分析，内表里除了刚刚的数据以外，元数据也会存在里面。
除了text表以外，比较常用的是orc表，orc表在全量运算、跑批分析下的场景性能很好，有3-7倍的压缩率，压缩后再做运算就会快很多。
如果说使用者需要进行单条数据的插入、删除、以及更新等事务操作，则需要用到orc事务表，也就是TORC，使用时输入指令设置事务模式为true即可，但是加入事务后跑批性能会下降。
Holodesk表是一张内存闪存表，使用这张表的话底层数据存储最好是使用ssd，holodesk表分析以及查询会快非常多，因为使用的是闪存介质，会比普通的机械硬盘快很多。
TDH的底层数据是互通的，因此同样也支持对接其他产品的特性表，比如Hyperbase表，Hyperbase表的数据存在hyperbase里，hyperbase主要是Nosql数据库，可以存非结构化数据，半结构化数据，最大的特性在于数据存进来后进行高并发数据点查询，可以满足十个人一百个人同时进行查询操作。
Es表则存放于search中，用户可以进行复杂检索，模糊匹配，语义匹配等等，
通过ETL导过来的数据一般有2种格式，文本或者csv格式，因此CSV表跟text表一样同样是做中转的时候用，将数据导入后就可以使用上述那些表了。

总的来说就是，如果需要进行跑批计算，则使用ORC表，如果需要涉及事务操作或单条语句的更新删除等等，则需要使用TORC表，如果需要满足快速分析与查询用Holodesk，高并发查询则是Hyperbase表，如果需要进行搜索检索ES表即可，使用者可以根据不同场景选择不同表。

#知识分享#TDH社区版#星环产品#TDH商业版#Inceptor

我来评论

登录后可评论

热门问答