EMR上的Parquet与ORC比较

0

【以下的问题经过翻译处理】 相对于EMR(EMRFS)而言,Parquet和ORC各自的优缺点是什么?

如果客户计划在相同的数据湖上同时使用Redshift和Athena,这是否会改变这个情况?

profile picture
EXPERT
asked 5 months ago16 views
1 Answer
0

【以下的回答经过翻译处理】 #### 对于EMR:

Parquet和ORC在使用情况上有很多重叠,因为两者都是列格式。上一次(几年前)我参与了一个设计评估,选择在两者之间选择,结果是在我们的用例中,ORC的本地索引在性能方面的优势是可衡量的,即Hive查询根据少数列过滤结果,具有(相对)较低的基数(至少与数据集中的行数相比)。如果与客户的使用情况相符,这可能是选择ORC的好理由。但是需要注意的是,如果客户愿意安装和管理它们,该生态系统中还有第三方解决方案可用于弥补该索引功能差距。

对于Athena/Redshift:

profile picture
EXPERT
answered 5 months ago

You are not logged in. Log in to post an answer.

A good answer clearly answers the question and provides constructive feedback and encourages professional growth in the question asker.

Guidelines for Answering Questions