EMR上的Parquet与ORC比较

0

【以下的问题经过翻译处理】 相对于EMR(EMRFS)而言,Parquet和ORC各自的优缺点是什么?

如果客户计划在相同的数据湖上同时使用Redshift和Athena,这是否会改变这个情况?

profile picture
专家
已提问 5 个月前12 查看次数
1 回答
0

【以下的回答经过翻译处理】 #### 对于EMR:

Parquet和ORC在使用情况上有很多重叠,因为两者都是列格式。上一次(几年前)我参与了一个设计评估,选择在两者之间选择,结果是在我们的用例中,ORC的本地索引在性能方面的优势是可衡量的,即Hive查询根据少数列过滤结果,具有(相对)较低的基数(至少与数据集中的行数相比)。如果与客户的使用情况相符,这可能是选择ORC的好理由。但是需要注意的是,如果客户愿意安装和管理它们,该生态系统中还有第三方解决方案可用于弥补该索引功能差距。

对于Athena/Redshift:

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则