1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 #### 对于EMR:
Parquet和ORC在使用情况上有很多重叠,因为两者都是列格式。上一次(几年前)我参与了一个设计评估,选择在两者之间选择,结果是在我们的用例中,ORC的本地索引在性能方面的优势是可衡量的,即Hive查询根据少数列过滤结果,具有(相对)较低的基数(至少与数据集中的行数相比)。如果与客户的使用情况相符,这可能是选择ORC的好理由。但是需要注意的是,如果客户愿意安装和管理它们,该生态系统中还有第三方解决方案可用于弥补该索引功能差距。
对于Athena/Redshift:
- 作为兼容性的直接考虑,Athena支持两种格式。假设两种格式都使用相同的压缩库(两者有不同的默认值),如果所有其他事情都相等,我还没有意识到两者之间存在重大性能差距。
- 假设您关于Redshift的问题是在将数据留在S3并利用Spectrum的情况下,根据[docs](http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html)当前支持Parquet但不支持ORC。
相关内容
- AWS 官方已更新 2 年前