EMR上的Parquet与ORC比较

0

【以下的问题经过翻译处理】 相对于EMR(EMRFS)而言,Parquet和ORC各自的优缺点是什么?

如果客户计划在相同的数据湖上同时使用Redshift和Athena,这是否会改变这个情况?

profile picture
EXPERTO
preguntada hace 5 meses16 visualizaciones
1 Respuesta
0

【以下的回答经过翻译处理】 #### 对于EMR:

Parquet和ORC在使用情况上有很多重叠,因为两者都是列格式。上一次(几年前)我参与了一个设计评估,选择在两者之间选择,结果是在我们的用例中,ORC的本地索引在性能方面的优势是可衡量的,即Hive查询根据少数列过滤结果,具有(相对)较低的基数(至少与数据集中的行数相比)。如果与客户的使用情况相符,这可能是选择ORC的好理由。但是需要注意的是,如果客户愿意安装和管理它们,该生态系统中还有第三方解决方案可用于弥补该索引功能差距。

对于Athena/Redshift:

profile picture
EXPERTO
respondido hace 5 meses

No has iniciado sesión. Iniciar sesión para publicar una respuesta.

Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.

Pautas para responder preguntas