1 Resposta
- Mais recentes
- Mais votos
- Mais comentários
0
【以下的回答经过翻译处理】 参考https://aws.amazon.com/blogs/big-data/10-best-practices-for-amazon-redshift-spectrum/。 Spectrum层将执行它需要执行的操作(下推操作)。希望在把一小部分返回到主Redshift集群进行进一步处理之前,它能够“过滤”掉S3中大部分行。否则,一个微小的2x dc2.large集群将无法处理S3中1GB Parquet文件的100万条记录,并针对这些大型外部表执行联接操作或去重操作。每个主Redshift集群的切片可以调用每个查询的最多10个Spectrum节点。Spectrum过滤后的数据将根据执行管道中的下一步(由Redshift优化器生成)和联接/GBY列的散列值,等等发送到Redshift切片。这与在正常的Redshift表之间执行联接并使用DISTKEY分发的DISTSTYLE EVEN的另一个Redshift表没有太大区别。
Conteúdo relevante
- AWS OFICIALAtualizada há 3 anos
- AWS OFICIALAtualizada há um ano
- AWS OFICIALAtualizada há 2 anos
- AWS OFICIALAtualizada há um ano