Spectrum性能缓存和性能

0

【以下的问题经过翻译处理】 1. spectrum在运行查询时是否使用任何类型的缓存?当我运行spectrum查询并在svl_query_metrics_summary表中进行检查时,spectrum_scan_row_count和spectrum_scan_size_mb的值为null。这是否表明已经进行了某种类型的缓存? 2. 根据最佳性能实践,首选的存储格式是parquet,因为parquet只读取投影列。但是,我也发现ORC文件具有类似的性能,并且在查看上面提到的查询度量表时无法确定读取了多少数据。请有人详细解释首选的存储方法以及原因? 3. 客户2个dc2.8xlarge节点,当查看查询报告表时,看到32个(集群中的总分片数)操作读取自S3和其他操作。这是否意味着我的集群大小正在使用32个spectrum节点?如果我添加更多节点,是否会增加并行度或spectrum节点的数量,从而提高性能?

profile picture
专家
已提问 5 个月前1 查看次数
1 回答
0

【以下的回答经过翻译处理】 关于Spectrum Caching: 根据你所在的地域和维护轨迹,你可能已经有了正在部署的Spectrum Caching功能,或者很快会得到。在最近的发布公告(Amazon Redshift Maintenance(2019年2月20日至3月21日)),你将找到一个特性的描述:

• Redshift Spectrum:Spectrum Request Accelerator已经自动且透明地启用,大大提高了对Amazon S3中数据的查询性能。

这就是Spectrum Caching功能,其中Spectrum子查询结果会被缓存在S3中。我曾在re:Invent 2018上介绍过这个功能,并展示了预览中这个功能所带来的性能提升。你可以在https://www.slideshare.net/AmazonWebServices/extending-analytics-beyond-the-data-warehouse-ft-warner-bros-analytics-ant301-aws-reinvent-2018?qid=f102d8de-b377-4e5e-b6e1-e0d61fbc0316&v=&b=&from_search=1中看到。

关于S3 Parquet与ORC外部存储格式:

就存储格式特定的I/O避免和数据减少而言,你会发现Parquet和ORC基本相同,除了只有一些特定的低级别特性,仅有一些SerDe实现采用。我使用过大多数大数据工具,我可以说,Parquet和ORC存储格式之间的区别仅在于与格式搭配的工具。这真的是Cloudera与Hortonworks阵营的产物,随着它们最近的合并,很快就会像春天融雪一样消失。如果你回顾一下Spectrum的发布历史,你会发现对于Redshift来说,Parquet是Spectrum最初采用的存储格式

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则

相关内容