HIVE_CANNOT_OPEN_SPLIT: 打开Hive分裂s3://bucket_1/parquet_sample/data_10720000_1时出错(偏移量=0,长度=16981465):org.apache.parquet.io.GroupColumnIO无法强制转换。

0

【以下的问题经过翻译处理】 我使用默认的snappy压缩方式将几个压缩后的json文件转换成了parquet文件。结果的文件总大小不到50MB。不确定为什么Athena会抛出此错误。我阅读了错误背后的背景,但不理解Athena是如何查询数千个文件导致此错误的。 我可以运行一个简单的select count(*)from table,但是select * from table查询失败。

由于在Python中遇到了尾随错误,必须一行一行地读取json文件。

有什么想法为什么会出现这种情况?

profile picture
專家
已提問 6 個月前檢視次數 25 次
1 個回答
0

【以下的回答经过翻译处理】 此搜索此错误与S3速率限制无关。如果是这种情况,你会看到类似“减速”的东西。 错误的关键在于错误的最后一部分。

org.apache.parquet.io.GroupColumnIO cannot be cast

这个错误可能是由parquet模式不匹配引起的。检查你的表创建查询,并使用较小的数据子集进行测试。可能存在数据格式或表配置方面的问题。请参阅https://docs.aws.amazon.com/athena/latest/ug/troubleshooting-athena.html

profile picture
專家
已回答 6 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南