HIVE_CANNOT_OPEN_SPLIT: 打开Hive分裂s3://bucket_1/parquet_sample/data_10720000_1时出错(偏移量=0,长度=16981465):org.apache.parquet.io.GroupColumnIO无法强制转换。

0

【以下的问题经过翻译处理】 我使用默认的snappy压缩方式将几个压缩后的json文件转换成了parquet文件。结果的文件总大小不到50MB。不确定为什么Athena会抛出此错误。我阅读了错误背后的背景,但不理解Athena是如何查询数千个文件导致此错误的。 我可以运行一个简单的select count(*)from table,但是select * from table查询失败。

由于在Python中遇到了尾随错误,必须一行一行地读取json文件。

有什么想法为什么会出现这种情况?

profile picture
EXPERTE
gefragt vor 6 Monaten25 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 此搜索此错误与S3速率限制无关。如果是这种情况,你会看到类似“减速”的东西。 错误的关键在于错误的最后一部分。

org.apache.parquet.io.GroupColumnIO cannot be cast

这个错误可能是由parquet模式不匹配引起的。检查你的表创建查询,并使用较小的数据子集进行测试。可能存在数据格式或表配置方面的问题。请参阅https://docs.aws.amazon.com/athena/latest/ug/troubleshooting-athena.html

profile picture
EXPERTE
beantwortet vor 6 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen