如何用 Glue 从 csv 的数据中提取出字符串?

0

【以下的问题经过翻译处理】 我将 csv 数据上传到 S3 存储桶,让 Glue 将它们转换为表供以后使用。我希望所有的列都作为字符串加载,而不用一个一个地指定每个列的名称。我们如何配置 Glue 将所有列加载为字符串,而不是转换为 bigint 等?

profile picture
专家
已提问 10 个月前40 查看次数
1 回答
0

【以下的回答经过翻译处理】 你好,

在 Glue 中,我们使用crawlers从文件中自动检测表结构并在 Glue catalog中创建一个表。对于 CSV 文件,该crawler会读取前 100 条记录或前 1 MB 数据之前最先读完的一种来检测表结构。 [1]

既然如此,使用这种方法无法将所有 csv 列作为字符串直接加载到 Glue catalog中。您使用以下两种方法达成您的目标:

1.创建一个crawler并在csv数据上运行。一旦在 Glue catalog中创建了该表及其数据类型后,您可以将表结构的所有列修改为字符串。 2. 建立 Glue ETL job来直接从 csv 文件读取数据,并在 applymapping 这个操作中将表结构更改为字符串,并使用 enableUpdateCatalog 选项将该表写入Glue catalog。 [2]

  • 参考:

[1] https://aws.amazon.com/premiumsupport/knowledge-center/glue-crawler-detect-schema/ [2] https://docs.aws.amazon.com/glue/latest/dg/update-from-job.html

profile picture
专家
已回答 10 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则