当我使用内置分类器解析固定宽度的.dat 文件时,我的 AWS Glue 爬网程序会将该文件归类为 UNKNOWN(未知)。
内置分类器无法解析固定宽度的数据文件。改用 grok 自定义分类器。
完成以下步骤。
打开 AWS Glue 控制台。
在导航窗格中,选择 Classifiers(分类器)。
选择 Add classifier(添加分类器),然后输入以下内容: 对于 Classifier name(分类器名称),输入唯一的名称。 对于 Classifier type(分类器类型),选择 Grok。 对于 Classification(分类),输入对要分类的数据格式或类型的描述。 对于 Grok pattern(Grok 模式),输入您希望 AWS Glue 用来在数据中查找匹配项的内置模式。要解析 .dat 文件,不需要在字段之间使用分隔符。因为每个字段都有已知的长度,使用正则表达式模式来查找匹配项。
示例:
(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})
(可选)对于 Custom patterns(自定义模式),输入要使用的任何自定义模式。这些模式由对数据进行分类的 grok 模式引用。每个自定义模式必须位于单独的行上。有关详细信息,请参阅编写 grok 自定义分类器。
选择 Create(创建)。
完成以下步骤:
使用 AWS Glue 控制台创建分类器
定义和管理分类器