AWS re:Post Knowledge Center Feedback Survey
Help us improve the AWS re:Post Knowledge Center by sharing your feedback in a brief survey. Your input can influence how we create and update our content to better support your AWS journey.
当我使用内置分类器解析固定宽度的.dat 文件时,我的 AWS Glue 爬网程序会将该文件归类为 UNKNOWN(未知)。
内置分类器无法解析固定宽度的数据文件。改用 grok 自定义分类器。
完成以下步骤。
打开 AWS Glue 控制台。
在导航窗格中,选择 Classifiers(分类器)。
选择 Add classifier(添加分类器),然后输入以下内容: 对于 Classifier name(分类器名称),输入唯一的名称。 对于 Classifier type(分类器类型),选择 Grok。 对于 Classification(分类),输入对要分类的数据格式或类型的描述。 对于 Grok pattern(Grok 模式),输入您希望 AWS Glue 用来在数据中查找匹配项的内置模式。要解析 .dat 文件,不需要在字段之间使用分隔符。因为每个字段都有已知的长度,使用正则表达式模式来查找匹配项。
示例:
(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})
(可选)对于 Custom patterns(自定义模式),输入要使用的任何自定义模式。这些模式由对数据进行分类的 grok 模式引用。每个自定义模式必须位于单独的行上。有关详细信息,请参阅编写 grok 自定义分类器。
选择 Create(创建)。
完成以下步骤:
使用 AWS Glue 控制台创建分类器
定义和管理分类器