組み込み分類子を使用してファイルを解析すると、AWS Glue クローラーが固定幅データファイルを UNKNOWN と分類する理由を知りたいです。

所要時間1分
0

組み込み分類子を使用して固定幅の .dat ファイルを解析すると、AWS Glue クローラーはそのファイルを UNKNOWN として分類します。

簡単な説明

組み込み分類子は固定幅のデータファイルを解析できません。代わりに grok カスタム分類子を使用してください。

解決策

grok カスタム分類子を作成する

次の手順を実行します。

  1. AWS Glue コンソールを開きます。

  2. ナビゲーションペインで、[分類子] を選択します。

  3. [分類子を追加] を選択し、次の内容を入力します。
    [分類子名] に、一意の名前を入力します。
    [分類子の種類][Grok] を選択します。
    [分類] に、分類するデータの形式や型の説明を入力します。
    [Grok パターン] には、AWS Glue でデータ内の一致を検索するために使用する組み込みパターンを入力します。.dat ファイルの解析には、フィールド間の区切り文字は必要ありません。各フィールドの長さは既知であるため、正規表現パターンを使用して一致するものを検索してください。

    例:

    (?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})

    (オプション) [カスタムパターン] に、使用するカスタムパターンを入力します。これらのパターンは、データを分類する grok パターンによって参照されます。各カスタムパターンは別々の行に入力する必要があります。詳細については、「grok カスタム分類子を作成する」を参照してください。

  4. [作成] を選択します。

クローラーを作成して実行する

次の手順を実行します。

  1. ナビゲーションペインで、[クローラー] を選択します。
  2. [クローラーを追加] を選択します。
  3. [クローラー名] に、一意の名前を入力します。
  4. [タグ、説明、セキュリティ構成、分類子 (オプション)] セクションの横にある矢印を選択し、[カスタム分類子] セクションに移動します。
  5. 以前に作成した顧客分類子の横にある [追加] を選択し、[次へ] を選択します。
  6. [クローラーのソースタイプを指定] ページで、[データストア] を選択し、[次へ] を選択します。
  7. [データストアを追加] ページで、次の内容を入力します。
    [データストアを選択] で、目的のデータストアを選択します。
    [パスを含める] に、.dat ファイルへのパスを入力します。
  8. [次へ] を選択し、別のデータストアを追加するかどうかを確認します。
  9. [IAM ロールの選択] ページで、既存の AWS Identity and Access Management (IAM) ロールを選択するか、新しいロールを作成します。[次へ] を選択します。
  10. [頻度][オンデマンドで実行] を選択し、[次へ] を選択します。
  11. [クローラーの出力設定] ページの [データベース] で、テーブルの作成先となるデータベースを選択します。[次へ] を選択します。
  12. [完了] を選択します。
  13. クローラーのステータスが準備完了に変わったら、クローラー名を選択し、[クローラーを実行] を選択します。
  14. クローラーが終了するのを待ってから、ナビゲーションペインで [テーブル] を選択します。分類は、grok カスタム分類子に入力した分類と一致する必要があります。

関連情報

AWS Glue コンソールを使用して分類子を作成する

分類子の定義と管理

AWS公式
AWS公式更新しました 5ヶ月前