AWS Glue Crawler を使用して .csv ファイル内のデータをクロールするときに発生する一般的な問題をトラブルシューティングしたいです。
簡単な説明
AWS Glue Crawler において、組み込み .csv 分類子でエラーが発生する一般的な問題には、次のようなものがあります。
- データの最初の行がヘッダーとして指定されていない場合、データには col1 や col2 などの一般的な列ヘッダーが表示されます。
- "ABC" や "XYZ" など、2 つの引用符で囲まれたデータは認識されません。
解決策
カスタマイズした .csv 分類子を作成し、そのカスタマイズされた分類子を新しい AWS Glue Crawler に追加します。
カスタマイズした分類子を作成する
AWS Glue コンソールを使用してカスタム分類子を作成します。次のパラメータを使用して分類子を定義します。
- [分類子名] に一意の名前を入力します。
- [分類子の種類] で [CSV] を選択します。
- [列区切り文字] で、コンマ記号を選択します。
- [引用記号] で、引用記号を選択します。
- [列見出し] で [見出しあり] を選択します。
(オプション) 列の名前がわかっている場合は、見出し名を入力します。名前はコンマで区切る必要があります。
注: デフォルトでは、.csv 分類子はシリアル化ライブラリに Open CSV SerDe を使用します。Open CSV SerDe は、二重引用符付きのデータおよび、ユーザーが指定するヘッダーをサポートします。詳細については、CSV SerDe ライブラリを参照してください。
カスタマイズした分類子を新しい AWS Glue Crawler に追加する
新しいAWS Glue Crawler を作成します。次のパラメータを使用してクローラーを構成します。
- [データソース] には .csv ファイルを配置したデータストアを選択します。
- [インクルードパス] に .csv ファイルへのインクルードパスを入力します。
- [カスタム分類子] で作成したカスタム.csv 分類子を分類子のリストに追加します。
- [IAM ロール] では、.csv ファイルをクロールするために必要なアクセス許可を持つ AWS Identity and Access Management (IAM) ロールを選択します。