スキップしてコンテンツを表示

AWS Glue Crawler を使用して .csv ファイルをクロールするときのエラーをトラブルシューティングする方法を教えてください。

所要時間1分
0

AWS Glue Crawler を使用して .csv ファイル内のデータをクロールするときに発生する一般的な問題をトラブルシューティングしたいです。

簡単な説明

AWS Glue Crawler において、組み込み .csv 分類子でエラーが発生する一般的な問題には、次のようなものがあります。

  • データの最初の行がヘッダーとして指定されていない場合、データには col1 や col2 などの一般的な列ヘッダーが表示されます。
  • "ABC" や "XYZ" など、2 つの引用符で囲まれたデータは認識されません。

解決策

カスタマイズした .csv 分類子を作成し、そのカスタマイズされた分類子を新しい AWS Glue Crawler に追加します。

カスタマイズした分類子を作成する

AWS Glue コンソールを使用してカスタム分類子を作成します。次のパラメータを使用して分類子を定義します。

  • [分類子名] に一意の名前を入力します。
  • [分類子の種類][CSV] を選択します。
  • [列区切り文字] で、コンマ記号を選択します。
  • [引用記号] で、引用記号を選択します。
  • [列見出し][見出しあり] を選択します。
    (オプション) 列の名前がわかっている場合は、見出し名を入力します。名前はコンマで区切る必要があります。

注: デフォルトでは、.csv 分類子はシリアル化ライブラリに Open CSV SerDe を使用します。Open CSV SerDe は、二重引用符付きのデータおよび、ユーザーが指定するヘッダーをサポートします。詳細については、CSV SerDe ライブラリを参照してください。

カスタマイズした分類子を新しい AWS Glue Crawler に追加する

新しいAWS Glue Crawler を作成します。次のパラメータを使用してクローラーを構成します。

  • [データソース] には .csv ファイルを配置したデータストアを選択します。
  • [インクルードパス] に .csv ファイルへのインクルードパスを入力します。
  • [カスタム分類子] で作成したカスタム.csv 分類子を分類子のリストに追加します。
  • [IAM ロール] では、.csv ファイルをクロールするために必要なアクセス許可を持つ AWS Identity and Access Management (IAM) ロールを選択します。
AWS公式更新しました 1年前
コメントはありません

関連するコンテンツ