Ir para o conteúdo

Como soluciono erros ao usar o crawler do AWS Glue para rastrear arquivos .csv?

2 minuto de leitura
0

Quero solucionar problemas comuns que ocorrem quando uso o crawler do AWS Glue para rastrear dados em arquivos .csv.

Breve descrição

Alguns problemas comuns que causam erros no classificador .csv integrado no crawler do AWS Glue incluem:

  • A primeira linha de dados não é especificada como cabeçalho e, em seguida, os dados exibem cabeçalhos de coluna genéricos, como col1 e col2.
  • Os dados entre aspas, como “ABC” e “XYZ”, não são reconhecidos.

Resolução

Crie um classificador .csv personalizado e, em seguida, adicione-o a um novo crawler do AWS Glue.

Criar um classificador personalizado

Use o console do AWS Glue para criar um classificador personalizado. Use os parâmetros a seguir para definir seu classificador:

  • Em Nome do classificador, insira um nome exclusivo.
  • Em Tipo de classificador, escolha CSV.
  • Em Delimitador de coluna, selecione o símbolo de vírgula.
  • Em Aspas, selecione o símbolo correspondente.
  • Em Cabeçalhos de coluna, escolha Tem cabeçalhos.
    (Opcional) Se você souber os nomes das colunas, insira os nomes dos títulos. Certifique-se de separar os nomes com uma vírgula.

Observação: por padrão, o classificador .csv usa Open CSV SerDe como a biblioteca de serialização. O Open CSV SerDe suporta dados com aspas e o cabeçalho que você especificar. Para mais informações, consulte Bibliotecas CSV SerDe.

Adicionar o classificador personalizado a um novo crawler do AWS Glue

Crie um novo crawler do AWS Glue. Use os seguintes parâmetros para configurar o crawler:

  • Em Fonte de dados, selecione o armazenamento de dados em que seus arquivos .csv estão localizados.
  • Em Incluir aminho, insira o caminho para seus arquivos .csv.
  • Em Classificadores personalizados, adicione o classificador .csv personalizado que você criou à lista de classificadores.
  • Em Perfil do IAM, selecione um perfil do AWS Identity and Access Management (AWS IAM) que tenha as permissões necessárias para rastrear seu arquivo .csv.
AWS OFICIALAtualizada há um ano