Quero solucionar problemas comuns que ocorrem quando uso o crawler do AWS Glue para rastrear dados em arquivos .csv.
Breve descrição
Alguns problemas comuns que causam erros no classificador .csv integrado no crawler do AWS Glue incluem:
- A primeira linha de dados não é especificada como cabeçalho e, em seguida, os dados exibem cabeçalhos de coluna genéricos, como col1 e col2.
- Os dados entre aspas, como “ABC” e “XYZ”, não são reconhecidos.
Resolução
Crie um classificador .csv personalizado e, em seguida, adicione-o a um novo crawler do AWS Glue.
Criar um classificador personalizado
Use o console do AWS Glue para criar um classificador personalizado. Use os parâmetros a seguir para definir seu classificador:
- Em Nome do classificador, insira um nome exclusivo.
- Em Tipo de classificador, escolha CSV.
- Em Delimitador de coluna, selecione o símbolo de vírgula.
- Em Aspas, selecione o símbolo correspondente.
- Em Cabeçalhos de coluna, escolha Tem cabeçalhos.
(Opcional) Se você souber os nomes das colunas, insira os nomes dos títulos. Certifique-se de separar os nomes com uma vírgula.
Observação: por padrão, o classificador .csv usa Open CSV SerDe como a biblioteca de serialização. O Open CSV SerDe suporta dados com aspas e o cabeçalho que você especificar. Para mais informações, consulte Bibliotecas CSV SerDe.
Adicionar o classificador personalizado a um novo crawler do AWS Glue
Crie um novo crawler do AWS Glue. Use os seguintes parâmetros para configurar o crawler:
- Em Fonte de dados, selecione o armazenamento de dados em que seus arquivos .csv estão localizados.
- Em Incluir aminho, insira o caminho para seus arquivos .csv.
- Em Classificadores personalizados, adicione o classificador .csv personalizado que você criou à lista de classificadores.
- Em Perfil do IAM, selecione um perfil do AWS Identity and Access Management (AWS IAM) que tenha as permissões necessárias para rastrear seu arquivo .csv.