내용으로 건너뛰기

AWS Glue 크롤러를 사용하여 .csv 파일을 크롤링할 때 발생하는 오류를 해결하려면 어떻게 해야 합니까?

2분 분량
0

AWS Glue 크롤러를 사용하여 .csv 파일의 데이터를 크롤링할 때 발생하는 일반적인 문제를 해결하려고 합니다.

간략한 설명

AWS Glue 크롤러의 내장 .csv 분류자에 대해 오류를 일으키는 몇 가지 일반적인 문제는 다음과 같습니다.

  • 첫 번째 데이터 행이 헤더로 지정되어 있지 않아서 데이터가 col1 및 col2와 같은 일반 열 헤더를 표시합니다.
  • 큰따옴표로 묶인 데이터(예: "ABC" 및 "XYZ")는 인식되지 않습니다.

해결 방법

사용자 지정 .csv 분류자를 생성한 다음, 새 AWS Glue 크롤러에 해당 사용자 지정 분류자를 추가하십시오.

사용자 지정 분류자 생성

AWS Glue 콘솔을 사용하여 사용자 지정 분류자를 생성합니다. 다음 파라미터를 사용하여 분류자를 정의하십시오.

  • 분류자 이름에 고유한 이름을 입력합니다.
  • 분류자 유형에서 CSV를 선택합니다.
  • 열 구분 기호에서 쉼표 기호를 선택합니다.
  • 인용 부호에서 따옴표 기호를 선택합니다.
  • 열 머리글에서 머리글 있음을 선택합니다.
    (선택 사항) 열 이름을 알고 있는 경우 해당 머리글 이름을 입력하십시오. 이름은 쉼표로 구분해야 합니다.

참고: 기본적으로 .csv 분류자는 Open CSV SerDe를 직렬화 라이브러리로 사용합니다. Open CSV SerDe는 큰따옴표 및 지정된 헤더가 있는 데이터를 지원합니다. 자세한 내용은 CSV SerDe 라이브러리를 참조하십시오.

새 AWS Glue 크롤러에 사용자 지정 분류자 추가

새 AWS Glue 크롤러를 생성합니다. 다음 파라미터를 사용하여 크롤러를 구성하십시오.

  • 데이터 원본에서 .csv 파일이 있는 데이터 저장소를 선택합니다.
  • 포함 경로에 .csv 파일의 포함 경로를 입력합니다.
  • 사용자 지정 분류자에서 분류자 목록에 사용자가 생성한 사용자 지정 .csv 분류자를 추가합니다.
  • IAM 역할에서 .csv 파일을 크롤링하는 데 필요한 권한이 있는 AWS Identity and Access Management(IAM) 역할을 선택합니다.
AWS 공식업데이트됨 일 년 전