AWS Glue 크롤러를 사용하여 .csv 파일의 데이터를 크롤링할 때 발생하는 일반적인 문제를 해결하려고 합니다.
간략한 설명
AWS Glue 크롤러의 내장 .csv 분류자에 대해 오류를 일으키는 몇 가지 일반적인 문제는 다음과 같습니다.
- 첫 번째 데이터 행이 헤더로 지정되어 있지 않아서 데이터가 col1 및 col2와 같은 일반 열 헤더를 표시합니다.
- 큰따옴표로 묶인 데이터(예: "ABC" 및 "XYZ")는 인식되지 않습니다.
해결 방법
사용자 지정 .csv 분류자를 생성한 다음, 새 AWS Glue 크롤러에 해당 사용자 지정 분류자를 추가하십시오.
사용자 지정 분류자 생성
AWS Glue 콘솔을 사용하여 사용자 지정 분류자를 생성합니다. 다음 파라미터를 사용하여 분류자를 정의하십시오.
- 분류자 이름에 고유한 이름을 입력합니다.
- 분류자 유형에서 CSV를 선택합니다.
- 열 구분 기호에서 쉼표 기호를 선택합니다.
- 인용 부호에서 따옴표 기호를 선택합니다.
- 열 머리글에서 머리글 있음을 선택합니다.
(선택 사항) 열 이름을 알고 있는 경우 해당 머리글 이름을 입력하십시오. 이름은 쉼표로 구분해야 합니다.
참고: 기본적으로 .csv 분류자는 Open CSV SerDe를 직렬화 라이브러리로 사용합니다. Open CSV SerDe는 큰따옴표 및 지정된 헤더가 있는 데이터를 지원합니다. 자세한 내용은 CSV SerDe 라이브러리를 참조하십시오.
새 AWS Glue 크롤러에 사용자 지정 분류자 추가
새 AWS Glue 크롤러를 생성합니다. 다음 파라미터를 사용하여 크롤러를 구성하십시오.
- 데이터 원본에서 .csv 파일이 있는 데이터 저장소를 선택합니다.
- 포함 경로에 .csv 파일의 포함 경로를 입력합니다.
- 사용자 지정 분류자에서 분류자 목록에 사용자가 생성한 사용자 지정 .csv 분류자를 추가합니다.
- IAM 역할에서 .csv 파일을 크롤링하는 데 필요한 권한이 있는 AWS Identity and Access Management(IAM) 역할을 선택합니다.