내장 분류자를 사용하여 파일을 파싱할 때 AWS Glue 크롤러가 고정 너비 데이터 파일을 UNKNOWN으로 분류하는 이유는 무엇입니까?

2분 분량
0

내장 분류자를 사용하여 고정 너비 .dat 파일을 파싱하면 AWS Glue 크롤러가 해당 파일을 UNKNOWN으로 분류합니다.

간략한 설명

내장 분류자는 고정 너비 데이터 파일을 파싱할 수 없습니다. 대신 grok 사용자 지정 분류자를 사용하십시오.

해결 방법

grok 사용자 지정 분류자 만들기

다음 단계를 완료하십시오.

  1. AWS Glue 콘솔을 엽니다.

  2. 탐색 창에서 Classifiers(분류자)를 선택합니다.

  3. Add classifier(분류자 추가)를 선택하고 다음을 입력합니다.
    Classifier name(분류자 이름)에 고유한 이름을 입력합니다.
    Classifier type(분류자 유형)에 Grok을 선택합니다.
    Classification(분류)에는 분류하려는 데이터의 형식 또는 유형에 대한 설명을 입력합니다.
    Grok pattern(Grok 패턴)에는 AWS Glue가 데이터에서 일치하는 항목을 찾는 데 사용할 내장 패턴을 입력합니다. .dat 파일을 파싱하려면 필드 사이에 구분 기호가 필요하지 않습니다. 각 필드의 길이는 알려져 있으므로 정규식 패턴을 사용하여 일치하는 항목을 찾으십시오.

    예시:

    (?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})

    (선택 사항) Custom patterns(사용자 지정 패턴)에 사용할 사용자 지정 패턴을 입력합니다. 이러한 패턴은 데이터를 분류하는 grok 패턴에 의해 참조됩니다. 각 사용자 지정 패턴은 별도의 줄에 있어야 합니다. 자세한 내용은 grok 사용자 지정 분류자 작성을 참조하십시오.

  4. Create(생성)를 선택합니다.

크롤러 생성 및 실행

다음 단계를 완료합니다.

  1. 탐색 창에서Crawlers(크롤러)를 선택합니다.
  2. Add crawler(크롤러 추가)를 선택합니다.
  3. Crawler name(크롤러 이름)에 고유한 이름을 입력합니다.
  4. Tags, description, security configuration, and classifiers (optional)(태그, 설명, 보안 구성, 분류자(선택 항목)) 섹션 옆에 있는 화살표를 선택한 다음 Custom classifiers(사용자 지정 분류자) 섹션으로 이동합니다.
  5. 이전에 생성한 고객 분류자 옆에 있는 Add(추가)를 선택한 후 Next(다음)를 선택합니다.
  6. Specify crawler source type(크롤러 원본 유형 지정) 페이지에서 Data stores(데이터 스토어)를 선택한 후 Next(다음)를 선택합니다.
  7. Add a data store(데이터 스토어 추가) 페이지에서 다음을 입력합니다.
    Choose data store(데이터 스토어 선택)에서 원하는 데이터 스토어를 선택합니다.
    Include path(경로 포함)에 .dat 파일의 경로를 입력합니다.
  8. Next(다음)를 선택하고 다른 데이터 스토어를 추가할지 여부를 확인합니다.
  9. Choose an IAM role(IAM 역할 선택) 페이지에서 기존 AWS Identity and Access Management(IAM) 역할을 선택하거나 새 역할을 생성합니다. 그런 후 Next(다음)를 선택합니다.
  10. Frequency(빈도)에서 Run on demand(온디맨드로 실행)를 선택한 후 Next(다음)를 선택합니다.
  11. Configure the crawler's output(크롤러의 출력 구성) 페이지의 Database(데이터베이스)에서 테이블을 만들려는 데이터베이스를 선택합니다. 그런 후 Next(다음)를 선택합니다.
  12. Finish(완료)를 선택합니다.
  13. 크롤러 상태가 Ready(준비)로 변경되면 크롤러 이름을 선택한 다음 Run crawler(크롤러 실행)을 선택합니다.
  14. 크롤러가 완료될 때까지 기다린 다음 탐색 창에서 Tables(테이블)을 선택합니다. Classification(분류)은 grok 사용자 지정 분류자에 입력한 분류와 일치해야 합니다.

관련 정보

AWS Glue 콘솔을 사용하여 분류자 생성

분류자 정의 및 관리

AWS 공식
AWS 공식업데이트됨 5달 전