AWS Glue 爬虫crawler中的文件排除模式exclude patterns设置无效

0

【以下的问题经过翻译处理】 我刚开始使用AWS Glue,想通过AWS Glue爬虫crawler来访问指定路径bucket/basefolder下的文件。 下面是我的文件夹结构:

bucket/basefolder
    subfolder1
        logfolder
            log1.json
        file1.parquet
    subfolder2
        logfolder
            log2.json
        file2.parquet
        file3.parquet

我想获取basefolder文件夹和子文件夹下的文件,并排除logfolder下的所有文件。 在爬虫设置中,文件排除模式exclude patterns设置如下:

logfolder/**
logfolder**
logfolder/*
*.json

但是爬虫仍然试图获取logfolder文件夹下的所有json文件,以上的排除模式都不起作用,希望能够得到专家的帮助。

profile picture
전문가
질문됨 6달 전17회 조회
1개 답변
0

【以下的回答经过翻译处理】 您好,

我基于和您给的相同的S3文件夹结构,进行了测试。

指定的包含路径为: s3://bucket/basefolder/

排除模式为: **/logfolder/**

使用以上排除模式,可以让爬虫crawler忽略所有名为“logfolder”的文件夹中的文件。 您可以参考 - https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude

profile picture
전문가
답변함 6달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인