AWS Glue 爬虫crawler中的文件排除模式exclude patterns设置无效

0

【以下的问题经过翻译处理】 我刚开始使用AWS Glue,想通过AWS Glue爬虫crawler来访问指定路径bucket/basefolder下的文件。 下面是我的文件夹结构:

bucket/basefolder
    subfolder1
        logfolder
            log1.json
        file1.parquet
    subfolder2
        logfolder
            log2.json
        file2.parquet
        file3.parquet

我想获取basefolder文件夹和子文件夹下的文件,并排除logfolder下的所有文件。 在爬虫设置中,文件排除模式exclude patterns设置如下:

logfolder/**
logfolder**
logfolder/*
*.json

但是爬虫仍然试图获取logfolder文件夹下的所有json文件,以上的排除模式都不起作用,希望能够得到专家的帮助。

profile picture
EXPERTE
gefragt vor 6 Monaten17 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 您好,

我基于和您给的相同的S3文件夹结构,进行了测试。

指定的包含路径为: s3://bucket/basefolder/

排除模式为: **/logfolder/**

使用以上排除模式,可以让爬虫crawler忽略所有名为“logfolder”的文件夹中的文件。 您可以参考 - https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude

profile picture
EXPERTE
beantwortet vor 6 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen