将Ground Truth pdf标记任务的输出传递给Comprehend自定义实体训练。

0

【以下的问题经过翻译处理】 我想进行PDF解析并识别自定义命名实体。为此,我按照此链接设置了Ground Truth以手动标记几个pdf文件-<https://docs.aws.amazon.com/comprehend/latest/dg/cer-annotation-pdf.html>。

它创建了一个output文件夹,在此文件夹内又创建了另一个名称为<job-id>的文件夹,在<job-id>文件夹中又包含manifests和annotations文件夹。当我尝试设置Comprehend Custom Entity Recognition Job时,它会要求一堆输入位置。我不知道这些字段的值。从S3存储桶中的输出中,我得到以下字段,不知道属性名称是什么。

  1. SageMaker Ground Truth的augmented manifest文件S3位置 s3://comprehend-semi-structured-docs-<region> - <id> /output/labeling-job-20221025T135656/manifests/output/output.manifest 2.标签数据文件的S3前缀 s3://comprehend-semi-structured-docs-<region>-<id> /output/labeling-job-20221025T135656/annotations 3.源文档的S3前缀 s3://comprehend-semi-structured-docs-<region>-<id>/src 4.属性名称 - ? 有人可以分享有关PDF注释和类似于PDF输入的训练的博客文章或一些视频教程吗?
profile picture
EXPERTE
gefragt vor 9 Monaten20 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 一些答案可以在这两个博客中找到:

  1. https://aws.amazon.com/blogs/machine-learning/custom-document-annotation-for-extracting-named-entities-in-documents-using-amazon-comprehend/

在标注完所有页面后,您可以在Amazon S3的s3://comprehend-semi-structured-docs-<AWS Region>-<AWS Account number> /output/<your labeling job>/annotations/consolidated-annotation/consolidation-response/iteration-1/annotations/找到JSON格式的标注。

您可以在s3://comprehend-semi-structured-docs-<AWS Region>-<AWS Account number>/output/<your labeling job>/manifests/output/找到output manifest文件。

  1. https://aws.amazon.com/pt/blogs/machine-learning/extract-custom-entities-from-documents-in-their-native-format-with-amazon-comprehend/

属性名称为labeling-job-name-123。

Comprehend训练输入位置字段

SageMaker Ground Truth的augmented manifest file在S3中的位置: s3://comprehend-semi-structured-docs-<region>-<id>/output/resume-labeling-job-20221025T135656/manifests/output/output.manifest

标签数据文件的S3前缀: s3://comprehend-semi-structured-docs-<region>-<id>/output/resume-labeling-job-20221025T135656/annotations

源文件的S3前缀: s3://comprehend-semi-structured-docs-<region>-<id>/src

属性名称将是Ground Truth作业名称。

profile picture
EXPERTE
beantwortet vor 9 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen