将Ground Truth pdf标记任务的输出传递给Comprehend自定义实体训练。

0

【以下的问题经过翻译处理】 我想进行PDF解析并识别自定义命名实体。为此,我按照此链接设置了Ground Truth以手动标记几个pdf文件-<https://docs.aws.amazon.com/comprehend/latest/dg/cer-annotation-pdf.html>。

它创建了一个output文件夹,在此文件夹内又创建了另一个名称为<job-id>的文件夹,在<job-id>文件夹中又包含manifests和annotations文件夹。当我尝试设置Comprehend Custom Entity Recognition Job时,它会要求一堆输入位置。我不知道这些字段的值。从S3存储桶中的输出中,我得到以下字段,不知道属性名称是什么。

  1. SageMaker Ground Truth的augmented manifest文件S3位置 s3://comprehend-semi-structured-docs-<region> - <id> /output/labeling-job-20221025T135656/manifests/output/output.manifest 2.标签数据文件的S3前缀 s3://comprehend-semi-structured-docs-<region>-<id> /output/labeling-job-20221025T135656/annotations 3.源文档的S3前缀 s3://comprehend-semi-structured-docs-<region>-<id>/src 4.属性名称 - ? 有人可以分享有关PDF注释和类似于PDF输入的训练的博客文章或一些视频教程吗?
profile picture
专家
已提问 8 个月前17 查看次数
1 回答
0

【以下的回答经过翻译处理】 一些答案可以在这两个博客中找到:

  1. https://aws.amazon.com/blogs/machine-learning/custom-document-annotation-for-extracting-named-entities-in-documents-using-amazon-comprehend/

在标注完所有页面后,您可以在Amazon S3的s3://comprehend-semi-structured-docs-<AWS Region>-<AWS Account number> /output/<your labeling job>/annotations/consolidated-annotation/consolidation-response/iteration-1/annotations/找到JSON格式的标注。

您可以在s3://comprehend-semi-structured-docs-<AWS Region>-<AWS Account number>/output/<your labeling job>/manifests/output/找到output manifest文件。

  1. https://aws.amazon.com/pt/blogs/machine-learning/extract-custom-entities-from-documents-in-their-native-format-with-amazon-comprehend/

属性名称为labeling-job-name-123。

Comprehend训练输入位置字段

SageMaker Ground Truth的augmented manifest file在S3中的位置: s3://comprehend-semi-structured-docs-<region>-<id>/output/resume-labeling-job-20221025T135656/manifests/output/output.manifest

标签数据文件的S3前缀: s3://comprehend-semi-structured-docs-<region>-<id>/output/resume-labeling-job-20221025T135656/annotations

源文件的S3前缀: s3://comprehend-semi-structured-docs-<region>-<id>/src

属性名称将是Ground Truth作业名称。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则