像传统OCR软件一样使用Textract识别长文本的扫描页面,同时重新训练格式?

0

【以下的问题经过翻译处理】 我完全是第一次接触Textract,在深入学习API之前,我想问一下它是否可以用于识别扫描书籍或学术文章等页面,并重新调整字符和段落格式,并输出RTF或.DOC文本文件?非常感谢!

profile picture
EXPERTE
gefragt vor 9 Monaten45 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 通过格式化,我假定您指的是字体大小和样式(例如加粗,斜体)?目前,Textract无法提取此类格式化信息。

DetectText API目前提供以下信息(sourcehttps://docs.aws.amazon.com/textract/latest/dg/how-it-works-detecting.html):

  • 检测到的文本行和单词
  • 检测到的文本行和单词之间的关系
  • 检测到的文本所出现的页码
  • 文档页面上文本行和单词的位置

它还可以通过查询提取表格、表单和特定信息。此页面https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html提供了相应的概述。

profile picture
EXPERTE
beantwortet vor 9 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen