像传统OCR软件一样使用Textract识别长文本的扫描页面,同时重新训练格式?

0

【以下的问题经过翻译处理】 我完全是第一次接触Textract,在深入学习API之前,我想问一下它是否可以用于识别扫描书籍或学术文章等页面,并重新调整字符和段落格式,并输出RTF或.DOC文本文件?非常感谢!

profile picture
專家
已提問 9 個月前檢視次數 45 次
1 個回答
0

【以下的回答经过翻译处理】 通过格式化,我假定您指的是字体大小和样式(例如加粗,斜体)?目前,Textract无法提取此类格式化信息。

DetectText API目前提供以下信息(sourcehttps://docs.aws.amazon.com/textract/latest/dg/how-it-works-detecting.html):

  • 检测到的文本行和单词
  • 检测到的文本行和单词之间的关系
  • 检测到的文本所出现的页码
  • 文档页面上文本行和单词的位置

它还可以通过查询提取表格、表单和特定信息。此页面https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html提供了相应的概述。

profile picture
專家
已回答 9 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南

相關內容