像传统OCR软件一样使用Textract识别长文本的扫描页面,同时重新训练格式?

0

【以下的问题经过翻译处理】 我完全是第一次接触Textract,在深入学习API之前,我想问一下它是否可以用于识别扫描书籍或学术文章等页面,并重新调整字符和段落格式,并输出RTF或.DOC文本文件?非常感谢!

profile picture
EXPERTO
preguntada hace 9 meses45 visualizaciones
1 Respuesta
0

【以下的回答经过翻译处理】 通过格式化,我假定您指的是字体大小和样式(例如加粗,斜体)?目前,Textract无法提取此类格式化信息。

DetectText API目前提供以下信息(sourcehttps://docs.aws.amazon.com/textract/latest/dg/how-it-works-detecting.html):

  • 检测到的文本行和单词
  • 检测到的文本行和单词之间的关系
  • 检测到的文本所出现的页码
  • 文档页面上文本行和单词的位置

它还可以通过查询提取表格、表单和特定信息。此页面https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html提供了相应的概述。

profile picture
EXPERTO
respondido hace 9 meses

No has iniciado sesión. Iniciar sesión para publicar una respuesta.

Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.

Pautas para responder preguntas