【以下的问题经过翻译处理】 你好。
我正在使用 AWS textract,特别是 FORMS 功能来提取表单。它真的很好用。但我遇到的问题是,当提取表单并返回结果 时,并没有按照在文档中的原始顺序进行返回。有什么办法可以保持返回结果的原始顺序?或者我可以使用坐标映射回文档顺序吗?以下代码就是我目前使用提取的方式:
def ocr(document):
job_id = start_job(client, BUCKET, document)
is_job_complete(client, job_id)
response = get_job_results(client, job_id) #This is the full object of the OCR
field_list = []
doc = Document(response)
start = 0
for page in doc.pages:
lst = []
for field in page.form.fields:
lst.append("Key: {} Value: {}".format(field.key, field.value))
field_list.append(lst)
start = start + 1
text_list = []#Also extract the raw text
for i in range(0,len(response)):
for item in response[i]["Blocks"]:
if item["BlockType"] == "LINE":
text_list.append(item["Text"])
text = " ".join(text_list)
return(field_list, text)
放到真实场景中,
示例文档包含以下表格:
答:123
乙:432
C:000
D:126
但是上面的函数返回:
乙:432
答:123
D:126
C:000
因此,返回的结果并没有按照从上方开始,然后从左到右,再到文档底部的自然顺序。我是否可以更改配置或者更改当前函数以返回原始/自然顺序?