【以下的问题经过翻译处理】 我使用Glue作业编辑器创建了一个简单的作业,数据源使用了SQL Server 数据库,并通过列进行了过滤(SQL查询),并将其输出到了一个S3存储桶中,以便我可以使用Athena进行查询,一切都可以完美地运行。
现在想要同样的作业用于其他多个表格,所以我编辑了代码,只是复制了以“job = Job(glueContext)”开头的代码,但无论怎么做,这两个表格都被创建和加载得很奇怪,例如一个表格应该有3条记录,另一个表格应该有2条记录,但它们最终都会得到大约20条记录,大多数行的值为空。
不知道过程中做错了什么?还有其他什么方法可以实现这个目的?我想过使用爬虫获取模式并首先将其添加到数据目录中,但我创建了一个简单的爬虫,它只是不停地运行并最终失败了,显示“ Internal Service Exception”。不确定还有其他什么方法可以实现这一目标,感谢任何见解。