如何在AWS Glue中处理带有页脚信息的文本文件?

0

【以下的问题经过翻译处理】 我正在尝试使用AWS Glue处理一个文本文件,该文件在第一行中具有标题信息,在最后一行中具有页脚信息。该文件有10个数据列,但页脚只有两个列(文件中的记录数和文件来源)。

在AWS Glue中处理这种类型的文件的最佳方法是什么?

profile picture
エキスパート
質問済み 1年前44ビュー
1回答
0

【以下的回答经过翻译处理】 您可以在AWS Glue中使用以下PySpark脚本来处理像您描述的那样的平面文件:

sample_df_1=sc.textFile('temp.txt')
sample_df_1.collect()
['1,2,3,4,5,6,7,8,9,10', 'A,B,C,D,E,F,G,H,I,K', 'foot,er']
hdr=sample_df_1.first()
sample_df_2=sample_df_1.filter(lambda l:l != hdr)
sample_df_2.collect()
['A,B,C,D,E,F,G,H,I,K', 'foot,er']
final_df=sample_df_2.map(lambda l:l.split(',')).filter(lambda l: len(l) > 2)
j=final_df.toDF()

j.show()
+---+---+---+---+---+---+---+---+---+---+
| _1| _2| _3| _4| _5| _6| _7| _8| _9|_10|
+---+---+---+---+---+---+---+---+---+---+
|  A|  B|  C|  D|  E|  F|  G|  H|  I|  K|
+---+---+---+---+---+---+---+---+---+---+

profile picture
エキスパート
回答済み 1年前

ログインしていません。 ログイン 回答を投稿する。

優れた回答とは、質問に明確に答え、建設的なフィードバックを提供し、質問者の専門分野におけるスキルの向上を促すものです。

質問に答えるためのガイドライン

関連するコンテンツ